低资源语言也该被读懂
OasisSimp 让亚洲低资源句子简化不再缺基准。
OasisSimp
覆盖英语、僧伽罗语、泰米尔语、泰语、普什图语,让低资源句子简化有了开放评测坐标。
这篇论文讲什么?
问题:英语文本简化已经有多年基准,泰语、普什图语、泰米尔语几乎没有可复用数据。
方法:母语者按统一指南写多参考简化,覆盖五种语言与真实文本来源。
发现:少样本示例能明显提升表现,但低资源语言仍远未“解决”。
意义:公共信息、教育、无障碍阅读,都需要不只服务英语的简化系统。
关键数字
5 语言 · 9,519 原句 · ~4 平均参考简化 · 8 开源多语 LLM · CC BY 4.0 数据许可
延伸阅读
研究解读页:zh/research/oasissimp.html