低资源语言也该被读懂

Coolwei AI Lab · arXiv 预印本 · 2026 年 3 月

OasisSimp 让亚洲低资源句子简化不再缺基准。

OasisSimp

覆盖英语、僧伽罗语、泰米尔语、泰语、普什图语,让低资源句子简化有了开放评测坐标。

这篇论文讲什么?

问题:英语文本简化已经有多年基准,泰语、普什图语、泰米尔语几乎没有可复用数据。

方法:母语者按统一指南写多参考简化,覆盖五种语言与真实文本来源。

发现:少样本示例能明显提升表现,但低资源语言仍远未“解决”。

意义:公共信息、教育、无障碍阅读,都需要不只服务英语的简化系统。

关键数字

5 语言 · 9,519 原句 · ~4 平均参考简化 · 8 开源多语 LLM · CC BY 4.0 数据许可

延伸阅读

arXiv:2603.14111

研究解读页:zh/research/oasissimp.html