"句子简化"——把句子改写得更易读、又不丢失原意——在英语上已经有多年基准。但在普什图语、泰语、泰米尔语上,过去根本没有。OasisSimp 把这个空白补上:覆盖英语、僧伽罗语、泰米尔语、普什图语、泰语,全部由母语者标注;并以这份新基准为底,证明今天的多语 LLM 一旦离开英语,简化能力远远谈不上"已被解决"。
研究背景
句子简化是无障碍阅读、教育与公共信息的关键工具——把法律语言改写成普通人能读的语言,把一段密集的新闻段落改写成学习者能读的版本。但绝大多数评测进展是在英语上、在单参考目标上、用 SARI 这样为英语调过的指标度量出来的。这造成一种被高估的图景:一个看上去在英语上很顺手的 LLM,可能在低资源语言上几近不可用,但学界一直缺少一个干净的数据集说出这个事实。
数据构成
五种语言、来自符合各自实际书写与阅读习惯的语料:
| 语言 | 原句数 | 平均参考 | 来源语料 |
|---|---|---|---|
| 英语 | 2,500 | 2.86 | The Globe and Mail |
| 僧伽罗语 | 2,500 | 5.00 | SiTa |
| 泰米尔语 | 520 | 4.66 | SiTa |
| 普什图语 | 2,500 | 3.00 | Wikipedia |
| 泰语 | 1,499 | 5.06 | ThaiSum |
OasisSimp 数据组成。每个原句配多条由母语者撰写的参考简化;按 80% test / 20% validation 切分,没有训练集——这是基准,不是训练语料。许可证:CC BY 4.0。
每种语言由 3–6 名母语者完成标注,全部本科及以上学历,至少经过三轮规范培训,覆盖改写、拆分、删除、调序四类操作。我们没有汇报标注一致性指标——这是已知的局限,相比把它藏起来,我们选择把它写明。
主要结果
我们在 zero-shot 和 5-shot 下评测了 8 个开源多语 LLM:Aya-Expanse-8B、Command-R 7B、DeepSeek-LLM-7B-Chat、EuroLLM-9B-Instruct、Gemma-3-12B-it、Llama-3.2-3B-Instruct、Mistral-7B-Instruct-v0.2、Qwen2.5-7B-Instruct。各语言上 5-shot 的最佳模型如下:
| 语言 | 最佳模型 | SARI | BERTScore |
|---|---|---|---|
| 英语 | Command-R 7B | 44.76 | 56.63 |
| 僧伽罗语 | Gemma-3-12B | 39.89 | 73.89 |
| 泰语 | Llama-3.2-3B | 40.23 | 68.91 |
| 泰米尔语 | Gemma-3-12B | 39.34 | 79.70 |
| 普什图语 | Command-R 7B | 30.95 | 70.52 |
各语言 5-shot 最优 SARI / BERTScore。SARI 在 30–40 分远谈不上"解决"——结论是:当下 LLM 在低资源语言上的简化能力仍欠火候,而不是已经过关。
关键发现
- 普什图语是最难的,比其他语言落后一截(最佳 SARI 仅 30.95)。
- 没有任何模型在五种语言上都最强。Gemma-3-12B 是最稳定的多语简化模型;Command-R 7B 在英语和普什图语上拔得头筹。
- Zero-shot 在普什图语和泰语上不可靠,模型间差异大,单个数字很容易掩盖底层的不稳定性。