OasisSimp - 网景盛世AI实验室

"句子简化"——把句子改写得更易读、又不丢失原意——在英语上已经有多年基准。但在普什图语、泰语、泰米尔语上，过去根本没有。OasisSimp 把这个空白补上：覆盖英语、僧伽罗语、泰米尔语、普什图语、泰语，全部由母语者标注；并以这份新基准为底，证明今天的多语 LLM 一旦离开英语，简化能力远远谈不上"已被解决"。

研究背景

句子简化是无障碍阅读、教育与公共信息的关键工具——把法律语言改写成普通人能读的语言，把一段密集的新闻段落改写成学习者能读的版本。但绝大多数评测进展是在英语上、在单参考目标上、用 SARI 这样为英语调过的指标度量出来的。这造成一种被高估的图景：一个看上去在英语上很顺手的 LLM，可能在低资源语言上几近不可用，但学界一直缺少一个干净的数据集说出这个事实。

数据构成

五种语言、来自符合各自实际书写与阅读习惯的语料：

语言	原句数	平均参考	来源语料
英语	2,500	2.86	The Globe and Mail
僧伽罗语	2,500	5.00	SiTa
泰米尔语	520	4.66	SiTa
普什图语	2,500	3.00	Wikipedia
泰语	1,499	5.06	ThaiSum

OasisSimp 数据组成。每个原句配多条由母语者撰写的参考简化；按 80% test / 20% validation 切分，没有训练集——这是基准，不是训练语料。许可证：CC BY 4.0。

每种语言由 3–6 名母语者完成标注，全部本科及以上学历，至少经过三轮规范培训，覆盖改写、拆分、删除、调序四类操作。我们没有汇报标注一致性指标——这是已知的局限，相比把它藏起来，我们选择把它写明。

主要结果

我们在 zero-shot 和 5-shot 下评测了 8 个开源多语 LLM：Aya-Expanse-8B、Command-R 7B、DeepSeek-LLM-7B-Chat、EuroLLM-9B-Instruct、Gemma-3-12B-it、Llama-3.2-3B-Instruct、Mistral-7B-Instruct-v0.2、Qwen2.5-7B-Instruct。各语言上 5-shot 的最佳模型如下：

语言	最佳模型	SARI	BERTScore
英语	Command-R 7B	44.76	56.63
僧伽罗语	Gemma-3-12B	39.89	73.89
泰语	Llama-3.2-3B	40.23	68.91
泰米尔语	Gemma-3-12B	39.34	79.70
普什图语	Command-R 7B	30.95	70.52

各语言 5-shot 最优 SARI / BERTScore。SARI 在 30–40 分远谈不上"解决"——结论是：当下 LLM 在低资源语言上的简化能力仍欠火候，而不是已经过关。

关键发现

普什图语是最难的，比其他语言落后一截（最佳 SARI 仅 30.95）。
没有任何模型在五种语言上都最强。Gemma-3-12B 是最稳定的多语简化模型；Command-R 7B 在英语和普什图语上拔得头筹。
Zero-shot 在普什图语和泰语上不可靠，模型间差异大，单个数字很容易掩盖底层的不稳定性。

意义

三种语言的"零的突破"。 泰语、普什图语、泰米尔语第一次有了句子简化基准；僧伽罗语得到了大幅度扩充。没有这样的资源，"多语 LLM"的能力在最需要无障碍工具的那些语言里始终没有被认真测过。

多参考评测很重要。 每句最多约 5 条参考使得 SARI 与 BERTScore 比单参考的英语基准明显更稳。这套方法可以被复用到新语言上，而不仅仅是当作一个排行榜来消费。

把"公平差距"量化。 同一个 LLM 家族在英语上接近发表水平、在普什图语上几近不可用——现在这件事有了具体数字，也就成为任何想缩小这个差距的团队的起点。