← 返回研究 数据集 · 预印本,2026 年 3 月

OasisSimp

面向英语和四种低资源亚洲语言的开源句子简化基准。

arXiv 项目主页 / 数据集
5语言
9,519原句
~4每句平均参考译文
8评测的 LLM

"句子简化"——把句子改写得更易读、又不丢失原意——在英语上已经有多年基准。但在普什图语、泰语、泰米尔语上,过去根本没有。OasisSimp 把这个空白补上:覆盖英语、僧伽罗语、泰米尔语、普什图语、泰语,全部由母语者标注;并以这份新基准为底,证明今天的多语 LLM 一旦离开英语,简化能力远远谈不上"已被解决"。

研究背景

句子简化是无障碍阅读、教育与公共信息的关键工具——把法律语言改写成普通人能读的语言,把一段密集的新闻段落改写成学习者能读的版本。但绝大多数评测进展是在英语上、在单参考目标上、用 SARI 这样为英语调过的指标度量出来的。这造成一种被高估的图景:一个看上去在英语上很顺手的 LLM,可能在低资源语言上几近不可用,但学界一直缺少一个干净的数据集说出这个事实。

数据构成

五种语言、来自符合各自实际书写与阅读习惯的语料:

语言 原句数 平均参考 来源语料
英语2,5002.86The Globe and Mail
僧伽罗语2,5005.00SiTa
泰米尔语5204.66SiTa
普什图语2,5003.00Wikipedia
泰语1,4995.06ThaiSum

OasisSimp 数据组成。每个原句配多条由母语者撰写的参考简化;按 80% test / 20% validation 切分,没有训练集——这是基准,不是训练语料。许可证:CC BY 4.0。

每种语言由 3–6 名母语者完成标注,全部本科及以上学历,至少经过三轮规范培训,覆盖改写、拆分、删除、调序四类操作。我们没有汇报标注一致性指标——这是已知的局限,相比把它藏起来,我们选择把它写明。

主要结果

我们在 zero-shot 和 5-shot 下评测了 8 个开源多语 LLM:Aya-Expanse-8B、Command-R 7B、DeepSeek-LLM-7B-Chat、EuroLLM-9B-Instruct、Gemma-3-12B-it、Llama-3.2-3B-Instruct、Mistral-7B-Instruct-v0.2、Qwen2.5-7B-Instruct。各语言上 5-shot 的最佳模型如下:

语言 最佳模型 SARI BERTScore
英语Command-R 7B44.7656.63
僧伽罗语Gemma-3-12B39.8973.89
泰语Llama-3.2-3B40.2368.91
泰米尔语Gemma-3-12B39.3479.70
普什图语Command-R 7B30.9570.52

各语言 5-shot 最优 SARI / BERTScore。SARI 在 30–40 分远谈不上"解决"——结论是:当下 LLM 在低资源语言上的简化能力仍欠火候,而不是已经过关。

关键发现

  • 普什图语是最难的,比其他语言落后一截(最佳 SARI 仅 30.95)。
  • 没有任何模型在五种语言上都最强。Gemma-3-12B 是最稳定的多语简化模型;Command-R 7B 在英语和普什图语上拔得头筹。
  • Zero-shot 在普什图语和泰语上不可靠,模型间差异大,单个数字很容易掩盖底层的不稳定性。

意义

三种语言的"零的突破"。 泰语、普什图语、泰米尔语第一次有了句子简化基准;僧伽罗语得到了大幅度扩充。没有这样的资源,"多语 LLM"的能力在最需要无障碍工具的那些语言里始终没有被认真测过。
多参考评测很重要。 每句最多约 5 条参考使得 SARI 与 BERTScore 比单参考的英语基准明显更稳。这套方法可以被复用到新语言上,而不仅仅是当作一个排行榜来消费。
把"公平差距"量化。 同一个 LLM 家族在英语上接近发表水平、在普什图语上几近不可用——现在这件事有了具体数字,也就成为任何想缩小这个差距的团队的起点。