← 返回研究 数据集 · 低资源 NLP

OasisSimp

把“本通知自印发之日起施行”改写成“这个通知从发出当天开始执行”——多数语言连评测这件事的尺子都没有。五种语言的母语者写出第一套开放基准。

arXiv Project / Dataset
5语言
9,519原句
~4平均参考简化
8开源多语 LLM
CC BY 4.0数据许可

一份政府公告、一页用药说明,公开并不等于读得懂——对第二语言读者、学生和有阅读障碍的人来说,复杂的长句本身就是一道门槛。OasisSimp 为五种语言建立了句子简化的开放评测基准:语料全部由母语者撰写,覆盖英语、僧伽罗语、泰米尔语、泰语和普什图语。

OasisSimp 五种语言样例
论文原图。每种语言都展示复杂句、简化句和使用的简化操作。

读得到,不等于读得懂

标题里的那次改写,在自然语言处理中称为句子简化(sentence simplification):把一句话改写得更易读,同时不丢失原意。它是公共信息、教育和无障碍阅读的底层能力:政务部门希望公告人人能懂,出版与教育机构需要分级读物,健康信息的可读性更是直接影响理解成本。

英语的句子简化研究有多年积累的基准可用;而对僧伽罗语、普什图语、泰米尔语、泰语这样的低资源语言(可用语料和评测数据稀缺的语言),过去几乎没有任何公开评测——连衡量一个简化系统好坏的尺子都不存在。OasisSimp 补上的正是这把尺子。

母语者写出的评测基准

语料全部来自真实场景:政府文件、新闻与 Wikipedia。9,519 个复杂句中的每一句,都由母语者按统一指南写出多条简化参考(多参考——同一句允许多种可接受的简化写法,避免把某一种答案当成唯一标准)。

数据按 80% test / 20% validation 切分,并以 CC BY 4.0 许可完全开放,定位为评测基准而非训练语料。

Table 1. OasisSimp 数据集最终统计
Lang# Comp SentencesAvg. Simp SentencesAvg. Comp LengthAvg. Simp LengthSource Domain
English25002.8624.3517.23News
Sinhala25005.0030.1228.78Govt
Thai14995.0648.2437.77News
Tamil5204.6623.2217.65Govt
Pashto25003.0028.8120.31Wiki

八个开源模型的现状

论文用 SARI(句子简化的标准自动指标,分别衡量新增、保留、删除三类改写操作,对应表中的 ADD / KEEP / DEL)和 BERTScore(基于语义相似度的自动评分)评测了 8 个开源多语大模型。

结果有两层。少样本示例(few-shot——在提问中附上几个示范例子)几乎在所有语言上带来提升,说明风格可以校准;但低资源语言的绝对表现仍然明显落后,尤其当简化需要新增合适的简单表达,而不只是删掉冗余信息时。

Table 3. Results on English (OasisSimp-EN)
Model0 Shot1 Shot5 Shot
SARI Comp.SARIFrefSARI Comp.SARIFrefSARI Comp.SARIFref
ADDKEEPDELADDKEEPDELADDKEEPDEL
Aya 9.3244.9875.2343.1854.449.6844.9072.5142.3656.3510.1845.9171.1642.4257.20
Cmd-R 9.6944.9572.8942.5155.9010.9943.7177.5744.0955.0311.9145.2877.0944.7656.63
DeepSeek 7.0341.4776.3041.6051.887.8041.1276.8241.9151.929.4142.0377.2242.8954.15
EuroLLM 9.3245.6068.3641.1056.9810.9946.9869.3542.4457.9611.6346.5570.9343.0458.10
Gemma 5.2444.4368.5439.4051.876.5543.2674.4441.4152.349.1944.6777.0643.6455.27
LLaMA6.4843.3168.3439.3854.308.1143.4272.8341.4554.539.9344.7573.7542.8156.00
Mistral 8.5643.6677.4643.2352.4910.3143.8278.4344.1854.5511.6144.0178.5944.7455.89
Qwen 8.7046.0773.5342.7742.369.5446.4077.2544.3953.0310.8847.0177.0844.9955.27
Table 7. Results on Pashto (OasisSimp-PS)
Model0 Shot1 Shot5 Shot
SARI Comp.SARIFrefSARI Comp.SARIFrefSARI Comp.SARIFref
ADDKEEPDELADDKEEPDELADDKEEPDEL
Aya 0.6223.9867.4730.6949.171.0845.6058.6235.1060.831.7753.8147.1734.2568.25
Cmd-R 0.7550.8251.7334.4461.910.9354.4144.4433.2667.840.7056.5335.6230.9570.52
DeepSeek 0.5241.1960.7134.1438.650.9048.8354.5934.7863.650.9150.1652.5134.5366.26
EuroLLM 0.5054.2844.4033.0667.550.6554.8743.2832.9369.720.7855.3742.0932.7570.42
Gemma 3.8425.0870.7833.2356.954.4734.7568.5735.9361.475.3946.3961.9537.9166.04
LLaMA 0.7018.3470.2829.77-22.403.1546.2861.6737.0451.151.9646.5358.1535.5533.03
Mistral 0.9426.3668.1331.8147.731.4241.2063.0435.2261.311.5145.9358.6035.3564.40
Qwen 2.3447.4858.9236.2558.022.8149.8855.3436.0164.762.6253.7948.7135.0465.57
  • 多参考很关键。单一简化目标会低估可接受改写空间。
  • 少样本有效但不够。示例能校准风格,却不能消除语言资源差距。
  • ADD 最难。模型擅长删除冗余信息,但在低资源语言中很难新增合适的简单表达。

对多语言 AI 的提醒

低资源语言终于有可复现基准。泰语、普什图语、泰米尔语过去几乎没有可用句子简化数据。
服务真实读者,而不只是排行榜。简化系统直接关系到政府公告、教育材料和健康信息的可读性。
把“英语能力外推”拉回现实。英文表现不能代表多语简化能力,OasisSimp 给出了具体证据。

下载数据集

项目页提供数据、说明和评测入口,适合多语 NLP 与可访问性研究复用。

arXiv Project / Dataset