← 返回新闻 arXiv · 2026 年 3 月

OasisSimp:让低资源语言的句子简化有尺可量

把公文句子改写成人人读得懂的话,多数语言连评测的尺子都没有。五种语言、9,519 个原句、母语者撰写——低资源句子简化第一次有了开放评测。研究页提供完整解读:领域背景、方法、关键图表与论文入口。

研究解读arXiv推广稿
5语言
9,519原句
~4平均参考简化
8开源多语 LLM
CC BY 4.0数据许可

公开的信息不等于读得懂的信息。OasisSimp 由母语者为五种语言写出句子简化评测基准,让“人人读得懂”可以被衡量。

发布重点

  • 问题:英语文本简化已经有多年基准,泰语、普什图语、泰米尔语几乎没有可复用数据。
  • 方法:母语者按统一指南写多参考简化,覆盖五种语言与真实文本来源。
  • 发现:少样本示例能明显提升表现,但低资源语言仍远未“解决”。
  • 意义:公共信息、教育、无障碍阅读,都需要不只服务英语的简化系统。

继续阅读

研究页包含领域背景、方法、关键图表和论文入口;想快速分享,可使用图文版推广稿。

打开研究页打开推广稿