公开的信息不等于读得懂的信息。OasisSimp 由母语者为五种语言写出句子简化评测基准,让“人人读得懂”可以被衡量。
发布重点
- 问题:英语文本简化已经有多年基准,泰语、普什图语、泰米尔语几乎没有可复用数据。
- 方法:母语者按统一指南写多参考简化,覆盖五种语言与真实文本来源。
- 发现:少样本示例能明显提升表现,但低资源语言仍远未“解决”。
- 意义:公共信息、教育、无障碍阅读,都需要不只服务英语的简化系统。
把公文句子改写成人人读得懂的话,多数语言连评测的尺子都没有。五种语言、9,519 个原句、母语者撰写——低资源句子简化第一次有了开放评测。研究页提供完整解读:领域背景、方法、关键图表与论文入口。
公开的信息不等于读得懂的信息。OasisSimp 由母语者为五种语言写出句子简化评测基准,让“人人读得懂”可以被衡量。