别只问模型多少分
标量 benchmark 太薄,行为报告才够审计。
Report Cards
从标量 benchmark 走向可解释行为报告:自动生成、自动评估,并能帮助人类辨认模型真实能力差异。
这篇论文讲什么?
问题:一个平均分会隐藏模型在哪里好、在哪里坏、为什么坏。
方法:Report Cards 自动生成自然语言行为报告,并用对比、Elo 与人工评分验证报告质量。
发现:好的报告可以压缩大量样本信息,让人类更准确判断模型差异。
意义:评测不再只是排行榜,而是能进入产品审计、模型选择与安全部署流程的证据。
关键数字
3 报告质量维度 · 3 自动评估指标 · 100% 自动生成 · Spotlight NeurIPS SoLaR · 2409.00844 arXiv
延伸阅读
研究解读页:zh/research/report-cards.html