别只问模型多少分

Coolwei AI Lab · NeurIPS SoLaR 2024 Spotlight · 2024 年 12 月

标量 benchmark 太薄,行为报告才够审计。

Report Cards

从标量 benchmark 走向可解释行为报告:自动生成、自动评估,并能帮助人类辨认模型真实能力差异。

这篇论文讲什么?

问题:一个平均分会隐藏模型在哪里好、在哪里坏、为什么坏。

方法:Report Cards 自动生成自然语言行为报告,并用对比、Elo 与人工评分验证报告质量。

发现:好的报告可以压缩大量样本信息,让人类更准确判断模型差异。

意义:评测不再只是排行榜,而是能进入产品审计、模型选择与安全部署流程的证据。

关键数字

3 报告质量维度 · 3 自动评估指标 · 100% 自动生成 · Spotlight NeurIPS SoLaR · 2409.00844 arXiv

延伸阅读

arXiv:2409.00844

研究解读页:zh/research/report-cards.html