别只问模型多少分

Coolwei AI Lab · NeurIPS SoLaR 2024 Spotlight · 2024 年 12 月

标量 benchmark 太薄，行为报告才够审计。

Report Cards

从标量 benchmark 走向可解释行为报告：自动生成、自动评估，并能帮助人类辨认模型真实能力差异。

这篇论文讲什么？

问题：一个平均分会隐藏模型在哪里好、在哪里坏、为什么坏。

方法：Report Cards 自动生成自然语言行为报告，并用对比、Elo 与人工评分验证报告质量。

发现：好的报告可以压缩大量样本信息，让人类更准确判断模型差异。

意义：评测不再只是排行榜，而是能进入产品审计、模型选择与安全部署流程的证据。

3 报告质量维度 · 3 自动评估指标 · 100% 自动生成 · Spotlight NeurIPS SoLaR · 2409.00844 arXiv

研究解读页：zh/research/report-cards.html