← 返回研究 模型评估 · NeurIPS SoLaR 2024 Spotlight

Report Cards

只看总分挑不出好学生,也挑不出好模型;Report Cards 像老师写评语那样,把模型行为写成可读、可检验的“成绩报告单”。

arXiv Project Dashboard OpenReview
3报告质量维度
3自动评估指标
100%自动生成
SpotlightNeurIPS SoLaR
2409.00844arXiv

从排行榜上挑模型,有点像只看一次考试总分来招聘:总分相同的两位候选人,可能在完全不同的地方出错。模型也是如此——平均分领先的模型,仍可能在特定技能、风格或输入类型上稳定出错,而平均分恰好把这些信息抹掉了。Report Cards 给出的方案:让评测系统自动为模型写出一份自然语言“行为报告”,再用三道检验确认报告本身可靠。

Report Cards 对比评估结果图
论文原图。Report Cards 对总结提出硬性要求:在对比任务中保留足够多的模型差异信息。

一个分数说不清一个模型

基准测试(benchmark,标准化的测试集与计分方式)是模型评估的基础设施:客观、可重复、便于排序。但它把成千上万道题的表现压缩成一个标量分数,信息损失是结构性的。两个同样 85 分的模型,一个败在数学推理,一个败在长文档理解,分数上完全看不出差别。

对要把模型放进真实业务的团队,这个差别恰恰是关键:模型会在哪些场景失败?失败长什么样?事后能否被审计?排行榜名次回答不了这些问题。Report Cards 的思路正如其名——学校的成绩报告单:除了总分,老师还会写上“数学扎实、作文容易跑题”,家长由此知道孩子该补什么。它把定量样本转写成可读的行为画像,让评估从“差几分”扩展到“差在哪里”。

定位:Report Cards 与基准分数并行使用——分数给出排序,报告解释排序背后的行为差异。

让评测自己写报告

系统先在目标技能下收集模型的作答样本,再用 PRESS 流程(一种逐步压缩样本、提炼摘要的报告生成方法)把多个子主题、错误模式和强弱项整理成一份报告。生成过程被拆成可复查的中间步骤,目的是少说空话、多保留行为证据。

PRESS 生成 Report Card 的流程
论文原图。报告生成被拆成可复查的中间步骤,目标是少说空话,多保留行为证据。
输入模型在某一技能或主题上的作答样本
输出面向人类的自然语言行为报告
自动指标Contrastive Accuracy、Card Elo、Human Scoring
适用场景模型选择、部署审计、能力回归分析

报告经得起检验吗

“自动写报告”最大的风险,是写出一篇看起来头头是道、放在哪个模型身上都成立的总结。论文因此把报告本身当作评测对象,设计了三道检验:对比准确率(只凭报告判断一段新输出来自哪个模型,看判断的准确率有多高)、Card Elo(借用棋类等级分机制,让报告在两两对比中获得排名),以及人工从相关性、信息量、清晰度三个维度打分。

实验显示,高质量报告能显著帮助读者分辨模型差异。去风格化实验(抹去文风线索后重测)进一步说明,报告记录的确实是行为差异,与模型语气无关——它们压缩的是行为信息,并非文风。

Report Cards 去风格化实验结果
论文原图。去风格化后仍能保留可用于区分模型的行为信息,说明报告不是在“猜作者口吻”。
Report Cards 信息压缩实验图
论文原图。报告把大量样本压缩成短文本,同时尽可能保留用于判断模型能力的信号。
  • 从一个分数到一份报告。平均值仍然有用,但报告让失败形态进入决策流程。
  • 自动评估闭环。报告自身也能被评估,避免“看起来像分析”的空泛总结。
  • 适合部署审计。当模型进入真实业务,行为解释比榜单名次更接近团队需要。

通往可审计的模型评估

评测对象从模型分数变成模型行为。分数只说明差几分,报告说明差在哪里。
可读性和可验证性一起保留。自然语言报告服务人类决策,自动指标服务评测闭环。
它打开了“模型审计文档”的方向。未来的模型卡不应只有指标表,还应该有可复查的行为摘要。

阅读报告与原文

查看项目主页、交互式模型对比 dashboard 与论文原文。

arXiv Project Dashboard OpenReview