Qualitative Evaluation of Language Models
NeurIPS 2024 SoLaR Workshop Spotlight | 最佳论文提名
传统的定量基准测试难以准确评估大语言模型的真实能力。我们提出了Report Cards—— 一种针对特定技能生成人类可解释自然语言摘要的新型评估框架。该框架基于特异性(Specificity)、 忠实性(Faithfulness)和可解释性(Interpretability)三个核心维度,通过全自动的迭代算法, 无需人工监督即可生成深度、可靠的模型行为分析报告。
生成的评估报告必须精确描述模型在特定任务上的表现,避免泛泛而谈的描述。
评估结果必须真实反映模型的实际行为,通过对抗性测试验证报告的准确性。
生成的报告必须易于人类理解,提供清晰的洞察而非技术术语堆砌。
首个完全自动化的定性评估框架
超越传统量化基准,提供深度行为洞察
为大模型评估建立了新的范式
相比传统评估方法,Report Cards能够发现更多细粒度的模型行为模式, 提供比数值分数更有价值的洞察。
框架已在GPT系列、Claude、LLaMA等主流大模型上验证, 展现出优秀的泛化能力。
该工作为模型评估领域开辟了新方向,有望成为下一代 AI系统评估的标准方法。