← 返回新闻 COLM 2025 · 2025 年 8 月

SEAM:换一种形式,模型的答案就变了

体检报告换个格式,诊断不该变;模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。研究页提供完整解读:领域背景、方法、关键图表与论文入口。

研究解读arXiv推广稿
21评测模型
16任务
4领域
3,200基础题目
9,600评测条目

同一道题,画成图或写成文字,信息完全一样——视觉语言模型却经常给出两个答案。SEAM 把这种不一致做成了可控测量。

发布重点

  • 问题:把文字截图进图片的 OCR 式测试,分不清模型是看不懂图,还是不会推理。
  • 方法:SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接矩阵/图像保证语义等价。
  • 发现:视觉通常落后于语言,跨模态答案一致性也远低于理想水平。
  • 意义:研究者可以区分“看不懂图”和“不会跨模态推理”这两类失败。

继续阅读

研究页包含领域背景、方法、关键图表和论文入口;想快速分享,可使用图文版推广稿。

打开研究页打开推广稿