← 返回新闻 COLM 2025 · 2025 年 8 月

SEAM：换一种形式，模型的答案就变了

体检报告换个格式，诊断不该变；模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。研究页提供完整解读：领域背景、方法、关键图表与论文入口。

研究解读 arXiv 推广稿

21评测模型

16任务

4领域

3,200基础题目

9,600评测条目

同一道题，画成图或写成文字，信息完全一样——视觉语言模型却经常给出两个答案。SEAM 把这种不一致做成了可控测量。

发布重点

问题：把文字截图进图片的 OCR 式测试，分不清模型是看不懂图，还是不会推理。
方法：SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接矩阵/图像保证语义等价。
发现：视觉通常落后于语言，跨模态答案一致性也远低于理想水平。
意义：研究者可以区分“看不懂图”和“不会跨模态推理”这两类失败。

继续阅读

研究页包含领域背景、方法、关键图表和论文入口；想快速分享，可使用图文版推广稿。

打开研究页打开推广稿