同一道题,画成图或写成文字,信息完全一样——视觉语言模型却经常给出两个答案。SEAM 把这种不一致做成了可控测量。
发布重点
- 问题:把文字截图进图片的 OCR 式测试,分不清模型是看不懂图,还是不会推理。
- 方法:SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接矩阵/图像保证语义等价。
- 发现:视觉通常落后于语言,跨模态答案一致性也远低于理想水平。
- 意义:研究者可以区分“看不懂图”和“不会跨模态推理”这两类失败。
体检报告换个格式,诊断不该变;模型却常常变。SEAM 在棋局、分子、乐谱、图论四个领域量化 21 个视觉语言模型的跨模态不一致。研究页提供完整解读:领域背景、方法、关键图表与论文入口。
同一道题,画成图或写成文字,信息完全一样——视觉语言模型却经常给出两个答案。SEAM 把这种不一致做成了可控测量。