同一道题,换个模态就错?

Coolwei AI Lab · COLM 2025 · 2025 年 8 月

SEAM 让 VLM 的跨模态不一致无处可藏。

SEAM

在 4 个领域构造语义等价的文字与视觉输入,系统测量 VLM 的跨模态不一致。

这篇论文讲什么?

问题:OCR 风格数据测不出真正的跨模态推理,只是在测模型能不能读图中文字。

方法:SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接表/图像保证语义等价。

发现:视觉通常落后于语言,跨模态答案一致性也远低于理想水平。

意义:我们终于可以区分“看不懂图”和“不会跨模态推理”这两类失败。

关键数字

21 评测模型 · 16 任务 · 4 领域 · 3,200 基础题目 · 9,600 评测条目

延伸阅读

arXiv:2508.18179

研究解读页:zh/research/seam.html