同一道题，换个模态就错？

Coolwei AI Lab · COLM 2025 · 2025 年 8 月

SEAM 让 VLM 的跨模态不一致无处可藏。

SEAM

在 4 个领域构造语义等价的文字与视觉输入，系统测量 VLM 的跨模态不一致。

这篇论文讲什么？

问题：OCR 风格数据测不出真正的跨模态推理，只是在测模型能不能读图中文字。

方法：SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接表/图像保证语义等价。

发现：视觉通常落后于语言，跨模态答案一致性也远低于理想水平。

意义：我们终于可以区分“看不懂图”和“不会跨模态推理”这两类失败。

21 评测模型 · 16 任务 · 4 领域 · 3,200 基础题目 · 9,600 评测条目

研究解读页：zh/research/seam.html