同一道题,换个模态就错?
SEAM 让 VLM 的跨模态不一致无处可藏。
SEAM
在 4 个领域构造语义等价的文字与视觉输入,系统测量 VLM 的跨模态不一致。
这篇论文讲什么?
问题:OCR 风格数据测不出真正的跨模态推理,只是在测模型能不能读图中文字。
方法:SEAM 用 FEN/棋盘、SMILES/分子图、ABC/乐谱、邻接表/图像保证语义等价。
发现:视觉通常落后于语言,跨模态答案一致性也远低于理想水平。
意义:我们终于可以区分“看不懂图”和“不会跨模态推理”这两类失败。
关键数字
21 评测模型 · 16 任务 · 4 领域 · 3,200 基础题目 · 9,600 评测条目
延伸阅读
研究解读页:zh/research/seam.html