前沿视觉语言模型可以从 FEN 读懂一个棋局,可以从 SMILES 读出一个分子结构——但当我们把同一个问题分别以文字和图像呈现,它们经常给出不同的答案。SEAM 是一个把语义等价的文字与图像输入配对起来的基准,覆盖四个专业领域,把"模态差异"和"任务难度"分开来看,从而暴露出模型在跨模态推理上的真实差距。
研究背景
在 SEAM 之前,"多模态"基准往往是用图像化的文字(OCR 风格)去对比纯文本,所以测出来的"模态差距"其实和"读取能力差距"混在一起。SEAM 不一样:在每个领域都使用该领域的原生表示——FEN ↔ 棋盘、SMILES ↔ 分子图、MusicXML ↔ 乐谱、邻接表 ↔ 图论可视化——两侧承载的信息可被严格证明是相同的。这样一来,测出的差距不再是信息不对称,而是模型本身的失败。
基准构成
四个专业领域(国际象棋、化学、音乐、图论)× 每个领域 4 个任务 = 16 个任务;每个任务约 200 道题,共 3,200 道基础题,每道题在三种输入条件下(仅语言、仅视觉、视觉+语言)评测一次,总共 9,600 次评测。论文还做了一系列视觉变换的鲁棒性检验,模态差距不能被解释为渲染层面的偶发问题。
主要结果
我们评测了 21 个前沿模型,从 GPT-5、Claude 4.x、Qwen2.5-VL、InternVL3,到 Llama 3.2-Vision 与 gemma-3-27b。排行榜头部如下:
| 模型 | 平均 | 语言 | 视觉+语言 |
|---|---|---|---|
| GPT-5 | 0.765 | 0.804 | 0.857 |
| GPT-5-mini | 0.756 | — | — |
| Claude-4.1-Opus | 0.740 | — | — |
SEAM 排行榜头部,16 个任务的平均准确率。最新结果见 SEAM 排行榜。
关键发现
- 视觉系统性地落后于语言。在 21 个模型中几乎都成立——尽管两侧承载的信息是等价的。
- 跨模态一致性有时接近随机。同一个模型对同一道题的"文字版"与"图像版",往往给出不同的答案。
- 两类不同的错误来源:分词驱动的文字侧错误(例如 SMILES 被切成在化学上没有意义的词元),以及视觉侧的"幻觉结构"——图像里其实并没有的位置或元素。
今天的"VLM"更像是接了一个较弱视觉通道的语言推理模型——SEAM 把这个直觉量化了。