SEAM - 网景盛世AI实验室

前沿视觉语言模型可以从 FEN 读懂一个棋局，可以从 SMILES 读出一个分子结构——但当我们把同一个问题分别以文字和图像呈现，它们经常给出不同的答案。SEAM 是一个把语义等价的文字与图像输入配对起来的基准，覆盖四个专业领域，把"模态差异"和"任务难度"分开来看，从而暴露出模型在跨模态推理上的真实差距。

研究背景

在 SEAM 之前，"多模态"基准往往是用图像化的文字（OCR 风格）去对比纯文本，所以测出来的"模态差距"其实和"读取能力差距"混在一起。SEAM 不一样：在每个领域都使用该领域的原生表示——FEN ↔ 棋盘、SMILES ↔ 分子图、MusicXML ↔ 乐谱、邻接表 ↔ 图论可视化——两侧承载的信息可被严格证明是相同的。这样一来，测出的差距不再是信息不对称，而是模型本身的失败。

基准构成

四个专业领域（国际象棋、化学、音乐、图论）× 每个领域 4 个任务 = 16 个任务；每个任务约 200 道题，共 3,200 道基础题，每道题在三种输入条件下（仅语言、仅视觉、视觉+语言）评测一次，总共 9,600 次评测。论文还做了一系列视觉变换的鲁棒性检验，模态差距不能被解释为渲染层面的偶发问题。

主要结果

我们评测了 21 个前沿模型，从 GPT-5、Claude 4.x、Qwen2.5-VL、InternVL3，到 Llama 3.2-Vision 与 gemma-3-27b。排行榜头部如下：

模型	平均	语言	视觉+语言
GPT-5	0.765	0.804	0.857
GPT-5-mini	0.756	—	—
Claude-4.1-Opus	0.740	—	—

SEAM 排行榜头部，16 个任务的平均准确率。最新结果见 SEAM 排行榜。

关键发现

视觉系统性地落后于语言。在 21 个模型中几乎都成立——尽管两侧承载的信息是等价的。
跨模态一致性有时接近随机。同一个模型对同一道题的"文字版"与"图像版"，往往给出不同的答案。
两类不同的错误来源：分词驱动的文字侧错误（例如 SMILES 被切成在化学上没有意义的词元），以及视觉侧的"幻觉结构"——图像里其实并没有的位置或元素。

今天的"VLM"更像是接了一个较弱视觉通道的语言推理模型——SEAM 把这个直觉量化了。

意义

"模态无关推理"的可控实验台。 因为两侧的信息等价已经被构造保证，SEAM 上的提升可以归因于推理能力，而不是更好的 OCR 或更详细的图像描述。这是这个方向能严肃讨论"多模态推理"的前提。

它不仅是排行榜，更是诊断工具。 分词侧与感知侧的错误归因可以迁移到任何新模型——任何在训 VLM 的团队都能用 SEAM 定位自己的流水线在哪一环漏掉了精度，而不是只看一个平均分。

对前沿 VLM 的现状一次诚实评估。 即便是 GPT-5，纯语言侧也只有约 0.80，跨模态一致性更低。把当下的系统称作"多模态推理者"是言过其实的——SEAM 让这个判断有了具体数字。