← 返回研究 基准 · COLM 2025

SEAM

面向视觉语言模型的"语义等价跨模态"基准。

arXiv OpenReview GitHub 数据集 排行榜
21评测模型
16任务
4专业领域
9,600总评测条目

前沿视觉语言模型可以从 FEN 读懂一个棋局,可以从 SMILES 读出一个分子结构——但当我们把同一个问题分别以文字和图像呈现,它们经常给出不同的答案。SEAM 是一个把语义等价的文字与图像输入配对起来的基准,覆盖四个专业领域,把"模态差异"和"任务难度"分开来看,从而暴露出模型在跨模态推理上的真实差距。

研究背景

在 SEAM 之前,"多模态"基准往往是用图像化的文字(OCR 风格)去对比纯文本,所以测出来的"模态差距"其实和"读取能力差距"混在一起。SEAM 不一样:在每个领域都使用该领域的原生表示——FEN ↔ 棋盘、SMILES ↔ 分子图、MusicXML ↔ 乐谱、邻接表 ↔ 图论可视化——两侧承载的信息可被严格证明是相同的。这样一来,测出的差距不再是信息不对称,而是模型本身的失败。

基准构成

四个专业领域(国际象棋、化学、音乐、图论)× 每个领域 4 个任务 = 16 个任务;每个任务约 200 道题,共 3,200 道基础题,每道题在三种输入条件下(仅语言、仅视觉、视觉+语言)评测一次,总共 9,600 次评测。论文还做了一系列视觉变换的鲁棒性检验,模态差距不能被解释为渲染层面的偶发问题。

主要结果

我们评测了 21 个前沿模型,从 GPT-5、Claude 4.x、Qwen2.5-VL、InternVL3,到 Llama 3.2-Vision 与 gemma-3-27b。排行榜头部如下:

模型 平均 语言 视觉+语言
GPT-5 0.765 0.804 0.857
GPT-5-mini 0.756
Claude-4.1-Opus 0.740

SEAM 排行榜头部,16 个任务的平均准确率。最新结果见 SEAM 排行榜

关键发现

  • 视觉系统性地落后于语言。在 21 个模型中几乎都成立——尽管两侧承载的信息是等价的。
  • 跨模态一致性有时接近随机。同一个模型对同一道题的"文字版"与"图像版",往往给出不同的答案。
  • 两类不同的错误来源:分词驱动的文字侧错误(例如 SMILES 被切成在化学上没有意义的词元),以及视觉侧的"幻觉结构"——图像里其实并没有的位置或元素。

今天的"VLM"更像是接了一个较弱视觉通道的语言推理模型——SEAM 把这个直觉量化了。

意义

"模态无关推理"的可控实验台。 因为两侧的信息等价已经被构造保证,SEAM 上的提升可以归因于推理能力,而不是更好的 OCR 或更详细的图像描述。这是这个方向能严肃讨论"多模态推理"的前提。
它不仅是排行榜,更是诊断工具。 分词侧与感知侧的错误归因可以迁移到任何新模型——任何在训 VLM 的团队都能用 SEAM 定位自己的流水线在哪一环漏掉了精度,而不是只看一个平均分。
对前沿 VLM 的现状一次诚实评估。 即便是 GPT-5,纯语言侧也只有约 0.80,跨模态一致性更低。把当下的系统称作"多模态推理者"是言过其实的——SEAM 让这个判断有了具体数字。