← 返回研究 基准 · 预印本,2026 年 2 月

SWE-Bench Mobile

大模型智能体能否完成工业级移动应用开发?

arXiv 项目主页 / 排行榜
50任务
449测试用例
22智能体–模型组合
12%榜首通过率

SWE-Bench Mobile 把"智能体写代码"的评测从开源 GitHub 仓库搬进了一个真实在线的移动产品。50 个工程任务全部来自小红书生产 iOS 应用,每个任务配上原始 PRD、Figma 设计稿与人工编写的测试套件,强迫智能体像真正的 iOS 工程师那样阅读多模态规格、修改一个 Swift / Objective-C 混合的大型代码库。即便是商业上最强的智能体–模型组合,也只能解决 12% 的任务。而且——选哪个智能体和选哪个模型同等重要:同一个模型在不同智能体里通过率能相差 6 倍

研究背景

既往的智能体编程基准在四个维度上都"低估"了真实工程:开源仓库会被预训练污染;任务多是修 bug 而非加功能;规格是 GitHub issue 而不是设计文档;测试本来就有。SWE-Bench Mobile 把这四点全部反过来——代码库是一款真实的生产 iOS 应用,任务是带 PRD 和 Figma 的功能新增,评测平台只在线运行,测试集永远不会泄漏到训练数据中。

基准构成

来源小红书生产 iOS 应用
编程语言Swift + Objective-C(混合)
任务数50
测试用例449(约每任务 9 条)
每任务输入PRD + Figma 设计 + 代码库快照(多模态)
输出统一 diff
任务分布UI 组件 18 · 数据管理 10 · 手势交互 8 · 媒体资源 7 · 网络 4 · 其他 3
任务类型功能新增(非修 bug)
评测方式仅线上托管(防污染)

基准组成。"任务类型"是与既往智能体基准最大的差别:功能新增逼着智能体去构建,而不只是

主要结果

我们评测了 22 种智能体–模型组合,覆盖 4 个智能体(Cursor、Codex、Claude Code、OpenCode)与若干领先的商业及开源模型。排行榜头部如下:

智能体 + 模型 任务通过 测试通过
Cursor + Claude Opus 4.512.0%28.1%
Cursor + Claude Sonnet 4.512.0%26.7%
Codex + GLM 4.612.0%19.6%

SWE-Bench Mobile 排行榜头部。前三名"任务通过率"并列 12%,但"测试通过率"差出 8.5 个百分点——这是粗粒度通过 vs 细粒度能力的差距。最新结果见 swebenchmobile.com

关键发现

  • 同一个模型,不同智能体——最大差出 6 倍。"脚手架"在重要性上几乎与模型本身相当。
  • 简单提示赢过复杂提示。一句"防御式编程"提示比更精巧的提示策略多 7.4 个百分点。
  • "测试通过率"这一栏值得看。表面上"失败"的任务往往通过了相当一部分测试——只看 pass@1 就会丢掉这部分信号。

同一个模型在不同智能体里能差出 6 倍。只报告 LLM 名称的评测,丢掉了一半故事。

意义

第一个"生产级"智能体编程基准。 任务来自一款真实在线的 App,而不是经过策展的开源 issue。代码库、规格(PRD + Figma)、测试都是真实的——意味着 12% 的榜首分数也是真实的,而且很可能仍然高估了智能体距离独立工程师的距离。
智能体很重要,不仅仅是模型。 同模型最大差出 6 倍,意味着把"模型 X"当成自变量、把脚手架当成透明层的评测范式是有偏的。"智能体 + 模型"才是真正可比的单元。
仅线上托管,是有意为之的设计。 提交在服务器端运行,测试集不会泄漏进训练数据——这是一种刻意"不舒服"但能抗污染的工业基准范式,对其他领域同样有借鉴意义。