SWE-Bench Mobile - 网景盛世AI实验室

SWE-Bench Mobile 把"智能体写代码"的评测从开源 GitHub 仓库搬进了一个真实在线的移动产品。50 个工程任务全部来自小红书生产 iOS 应用，每个任务配上原始 PRD、Figma 设计稿与人工编写的测试套件，强迫智能体像真正的 iOS 工程师那样阅读多模态规格、修改一个 Swift / Objective-C 混合的大型代码库。即便是商业上最强的智能体–模型组合，也只能解决 12% 的任务。而且——选哪个智能体和选哪个模型同等重要：同一个模型在不同智能体里通过率能相差 6 倍。

研究背景

既往的智能体编程基准在四个维度上都"低估"了真实工程：开源仓库会被预训练污染；任务多是修 bug 而非加功能；规格是 GitHub issue 而不是设计文档；测试本来就有。SWE-Bench Mobile 把这四点全部反过来——代码库是一款真实的生产 iOS 应用，任务是带 PRD 和 Figma 的功能新增，评测平台只在线运行，测试集永远不会泄漏到训练数据中。

基准构成

来源	小红书生产 iOS 应用
编程语言	Swift + Objective-C（混合）
任务数	50
测试用例	449（约每任务 9 条）
每任务输入	PRD + Figma 设计 + 代码库快照（多模态）
输出	统一 diff
任务分布	UI 组件 18 · 数据管理 10 · 手势交互 8 · 媒体资源 7 · 网络 4 · 其他 3
任务类型	功能新增（非修 bug）
评测方式	仅线上托管（防污染）

基准组成。"任务类型"是与既往智能体基准最大的差别：功能新增逼着智能体去构建，而不只是修。

主要结果

我们评测了 22 种智能体–模型组合，覆盖 4 个智能体（Cursor、Codex、Claude Code、OpenCode）与若干领先的商业及开源模型。排行榜头部如下：

智能体 + 模型	任务通过	测试通过
Cursor + Claude Opus 4.5	12.0%	28.1%
Cursor + Claude Sonnet 4.5	12.0%	26.7%
Codex + GLM 4.6	12.0%	19.6%

SWE-Bench Mobile 排行榜头部。前三名"任务通过率"并列 12%，但"测试通过率"差出 8.5 个百分点——这是粗粒度通过 vs 细粒度能力的差距。最新结果见 swebenchmobile.com。

关键发现

同一个模型，不同智能体——最大差出 6 倍。"脚手架"在重要性上几乎与模型本身相当。
简单提示赢过复杂提示。一句"防御式编程"提示比更精巧的提示策略多 7.4 个百分点。
"测试通过率"这一栏值得看。表面上"失败"的任务往往通过了相当一部分测试——只看 pass@1 就会丢掉这部分信号。

同一个模型在不同智能体里能差出 6 倍。只报告 LLM 名称的评测，丢掉了一半故事。

意义

第一个"生产级"智能体编程基准。 任务来自一款真实在线的 App，而不是经过策展的开源 issue。代码库、规格（PRD + Figma）、测试都是真实的——意味着 12% 的榜首分数也是真实的，而且很可能仍然高估了智能体距离独立工程师的距离。

智能体很重要，不仅仅是模型。 同模型最大差出 6 倍，意味着把"模型 X"当成自变量、把脚手架当成透明层的评测范式是有偏的。"智能体 + 模型"才是真正可比的单元。

仅线上托管，是有意为之的设计。 提交在服务器端运行，测试集不会泄漏进训练数据——这是一种刻意"不舒服"但能抗污染的工业基准范式，对其他领域同样有借鉴意义。