Grounded Chess Reasoning - 网景盛世AI实验室

前沿大模型可以下棋，却很少能像棋手一样解释每一步。我们提出 C1：一个 4B 参数的开源模型，在主题均衡的棋题集合上取得 48.1% 准确率，每题约 178 个 Token——超过它的"老师" Gemini-3-Flash（40.8%），击败所有开源基线，并且输出 Token 大约比推理型 LLM 少两个数量级。背后的方法 Master Distillation（大师蒸馏）被定位为一种通用范式：只要某个领域已经存在确定性的专家系统，就可以借此把专家的推理灌入小模型。

研究背景

在已经存在专门求解器的领域——国际象棋引擎、定理证明器、化学模拟器——LLM 一直处于两种失败模式之间。纯神经棋手会回答"下哪一步"，却讲不出理由；纯 LLM 解释起来头头是道，却经常给出违规走法。两者中间的空白叫做有据可循的推理：答案能被棋手认可，语言也是棋手会写的语言。

既往工作要么在 Stockfish 走法概率之上叠加链式思考提示，要么训练只输出走法的"裸动作"模型——前者的解释经不起推敲，后者根本不解释。两半都看得见，却没有一半是有据可循的。

方法

大师蒸馏（Master Distillation）

数据由两位"专家"协作生成。Stockfish（搜索深度 24）提供地面真值的最佳变化，Gemini-3-Flash 把这些变化口语化为自然语言推理链。学生模型——基座是 Qwen3-4B-Instruct-2507——只能看到口语化后的推理轨迹。Stockfish 是真值来源，Gemini 是表达者：把任意一方单独称作"老师"都会有所失真。

佯装发现式提示（Feigned Discovery Prompting）

教师 LLM 被要求装作不知道答案进行推理，同时暗中跟随 Stockfish 给出的轨迹。提示对长度（按棋题难度缩放至 4–10 句）、对棋盘坐标的显式引用、客观语气都有强约束，并禁止泄漏引擎评估或战术主题标签。结果读起来像棋手在思考一个局面，而不像在事后为答卷找理由。

教师"装作不知道答案"地推理——而学生继承了这个习惯。

两阶段训练

两段训练流程并不复杂，但调得很紧。第一阶段是在口语化推理轨迹上做监督微调，主题均衡采样覆盖开局、中局、残局以及各种战术主题；第二阶段是基于 DAPO 的 RLVR——一个为简洁输出而调的 GRPO 变体（保留 KL 项，去掉过长奖励整形）。跳过 SFT 直接 RL 几乎无效：SFT 提供了 RLVR 才有信号去强化的初始能力。

主要结果

在主题均衡的棋题集合上，C1-4B 用平均 178 个 Token 解决了 48.1% 的棋题。这个分数超过了 Gemini-3-Flash 教师，超过了所有开源模型，只落后于头部的前沿闭源系统。我们要讲的故事不是"棋题 SOTA"——而是"在给定的算力预算下，目前最好的解法"。

模型	准确率	平均 Token
C1-4B（本工作）	48.1%	178
Gemini-3-Flash（表达者 / "教师"）	40.8%	—
GPT-5	85.2%	12,193
Gemini-3-Pro	78.2%	3,182
DeepSeek-Chat-v3.1	20.0%	11,249

主题均衡棋题准确率与平均输出长度。C1-4B 比 GPT-5 大约精简 100 倍，比 Gemini-3-Pro 精简 18 倍；另有一个 8B 变体，未在表中列出。

关键发现

RLVR 比 SFT-only 提升 +7.2 pp（40.9% → 48.1%）——第二阶段的提升真实存在，但前提是第一阶段已经把能力种进去了。
学生可以超过它的"表达者"。这里的蒸馏不是能力压缩，而是能力迁移加上后续的强化。
主题均衡采样很重要。没有它，RL 会过拟合到一小撮战术主题上。

意义

一种通用范式，先在国际象棋上做了演示。 只要存在一个确定性的专家系统——定理证明器、蛋白质设计、医疗决策支持——大师蒸馏都能成为一条把推理压缩成小而可解释模型的路径。国际象棋只是一个干净的实验台，方法本身才是贡献。

当基座模型太弱时，让 RLVR 真正能跑起来。 把专家口语化轨迹做成 SFT 数据，能给基座种下足够的能力让 RLVR 产生有效信号；跳过 SFT 直接 RL 等于让强化学习面对一个空白。这是对所有做"可验证奖励 RL"的人来说，最有可操作性的发现。

有意做小、有意做便宜。 4B 的开源模型并不是国际象棋上的 SOTA——但在给定预算下它就是 SOTA。而绝大多数生产部署的世界，正是"给定预算"的世界。