← 返回研究 方法 · arXiv 预印本,2026 年 3 月

Grounded Chess Reasoning

大师蒸馏:以国际象棋为案例,把专用求解器的推理迁移成小模型可信的链式思考。

arXiv 代码(即将发布)
4B参数(Qwen3-4B 基座)
48.1%棋题准确率
~178每题平均输出 Token
~100×比 GPT-5 更精简

前沿大模型可以下棋,却很少能像棋手一样解释每一步。我们提出 C1:一个 4B 参数的开源模型,在主题均衡的棋题集合上取得 48.1% 准确率,每题约 178 个 Token——超过它的"老师" Gemini-3-Flash(40.8%),击败所有开源基线,并且输出 Token 大约比推理型 LLM 少两个数量级。背后的方法 Master Distillation(大师蒸馏)被定位为一种通用范式:只要某个领域已经存在确定性的专家系统,就可以借此把专家的推理灌入小模型。

研究背景

在已经存在专门求解器的领域——国际象棋引擎、定理证明器、化学模拟器——LLM 一直处于两种失败模式之间。纯神经棋手会回答"下哪一步",却讲不出理由;纯 LLM 解释起来头头是道,却经常给出违规走法。两者中间的空白叫做有据可循的推理:答案能被棋手认可,语言也是棋手会写的语言。

既往工作要么在 Stockfish 走法概率之上叠加链式思考提示,要么训练只输出走法的"裸动作"模型——前者的解释经不起推敲,后者根本不解释。两半都看得见,却没有一半是有据可循的。

方法

大师蒸馏(Master Distillation)

数据由两位"专家"协作生成。Stockfish(搜索深度 24)提供地面真值的最佳变化,Gemini-3-Flash 把这些变化口语化为自然语言推理链。学生模型——基座是 Qwen3-4B-Instruct-2507——只能看到口语化后的推理轨迹。Stockfish 是真值来源,Gemini 是表达者:把任意一方单独称作"老师"都会有所失真。

佯装发现式提示(Feigned Discovery Prompting)

教师 LLM 被要求装作不知道答案进行推理,同时暗中跟随 Stockfish 给出的轨迹。提示对长度(按棋题难度缩放至 4–10 句)、对棋盘坐标的显式引用、客观语气都有强约束,并禁止泄漏引擎评估或战术主题标签。结果读起来像棋手在思考一个局面,而不像在事后为答卷找理由。

教师"装作不知道答案"地推理——而学生继承了这个习惯。

两阶段训练

两段训练流程并不复杂,但调得很紧。第一阶段是在口语化推理轨迹上做监督微调,主题均衡采样覆盖开局、中局、残局以及各种战术主题;第二阶段是基于 DAPO 的 RLVR——一个为简洁输出而调的 GRPO 变体(保留 KL 项,去掉过长奖励整形)。跳过 SFT 直接 RL 几乎无效:SFT 提供了 RLVR 才有信号去强化的初始能力。

主要结果

在主题均衡的棋题集合上,C1-4B 用平均 178 个 Token 解决了 48.1% 的棋题。这个分数超过了 Gemini-3-Flash 教师,超过了所有开源模型,只落后于头部的前沿闭源系统。我们要讲的故事不是"棋题 SOTA"——而是"在给定的算力预算下,目前最好的解法"。

模型 准确率 平均 Token
C1-4B(本工作) 48.1% 178
Gemini-3-Flash(表达者 / "教师") 40.8%
GPT-5 85.2% 12,193
Gemini-3-Pro 78.2% 3,182
DeepSeek-Chat-v3.1 20.0% 11,249

主题均衡棋题准确率与平均输出长度。C1-4B 比 GPT-5 大约精简 100 倍,比 Gemini-3-Pro 精简 18 倍;另有一个 8B 变体,未在表中列出。

关键发现

  • RLVR 比 SFT-only 提升 +7.2 pp(40.9% → 48.1%)——第二阶段的提升真实存在,但前提是第一阶段已经把能力种进去了。
  • 学生可以超过它的"表达者"。这里的蒸馏不是能力压缩,而是能力迁移加上后续的强化。
  • 主题均衡采样很重要。没有它,RL 会过拟合到一小撮战术主题上。

意义

一种通用范式,先在国际象棋上做了演示。 只要存在一个确定性的专家系统——定理证明器、蛋白质设计、医疗决策支持——大师蒸馏都能成为一条把推理压缩成小而可解释模型的路径。国际象棋只是一个干净的实验台,方法本身才是贡献。
当基座模型太弱时,让 RLVR 真正能跑起来。 把专家口语化轨迹做成 SFT 数据,能给基座种下足够的能力让 RLVR 产生有效信号;跳过 SFT 直接 RL 等于让强化学习面对一个空白。这是对所有做"可验证奖励 RL"的人来说,最有可操作性的发现。
有意做小、有意做便宜。 4B 的开源模型并不是国际象棋上的 SOTA——但在给定预算下它就是 SOTA。而绝大多数生产部署的世界,正是"给定预算"的世界。