前沿大模型可以下棋,却很少能像棋手一样解释每一步。我们提出 C1:一个 4B 参数的开源模型,在主题均衡的棋题集合上取得 48.1% 准确率,每题约 178 个 Token——超过它的"老师" Gemini-3-Flash(40.8%),击败所有开源基线,并且输出 Token 大约比推理型 LLM 少两个数量级。背后的方法 Master Distillation(大师蒸馏)被定位为一种通用范式:只要某个领域已经存在确定性的专家系统,就可以借此把专家的推理灌入小模型。
研究背景
在已经存在专门求解器的领域——国际象棋引擎、定理证明器、化学模拟器——LLM 一直处于两种失败模式之间。纯神经棋手会回答"下哪一步",却讲不出理由;纯 LLM 解释起来头头是道,却经常给出违规走法。两者中间的空白叫做有据可循的推理:答案能被棋手认可,语言也是棋手会写的语言。
既往工作要么在 Stockfish 走法概率之上叠加链式思考提示,要么训练只输出走法的"裸动作"模型——前者的解释经不起推敲,后者根本不解释。两半都看得见,却没有一半是有据可循的。
方法
大师蒸馏(Master Distillation)
数据由两位"专家"协作生成。Stockfish(搜索深度 24)提供地面真值的最佳变化,Gemini-3-Flash 把这些变化口语化为自然语言推理链。学生模型——基座是 Qwen3-4B-Instruct-2507——只能看到口语化后的推理轨迹。Stockfish 是真值来源,Gemini 是表达者:把任意一方单独称作"老师"都会有所失真。
佯装发现式提示(Feigned Discovery Prompting)
教师 LLM 被要求装作不知道答案进行推理,同时暗中跟随 Stockfish 给出的轨迹。提示对长度(按棋题难度缩放至 4–10 句)、对棋盘坐标的显式引用、客观语气都有强约束,并禁止泄漏引擎评估或战术主题标签。结果读起来像棋手在思考一个局面,而不像在事后为答卷找理由。
教师"装作不知道答案"地推理——而学生继承了这个习惯。
两阶段训练
两段训练流程并不复杂,但调得很紧。第一阶段是在口语化推理轨迹上做监督微调,主题均衡采样覆盖开局、中局、残局以及各种战术主题;第二阶段是基于 DAPO 的 RLVR——一个为简洁输出而调的 GRPO 变体(保留 KL 项,去掉过长奖励整形)。跳过 SFT 直接 RL 几乎无效:SFT 提供了 RLVR 才有信号去强化的初始能力。
主要结果
在主题均衡的棋题集合上,C1-4B 用平均 178 个 Token 解决了 48.1% 的棋题。这个分数超过了 Gemini-3-Flash 教师,超过了所有开源模型,只落后于头部的前沿闭源系统。我们要讲的故事不是"棋题 SOTA"——而是"在给定的算力预算下,目前最好的解法"。
| 模型 | 准确率 | 平均 Token |
|---|---|---|
| C1-4B(本工作) | 48.1% | 178 |
| Gemini-3-Flash(表达者 / "教师") | 40.8% | — |
| GPT-5 | 85.2% | 12,193 |
| Gemini-3-Pro | 78.2% | 3,182 |
| DeepSeek-Chat-v3.1 | 20.0% | 11,249 |
主题均衡棋题准确率与平均输出长度。C1-4B 比 GPT-5 大约精简 100 倍,比 Gemini-3-Pro 精简 18 倍;另有一个 8B 变体,未在表中列出。
关键发现
- RLVR 比 SFT-only 提升 +7.2 pp(40.9% → 48.1%)——第二阶段的提升真实存在,但前提是第一阶段已经把能力种进去了。
- 学生可以超过它的"表达者"。这里的蒸馏不是能力压缩,而是能力迁移加上后续的强化。
- 主题均衡采样很重要。没有它,RL 会过拟合到一小撮战术主题上。