← 返回研究 推理训练 · Master Distillation

Grounded Chess Reasoning

棋类引擎像位顶尖老师傅:活儿无可挑剔,却带不出徒弟。大师蒸馏让一个 4B 小模型同时学会下对与讲清。

arXiv GitHub
4BQwen3 基座
48.1%棋题准确率
+7.2 ppRLVR over SFT
~178平均输出 Token
~100×比 GPT-5 更精简

国际象棋引擎的棋力超过人类世界冠军已有多年,但问一句“这步为什么最好”,它只会给出一个评估数值。人类教练会讲解,大模型也健谈,可一到具体棋局就频频出错。Grounded Chess Reasoning 研究的正是这道沟:能否让一个 4B 的小模型,既像引擎一样下对,又像教练一样讲清?

引擎会下棋,但讲不出道理

这道沟并非棋类独有。许多专业领域都有“算得准但不会教”的专家系统(solver——能给出确定正确答案的专家程序):它们给出的答案可靠,却无法用人类语言解释依据。就像一位手艺顶尖的老师傅,活儿做得无可挑剔,却说不清“为什么要这么做”,徒弟在旁边看十年也学不会。把专家系统的确定性知识,翻译成人能读懂、模型能学习的推理,是一个相当普遍的问题。

国际象棋恰好是研究这个问题的理想试验场。棋题有唯一的最佳首步,对错可以由引擎即时验证;与此同时,棋类推理对大模型并不友好——直接做 RLVR(可验证奖励强化学习——只按最终答案对错给分),训练几乎无法启动。难度与可验证性的组合,让 chess 成为检验“先蒸馏专家过程、再用可验证奖励强化”的合适场景。

大师蒸馏:把专家知识翻译成推理

大师蒸馏(Master Distillation)把两类系统组合起来:Stockfish(最强的开源国际象棋引擎,棋力远超人类冠军)提供确定性真值——哪一步是最佳着法;Gemini-3-Flash 把引擎的判断口语化,写成自然语言推理轨迹;4B 参数的学生模型 C1 再向这些轨迹学习。

训练分两个阶段。第一阶段在口语化专家轨迹上做监督微调(SFT——用示范文本直接教模型模仿);第二阶段用可验证奖励做 RLVR 强化。顺序很重要:跳过第一阶段直接强化学习基本无效——基座太弱时奖励信号无从放大,这正是所谓的冷启动问题。SFT 先把能力种进去,RLVR 才有信号可以放大。

训练数据的构成同样讲究。棋题的主题分布天然失衡,常见战术主题会淹没稀有主题;论文用主题均衡采样(算法 1)保证稀有主题在训练数据中占有一席之地。

算法 1 主题均衡数据采样(Theme-Balanced Data Sampling)
输入:数据集 D,每道棋题 p 带有主题集合 T(p)
输入:需要均衡的稀有主题数量 K
输入:每个主题的最大采样数 M
输出:均衡子集 Dbal
  1. 统计每个主题 t 的频率:f(t) ← |{p ∈ D : t ∈ T(p)}|
  2. 选出最稀有的 K 个主题:Trare ← arg minK f(t)
  3. 初始化已选棋题 ID 集合:S ← ∅
  4. 初始化输出:Dbal ← ∅
  5. for 每个主题 t ∈ Trare do
  6. 取候选集 Ct ← {p ∈ D : t ∈ T(p) ∧ id(p) ∉ S}
  7. Ct 中无放回采样 min(M, |Ct|) 道棋题
  8. 并入输出:Dbal ← Dbal 采样所得棋题
  9. 登记已选 ID:S ← S ∪ {id(p) : p ∈ 采样所得棋题}
  10. end for
  11. return Dbal

一个 4B 模型的成绩

在主题均衡的评测集上,C1-4B 取得 48.1% 的棋题准确率,超过表中多数前沿大模型,也超过为它生成训练轨迹的 Gemini-3-Flash(40.8%)。强化阶段在 SFT 基础上再提升 7.2 个百分点。

Table 1. 不同难度与模型的性能对比
ModelBeginnerIntermediateAdvancedExpertTheme-SplitAvg AccAvg Tokens
gpt-595.084.054.031.085.276.712,193
gemini-3-pro88.086.070.044.078.275.43,182
gemini-3-flash65.059.034.019.038.040.86,418
gpt-5-chat52.039.027.018.041.838.3925
gemini-2.5-pro37.031.029.019.031.030.19,668
claude-sonnet-4.532.029.015.011.028.625.63,227
claude-sonnet-435.019.016.010.026.823.88,028
claude-haiku-4.533.024.014.011.025.623.38,111
gemini-2.5-flash9.04.06.05.08.27.29,991
deepseek-chat-v3.127.021.06.016.022.020.011,249
qwen3-next-80b-a3b24.014.014.08.017.616.413,938
deepseek-r1-052811.010.014.016.016.014.614,442
qwen3-max22.015.03.016.013.813.93,393
llama-4-maverick12.08.05.010.08.68.71,092
mistral-medium-3.19.06.07.04.08.07.32,818
llama-4-scout0.00.00.01.00.40.3806
gemma-3-27b0.00.00.00.00.00.0705
C1-SFT-4B51.030.030.026.046.240.9188
C1-SFT-8B57.036.027.027.046.642.2189
C1-4B65.039.039.022.053.648.1178

输出长度同样值得注意:C1 平均每题约 178 个 token(token——模型输出文本的计量单位,约合半个到一个词),比推理型大模型短约两个数量级,更接近人类棋手用两三句话讲清一步棋的方式。消融实验(Table 2)还显示,数据规模与主题均衡都对最终能力有实质影响。

Table 2. SFT 数据配置消融
ScaleDistributionQualityContextSFT
8krandomflashfull19.3
8khardflashfull16.2
8kbalancedprofull22.8
8kbalancedflashfull20.1
16kbalancedflashfull29.7
8kbalancedflashMulti PVs17.6
8kbalancedflashw/o Theme17.3
8kbalancedflashw/o Feigned16.3
39kbalancedflashfull40.9
C1 与大模型在准确率和模型规模上的比较
论文原图。C1-4B 在参数规模很小的情况下接近或超过大得多的模型。
C1 平均准确率结果
论文原图。主题均衡评测中,C1-4B 超过所有开源基线,并超过 Gemini-3-Flash 教师。
  • 小模型,强推理。4B 模型达到 48.1% 主题均衡棋题准确率。
  • 解释更像人类棋手。平均输出约 178 token,比推理型大模型短两个数量级。
  • 学生可以超过表达者。Stockfish 的真值与 RLVR 的奖励共同让 C1 超过 Gemini-3-Flash。

棋盘之外的含义

Master Distillation 不只属于 chess。只要某个领域有强专家系统和可验证答案,就有机会把专家能力蒸馏给小模型。
解决 RLVR 冷启动。当基座模型太弱时,先给它高质量专家轨迹,再让奖励放大能力。
贴近真实部署预算。很多系统不能部署最大模型;4B 级别的专业推理能力有现实意义。

查看代码与论文

代码与数据已开放,适合复现实验或迁移到其他有 solver 的专业领域。

arXiv GitHub