小模型也能像棋手一样推理
大师蒸馏:把 solver 专家知识变成可解释推理。
Grounded Chess Reasoning
Master Distillation 将 Stockfish 专家轨迹变成可训练的自然语言推理,让 4B 模型学会简洁棋题解释。
这篇论文讲什么?
问题:棋类引擎知道答案,但不会解释;LLM 会解释,却常常不懂棋。
方法:Stockfish 给真值,Gemini 把轨迹口语化,学生模型学习可验证推理。
发现:C1-4B 达到 48.1% 准确率,并超过用于生成轨迹的 Gemini-3-Flash。
意义:只要有强 solver,就能用同一范式把专家知识注入紧凑模型。
关键数字
4B Qwen3 基座 · 48.1% 棋题准确率 · +7.2 pp RLVR over SFT · ~178 平均输出 Token · ~100× 比 GPT-5 更精简
延伸阅读
研究解读页:zh/research/grounded-chess.html