小模型也能像棋手一样推理

Coolwei AI Lab · arXiv 预印本 · 2026 年 3 月

大师蒸馏:把 solver 专家知识变成可解释推理。

Grounded Chess Reasoning

Master Distillation 将 Stockfish 专家轨迹变成可训练的自然语言推理,让 4B 模型学会简洁棋题解释。

这篇论文讲什么?

问题:棋类引擎知道答案,但不会解释;LLM 会解释,却常常不懂棋。

方法:Stockfish 给真值,Gemini 把轨迹口语化,学生模型学习可验证推理。

发现:C1-4B 达到 48.1% 准确率,并超过用于生成轨迹的 Gemini-3-Flash。

意义:只要有强 solver,就能用同一范式把专家知识注入紧凑模型。

关键数字

4B Qwen3 基座 · 48.1% 棋题准确率 · +7.2 pp RLVR over SFT · ~178 平均输出 Token · ~100× 比 GPT-5 更精简

延伸阅读

arXiv:2603.20510

研究解读页:zh/research/grounded-chess.html