小模型也能像棋手一样推理

Coolwei AI Lab · arXiv 预印本 · 2026 年 3 月

大师蒸馏：把 solver 专家知识变成可解释推理。

Grounded Chess Reasoning

Master Distillation 将 Stockfish 专家轨迹变成可训练的自然语言推理，让 4B 模型学会简洁棋题解释。

这篇论文讲什么？

问题：棋类引擎知道答案，但不会解释；LLM 会解释，却常常不懂棋。

方法：Stockfish 给真值，Gemini 把轨迹口语化，学生模型学习可验证推理。

发现：C1-4B 达到 48.1% 准确率，并超过用于生成轨迹的 Gemini-3-Flash。

意义：只要有强 solver，就能用同一范式把专家知识注入紧凑模型。

4B Qwen3 基座 · 48.1% 棋题准确率 · +7.2 pp RLVR over SFT · ~178 平均输出 Token · ~100× 比 GPT-5 更精简

研究解读页：zh/research/grounded-chess.html