棋类引擎知道最佳着法,却讲不出道理;大模型健谈,却常常下错。大师蒸馏把两者的长处合到一个 4B 小模型身上。
发布重点
- 问题:棋类引擎知道答案,但不会解释;大模型会解释,却常常不懂棋。
- 方法:Stockfish 给真值,Gemini 把轨迹口语化,学生模型学习可验证推理。
- 发现:C1-4B 达到 48.1% 准确率,并超过用于生成轨迹的 Gemini-3-Flash。
- 意义:只要某个领域有可靠的专家程序,就能用同一范式把专家知识注入紧凑模型。
引擎像不会带徒弟的老师傅:算得准,讲不出。大师蒸馏把引擎知识翻译成自然语言推理,4B 模型学会简洁讲棋,并超过教师模型。研究页提供完整解读:领域背景、方法、关键图表与论文入口。
棋类引擎知道最佳着法,却讲不出道理;大模型健谈,却常常下错。大师蒸馏把两者的长处合到一个 4B 小模型身上。