让模型真的学会再想一次

Coolwei AI Lab · arXiv 预印本 · 2026 年 4 月

同一个正确性奖励，用两次。

ThinkTwice

把“再想一次”直接放进训练目标，同一二元正确性奖励先优化推理，再优化自我精修。

这篇论文讲什么？

问题：普通 RLVR 优化一次作答，却没有训练模型把第二次答案修得更好。

方法：每道题先解一次，再把自己的输出喂回去精修；两步都只看最终对错。

发现：Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt，其中精修提供额外增益。

意义：不用 critic、不用过程奖励、不用人工批评数据，自我精修可以直接训练。

+11.5 pt AIME pass@4 · 5 数学评测集 · 2 模型家族 · 1 单一奖励 · +3% 训练开销

研究解读页：zh/research/thinktwice.html