让模型真的学会再想一次
同一个正确性奖励,用两次。
ThinkTwice
把“再想一次”直接放进训练目标,同一二元正确性奖励先优化推理,再优化自我精修。
这篇论文讲什么?
问题:普通 RLVR 优化一次作答,却没有训练模型把第二次答案修得更好。
方法:每道题先解一次,再把自己的输出喂回去精修;两步都只看最终对错。
发现:Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt,其中精修提供额外增益。
意义:不用 critic、不用过程奖励、不用人工批评数据,自我精修可以直接训练。
关键数字
+11.5 pt AIME pass@4 · 5 数学评测集 · 2 模型家族 · 1 单一奖励 · +3% 训练开销
延伸阅读
研究解读页:zh/research/thinktwice.html