让模型真的学会再想一次

Coolwei AI Lab · arXiv 预印本 · 2026 年 4 月

同一个正确性奖励,用两次。

ThinkTwice

把“再想一次”直接放进训练目标,同一二元正确性奖励先优化推理,再优化自我精修。

这篇论文讲什么?

问题:普通 RLVR 优化一次作答,却没有训练模型把第二次答案修得更好。

方法:每道题先解一次,再把自己的输出喂回去精修;两步都只看最终对错。

发现:Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt,其中精修提供额外增益。

意义:不用 critic、不用过程奖励、不用人工批评数据,自我精修可以直接训练。

关键数字

+11.5 pt AIME pass@4 · 5 数学评测集 · 2 模型家族 · 1 单一奖励 · +3% 训练开销

延伸阅读

arXiv:2604.01591

研究解读页:zh/research/thinktwice.html