人们期待 AI 在被提醒后能改对自己的答案,常规训练却给不出这种能力。ThinkTwice 把这件事直接写进训练目标。
发布重点
- 问题:常规强化学习只奖励第一次作答,模型从未练习过复查和修正自己。
- 方法:每道题先解一次,再把自己的输出喂回去修正;两步都只看最终对错。
- 发现:Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt,其中精修提供额外增益。
- 意义:不用批评模型、不用过程奖励、不用人工批评数据,自我精修可以直接训练。
模型像只刷题、不检查卷子的学生:会解题,不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力,AIME pass@4 提升 11.5 个百分点。研究页提供完整解读:领域背景、方法、关键图表与论文入口。
人们期待 AI 在被提醒后能改对自己的答案,常规训练却给不出这种能力。ThinkTwice 把这件事直接写进训练目标。