← 返回新闻 arXiv · 2026 年 4 月

ThinkTwice：让模型学会修正自己的答案

模型像只刷题、不检查卷子的学生：会解题，不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力，AIME pass@4 提升 11.5 个百分点。研究页提供完整解读：领域背景、方法、关键图表与论文入口。

研究解读 arXiv 推广稿

+11.5 ptAIME pass@4

5数学评测集

2模型家族

1单一奖励

+3%训练开销

人们期待 AI 在被提醒后能改对自己的答案，常规训练却给不出这种能力。ThinkTwice 把这件事直接写进训练目标。

发布重点

问题：常规强化学习只奖励第一次作答，模型从未练习过复查和修正自己。
方法：每道题先解一次，再把自己的输出喂回去修正；两步都只看最终对错。
发现：Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt，其中精修提供额外增益。
意义：不用批评模型、不用过程奖励、不用人工批评数据，自我精修可以直接训练。

继续阅读

研究页包含领域背景、方法、关键图表和论文入口；想快速分享，可使用图文版推广稿。

打开研究页打开推广稿