← 返回新闻 arXiv · 2026 年 4 月

ThinkTwice:让模型学会修正自己的答案

模型像只刷题、不检查卷子的学生:会解题,不会改错。ThinkTwice 用同一个对错奖励把“检查”练成能力,AIME pass@4 提升 11.5 个百分点。研究页提供完整解读:领域背景、方法、关键图表与论文入口。

研究解读arXiv推广稿
+11.5 ptAIME pass@4
5数学评测集
2模型家族
1单一奖励
+3%训练开销

人们期待 AI 在被提醒后能改对自己的答案,常规训练却给不出这种能力。ThinkTwice 把这件事直接写进训练目标。

发布重点

  • 问题:常规强化学习只奖励第一次作答,模型从未练习过复查和修正自己。
  • 方法:每道题先解一次,再把自己的输出喂回去修正;两步都只看最终对错。
  • 发现:Qwen3-4B 在 AIME pass@4 上总计提升 +11.5pt,其中精修提供额外增益。
  • 意义:不用批评模型、不用过程奖励、不用人工批评数据,自我精修可以直接训练。

继续阅读

研究页包含领域背景、方法、关键图表和论文入口;想快速分享,可使用图文版推广稿。

打开研究页打开推广稿