AI數(shù)學(xué)能力暴漲100%,自進化直逼RL極限!CMU新作顛覆認(rèn)知
通往AGI最大的絆腳石,便是互聯(lián)網(wǎng)數(shù)據(jù)不夠用了!
DeepSeek-R1、OpenAI的o系推理模型出世,不再單純依賴人類標(biāo)注「標(biāo)準(zhǔn)答案」,而是通過RL實現(xiàn)破局。
但問題來了——當(dāng)前,LLM依然需要人類設(shè)計「正確信號」來指導(dǎo)訓(xùn)練。
如果問題復(fù)雜到人類都不知道答案,這些AI就只能抓瞎了。
為此,CMU聯(lián)手獨立研究員推出一套「自獎勵訓(xùn)練」(SRT)的全新方法,堪稱AI「自我修行」的秘籍!

論文地址:https://arxiv.org/pdf/2505.21444
它的核心思路是,讓LLM利用自身「自洽性」作為內(nèi)在的監(jiān)督信號,生成獎勵來優(yōu)化自己。
簡單來說,AI會像一個哲學(xué)家,盯著自己的答案自問:這個推導(dǎo)邏輯自洽嗎?有沒有漏洞?
然后,它會根據(jù)答案「自洽程度」給自己打分,再用分?jǐn)?shù)去不斷改進。
關(guān)鍵是,SRT完全不需要人類標(biāo)注的數(shù)據(jù),可以自然地應(yīng)用于「測試時訓(xùn)練」。
實驗結(jié)果讓人眼前一亮:在早期訓(xùn)練階段,SRT的性能與標(biāo)準(zhǔn)答案訓(xùn)練RL方法相媲美。
目前,研究團隊的代碼已公開。

地址:https://github.com/tajwarfahim/srt
自獎勵訓(xùn)練:AI自我修行秘籍
在沒有外部監(jiān)督的情況下,模型需要依靠自身來生成監(jiān)督信號。
直觀來說,如果模型能夠在其生成的多個答案中識別出更高質(zhì)量的答案,那么這種識別出的改進就可以作為訓(xùn)練信號。
這種情況自然地發(fā)生在具有正向「生成-驗證差距」的問題中,比如數(shù)學(xué)、邏輯推理和代碼生成任務(wù)。
一種簡單但有效的方法是利用多數(shù)投票來挖掘這種差距。實驗表明,這比單個模型生成的答案有更高的準(zhǔn)確性。
在本文的設(shè)置中,多數(shù)投票的步驟包括:
- 對每個提示采樣生成多個答案;
- 根據(jù)解析出的最終解決方案對答案進行分組;
- 用最常見的解決方案(眾數(shù))來估計真實答案。
自進化方法SRT
研究團隊提出了一種新穎的方法,把模型的自我改進過程設(shè)計成一個強化學(xué)習(xí)任務(wù)。
在這個過程中,標(biāo)簽并不是固定的,而是由模型不斷演變的多數(shù)投票結(jié)果動態(tài)生成的。
簡單來說,就是讓模型自己「投票」選出最好的答案,并用這些答案作為指導(dǎo),逐步提升自己的表現(xiàn)。
強化學(xué)習(xí)的每一輪操作可以簡單理解為以下步驟:
- 采樣一小批提示,然后用當(dāng)前模型為每個提示生成n個可能的答案。
- 通過「多數(shù)投票」的方式,找出每個提示下最常見的答案,作為臨時的「標(biāo)準(zhǔn)答案」(偽標(biāo)簽)。
- 檢查每個生成答案是否與多數(shù)投票的答案一致,如果一致就給它一個獎勵(用公式表示為:r(y) = 1[answer(y) = y_majority])。
- 根據(jù)這批數(shù)據(jù)和計算出的獎勵,更新一次模型,讓它變得更聰明。
具體來說,研究團隊設(shè)計了一種獎勵機制,巧妙利用模型自洽性來定義獎勵方式。這使得他們的方法能輕松適配常見的強化學(xué)習(xí)算法,比如PPO、RLOO、REINFORCE和REINFORCE+++。
另外,由于每個問題提示通常會生成16到64個答案,SRT跟其他基于標(biāo)簽的算法相比,不會增加額外的計算負(fù)擔(dān)。
只要每次強化學(xué)習(xí)迭代時,多數(shù)投票都能讓模型的生成結(jié)果比驗證結(jié)果更好一點,這種反復(fù)的自我獎勵就能持續(xù)提供有用的指導(dǎo)信號,幫助模型不斷進步。
雖然模型自我改進的前景令人振奮,但仍然有局限性:模型自生成的獎勵僅僅是衡量潛在正確性的代用指標(biāo)。
這種代用獎勵可能觸發(fā)「獎勵作弊」(reward hacking):模型為了最大化自身賦予的獎勵,會產(chǎn)出越來越自洽卻可能并不正確的答案。
總的來說,這項研究的貢獻有以下四點:
- 提出了一種簡單而有效的自訓(xùn)練強化學(xué)習(xí)方法——自獎勵訓(xùn)練(SRT)。該方法利用多個模型生成解之間的一致性來估計強化學(xué)習(xí)訓(xùn)練中的正確性,在沒有標(biāo)記數(shù)據(jù)的情況下提供自監(jiān)督信號。
- 通過實驗證明,在早期訓(xùn)練階段,SRT的性能可媲美使用標(biāo)準(zhǔn)答案訓(xùn)練的標(biāo)準(zhǔn)強化學(xué)習(xí)方法。
- 分析了自生成獎勵的局限性,揭示了模型的獎勵函數(shù)最初與正確性相關(guān),但可能會退化為僅反映置信度而非真實準(zhǔn)確性,導(dǎo)致獎勵作弊問題。
- 提出了緩解獎勵作弊的策略,為未來持續(xù)模型改進的方法奠定了基礎(chǔ)。
實驗結(jié)果
最新提出的SRT算法,其優(yōu)勢和局限是什么?
為此,研究人員基于Qwen2.5-Math-7B模型,展開了一系列研究,具體回答了以下四大核心問題:
- 與基于真實標(biāo)記的標(biāo)準(zhǔn)強化學(xué)習(xí)方法相比,SRT算法的有效性如何?對未見問題可以實現(xiàn)泛化嗎?
- 自我改進能否持續(xù)迭代從而實現(xiàn)性能的不斷提升?抑或這種改進存在固有上限?
- 哪些底層因素會影響自我改進的有效性?
- 當(dāng)SRT用于測試階段的性能提升時,實際效果如何?
基于多數(shù)投票的自訓(xùn)練
如下圖2所示,在MATH和AIME訓(xùn)練集上,自監(jiān)督SRT方法無需真實標(biāo)記信號,即可取得與基于真實標(biāo)記的強化學(xué)習(xí)相當(dāng)?shù)慕Y(jié)果。
值得注意的是,圖2的pass@1分?jǐn)?shù)均是在保留測試集上評估的,這表明自訓(xùn)練過程能穩(wěn)健地泛化到訓(xùn)練分布之外。

然而,DAPO數(shù)據(jù)集上的結(jié)果更為復(fù)雜。
具體而言,在DAPO上訓(xùn)練時,研究人員發(fā)現(xiàn)SRT算法在測試集上的性能,最初以與基于真實答案的標(biāo)準(zhǔn)RL相當(dāng)?shù)乃俣忍嵘?/span>
但在約400-600訓(xùn)練步時,SRT達到峰值性能后開始下降,而基于真實標(biāo)記的標(biāo)準(zhǔn)RL訓(xùn)練卻能持續(xù)提升。
總體而言,研究發(fā)現(xiàn)了一個引人注目且出人意料的趨勢:即使沒有任何標(biāo)注樣本,SRT的性能曲線在訓(xùn)練初期與基于標(biāo)準(zhǔn)答案的RL高度吻合。
在統(tǒng)計誤差范圍內(nèi),SRT在MATH和AIME'83-AIME'23數(shù)據(jù)集上的峰值測試pass@1分?jǐn)?shù)與有監(jiān)督RL方法基本持平。
在更具挑戰(zhàn)性的DAPO數(shù)據(jù)集上,SRT仍能達到RL最終性能的75%。
此外,在所有三個訓(xùn)練集上,SRT的峰值性能相比基礎(chǔ)模型都有約100%的相對提升。
SRT性能峰值后,異常現(xiàn)象分析
當(dāng)SRT在DAPO訓(xùn)練集上達到性能峰值后(見圖2),研究人員觀察到其測試準(zhǔn)確率開始顯著惡化。
事實上,在MATH-12k數(shù)據(jù)集上訓(xùn)練超過兩個epoch時,同樣會出現(xiàn)明顯的性能崩潰現(xiàn)象。
對于這種行為,作者給出一個簡單而精確的理論解釋:
由SRT目標(biāo)定義的強化學(xué)習(xí)優(yōu)化問題明確鼓勵輸出之間的一致性,而與正確性無關(guān)。
因此,在該目標(biāo)下的最優(yōu)策略是無論輸入如何都生成完全相同的響應(yīng),從而人為地獲得最大可能的獎勵。
因此,自然可以預(yù)期,在這種代理目標(biāo)下的持續(xù)訓(xùn)練可能導(dǎo)致這種退化解,尤其是當(dāng)優(yōu)化這一目標(biāo)比學(xué)習(xí)解決實際任務(wù)更容易時。

測試時自改進
自訓(xùn)練的一個誘人應(yīng)用,是通過測試時訓(xùn)練(test-time training)提升模型準(zhǔn)確率。
將SRT作為測試時訓(xùn)練技術(shù)應(yīng)用異常簡單:只需將無標(biāo)注測試集完全視作訓(xùn)練數(shù)據(jù)集,并直接應(yīng)用SRT。
接下來,研究人員對比了經(jīng)過SRT測試時訓(xùn)練后的多數(shù)投票性能,與未進行任何測試時訓(xùn)練的性能。
如下圖4顯示,在maj@32指標(biāo)下,相比直接對基礎(chǔ)模型生成輸出應(yīng)用主流多數(shù)投票基線,通過SRR實現(xiàn)的測試時訓(xùn)練能帶來相對有限,但仍可察覺的性能提升。
此外,在更大規(guī)模的測試數(shù)據(jù)集上,相較于基礎(chǔ)模型的多數(shù)投票,其性能增益更為顯著。

為何測試時訓(xùn)練不會引發(fā)性能崩潰?
有趣的是,測試時訓(xùn)練完成后,通過直觀檢查模型輸出可發(fā)現(xiàn):盡管模型對幾乎每個測試提示的預(yù)測都退化成了單一響應(yīng)(這正是SRT目標(biāo)的最優(yōu)解行為),但測試準(zhǔn)確率仍保持高位。
研究人員推測,測試時自訓(xùn)練的穩(wěn)定性源于數(shù)據(jù)集規(guī)模的關(guān)鍵差異。
以AIME24測試數(shù)據(jù)集為例,其僅含30個自改進樣本。
在此有限樣本量下,模型會通過強化特定CoT推,迅速收斂至這些樣本上的穩(wěn)定多數(shù)投票答案。
一旦達成收斂,SRT便無法獲得有意義的梯度信號以進一步更新參數(shù),從而自然穩(wěn)定了測試時性能。

相比之下,在大規(guī)模數(shù)據(jù)集常規(guī)訓(xùn)練時,持續(xù)輸入的新樣本會不斷驅(qū)使模型為一致性進行過度優(yōu)化。
在此條件下,模型傾向于采用過度簡化的泛化策略(生成相同的\boxed{}答案),最終因輸出與提示無關(guān)的單一預(yù)測而崩潰。
大模型崩潰,可以避免嗎?
那么,LLM是否可以避免崩潰?
如上所述,自獎勵訓(xùn)練(SRT)的優(yōu)化目標(biāo),可能導(dǎo)致初期性能顯著提升,但最終引發(fā)模型崩潰。
為此,研究人員探究了以下互補策略,以應(yīng)對模型崩潰問題,進一步提升自訓(xùn)練性能上限:
- 早停(Early Stopping)策略:利用少量帶標(biāo)注的驗證數(shù)據(jù)集監(jiān)測模型狀態(tài),及時終止訓(xùn)練以防止崩潰;
- 算法策略:通過采用穩(wěn)定基模型(而非持續(xù)更新的模型)生成的偽標(biāo)記,從根本上降低崩潰風(fēng)險;
- 數(shù)據(jù)驅(qū)動的課程學(xué)習(xí)(Curriculum Learning)策略:突破簡單早停的局限,通過漸進式學(xué)習(xí)機制提升模型性能。
早停策略
實驗中,即使僅使用少量標(biāo)注驗證數(shù)據(jù),也能有效識別自訓(xùn)練過程中的性能峰值點,從而規(guī)避模型崩潰風(fēng)險。
如圖6所示,通過在DAPO數(shù)據(jù)集上持續(xù)監(jiān)測訓(xùn)練過程并在多個測試集上進行評估,作者發(fā)現(xiàn)一個關(guān)鍵現(xiàn)象:
不同保留測試集上的性能峰值均出現(xiàn)在相近的訓(xùn)練步數(shù)。
這一規(guī)律表明,任意一個測試集都可用于早停決策。
具體而言,圖6中的垂直虛線展示了僅使用1%的DAPO數(shù)據(jù)作為驗證集的早停效果——此時模型在所有其他評估數(shù)據(jù)集上的性能仍保持接近最優(yōu)水平。

算法策略
模型崩潰的根源在于SRT(自訓(xùn)練強化學(xué)習(xí))過度強調(diào)一致性而非正確性——即使輸出結(jié)果錯誤,模型間的一致性也會被持續(xù)強化。
針對此問題,研究人員提出一種簡單有效的解決方案:從穩(wěn)定的固定檢查點(而非持續(xù)更新的策略)生成偽標(biāo)記。
具體實施中,他們采用Qwen2.5-Math-7B基模型,通過多數(shù)表決機制生成偽標(biāo)記,將這些離線生成的標(biāo)記存儲后用于后續(xù)強化學(xué)習(xí)訓(xùn)練。
圖7顯示,使用此類離線標(biāo)記不僅能顯著提升訓(xùn)練穩(wěn)定性,還能達到與SRT相當(dāng)?shù)哪P托阅堋?/span>
這一發(fā)現(xiàn)具有重要啟示:訓(xùn)練過程中動態(tài)更新偽標(biāo)記(在線標(biāo)注)未必能帶來顯著優(yōu)勢,反而可能成為訓(xùn)練不穩(wěn)定的誘因。

課程學(xué)習(xí)策略
此外,研究人員提出一個關(guān)鍵假設(shè):模型在更具挑戰(zhàn)性的數(shù)據(jù)集上訓(xùn)練時,崩潰現(xiàn)象會更快出現(xiàn)。
其內(nèi)在機理在于:面對高難度數(shù)據(jù)時,模型更容易放棄預(yù)訓(xùn)練知識,轉(zhuǎn)而通過優(yōu)化自一致性(而非真正學(xué)習(xí)解決任務(wù))來獲取獎勵。
基于此假設(shè),研究人員采用課程學(xué)習(xí),通過篩選DAPO數(shù)據(jù)集中「最簡單」的子集進行訓(xùn)練。
具體而言,他們保留根據(jù)以下兩個指標(biāo)選出的前1/3最簡單提示樣本:
- 基模型通過率(需真實標(biāo)記)
- 多數(shù)表決頻率(無需真實標(biāo)記)

如圖8所示,在這些簡單子集上訓(xùn)練能顯著延緩獎勵破解現(xiàn)象的出現(xiàn),使模型在多個訓(xùn)練周期內(nèi)持續(xù)提升。
值得注意的是,采用課程學(xué)習(xí)策略后,模型性能最終達到了與在整個DAPO數(shù)據(jù)集上使用真實標(biāo)記進行標(biāo)準(zhǔn)強化學(xué)習(xí)訓(xùn)練相當(dāng)?shù)乃健?/span>
這些突破性結(jié)果表明,課程學(xué)習(xí)策略有望進一步拓展SRT的效能邊界,為后續(xù)研究開辟了新的方向。




































