大模型推理學(xué)習(xí)新范式！ExGRPO框架：從盲目刷題到聰明復(fù)盤

2025-10-23 14:05:35

實驗結(jié)果顯示，與傳統(tǒng)的在線策略RLVR（基于可驗證獎勵的強化學(xué)習(xí)）方法相比，ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。尤其在一些極具挑戰(zhàn)性的任務(wù)（如AIME數(shù)學(xué)競賽題）上，提升效果更為明顯，證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

大模型在強化學(xué)習(xí)過程中，終于知道什么經(jīng)驗更寶貴了！

來自上海人工智能實驗室、澳門大學(xué)、南京大學(xué)和香港中文大學(xué)的研究團隊，最近提出了一套經(jīng)驗管理和學(xué)習(xí)框架ExGRPO——

通過科學(xué)地識別、存儲、篩選和學(xué)習(xí)有價值的經(jīng)驗，讓大模型在優(yōu)化推理能力的道路上，走得更穩(wěn)、更快、更遠(yuǎn)。

實驗結(jié)果顯示，與傳統(tǒng)的在線策略RLVR（基于可驗證獎勵的強化學(xué)習(xí)）方法相比，ExGRPO在不同基準(zhǔn)上均帶來了一定程度的性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)（如AIME數(shù)學(xué)競賽題）上，提升效果更為明顯，證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

而且該研究也揭示了一些有趣的現(xiàn)象，比如滾雪球效應(yīng)。

不過在展開之前，我們先來回答一個核心問題——

大模型推理的下一步，為什么我們需要“經(jīng)驗驅(qū)動”的訓(xùn)練方法？

2025年初以來，賦能大模型推理能力的技術(shù)路線以基于可驗證獎勵的強化學(xué)習(xí)（Reinforcement Learning from Verifiable Rewards）為主導(dǎo)。

簡單來說，就是讓模型像個學(xué)生一樣，不斷地“刷題”（生成推理步驟），然后由“判卷老師”（獎勵模型）來打分，模型根據(jù)分?jǐn)?shù)高低調(diào)整自己的“解題思路”。

但RLVR存在一個天然缺陷：經(jīng)驗浪費。

在標(biāo)準(zhǔn)的RLVR訓(xùn)練中，模型生成的推理軌跡（Rollouts）只會被使用一次，之后就被丟棄。這意味著模型從來不會回頭復(fù)盤，甚至不記得自己是如何答對或答錯的。

以現(xiàn)實世界作比，它們像一個只做新題、從不復(fù)習(xí)的學(xué)生。每當(dāng)模型做完一道題，無論這道題的解法多么精妙、多么有啟發(fā)性，都可能都會在一次參數(shù)更新后，把這次寶貴的“解題經(jīng)驗”忘得一干二凈。

這種“學(xué)完就忘”的模式，由于Rollout代價昂貴不僅導(dǎo)致了計算資源浪費，也讓訓(xùn)練過程變得非常不穩(wěn)定。

因此，學(xué)會“溫故而知新”，讓模型根據(jù)“錯題本”，把每一次寶貴的成功經(jīng)驗都內(nèi)化為自己的能力對訓(xùn)練效率和能力提升都至關(guān)重要。

值得注意的是，強化學(xué)習(xí)著名學(xué)者David Silver和Richard S. Sutton在《Welcome to the Era of Experience》的Position Paper中提到：

人類數(shù)據(jù)正在用盡，經(jīng)驗將是下一個超級數(shù)據(jù)源，是能夠為AI帶來能力提升的下一個突破口。

但是，一個看似簡單卻被忽視的問題是：

既然經(jīng)驗這么重要，那么什么樣的經(jīng)驗才值得反復(fù)學(xué)習(xí)？在大模型全面鋪開應(yīng)用的當(dāng)下，面對經(jīng)驗這個超級數(shù)據(jù)源的增長，其量級和高復(fù)雜性之高是我們不得不考慮的因素。

針對這一挑戰(zhàn)，ExGRPO框架應(yīng)運而生。

圖1. 主流人工智能范式的簡要時間軸示意圖。縱軸表示該領(lǐng)域總投入和計算資源中專注于強化學(xué)習(xí)（RL）的比例。截取自David Silver, Richard S. Sutton. Welcome to the Era of Experience.

什么樣的“經(jīng)驗”才是好經(jīng)驗？

在設(shè)計一個“復(fù)習(xí)”系統(tǒng)前，我們首先要搞清楚一個根本問題：

對一個正在學(xué)習(xí)推理的模型來說，什么樣的“解題經(jīng)驗”才是最有價值的？是不是所有做對的題目都值得反復(fù)回味？

為了找到答案，該工作進行了一系列有趣的探索性實驗（見圖2），并發(fā)現(xiàn)，一份“高質(zhì)量”的經(jīng)驗，其價值體現(xiàn)在兩個關(guān)鍵維度上：問題的難度和解題路徑的質(zhì)量。

問題的甜蜜點：中等難度的問題

作者把模型在訓(xùn)練中遇到的問題，根據(jù)它當(dāng)下的“正確率”動態(tài)地分成了三類：簡單題（正確率>75%）、中等題（25%-75%）和難題（<25%）。

然后，分別只用這三類問題來進行On-Policy RLVR訓(xùn)練模型。

結(jié)果一目了然：只刷“中等難度”問題的模型，最終性能提升最大。

這也符合一般直覺，簡單題模型通常已經(jīng)掌握了，反復(fù)練習(xí)邊際效益遞減，容易“學(xué)廢”；對于難題，遠(yuǎn)超模型當(dāng)前能力，強行學(xué)習(xí)容易讓模型“受挫”，產(chǎn)生胡亂猜測的壞習(xí)慣。

而中等難度的題恰好處于模型的最近發(fā)展區(qū)，既有挑戰(zhàn)性，又能通過努力解決，是學(xué)習(xí)效率最高的甜蜜點。

解題路徑的“自信度”：低熵軌跡

另一方面，同樣是做對一道題，解題過程（下文也稱為軌跡）的質(zhì)量也千差萬別。

有的解法思路清晰、一步到位；有的則繞來繞去、充滿了不確定性，甚至可能是蒙對的。如何量化這種解題思路的質(zhì)量呢？

外部的強模型也許是一個選擇，但是在訓(xùn)練中使用代價過高并且會拖慢速度。

為了找到可靠的在線代理指標(biāo)，作者以較強能力的Qwen3-32B模型作為參考：評價推理過程的對錯，并看看有沒有內(nèi)源性的在線指標(biāo)能夠和外部Judge的判斷正相關(guān)。

在此，作者發(fā)現(xiàn)推理軌跡的Token平均熵是一個優(yōu)秀的指標(biāo)，在所有做對的題目中，那些推理過程邏輯更正確的解法，其對應(yīng)的熵值顯著更低。

進一步地，高熵軌跡很多時候只是幸運的瞎猜，反復(fù)學(xué)習(xí)這些軌跡不僅沒有幫助，反而可能污染模型的邏輯能力。

圖2：模型經(jīng)驗=問題+對應(yīng)推理過程。什么才是“好問題”和“好推理過程”？ (a) 使用中等難度問題訓(xùn)練的模型性能最佳。(b) 邏輯正確的推理過程通常表現(xiàn)出更低的熵值。 (c) 中等難度推理正確的熵值也更密集于低熵值區(qū)域。

這樣符合我們的認(rèn)知直覺：在人類學(xué)習(xí)中，難度適中的題目、邏輯清晰的解法，往往是最高效的學(xué)習(xí)材料。太簡單的題目讓人停滯不前，太難的題目則令人無從下手。

ExGRPO框架: 為模型打造的“高價值錯題本+溫習(xí)系統(tǒng)”

基于上述洞見，作者設(shè)計了ExGRPO框架，包含了兩個核心部件：經(jīng)驗管理和混合經(jīng)驗優(yōu)化。

△圖3：ExGRPO框架概覽：經(jīng)驗管理 + 策略優(yōu)化

經(jīng)驗管理：精挑細(xì)選，分類歸檔

作者將模型經(jīng)驗定義為問題+對應(yīng)推理過程，分兩個層級進行經(jīng)驗的管理和挑選，具體它分為三步：

1、經(jīng)驗收集：ExGRPO會建立一個“經(jīng)驗回放池”，像一個巨大的“錯題本”，專門收集模型在訓(xùn)練過程中所有成功的推理案例。這也是傳統(tǒng)強化學(xué)習(xí)和先前相關(guān)工作中均擁有的基礎(chǔ)機制。

2、經(jīng)驗劃分與存儲：根據(jù)每個問題最新的“在線正確率”，將經(jīng)驗池中的問題動態(tài)地劃分到不同的“難度分區(qū)”里。這就像給錯題本按章節(jié)和難度進行分類。這樣，所有經(jīng)驗都被貼上了“簡單”、“中等”、“困難”的標(biāo)簽，管理起來一目了然。

同時，為了防止模型在簡單問題上“刷分”而產(chǎn)生過擬合，ExGRPO還擁有一個“退休機制”（Retired Set），將模型已經(jīng)完全掌握（例如連續(xù)多次全部成功解答）的問題移出學(xué)習(xí)隊列，讓模型始終聚焦于更具挑戰(zhàn)性的任務(wù)。

3、經(jīng)驗篩選：按照之前分析實驗得到的啟示和洞見，ExGRPO從兩個層次挑選經(jīng)驗：

問題篩選：利用高斯分布概率模型，有偏地優(yōu)先從中等難度的分組中抽取問題。這樣能確保模型總是在學(xué)習(xí)效率最高的甜蜜點上。
軌跡篩選：對于選出的問題，如果它歷史上有多個成功解法，只挑選出當(dāng)前模型看來熵最低的那一個，也就是最篤定清晰的那個解法。

通過這套精細(xì)化管理，確保了每次復(fù)習(xí)的都是最高質(zhì)量的黃金經(jīng)驗。

混合策略優(yōu)化目標(biāo)：溫故而知新

選好了復(fù)習(xí)材料，接下來就是如何復(fù)習(xí)經(jīng)驗了。

ExGRPO采用了一種混合策略的優(yōu)化目標(biāo)，除了對重要性采樣進行修正外，在每一次訓(xùn)練迭代中，Mini-Batch中一部分計算資源用于讓模型探索全新的問題（On-policy），另一部分則用于學(xué)習(xí)從經(jīng)驗池中精心篩選出的經(jīng)驗（Off-policy）。

巧妙地平衡了探索新知（On-Policy Exploration）和復(fù)習(xí)舊識（Experience Exploitation）。

圖4：ExGRPO混合策略優(yōu)化目標(biāo)。ρ代表經(jīng)驗在Mini-Batch優(yōu)化中的混合比例。

這種“一半時間學(xué)新，一半時間復(fù)習(xí)”的模式，讓模型既能不斷拓展認(rèn)知邊界，又能持續(xù)鞏固和內(nèi)化已有的成功經(jīng)驗，從而在保證訓(xùn)練穩(wěn)定性的同時，極大地提升了學(xué)習(xí)效率。

此外，作者還引入了策略塑形（Policy Shaping）機制，確保模型在復(fù)習(xí)過往成功經(jīng)驗時，不會變得過于僵化，喪失探索創(chuàng)新的能力。

ExGRPO實驗結(jié)果和分析：更強、更穩(wěn)、更高效

作者在6個不同規(guī)模（1.5B到8B）和架構(gòu)（Qwen、Llama）的模型（Base、Instruct）上，對ExGRPO進行了全面的測試，涵蓋了從AIME、MATH等數(shù)學(xué)推理的 benchmark，到GPQA、MMLU-Pro等通用推理benchmark。

與傳統(tǒng)的在線策略RLVR方法相比，平均所有模型和測試集，ExGRPO相對于On-Policy方法（Dr. GRPO)，分別帶來了+3.5和+7.6個點的分布內(nèi)、分布外性能提升。

尤其在一些極具挑戰(zhàn)性的任務(wù)（如AIME數(shù)學(xué)競賽題）上，提升效果更為明顯，證明了ExGRPO在攻克復(fù)雜推理難題上的有效性。

△表1：ExGRPO在多個數(shù)學(xué)與通用推理基準(zhǔn)上的性能表現(xiàn)

△圖5：ExGRPO在不同模型架構(gòu)和尺寸上的泛化能力

賦能強模型

即使是在已經(jīng)很強的模型（如經(jīng)過外部R1軌跡數(shù)據(jù)作為RLVR引導(dǎo)的LUFFY）上進行持續(xù)學(xué)習(xí)，ExGRPO依然能帶來穩(wěn)定的性能增益，而標(biāo)準(zhǔn)的在線RL方法反而會導(dǎo)致性能下降。

“救活”弱模型

此外，作者發(fā)現(xiàn)對于像Llama-3.1 8B Base基模，由于其初始推理能力較弱，標(biāo)準(zhǔn)的On-Policy強化學(xué)習(xí)方法根本無法進行有效訓(xùn)練，很快就會訓(xùn)練崩潰。

而ExGRPO憑借其經(jīng)驗回放機制，能夠捕捉到早期偶然的lucky hits，并將其作為寶貴的學(xué)習(xí)信號反復(fù)利用，最終成功地將模型“救活”并穩(wěn)定地提升其性能。

圖6：在Llama-3.1 8B訓(xùn)練過程中On-Policy與ExGRPO的學(xué)習(xí)動態(tài)對比。ExGRPO能夠穩(wěn)定訓(xùn)練并獲得更高的獎勵，而On-Policy則容易出現(xiàn)訓(xùn)練崩潰。

此外，該研究也揭示了一些有趣的現(xiàn)象，比如滾雪球效應(yīng)。高熵的經(jīng)驗中，經(jīng)常包含著一些看似正確但邏輯上有瑕疵的步驟（比如在數(shù)學(xué)題里濫用代碼塊來黑箱計算）。

如果讓模型反復(fù)學(xué)習(xí)這些經(jīng)驗，就會像滾雪球一樣，讓錯誤的推理習(xí)慣根深蒂固。ExGRPO的經(jīng)驗篩選機制，切斷了這種錯誤學(xué)習(xí)的路徑。

迎接“經(jīng)驗即媒介”的AI新時代

正如強化學(xué)習(xí)領(lǐng)域的先驅(qū)David Silver和Richard Sutton所言：

我們正處于一個新時期的風(fēng)口浪尖，在這個時期，經(jīng)驗將成為能力提升的主要媒介。

團隊表示，ExGRPO的核心貢獻，是為模型推理能力的提升，提供了一套系統(tǒng)性的、基于經(jīng)驗的學(xué)習(xí)框架。有理由相信， Principled Experience Management（有原則的經(jīng)驗管理）將成為未來構(gòu)建更強大、更高效的AI模型訓(xùn)練生態(tài)中的關(guān)鍵一環(huán)。

它不再讓寶貴的成功經(jīng)驗付諸東流，而是通過智能地識別、管理和重放高價值經(jīng)驗，像錯題本一般，讓模型真正擁有了“溫故而知新”的能力。

這不僅顯著提升了訓(xùn)練的效率和穩(wěn)定性，也為我們打開了通往更強大、更通用的人工智能的一扇新窗。

論文：https://arxiv.org/pdf/2510.02245
Code：https://github.com/ElliottYan/LUFFY/tree/main/ExGRPO
模型：https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

責(zé)任編輯：武曉燕來源：量子位

大模型 ExGRPO框架系統(tǒng)