北大彭一杰教授課題組提出RiskPO,用風險度量優化重塑大模型后訓練
該項目由北京大學彭一杰教授課題組完成,第一作者為任韜,其他作者包括江金陽、楊暉等。
研究背景與挑戰:大模型后訓練陷入「均值陷阱」,推理能力難破界
當強化學習(RL)成為大模型后訓練的核心工具,「帶可驗證獎勵的強化學習(RLVR)」憑借客觀的二元反饋(如解題對錯),迅速成為提升推理能力的主流范式。從數學解題到代碼生成,RLVR 本應推動模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯 —— 但現實是,以 GRPO 為代表的主流方法正陷入「均值優化陷阱」。
這些基于均值的優化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:模型訓練早期就會出現熵坍縮,過早喪失探索能力;面對全錯的難題時,優勢函數直接歸零,模型在薄弱環節完全無法學習。最終結果是,大模型看似在 Pass@1 等短視指標上有提升,實則推理邊界從未拓寬,更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務。如何讓模型主動「啃硬骨頭」,成為大模型后訓練的關鍵瓶頸。

AIME2024 上的學習表現
技術方案概述:用「風險度量」破局,MVaR + 捆綁策略雙管齊下
為解決傳統均值優化的缺陷,北大團隊提出 RiskPO,核心突破在于將風險規避(risk-averse)理念融入優化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。

- 論文鏈接:https://arxiv.org/abs/2510.00911v1
- 代碼鏈接:https://github.com/RTkenny/RiskPO
這一思路的核心載體是「混合風險價值(MVaR)」目標函數。團隊首先基于區間風險價值(RVaR)構建基礎 —— 對于獎勵分布
,其 α/β 分位數區間
內的 RVaR 定義為該區間內獎勵的條件期望,公式為:

在此基礎上,MVaR 通過引入權重參數
,進一步放大左尾(低獎勵、難任務)的梯度信號,形成最終目標:

其中
即為對左尾區間
的額外關注權重,確保模型優先優化難任務。為讓該目標可落地,團隊還嚴謹推導了 MVaR 的梯度估計式子 —— 基于策略梯度的似然比求導方法,最終得到(式中
為捆綁后的總獎勵):

為配合 MVaR 目標,團隊提出「多問題捆綁」策略,將多個問題打包成 bundle 計算獎勵,把稀疏的二進制反饋轉化為更豐富的分布信號,徹底解決「難題零梯度」問題 —— 比如將 5 個數學題打包后,模型能從整體得分中捕捉到「部分正確」的學習信號,而非單個題目非對即錯的極端反饋。

算法架構圖
實驗:三大任務全面碾壓,難問題上優勢更顯著
好的技術方案,終要靠硬指標說話。北大團隊在數學推理、代碼生成、多模態推理三大領域的 10 余個數據集上,用數據證明了 RiskPO 的突破性 —— 尤其在最能體現推理能力的「硬任務」上,優勢遠超 GRPO 及其變體。
在數學推理領域,RiskPO 在 AIME24(美國數學邀請賽)任務上表現驚艷:Pass@32 得分比 GRPO 高出近 7 個百分點,比最強基線 DAPO 提升 6.7 個百分點;即便是相對簡單的 MATH500 數據集,其 Pass@1 也達到 81.8%,超出 GRPO 2.6 個百分點。
更關鍵的是,隨著評估指標從 Pass@1 轉向 Pass@8、Pass@16,RiskPO 的優勢持續擴大 —— 這意味著模型不僅能給出更優的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優化」的局限。

數學推理任務

Pass@k 學習曲線
在跨領域任務中,RiskPO 同樣穩定領先:代碼生成任務 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 個百分點;多模態幾何推理任務 Geo3K 上,準確率達到 54.5%,優于 DAPO 的 54.3%。這種「全場景增益」,證明了風險度量優化的泛化能力。

其他任務
理論 + 消融:熵坍縮緩解有依據,參數設計有章法
RiskPO 的性能突破,并非依賴工程調參,而是有扎實的理論支撐和嚴謹的消融實驗驗證。

高熵更新定理
從理論層面,團隊證明了「風險規避更新」能有效緩解熵坍縮:通過分析策略熵的變化機制,發現 RiskPO 的 MVaR 目標函數能降低「優勢 - 對數概率」的相關性 —— 相比 GRPO,模型不會過度強化已掌握的易任務,從而保持更高的熵值和探索能力。
實驗中也能清晰看到:訓練 500 步后,GRPO 的熵值已趨近于 0,而 RiskPO 仍能維持 0.2 以上的熵水平,確保對難任務的持續探索。

訓練集 DAPOMATH-17k 上的各項指標
值得注意的是,在訓練過程中,若僅觀察以均值為核心的指標曲線(如平均獎勵),GRPO 與 RiskPO 的表現幾乎難分伯仲,甚至 RiskPO 因更高的探索性還伴隨輕微波動;但切換到風險敏感指標(如下尾 RVaR、MVaR 獎勵)時,兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先,且隨訓練推進持續攀升。
這種「均值相近、風險指標懸殊」的現象,再結合最終測試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(如 AIME 競賽題)上的優勢,進一步印證了:均值目標只能讓模型在「已知能力范圍內優化采樣效率」,而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向。

不同風險偏好對比實驗
為進一步驗證風險規避目標的必要性,團隊還設計了「風險尋求(risk-seeking)」對比實驗:采用與 MVaR 結構對稱的風險尋求目標,即
,重點關注獎勵分布的右尾(易任務)。
結果顯示,風險尋求模型的熵值在訓練早期就劇烈坍縮 —— 訓練 150 步后熵值已降至 0.1 以下,遠低于 RiskPO 的 0.2;性能上,風險尋求模型在訓練 50 步后便進入平臺期,MATH 數據集 Pass@1 僅從 52% 提升至 54%,而 RiskPO 則持續優化至 56%,實現 1.5 倍的提升幅度。
這一對比清晰證明,聚焦易任務的風險尋求策略會加速模型「固步自封」,只有風險規避才能驅動模型突破推理邊界。




































