精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大彭一杰教授課題組提出RiskPO,用風險度量優化重塑大模型后訓練

人工智能 新聞
北大團隊提出 RiskPO,核心突破在于將風險規避(risk-averse)理念融入優化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。

該項目由北京大學彭一杰教授課題組完成,第一作者為任韜,其他作者包括江金陽、楊暉等。

研究背景與挑戰:大模型后訓練陷入「均值陷阱」,推理能力難破界

當強化學習(RL)成為大模型后訓練的核心工具,「帶可驗證獎勵的強化學習(RLVR)」憑借客觀的二元反饋(如解題對錯),迅速成為提升推理能力的主流范式。從數學解題到代碼生成,RLVR 本應推動模型突破「已知答案采樣」的局限,真正掌握深度推理邏輯 —— 但現實是,以 GRPO 為代表的主流方法正陷入「均值優化陷阱」。

這些基于均值的優化策略,過度聚焦高概率輸出序列,卻忽略了「低概率但高信息密度」的推理路徑:模型訓練早期就會出現熵坍縮,過早喪失探索能力;面對全錯的難題時,優勢函數直接歸零,模型在薄弱環節完全無法學習。最終結果是,大模型看似在 Pass@1 等短視指標上有提升,實則推理邊界從未拓寬,更無法應對 AIME 競賽題、復雜代碼生成這類高難度任務。如何讓模型主動「啃硬骨頭」,成為大模型后訓練的關鍵瓶頸。

AIME2024 上的學習表現

技術方案概述:用「風險度量」破局,MVaR + 捆綁策略雙管齊下

為解決傳統均值優化的缺陷,北大團隊提出 RiskPO,核心突破在于將風險規避(risk-averse)理念融入優化目標,用「關注獎勵分布左尾(難任務)」替代「追求整體均值」,從根本上引導模型突破推理短板。

  • 論文鏈接:https://arxiv.org/abs/2510.00911v1
  • 代碼鏈接:https://github.com/RTkenny/RiskPO

這一思路的核心載體是「混合風險價值(MVaR)」目標函數。團隊首先基于區間風險價值(RVaR)構建基礎 —— 對于獎勵分布 ,其 α/β 分位數區間  內的 RVaR 定義為該區間內獎勵的條件期望,公式為:

在此基礎上,MVaR 通過引入權重參數 ,進一步放大左尾(低獎勵、難任務)的梯度信號,形成最終目標:

其中  即為對左尾區間  的額外關注權重,確保模型優先優化難任務。為讓該目標可落地,團隊還嚴謹推導了 MVaR 的梯度估計式子 —— 基于策略梯度的似然比求導方法,最終得到(式中  為捆綁后的總獎勵):

為配合 MVaR 目標,團隊提出「多問題捆綁」策略,將多個問題打包成 bundle 計算獎勵,把稀疏的二進制反饋轉化為更豐富的分布信號,徹底解決「難題零梯度」問題 —— 比如將 5 個數學題打包后,模型能從整體得分中捕捉到「部分正確」的學習信號,而非單個題目非對即錯的極端反饋。

算法架構圖

實驗:三大任務全面碾壓,難問題上優勢更顯著

好的技術方案,終要靠硬指標說話。北大團隊在數學推理、代碼生成、多模態推理三大領域的 10 余個數據集上,用數據證明了 RiskPO 的突破性 —— 尤其在最能體現推理能力的「硬任務」上,優勢遠超 GRPO 及其變體。

在數學推理領域,RiskPO 在 AIME24(美國數學邀請賽)任務上表現驚艷:Pass@32 得分比 GRPO 高出近 7 個百分點,比最強基線 DAPO 提升 6.7 個百分點;即便是相對簡單的 MATH500 數據集,其 Pass@1 也達到 81.8%,超出 GRPO 2.6 個百分點。

更關鍵的是,隨著評估指標從 Pass@1 轉向 Pass@8、Pass@16,RiskPO 的優勢持續擴大 —— 這意味著模型不僅能給出更優的單條答案,還能探索更多有效推理路徑,真正突破了「采樣效率優化」的局限。

數學推理任務

Pass@k 學習曲線

在跨領域任務中,RiskPO 同樣穩定領先:代碼生成任務 LiveCodeBench 上,Pass@1 比 GRPO 提升 1 個百分點;多模態幾何推理任務 Geo3K 上,準確率達到 54.5%,優于 DAPO 的 54.3%。這種「全場景增益」,證明了風險度量優化的泛化能力。

其他任務

理論 + 消融:熵坍縮緩解有依據,參數設計有章法

RiskPO 的性能突破,并非依賴工程調參,而是有扎實的理論支撐和嚴謹的消融實驗驗證。

高熵更新定理

從理論層面,團隊證明了「風險規避更新」能有效緩解熵坍縮:通過分析策略熵的變化機制,發現 RiskPO 的 MVaR 目標函數能降低「優勢 - 對數概率」的相關性 —— 相比 GRPO,模型不會過度強化已掌握的易任務,從而保持更高的熵值和探索能力。

實驗中也能清晰看到:訓練 500 步后,GRPO 的熵值已趨近于 0,而 RiskPO 仍能維持 0.2 以上的熵水平,確保對難任務的持續探索。

訓練集 DAPOMATH-17k 上的各項指標

值得注意的是,在訓練過程中,若僅觀察以均值為核心的指標曲線(如平均獎勵),GRPO 與 RiskPO 的表現幾乎難分伯仲,甚至 RiskPO 因更高的探索性還伴隨輕微波動;但切換到風險敏感指標(如下尾 RVaR、MVaR 獎勵)時,兩者差距立刻凸顯 ——RiskPO 的曲線始終保持顯著領先,且隨訓練推進持續攀升。

這種「均值相近、風險指標懸殊」的現象,再結合最終測試集上 RiskPO 在 Pass@k(尤其是高 k 值)、難任務(如 AIME 競賽題)上的優勢,進一步印證了:均值目標只能讓模型在「已知能力范圍內優化采樣效率」,而風險度量目標才是推動模型突破推理邊界、真正提升核心能力的理想方向。

不同風險偏好對比實驗

為進一步驗證風險規避目標的必要性,團隊還設計了「風險尋求(risk-seeking)」對比實驗:采用與 MVaR 結構對稱的風險尋求目標,即  ,重點關注獎勵分布的右尾(易任務)。

結果顯示,風險尋求模型的熵值在訓練早期就劇烈坍縮 —— 訓練 150 步后熵值已降至 0.1 以下,遠低于 RiskPO 的 0.2;性能上,風險尋求模型在訓練 50 步后便進入平臺期,MATH 數據集 Pass@1 僅從 52% 提升至 54%,而 RiskPO 則持續優化至 56%,實現 1.5 倍的提升幅度。

這一對比清晰證明,聚焦易任務的風險尋求策略會加速模型「固步自封」,只有風險規避才能驅動模型突破推理邊界。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-29 22:38:59

2023-11-27 13:51:00

模型訓練

2025-02-18 09:10:00

2025-08-26 09:07:00

2024-08-23 09:20:00

AI搜索

2023-11-07 11:50:14

AI訓練

2025-09-22 17:03:09

2023-11-29 14:00:00

AI數據

2024-09-12 12:46:36

2025-03-27 10:28:32

2022-10-26 13:44:12

訓練模型

2025-08-15 12:38:58

2020-04-07 13:06:07

AWS藥物篩選新冠病毒

2024-09-27 10:31:22

2024-09-30 13:50:00

2024-08-07 13:00:00

2025-04-16 02:30:00

2025-10-24 13:04:00

2025-05-19 14:57:44

架構模型AI

2023-12-09 15:21:47

模型分子
點贊
收藏

51CTO技術棧公眾號

亚洲精品在线免费| 国产精品久久77777| 日本精品一二三| 成年女人在线看片| 欧美激情中文不卡| 亚洲一区亚洲二区| 天天干在线播放| 久久精品99久久无色码中文字幕| 欧美乱熟臀69xxxxxx| 小说区视频区图片区| 日本黄色三级视频| 久久精品国产99国产| 欧美富婆性猛交| 国产三级av在线播放 | 国产成人久久久精品一区| 免费看特级毛片| 天堂av一区二区三区在线播放| 欧美日韩高清影院| 国产精品沙发午睡系列| 国内精品久久久久久野外| 91在线你懂得| 成人午夜电影在线播放| 成人一级免费视频| aⅴ色国产欧美| 免费97视频在线精品国自产拍| 黄色在线观看av| 日本亚州欧洲精品不卡| 欧美三级在线看| 熟女少妇在线视频播放| 伊人春色在线观看| 国产精品美女久久福利网站 | 国产欧美一区二区精品久久久| 欧美一区二区国产| 中文字幕av不卡在线| 欧美a级在线观看| 亚洲国产精品天堂| 干日本少妇视频| 亚洲s色大片| 久久精品视频一区二区三区| 久久99精品久久久久久久青青日本| 91黄色在线视频| 日本成人中文字幕在线视频 | 亚洲影视资源| 欧美午夜精品久久久久久孕妇 | 99爱在线观看| 亚洲一区二区三区四区不卡| 国产奶头好大揉着好爽视频| 午夜伦理在线| 国产精品美女久久久久久久久| 日韩av一级大片| 精品电影在线| 欧美国产精品劲爆| 日韩欧美精品在线不卡 | 91麻豆精品激情在线观看最新| 欧美群妇大交群中文字幕| 午夜激情福利在线| 在线成人视屏| 日本精品一级二级| 无码少妇一区二区三区芒果| 97se综合| 色www精品视频在线观看| 99久久久无码国产精品6| 天堂av中文在线观看| 欧美日韩视频免费播放| 亚洲欧洲日产国码无码久久99| 忘忧草在线日韩www影院| 欧美日韩一区二区在线 | 国产精品久久乐| 欧美剧在线免费观看网站| 五月婷婷之婷婷| 国产va免费精品观看精品| 日韩三区在线观看| 女性生殖扒开酷刑vk| 欧美a级网站| 亚洲午夜性刺激影院| 娇小11一12╳yⅹ╳毛片| 在线看片不卡| 97国产精品视频人人做人人爱| 日本在线播放视频| 日本网站在线观看一区二区三区 | 国产美女撒尿一区二区| 亚洲人午夜精品| 国产精品1区2区3区4区| 欧美体内she精视频在线观看| 午夜剧场成人观在线视频免费观看| 草久久免费视频| 秋霞电影网一区二区| 亚洲在线第一页| 天天干天天爱天天操| 国产日韩欧美亚洲| 在线播放 亚洲| av剧情在线观看| 精品1区2区3区| 成人啪啪18免费游戏链接| 亚洲人成网www| 日韩视频在线一区| 欧美偷拍第一页| 亚洲欧美日本日韩| 国产三级精品网站| 天堂网av2014| 日韩毛片视频在线看| 欧美在线一区视频| 欧美综合影院| 日韩电影中文 亚洲精品乱码| 99精品全国免费观看| 国产精品mv在线观看| 国产精品福利无圣光在线一区| 国产三级午夜理伦三级| 久久毛片高清国产| 波多野结衣与黑人| 国产精品字幕| 亚洲精品一区二区三区香蕉| 黄大色黄女片18免费| 亚洲人妖在线| 成人黄色生活片| 激情综合闲人网| 午夜精品久久久久久久蜜桃app| 日本免费色视频| 国产成人高清| 97在线日本国产| www.97av| 亚洲免费在线观看| 亚欧激情乱码久久久久久久久| 欧美日韩导航| 久久久久国产视频| 国产一区二区三区中文字幕| 久久久一区二区三区| 免费看国产曰批40分钟| 4438全国亚洲精品观看视频| 深夜福利91大全| 一二三区免费视频| 91色在线porny| www.日本在线播放| 91精品国产自产精品男人的天堂| 久久久精品电影| 中文字幕你懂的| 欧美国产精品中文字幕| 久久黄色免费看| 免费久久精品| 欧美综合在线观看| 日本福利在线观看| 欧美视频在线观看 亚洲欧| 台湾佬美性中文| 欧美全黄视频| 91沈先生播放一区二区| 4438x成人网全国最大| 91精品国产手机| 久久福利免费视频| 国产伦精品一区二区三区视频青涩 | 亚洲已满18点击进入久久| 999在线精品视频| 久久久久久影院| 91色中文字幕| 女同一区二区免费aⅴ| 日韩欧美你懂的| 久久久久亚洲av成人片| 国产suv精品一区二区883| 黄色一级片黄色| 国产精品99久久免费观看| 久久久久久久网站| 欧美自拍偷拍一区二区| 精品久久久一区二区| 中文字幕高清视频| 日韩在线播放一区二区| 色综合久久av| 亚洲欧洲日韩精品在线| 久久最新资源网| 午夜精品在线播放| 天天免费综合色| 性欧美精品中出| 蜜臀av亚洲一区中文字幕| 特级黄色录像片| 精品久久对白| 国产不卡精品视男人的天堂| 日本最新在线视频| 欧美r级在线观看| 丰满少妇乱子伦精品看片| 国产三区在线成人av| 色播五月激情五月| 韩国精品一区二区三区| 免费国产在线精品一区二区三区| 免费污视频在线一区| 欧美另类精品xxxx孕妇| 男男激情在线| 欧美一区二区三区公司| 国产精品免费av一区二区| 久久久久久久久久久久久夜| 狠狠干狠狠操视频| 禁久久精品乱码| 视频一区二区综合| jazzjazz国产精品久久| 国产精品va在线| 丝袜国产在线| 亚洲欧美日韩中文在线| 99久久精品免费看国产交换| 精品人伦一区二区三区蜜桃网站| 黄色激情小视频| 99精品国产91久久久久久| 天堂网在线免费观看| 国产黄色免费视频| 国产精品99久久久久久似苏梦涵| 久久国产成人精品国产成人亚洲 | 精品一区二区三区四区在线| 在线免费看毛片| 欧美日韩另类在线| 爱爱视频免费在线观看| 久久免费午夜影院| 香蕉视频1024| 久久成人免费电影| 逼特逼视频在线| 欧美日韩99| 亚洲欧美国产精品桃花| 亚洲免费成人av在线| 成人国产1314www色视频| 青娱乐极品盛宴一区二区| 69久久夜色精品国产69| 怡红院av在线| 精品国产一区二区三区四区在线观看 | 亚洲欧美另类在线观看| 亚洲精品久久久久久久久久久久久久| 欧美日韩一级二级| 99超碰在线观看| 亚洲成人精品一区| 91aaa在线观看| 亚洲欧洲一区二区三区| 一级肉体全黄裸片| 久久在线观看免费| 少妇户外露出[11p]| 懂色av一区二区三区免费观看 | 精品视频在线观看一区二区| 欧美freesextv| 亚洲7777| 精品久久久久久久| 欧美一区二区在线视频观看| 另类图片第一页| 国产一区二区三区无遮挡 | 极品销魂美女一区二区三区| 91最新在线观看| 久久中文字幕一区二区三区| 免费在线观看的av网站| 香蕉国产精品偷在线观看不卡| 国产一区二区四区| 激情成人亚洲| 日韩av在线播放不卡| 亚洲网址在线| 真人抽搐一进一出视频| 在线日本成人| 激情深爱综合网| 亚洲欧美日本日韩| 妓院一钑片免看黄大片| 男女性色大片免费观看一区二区| 久草在在线视频| 美女一区二区三区| 九九九九九九九九| 国产一区视频在线看| 91香蕉国产线在线观看| 国产精品影音先锋| 涩视频在线观看| 播五月开心婷婷综合| 精品无码在线视频| 久久你懂得1024| 成人在线观看免费高清| 国产精品久久久久精k8| 三级影片在线看| 精品国产乱码久久久久久虫虫漫画| 国产成人在线免费观看视频| 欧美丝袜一区二区三区| 亚洲天堂视频在线播放| 欧美日韩国产天堂| 精品人妻一区二区三区含羞草 | 色的视频在线免费看| 久久不射电影网| 97蜜桃久久| 国产精品欧美激情在线播放| 国产精一区二区| 激情伦成人综合小说| 精品国产乱码久久久久久蜜坠欲下| 亚洲欧洲一区二区| 欧美人与禽猛交乱配视频| 草草久久久无码国产专区| 视频一区二区中文字幕| 国产成人在线综合| www.一区二区| 大吊一区二区三区| 亚洲国产婷婷综合在线精品| 青草视频在线观看免费| 欧美高清视频一二三区| 深夜福利视频网站| 最新国产成人av网站网址麻豆| 欧美亚洲系列| 国产精品久久久久久久一区探花 | 亚洲激情小视频| 中文字幕在线免费| 高清亚洲成在人网站天堂| 全球最大av网站久久| 高清av免费一区中文字幕| 一区二区三区韩国免费中文网站| 国产精品av免费| 久久国产欧美| 伊人久久久久久久久| 欧美极品少妇xxxxⅹ高跟鞋| 欧美激情一区二区视频| 在线视频综合导航| 亚洲精品一区二区三区新线路| 亚洲视频电影图片偷拍一区| 欧美6一10sex性hd| 国产区精品在线观看| 香蕉久久夜色精品国产使用方法| 中文字幕欧美人与畜| 免费亚洲视频| 久草视频福利在线| 亚洲三级在线免费| 日韩电影在线观看一区二区| 精品久久久久99| 亚洲视频tv| 国产精品69av| 婷婷成人在线| 免费看黄在线看| 国产成人精品免费在线| 在线观看天堂av| 色婷婷av一区| 日韩一二三四| 97视频在线观看播放| 网站一区二区| 欧美性受黑人性爽| 麻豆一区二区在线| 日本少妇色视频| 午夜成人免费电影| 性生交生活影碟片| 操91在线视频| 国产中文欧美日韩在线| 一区二区三区四区视频在线观看| 久久亚洲欧美| 成人免费网站黄| 亚瑟在线精品视频| 性一交一乱一色一视频麻豆| 久久视频免费观看| 白嫩亚洲一区二区三区| 亚洲一区二区三区精品在线观看| 日韩专区一卡二卡| 日韩中文字幕有码| 欧美亚洲国产bt| av资源种子在线观看| 国产精品久久久久久久久久久久久久 | 筱崎爱全乳无删减在线观看| 久久精品国产第一区二区三区最新章节| 黄色欧美成人| 污污污www精品国产网站| 亚洲午夜精品网| 天天操天天操天天干| 91av视频导航| 蜜桃一区二区| 欧美两根一起进3p做受视频| 国产欧美日韩卡一| 亚洲性生活大片| 久久视频在线免费观看| 欧州一区二区三区| 国产成人艳妇aa视频在线| 99精品在线观看视频| 无码人妻av免费一区二区三区| 国产亚洲美女久久| 日韩一区二区三免费高清在线观看| 在线视频不卡一区二区三区| 国产在线精品一区二区夜色| 久久久久成人精品无码| 亚洲国产精品va在线看黑人动漫 | 伊人免费在线| 亚洲综合在线小说| 亚洲欧洲一级| 免费观看a级片| 91麻豆精品国产自产在线| 色呦呦在线播放| 乱一区二区三区在线播放| 日韩高清中文字幕一区| 紧身裙女教师波多野结衣| 精品成人一区二区| 欧美黑人疯狂性受xxxxx野外| 亚洲综合欧美日韩| 高清在线不卡av| av一级在线观看| 插插插亚洲综合网| 久久1电影院| 激情 小说 亚洲 图片: 伦| 亚洲女子a中天字幕| 性感美女福利视频| 国产乱人伦真实精品视频| 伊人成年综合电影网| 能免费看av的网站| 日韩欧美一二三区| 日本电影欧美片| 久久久久久久久久久久久国产| 99re热这里只有精品视频| 影音先锋国产资源| 97欧美精品一区二区三区| 成人激情电影在线| 中文字幕在线视频播放| 欧美日韩中字一区| 成人免费网站观看| 欧美精品久久96人妻无码| 久久久久久影视|