精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS 25 | GRPO進階版來了,GVPO重構大模型后訓練范式

人工智能 新聞
GVPO 通過避免重要性采樣解決了 GRPO 的穩定性難題,并能在理論上提供了唯一最優解保證,并且在實驗中表現全面超越現有方法。

大模型后訓練(post-training)正在成為 AI 進化的關鍵一環。從最早的 SFT(監督微調),再到近來大火的 GRPO,一條核心主線貫穿始終:如何讓大模型具有更強的推理能力、更好地對齊人類偏好,同時保持穩定和高效。

然而,GRPO 雖然在 DeepSeek-R1 等項目中大放異彩,但其訓練不穩定、超參數敏感的問題一直限制其大規模落地。

現在,作業幫團隊聯合香港科技大學(廣州)在 NeurIPS 2025 上提出了全新方法:GVPO(Group Variance Policy Optimization)。GVPO 通過避免重要性采樣解決了 GRPO 的穩定性難題,并能在理論上提供了唯一最優解保證,并且在實驗中表現全面超越現有方法。

  • 論文標題: GVPO: Group Variance Policy Optimization for Large Language Model Post-Training
  • 論文鏈接:https://arxiv.org/abs/2504.19599
  • 作者:張愷晨、洪煜中、鮑軍威、蔣宏飛、宋旸、洪定乾、熊輝
  • 單位:作業幫教育科技有限公司、香港科技大學(廣州)

GVPO 設計動機

受到 DPO 的啟發,研究團隊也希望在 GRPO 的場景(即每個 prompt 進行多次采樣)下,同樣能夠利用 KL 約束下 Reward 最大化的解析解:

但這里存在一個實際困難:公式中涉及的 Z (x),它需要對所有可能的采樣 y 進行期望計算,在實踐中幾乎不可行。為了解決這個問題,研究團隊發現:只要保證同一個 prompt 下所有采樣對應的梯度權重之和為 0,Z (x) 就會自然消掉,從而規避了這一計算難題。

GVPO 是什么?

基于這一思路,研究團隊首先提出了以梯度形式表示的 GVPO Loss:

其中

研究團隊進一步分析后發現,GVPO 擁有非常直觀的物理意義。其 Loss 等價于一個均方誤差損失(MSE Loss):

其中:

  • 真實值來自實際獎勵的中心距離;
  • 預測值來自隱式獎勵(由當前策略與參考策略推導)。

換句話說,GVPO 在本質上是用 MSE Loss 讓「隱式獎勵」去逼近「真實獎勵」。

兩大關鍵優勢

1. 唯一最優解保證

基于 GVPO 的 MSE 形式,研究團隊從必要性和充分性兩方面嚴格證明:當且僅當 R_θ=R 時,GVPO 達到唯一最優解。換句話說,GVPO 的理論最優解正是 KL 約束下的獎勵最大化的解。這一點在數學上確保了算法的有效性與穩定性,也為其在實際應用中的可靠表現提供了堅實保障。

2. 無須重要性采樣

研究團隊進一步發現,GVPO 的唯一最優解對訓練時的采樣分布幾乎沒有限制。除了常見的和前一步,GVPO 還能適配任意滿足條件的分布 —— 而這種條件在當代大模型的 Softmax 解碼過程中天然成立。

這意味著 GVPO 能夠天然支持無需重要性采樣的 off-policy 訓練,在充分利用人類專家數據、蒸餾數據和歷史數據的同時,避免了重要性采樣常見的訓練不穩定問題,從而更契合大規模工業級應用場景。

三種分析視角:從不同角度理解 GVPO

研究團隊發現 GVPO 的核心思想可以從三個互補的分析視角來理解,每一種都對應著圖中展示的等價損失函數:

1. 負對數似然視角(NLL)

在這個視角下,GVPO 的損失函數可以表示為帶權重的負對數似然。一個關鍵點是:帶 KL 約束的 Policy Gradient 實際上可以看作 GVPO 在 on-policy 采樣下的特例。換句話說,GVPO 不僅涵蓋了傳統策略梯度方法的更新方式,還進一步解耦了采樣分布與學習策略,從而允許靈活地整合歷史數據和異構數據源,為大模型后訓練打開了更高效的訓練方式。

2. 均方誤差視角(MSE)

從 MSE 角度看,GVPO 的優化目標等價于最小化「隱式獎勵中心距離」與「實際獎勵中心距離」的偏差。這一解釋帶來直觀的物理含義:當隱式獎勵完全對齊實際獎勵時,損失達到最小。更重要的是,這種設計保證了 GVPO 收斂到唯一的、KL 約束下的全局最優解,為穩定訓練提供了理論保證。

3. 強化學習視角(RL)

RL 視角揭示了 GVPO 損失函數的三大組成部分:

  • 組相對獎勵項:推動高回報響應占據更大概率;
  • 方差正則項:自然引入適度探索,避免熵塌縮;
  • 協方差正則項:作為正則化,抑制策略過度偏離參考策略,保障訓練穩定性。

這三種視角共同說明:GVPO 既有理論保證,又兼具靈活性和穩定性,將復雜的優化過程轉化為可解釋的數學框架。

實驗結果:全面勝出

研究團隊在數學推理任務上進行了系統對比。基座模型為 Qwen2.5-Math-7B,在 AIME2024、AMC、MATH500、Minerva、OlympiadBench 五個基準測試中:

GVPO 全面領先,不僅大幅提升基座模型表現,還超過 GRPO 和改進版 Dr.GRPO。在復雜推理任務中優勢尤為明顯。

此外,消融實驗顯示:

  • GVPO 對超參數 β 不敏感,幾乎無需繁瑣調參。(Figure 2)
  • GVPO 在采樣數量 k 增加時擴展性優異,并且小模型甚至能靠增加采樣追平大模型表現。(Figure 3)
  • GVPO 支持混合采樣策略(歷史數據 + 新數據),進一步降低成本,并且連接了現代大模型研究和傳統強化學習探索策略研究。(Figure 4)

意義與前景

一句話總結:GVPO 讓后訓練從「經驗驅動」走向「理論保證」,既「穩」又「強」。

在大模型邁向通用智能的道路上,后訓練已經成為競爭焦點。GVPO 的提出,可能預示著下一代后訓練的范式轉變:

  • 更穩定 → 降低大規模訓練的工程風險
  • 更靈活 → 支撐更復雜的數據利用場景
  • 更高效 → 在推理和對齊中獲得更佳的性價比

研究團隊認為,GVPO 為可靠、通用的大模型后訓練提供了全新范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-01 09:21:20

2023-06-09 07:29:03

模型文本document

2025-11-11 08:45:00

2025-10-16 09:04:15

2025-04-10 16:23:02

2025-09-02 08:57:00

AI模型訓練

2024-12-18 07:20:00

2023-10-25 09:50:07

自動駕駛訓練

2023-09-12 13:43:00

智能技術

2025-04-16 02:30:00

2025-02-07 13:45:58

2025-11-12 08:56:15

2025-07-08 08:42:00

模型AI訓練

2022-07-07 14:06:39

LiBai模型庫

2025-04-29 09:12:00

2025-08-08 09:06:00

2025-10-16 09:00:00

2025-04-03 15:40:41

機器學習大模型DeepSeek
點贊
收藏

51CTO技術棧公眾號

色欲av永久无码精品无码蜜桃| 亚洲综合图片一区| jk漫画禁漫成人入口| 国产日韩欧美亚洲| 亚洲一区二区三区视频| 黄网站免费在线| 欧美理论视频| 日韩精品一区二区三区swag | 色综合天天天天做夜夜夜夜做| 日本不卡在线观看| 精品久久久中文字幕人妻| 亚洲免费一区二区| 欧美大片va欧美在线播放| 国产精品探花一区二区在线观看| 国产成人精选| 欧美日韩黄色大片| 九九久久九九久久| 福利小视频在线观看| 成人精品电影在线观看| 国产精品视频1区| 国产成人在线免费观看视频| 99久久国产综合精品成人影院| 亚洲精品xxxx| 欧美高清精品一区二区| av在线日韩| 亚洲成年人网站在线观看| 欧美 日韩 国产 在线观看| 男男激情在线| 99re8在线精品视频免费播放| 国产一区二中文字幕在线看| 日韩一区二区视频在线| 欧美日韩国产免费观看| 日韩在线资源网| 99久久人妻无码精品系列| 99ri日韩精品视频| 欧美一级理论片| 黄色永久免费网站| 四虎4545www精品视频| 舔着乳尖日韩一区| 国产中文字幕乱人伦在线观看| 欧美边添边摸边做边爱免费| 国产蜜臀97一区二区三区 | 免费看的av网站| 日韩黄色碟片| 在线电影国产精品| 国产精品v日韩精品v在线观看| 三级成人黄色影院| 一本到高清视频免费精品| 午夜精品久久久久久久无码| 国精产品一区一区三区mba下载| 亚洲精品成a人| 中文字幕精品—区二区日日骚| 91xxx在线观看| 国产精品女同互慰在线看| 日韩欧美在线电影| 国产黄在线看| 国产欧美一区二区在线| 日韩欧美一区二区在线观看| www在线播放| 欧美激情自拍偷拍| 一区二区三区av在线| 中文字幕在线免费| 成人免费在线视频| 男女爱爱视频网站| 欧美色图天堂| 精品久久久久久亚洲国产300| 夜夜添无码一区二区三区| 暧暧视频在线免费观看| 欧美日韩在线影院| 国产aaa一级片| 日本在线精品| 欧美日韩一区不卡| 99中文字幕在线| 国语一区二区三区| 亚洲精品小视频| 中文字幕伦理片| 91精品国产调教在线观看| 欧美成人精品一区二区| 精品一区二区三区人妻| 亚洲专区免费| 国产精品美女网站| 国产精品久久免费| 成人精品一区二区三区四区 | 午夜一区二区视频| 91成人福利| 日韩精品免费在线| 亚洲色图27p| 欧美日韩精品一本二本三本| 欧美性受xxx| 中文字幕一区二区三区四区视频 | 老司机精品影院| 亚洲一区免费观看| 最近免费中文字幕中文高清百度| 九七电影院97理论片久久tvb| 日韩一区二区三区四区五区六区| 精品中文字幕在线播放| 日本成人小视频| 欧美精品videos| 一级特黄免费视频| 国产91精品一区二区麻豆网站| 久久久人人爽| a级网站在线播放| 色综合天天综合网天天狠天天| 91亚洲精品久久久蜜桃借种| 日韩丝袜视频| 久久成人国产精品| 中文字幕精品无| 不卡在线观看av| 超碰成人在线免费观看| 少妇视频一区| 正在播放一区二区| 色婷婷在线影院| 狠狠入ady亚洲精品经典电影| 欧美一区二粉嫩精品国产一线天| 国产免费一区二区三区免费视频| 91麻豆swag| 男人天堂a在线| 欧美a视频在线| 亚洲午夜av久久乱码| 国产网站在线看| 国产一区二区三区蝌蚪| 日韩精品久久久毛片一区二区| caoporn-草棚在线视频最| 884aa四虎影成人精品一区| 四虎影成人精品a片| 在线日韩欧美| 国产91亚洲精品一区二区三区| 欧美三级黄网| 日本高清不卡一区| 中文文字幕文字幕高清| 欧美先锋影音| 亚洲自拍高清视频网站| 91在线观看| 色嗨嗨av一区二区三区| www.超碰97| 国产午夜精品一区二区三区欧美| a级国产乱理论片在线观看99| 国产区在线看| 欧美精品在线视频| 性少妇xx生活| 美女精品自拍一二三四| 日韩免费三级| 国产激情久久| 中日韩午夜理伦电影免费 | 亚洲精品v天堂中文字幕| 欧美精品乱码视频一二专区| 国产伦精品一区二区三区在线观看| 一本一道久久a久久综合精品 | 欧美三级欧美一级| 老熟妇一区二区| 日韩激情av在线| 日韩国产欧美精品| 成人做爰免费视频免费看| 亚洲人午夜精品| 无码人妻av免费一区二区三区| 久久久久久久久久久久久久久99| 北条麻妃在线一区| 国产一区二区三区四区五区传媒 | 亚洲天堂av资源在线观看| 欧美理论电影在线播放| 精品欧美在线观看| 亚洲一区在线观看免费 | 国产三级在线观看视频| 亚洲人吸女人奶水| 韩国一区二区三区四区| 亚洲精品美女91| 欧美日韩精品久久久免费观看| 天天综合网天天| 色妞久久福利网| 国产福利资源在线| 精品福利在线视频| 中文字幕人妻一区二区三区在线视频| 老司机精品视频一区二区三区| 色乱码一区二区三区熟女| 亚洲高清在线一区| 97超级碰在线看视频免费在线看| 麻豆导航在线观看| 欧美精品在线观看一区二区| 久久久国产精品人人片| 99国产欧美另类久久久精品 | 国产精品久久久久久99| 国产日本一区二区| www.五月天色| 亚洲专区免费| 97精品国产97久久久久久粉红| av在线亚洲色图| 国产成人拍精品视频午夜网站 | 国产探花在线观看视频| 亚洲第一区色| 亚洲看片网站| 福利欧美精品在线| 国产精品免费小视频| 色呦呦视频在线观看| 亚洲视频视频在线| 国产熟女一区二区三区五月婷| 狠狠色狠狠色综合日日小说| 亚洲精品国产精品乱码在线观看| 成人免费视频caoporn| 性欧美videossex精品| 国产主播一区| 亚洲 国产 欧美一区| 成人爽a毛片免费啪啪红桃视频| 国产精品2018| 第一中文字幕在线| 日韩小视频在线| 涩爱av在线播放一区二区| 3atv一区二区三区| 亚洲不卡在线视频| 亚洲综合视频在线观看| 午夜精品久久久久99蜜桃最新版| 成人av网在线| 国产老头和老头xxxx×| 日本aⅴ免费视频一区二区三区| 丰满少妇大力进入| 91成人超碰| 日韩欧美在线观看强乱免费| 麻豆成人入口| 亚洲综合av影视| 丁香婷婷久久| 777777777亚洲妇女| 中文字幕中文字幕在线中高清免费版 | 激情婷婷综合| 久久国产精品久久精品国产| 一区二区在线视频观看| 91探花福利精品国产自产在线| 主播大秀视频在线观看一区二区| 97国产在线视频| 在线观看中文字幕的网站| 中文字幕在线看视频国产欧美在线看完整 | jizz内谢中国亚洲jizz| 高清在线视频日韩欧美| 中文在线字幕免费观看| 俺去亚洲欧洲欧美日韩| av免费观看一区二区| 亚洲色图第一页| 欧美在线观看在线观看| 日韩激情av在线播放| 欧美一区二区三区成人片在线| 日韩欧美一级二级| a级片免费视频| 日韩视频免费直播| 国产高清第一页| 日韩视频不卡中文| 亚洲国产精品久久久久久6q| 日韩三级免费观看| 精品国产99久久久久久宅男i| 91精品婷婷国产综合久久竹菊| 国产精品久久无码一三区| 69av一区二区三区| 999国产精品视频免费| 日韩一区二区免费在线观看| 国产精品玖玖玖| 欧美一区二区在线免费观看| av资源免费看| 亚洲国产精久久久久久| 天堂网www中文在线| 亚洲美女久久久| 番号集在线观看| 精品国内自产拍在线观看| 1区2区在线观看| 欧美精品激情blacked18| 99re6在线精品视频免费播放| 亚州欧美日韩中文视频| 中国字幕a在线看韩国电影| 日韩免费视频在线观看| 91tv亚洲精品香蕉国产一区| 国产精品一久久香蕉国产线看观看| 久久电影天堂| 99影视tv| 偷拍视屏一区| 亚洲国产婷婷香蕉久久久久久99| 日韩在线高清| 国产 国语对白 露脸| 一本不卡影院| 超碰超碰在线观看| 国产成人免费av在线| 手机av免费看| 国产精品不卡一区| jizz国产免费| 色婷婷一区二区| 国产日韩欧美视频在线观看| 亚洲高清福利视频| 国产高清在线观看| 欧美高清videos高潮hd| 韩国主播福利视频一区二区三区| 国产精品视频久久| 亚洲国产视频二区| 日韩精品av一区二区三区| 欧美1区2区3区| 白嫩少妇丰满一区二区| 国内不卡的二区三区中文字幕| 亚洲av成人精品一区二区三区| 国产欧美精品在线观看| 青青草激情视频| 色天天综合色天天久久| av中文字幕第一页| 尤物九九久久国产精品的特点| 丰满的护士2在线观看高清| 国产精品久久久久av免费| 日韩三级久久| 亚洲 国产 欧美一区| 亚洲电影av| 亚洲av无日韩毛片久久| 久久众筹精品私拍模特| 亚洲xxxx3d动漫| 无码av免费一区二区三区试看| 亚洲性猛交富婆| 亚洲黄页视频免费观看| 成人在线视频亚洲| 国产精品青草久久久久福利99| 久9re热视频这里只有精品| 亚洲午夜精品一区二区| 欧美一级视频| 亚洲香蕉中文网| 亚洲精选视频免费看| 中文字幕在线天堂| 亚洲精品久久久久久下一站| 羞羞网站在线看| 国产精品亚洲自拍| av中字幕久久| 国产aaa一级片| 91丝袜呻吟高潮美腿白嫩在线观看| 国产综合在线视频| 人妻精品一区一区三区蜜桃91| 日韩一区二区精品视频| 粉嫩一区二区三区| 久久精品magnetxturnbtih| 国产综合精品| 三上悠亚 电影| 亚洲欧美激情在线| 一级片视频播放| 中文字幕亚洲精品| 欧美日韩免费观看视频| 日本一区二区三区四区在线观看| 99国产精品视频免费观看一公开 | 99精品人妻少妇一区二区| 国产a精品视频| 免费在线一级片| 精品免费一区二区三区| 手机在线免费观看av| 97se亚洲综合在线| 欧美精品综合| 国产婷婷在线观看| 亚洲国产精品久久久久秋霞影院 | 可以看毛片的网址| 丁香五精品蜜臀久久久久99网站 | 国产主播一区二区三区四区| 亚洲国产午夜| 粉嫩av懂色av蜜臀av分享| 午夜激情一区二区三区| 五月天婷婷在线观看| 51精品在线观看| 欧美男同视频网| 午夜免费一区二区| 中文字幕在线观看一区| 99国产在线播放| 国产做受高潮69| 偷拍亚洲色图| 日本特黄a级片| 亚洲天堂av一区| 高潮毛片7777777毛片| 欧美性做爰毛片| 精品免费视频| 亚洲一区二区中文字幕在线观看| 亚洲黄色尤物视频| 色婷婷综合视频| 国产97色在线|日韩| 久久高清免费| 亚洲高清无码久久| 欧美午夜视频在线观看| 尤物在线视频| av在线不卡观看| 久久久久在线| 日本福利片在线观看| 精品欧美一区二区在线观看| 中文不卡1区2区3区| 一区二区三区久久网| 国产成人av资源| 国产一级一级国产| 久久精品国产欧美亚洲人人爽| 成人三级毛片| 久久99爱视频| 亚洲一区二区视频| 黄网在线观看| 5g影院天天爽成人免费下载| 午夜在线观看免费一区| 四虎影院中文字幕| 日韩精品高清在线| 成人污版视频| 欧美 国产 日本| 亚洲日本va在线观看| 四虎电影院在线观看| 国产在线精品自拍| 亚洲精选成人| 亚洲色偷偷综合亚洲av伊人| 日韩电视剧免费观看网站| 玖玖精品在线| 日韩欧美一区三区| 亚洲欧美成人一区二区三区| 免费黄色片在线观看|