精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首次結合RL與SFT各自優勢,動態引導模型實現推理?效訓練

人工智能 新聞
華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

劉子儒博士畢業于香港城市大學數據科學專業,導師為趙翔宇教授及數學家周定軒教授。目前就職于華為香港研究所小藝團隊,負責 RLVR 算法與擴散語言模型方向的研究。龔成目前在香港城市大學攻讀博士學位,導師為張青富教授。期間在華為香港研究所小藝團隊進行研究實習,負責RLVR算法方向的研究。

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在復雜推理方面取得了顯著進展。該方向核心是一種名為 ZERO-RL 的訓練方法,即采用可驗證獎勵強化學習(RLVR)逐步提升大模型在強推理場景 (math, coding) 的 pass@1 能力。相較于依賴高質量人工數據或從強大模型中提煉出的思維鏈的監督微調(SFT),基于強化學習(RL)的后訓練在增強推理能力方面表現出更強的泛化性。

然而,目前以 Group Relative Policy Optimization (GRPO) 為代表的 RLVR 方法通常面臨兩個局限點:1. 訓練數據難度與模型能力之間存在差距,導致獎勵稀疏從而阻礙了學習過程的穩定性。2. 單純基于 On-policy 強化學習算法的樣本效率低下,這對于端側小模型而言尤為突出。

為此,華為香港研究所小藝團隊、諾亞方舟實驗室與香港城市大學合作推出了 GHPO 算法框架,實現了在線強化學習與模仿學習的融合,并且能夠自適應地進行切換。

圖片

GHPO 不僅能大幅提升端側模型的樣本利用效率,同時針對性緩解了目前 RLVR 方法中的獎勵稀疏現象。通過難度感知與動態引導模塊設計,GHPO 不僅提升了模型訓練過程中的穩定性,并且在 6 個不同的開源數學推理 Benchmark 上實現提升,尤其在 GPQA-Diamond 和 AMC23 上分別提升 9% 和 10%。該方法進一步被證明可以適用于不同難度分布的訓練數據集與多個模型類別。

圖片

具體方法

在 RL 中引入模仿學習

源自于對在線強化學習算法與基于模仿學習方法的思考,該團隊發現在傳統 GRPO 算法的訓練過程中,只有正確答案本身被用來提供監督信號,而標準解題過程未被利用。因此,團隊提出了一個全新思路:通過將標準解題過程直接整合到強化學習循環中,來解決之前提到的獎勵稀疏問題,并進一步提出假設:模型訓練過程中通過標準解題過程的提示,從而獲得有效的學習信號。并且該方法能提升模型在推理任務上的泛化能力。

后續通過一系列的實驗證明該假設確實可行。

GHPO 算法框架

然而,以上的離線方案需要預先將一組訓練數據集中的樣本進行難度劃分,并始終對其應用固定比例的提示。從而導致該方案無法實現全局最優的效果與有效的拓展。因此,該團隊進一步提出了引導式混合策略優化(GHPO),實現了動態樣本難度評估,并自適應地在強化學習和模仿學習之間切換。

圖片

如圖所示,GHPO 由兩個核心模塊組成:

  • 自動化難度檢測該模塊評估當前問題的內在難度,從而決定后續的學習過程。該模塊不需要提前標準或引入其他大模型作為輔助,僅需要基于每個樣本生成的解答的分布即可進行難度分類。該方案既能實現高效訓練且隨模型能力同步演進。
  • 自適應提示切換根據檢測到的難度,該模塊通過整合不同級別的標準解題路徑來引導模型進行探索學習。團隊提出了一種具有多階段指導的自適應提示優化策略,該策略動態調整提示比例 ω。這種動態提示注入的核心思想是一個由學習階段控制的線性調度。訓練過程中會首先應用一小部分真實解作為初始提示,如果模型未能生成正確響應,提示的長度將在后續階段逐漸增加。

基于以上的創新方案,GHPO 的目標函數可以表達為以下形式:

圖片

這種創新方法確保僅在模型真正需要時才提供對應指導,為模型當前能力范圍內的任務保留了有價值的探索,同時為更具挑戰性的場景提供了自適應的優化。

評測表現全面超越 GRPO 算法,代碼數據全面開源

GHPO 的代碼實現基于 Openr1 項目,訓練框架的選擇為 TRL,使用 vLLM 進行推理加速。團隊在 TRL 的代碼邏輯上直接實現了 GHPOTrainer,后續有望在 TRL 后續版本上集成。

實驗設計上,基于 Qwen2.5-7B-base 模型進行了多種 RLVR 算法的實現,包括 GRPO、DeepScaleR 的課程學習,以及固定比例提示作為基線,并基于開源數據準備了兩種不同難度設定的訓練集,驗證了 GHPO 算法在 6 個主流數學 Benchmark 上的表現:

圖片

圖片

結果表明 GHPO 算法相較于 GRPO 可以實現平均 4.5% 的性能提升。

圖片

同時 GHPO 在訓練過程中有著更加穩定的梯度更新。并且團隊進一步證明該算法可以應用到其他模型上,如 Qwen2.5-Math-7B。

進一步提供了詳細的案例展示:

圖片

總結與展望:GHPO 推動了強化學習與 SFT 之間的借鑒融合

自從 DeepSeek-R1 問世后,以 GRPO 為代表的強化學習算法一度成為大模型后訓練的熱點,相較于 SFT,被認為能帶來更強的模型泛化能力。GHPO 不僅以一種巧妙地方式緩解了 RLVR 訓練獎勵信號稀疏帶來的訓練不穩定問題,同時實現了 on-policy 強化學習與模仿學習的自適應調整,為社區提供重新看待 SFT 與 RL 的視角以及提供兩者未來深度融合的可能性,助力人類進一步探索人工智能本質。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-06-06 04:10:00

LLM人工標注RL

2025-09-22 10:44:20

2025-09-16 10:09:00

2025-10-28 09:21:02

2025-06-18 02:30:00

推理能力強化學習大語言模型

2025-01-21 09:36:51

2025-07-22 08:50:00

AI模型框架

2025-02-10 09:35:00

2025-06-04 13:56:06

英偉達訓練模型

2025-09-10 09:10:00

2024-11-01 20:25:28

2025-08-04 08:49:00

2025-06-10 09:05:00

2025-06-05 08:40:00

2025-03-06 01:00:00

2025-05-12 14:23:42

AI算法訓練

2023-01-05 09:33:37

視覺模型訓練

2025-11-18 10:00:56

點贊
收藏

51CTO技術棧公眾號

捆绑调教一区二区三区| 91视频综合| 色婷婷av一区| 最新国产精品久久| 日韩中文字幕综合| 日韩av在线播放中文字幕| 久久这里有精品| 无码人妻精品一区二区三区温州| 成人福利一区二区| 亚洲国产欧美日韩另类综合 | 亚洲影院久久精品| 欧美不卡三区| www夜片内射视频日韩精品成人| 9久re热视频在线精品| 久久精品精品电影网| 日韩精品电影一区二区| 97人人澡人人爽91综合色| 欧美一a一片一级一片| 国产精品国三级国产av| 日本高清中文字幕在线| www.视频一区| 91九色蝌蚪成人| 日批视频免费观看| 六月婷婷一区| 97视频网站入口| 青草草在线视频| 日韩在线观看一区| 国产亚洲精品久久久久久777| 97精品人人妻人人| 免费一级欧美在线大片| 欧美区在线观看| 美女一区二区三区视频| 亚洲天堂av在线| 午夜成人免费电影| 91午夜在线观看| 日本天码aⅴ片在线电影网站| 国产精品少妇自拍| 亚洲国产精品视频一区| 国产日本在线视频| 国产亚洲成年网址在线观看| 国产欧美精品一区二区三区| va视频在线观看| 国产伦精品一区二区三区在线观看| 国产精品一区二区久久国产| 国产精品无码一区| 丝袜亚洲另类欧美| 国产精品xxx视频| 午夜精品一区二| 亚洲欧美视频| 国产不卡av在线免费观看| 久久久久99精品成人片三人毛片| 在线亚洲精品| 欧美一级大片视频| 日本一区二区免费电影| 免费在线亚洲欧美| 日韩美女免费线视频| 欧美黄色一级大片| 日韩国产精品久久久久久亚洲| 国产成人精品a视频一区www| 日本高清不卡码| 久久中文精品| 26uuu亚洲国产精品| 亚洲天堂一区在线观看| 久久国产66| 国产精品成人观看视频国产奇米| 国产精品高清无码| 国产一区二区三区黄视频 | 午夜精品123| 日本精品免费在线观看| 色香欲www7777综合网| 欧美色倩网站大全免费| 国产九九九视频| 久9re热视频这里只有精品| 精品在线观看国产| 欧美人妻一区二区三区| 亚洲成人av| 欧美激情在线一区| 无码人妻精品一区二区三区蜜桃91 | 成人av动漫| 亚洲欧美一区二区精品久久久| 免费福利视频网站| 女同性一区二区三区人了人一 | 亚洲国产精品成人无久久精品| 在线免费观看欧美| 国产成人精品一区二区在线| 一级全黄裸体免费视频| 成人a区在线观看| 日韩欧美精品一区二区| 3d玉蒲团在线观看| 色综合天天性综合| 成人免费播放视频| 久久91麻豆精品一区| 久久天堂av综合合色| 日韩精品1区2区| 久久av资源站| 美脚丝袜一区二区三区在线观看| 视频一区二区三区不卡| 精品久久久久国产| 91网址在线观看精品| 亚洲v天堂v手机在线| 久久电影一区二区| 精品人妻一区二区色欲产成人| 久久国内精品视频| 玖玖玖精品中文字幕| 50度灰在线| 欧美偷拍一区二区| 国产麻豆剧传媒精品国产av| 亚欧美无遮挡hd高清在线视频 | ccyy激情综合| 中文字幕久久亚洲| 黄色在线观看国产| 粉嫩一区二区三区性色av| 日日噜噜噜噜夜夜爽亚洲精品| 日本性爱视频在线观看| 欧美日本韩国一区| 熟女高潮一区二区三区| 国产综合精品| 成人免费网站在线| 第九色区av在线| 精品美女国产在线| 日本黄色大片在线观看| 欧美高清视频在线观看mv| 欧洲成人性视频| 二区三区在线视频| 一区二区三区在线观看网站| 午夜两性免费视频| 极品美女一区二区三区| 欧美一级淫片aaaaaaa视频| www.五月激情| 亚洲男女毛片无遮挡| 亚洲精品自拍网| 国产一区二区三区四区| 91国产美女视频| 日本免费一区视频| 亚洲成人自拍网| 国产婷婷在线观看| 国产一区日韩一区| 国产v亚洲v天堂无码| 日韩激情美女| 日韩精品一区二区三区四区视频| 中文乱码字幕高清一区二区| 蜜臀精品一区二区三区在线观看| 欧美重口乱码一区二区| 国产精品粉嫩| 伊人男人综合视频网| 日韩免费av网站| 欧美国产一区视频在线观看| 免费看污污网站| 成人看的视频| 成人国产精品免费视频| 男人资源在线播放| 91精品国产黑色紧身裤美女| 黄色一级片中国| 成人中文字幕电影| 国产中文字幕二区| 亚洲精品一级二级三级| 国产精品极品美女粉嫩高清在线| 国产福利小视频在线观看| 在线观看亚洲精品| www.av免费| 国产老妇另类xxxxx| 婷婷无套内射影院| 免费观看不卡av| 国产精品av在线播放| 中文字幕日本在线| 欧美一区二区三区在线电影| 免费人成年激情视频在线观看| 成人国产亚洲欧美成人综合网| 欧美大片在线播放| 欧美手机在线| 亚洲伊人第一页| 99热99re6国产在线播放| 精品视频一区在线视频| 中文字幕永久在线视频| 一区二区三区在线视频观看| 捆绑凌虐一区二区三区| 蜜臀99久久精品久久久久久软件| 亚洲成年人专区| 欧美在线关看| 国产一区香蕉久久| 国产理论在线| 中文字幕久久久av一区| 丰满人妻一区二区| 在线视频综合导航| 五月天丁香激情| 国产亚洲欧美激情| 极品白嫩的小少妇| 日本中文字幕一区二区有限公司| 在线观看三级网站| 国产一区二区区别| 99精彩视频| 欧美www.| 97国产精品久久| 午夜视频成人| 亚洲精品久久久久久久久久久久| 中文有码在线播放| 天天色天天操综合| 免费在线观看h片| 久久久久国产精品人| 捷克做爰xxxⅹ性视频| 石原莉奈在线亚洲二区| 毛片在线视频观看| 欧美xxxxx视频| 久久riav二区三区| 亚洲国产高清在线观看| 国产精品 欧美在线| av资源一区| 久久综合九色九九| 成黄免费在线| 日韩毛片在线看| 黄片毛片在线看| 91精品国产综合久久精品图片| 日韩精选在线观看| 天天影视涩香欲综合网| 麻豆一区产品精品蜜桃的特点| 国产精品免费观看视频| 成人免费看aa片| 成人黄色一级视频| 天堂va欧美va亚洲va老司机| 激情文学综合插| 亚洲少妇久久久| 久久综合九色综合欧美狠狠| 可以看毛片的网址| 狠狠综合久久| 国产激情片在线观看| 91精品天堂福利在线观看| 色综合影院在线观看| 蜜桃国内精品久久久久软件9| 国产乱码精品一区二区三区卡| 日本亚州欧洲精品不卡| 成人黄色免费在线观看| 99久久久国产精品免费调教网站| 26uuu另类亚洲欧美日本一| a天堂资源在线| 久久久久久久久久久国产| a级在线观看| 久久91超碰青草是什么| 调教一区二区| 欧美精品videofree1080p| 色呦呦呦在线观看| 欧美高清在线观看| 日本大胆在线观看| 欧美激情在线一区| 91吃瓜在线观看| 欧美亚洲另类制服自拍| 亚洲天堂手机| 国产精品av电影| 农村妇女一区二区| 91亚洲精品久久久久久久久久久久| 97精品资源在线观看| 91日韩在线播放| 日韩精品成人| 国产一区二区三区奇米久涩| 美女av一区| 欧美一区二区三区精美影视| 俺要去色综合狠狠| 中国老女人av| 亚洲人成在线影院| 国产精品宾馆在线精品酒店| 天堂在线一区二区| 中文字幕 日韩 欧美| 国产精品一色哟哟哟| av免费观看不卡| 久久综合久久综合久久综合| 国产一区二区三区精品在线| 国产精品久久久久久久久果冻传媒 | 欧美激情国产日韩精品一区18| jizz一区二区三区| 欧美一级电影在线| 欧美美女被草| 成人国产1314www色视频| 精品人人人人| 天堂av一区二区| 欧美在线网址| 能在线观看的av| 国精产品一区一区三区mba视频 | 久久久精品中文字幕麻豆发布| 99精品欧美一区二区| 亚洲精品久久久久久国产精华液| 日韩三级av在线| 欧美日韩精品二区第二页| 国产激情无套内精对白视频| 亚洲免费福利视频| 黄色在线播放网站| 欧美壮男野外gaytube| 一区在线不卡| 精品视频在线观看| 国产精品久久观看| 国产91对白刺激露脸在线观看| 久久国产综合精品| 欧美精品黑人猛交高潮| 1区2区3区精品视频| 国产精品100| 日韩精品一区国产麻豆| av在线资源网| 97超级碰碰碰久久久| 亚洲精品伊人| 欧美激情视频一区二区三区| 综合久久精品| 高清一区二区视频| 99视频精品在线| 波多野结衣亚洲一区二区| 色哦色哦哦色天天综合| 懂色av一区二区三区四区| 色婷婷综合久久久久| 激情黄产视频在线免费观看| 国产精品一区二区久久| 日韩一级电影| 国产91视频一区| 久久精品国产99国产| 国产亚洲精品熟女国产成人| 亚洲高清中文字幕| 国产农村妇女毛片精品久久| 国产亚洲精品高潮| 欧美gv在线观看| 国产91精品入口17c| 五月天综合网站| 中文字幕av专区| 久久精品男人天堂av| 日韩精品成人在线| 日韩精品一区国产麻豆| 成人免费视屏| 91免费的视频在线播放| 日韩av有码| 国产天堂在线播放| 久久影院视频免费| 99热国产在线观看| 亚洲精品videossex少妇| 欧美videosex性极品hd| 亚洲一区二区中文| 你懂的一区二区| 五月天六月丁香| 亚洲精品视频在线观看免费| 国产精品区在线观看| 久久久999精品免费| 免费视频观看成人| 在线视频一区观看| 久久99热这里只有精品| 欧美风情第一页| 在线成人av网站| 黄色av电影在线观看| 91麻豆桃色免费看| 欧美午夜电影在线观看 | 久久久亚洲网站| av成人综合| 无码人妻精品一区二区三区在线| 97久久精品人人澡人人爽| 国产精品视频久久久久久久| 亚洲成人精品视频| 忘忧草在线影院两性视频| 鲁鲁视频www一区二区| 视频一区二区欧美| 男人晚上看的视频| 日韩欧美视频一区| 欧产日产国产精品视频| 欧美极品色图| 久久福利资源站| 黄色在线观看免费| 精品视频久久久久久| 成人不卡视频| 国产精品免费看久久久无码| av一二三不卡影片| 免费视频网站在线观看入口| 中文字幕亚洲综合久久| 欧美一级片网址| 日本午夜激情视频| 国产清纯在线一区二区www| 97精品久久人人爽人人爽| 久久成人亚洲精品| 欧美激情久久久久久久久久久| 少妇高清精品毛片在线视频| 亚洲国产精品成人久久综合一区| 国产精品天天操| **欧美日韩vr在线| 久久中文视频| www.555国产精品免费| 日本韩国欧美一区| 看黄网站在线观看| 国偷自产av一区二区三区小尤奈| 日韩精品欧美成人高清一区二区| 欧美一级特黄高清视频| 亚洲第一精品夜夜躁人人躁| free欧美| 国产av熟女一区二区三区| 国产日韩综合av| 亚洲国产精品suv| 国产精品电影网| 亚洲激情成人| 美国黄色片视频| 日韩理论片久久| 深夜福利一区| 亚洲综合在线网站| 亚洲自拍偷拍欧美| 亚乱亚乱亚洲乱妇| 久久精品欧美| 国产黄色精品视频| 中日韩av在线| 91av视频在线播放| 亚洲一区二区三区无吗| 蜜臀久久99精品久久久久久|