精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

出人意料!DeepSeek-R1用的GRPO其實沒必要?規模化強化學習訓練用PPO就夠了

人工智能 新聞
相較于 PPO,GRPO 去掉了價值模型,而是通過分組分數來估計基線,從而可極大減少訓練資源。

DeepSeek-R1 非常熱門,而在其公布的訓練配方中,GRPO(Group Relative Policy Optimization)非常關鍵,是 DeepSeek-R1 核心的強化學習算法。

PPO 與 GRPO 的對比,來自論文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相較于 PPO,GRPO 去掉了價值模型,而是通過分組分數來估計基線,從而可極大減少訓練資源。

DeepSeek-R1 技術報告中寫到:「具體來說,我們使用 DeepSeek-V3-Base 作為基礎模型,并采用 GRPO 作為強化學習框架來提高模型的推理性能。在訓練過程中,DeepSeek-R1-Zero 自然地涌現出了許多強大而有趣的推理行為。經過數千個強化學習步驟后,DeepSeek-R1-Zero 在推理基準上表現出超強的性能?!?/span>

但現在,有一項研究卻證明 GRPO 對推理模型來說并不很重要。

階躍星辰與清華大學近期的一項研究發現,只需使用帶 GAE (λ= 1,γ= 1)的普通 PPO 以及基于規則的簡單獎勵函數,無需任何 KL 正則化,就足以擴展在推理任務上的響應長度和基準性能,類似于在 DeepSeek-R1-Zero 上觀察到的現象。

使用這種極簡方法,他們打造了 Open-Reasoner-Zero,這是首個面向大規模推理的強化學習訓練的開源實現。并且該實現在 GPQA Diamond 基準上的表現優于 DeepSeek-R1-Zero-Qwen-32B,同時僅需使用 1/30 的訓練步數。需要強調,該團隊不僅開源了代碼,還發布了參數設置、訓練數據和模型權重。

  • 論文標題:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
  • 論文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
  • 項目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
  • Hugging Face:https://huggingface.co/Open-Reasoner-Zero

從基礎模型開始擴展強化學習

下面首先將介紹基礎又關鍵的設置,括數據整編、獎勵函數和近端策略優化 (PPO) 算法的詳細設置。然后會討論從消融實驗中得出的關鍵見解,這些見解可以成功實現規?;瘡娀瘜W習訓練。

基礎設置

實驗中,基礎模型使用的是 Qwen2.5-{7B, 32B},并且不經過任何微調(如蒸餾或 SFT)即開始規?;瘡娀瘜W習訓練。在 Qwen2.5-{7B, 32B} 基礎模型的基礎上,該團隊擴展了標準 PPO 算法,以用于面向推理的強化學習訓練,同時仔細考慮了可擴展性和穩健性。

數據集方面,該團隊精心編排了涉及 STEM、數學和推理任務的數萬對問答數據,目標是增強模型在多樣化和復雜問題求解場景中的能力。

受 DeepSeek-R1 啟發,他們設計的提示詞模板可以引導模型利用推理計算,逐步掌握針對復雜任務的推理能力,如表 1 所示。

此外,他們還基于 OpenRLHF 開發了一個高效的大規模強化學習訓練框架,通過引入更靈活的訓練器,實現了 GPU 共置生成(collocation generation)以及支持卸載和回載的訓練。

數據集

高質量訓練數據對可擴展 Reasoner-Zero 訓練來說非常關鍵。這里作者關注了三個關鍵方面:數量、多樣性和質量。

詳細的收集整理過程請閱讀原論文。最終,他們得到的數據集包含 57k 樣本,涵蓋 STEM、數學和推理領域。

獎勵函數

不同于 DeepSeek-R1-Zero,這里的規模化強化學習訓練采用了簡單的規則式獎勵函數 —— 該函數僅檢查答案的正確性,沒有任何額外的格式獎勵。

具體來說,這個獎勵函數會在訓練時提取 <answer> 與 </answer> 標簽之間的內容,并將其與參考答案比較。

為了保證規模化強化學習清晰又簡單,他們實現了一種二元獎勵方案:如果與參考答案完全匹配,則獎勵為 1;所有其他情況的獎勵為 0。

為了確保評估嚴格且一致,他們采用了被廣泛使用的 Math-Verify 庫,圖 3 展示了其用法。

出人意料的是,該團隊發現,使用新設計的提示,即使是未對齊的基礎模型也能以很高的概率產生格式良好的響應。在早期訓練階段,基礎模型僅通過簡單的基于規則的獎勵函數就能快速學會和強化正確的推理和回答格式,如圖 4 所示。更重要的是,初步實驗表明,復雜的獎勵函數不僅是不必要的,而且可能為獎勵 hacking 留下潛在的空間。

強化學習算法

不同于 DeepSeek-R1-Zero 使用的 GRPO,該團隊為規?;柧毑捎玫膹娀瘜W習算法是近端策略優化(PPO)算法。

具體來說,對于每個問題 q(即提示詞),模型會根據基于規則的獎勵函數生成一組響應 {o_1, o_2, ..., o_n} 并接收相應的獎勵 {r_1, r_2, ..., r_n},其中 n 表示采樣軌跡的數量(即每個提示詞的 rollout 大?。?/span>

對于時間步驟 t (即 token t)處的每個響應 o_i ,令 s_t 表示時刻 t 的狀態,包括問題和所有之前生成的 token,并令 a_t 表示在該步驟生成的 token。

對于每個 token,使用 Generalized Advantage Estimation(GAE)計算其優勢估計。一般來說,GAE 能在優勢估計中提供偏差與方差的權衡,做法是通過一個由參數 λ 控制的指數加權平均值將 n 步優勢估計組合起來。該優勢估計的計算方式是:,其中是 TD(temporal difference)殘差,γ 是折扣因子,它決定了未來獎勵相對于即時獎勵的價值。該 PPO 算法通過優化以下目標函數來更新策略模型參數 θ 以最大化預期獎勵和價值模型參數 Φ,從而最小化價值損失:

其中 ε 是 clipping 參數,π_θ 是當前策略,π_θ_old 是更新前的舊策略,V_Φ 是價值函數, 是折扣回報。

具體到實例上,該團隊為該 PPO 算法精心挑選了一些超參數:GAE 參數 λ = 1.0、折扣因子 γ = 1.0 和 clipping 參數 ε = 0.2。

主要發現

該團隊得到了以下主要發現:

強化學習算法關鍵實現:實證研究表明,原始的 PPO 在不同模型規模和訓練持續時間內能夠提供非常穩定和強大的訓練過程,而無需進行額外的修改。通過廣泛的實驗,他們發現 GAE 參數在 PPO 推理任務中起著關鍵作用。具體來說,設置 λ = 1.0 和 γ = 1.0。雖然這種設置在傳統強化學習場景中通常被認為是次優的,但它卻能實現規模化強化學習訓練的理想平衡。

最小獎勵函數設計:該團隊研究表明,簡單的基于規則的獎勵函數不僅足夠而且是最佳的,因為最小設計不會留下任何潛在的獎勵 hacking 空間。值得注意的是,即使是未對齊的基礎模型也能快速適應所需的格式,這表明這是一項簡單的任務,不需要復雜的獎勵工程設計。

損失函數:該團隊在不依賴任何基于 KL 的正則化技術(例如 KL 形狀的獎勵和損失)的情況下實現了穩定的訓練,這不同于 RLHF 社區和推理器模型普遍使用的方法。這也有很好的潛力實現進一步大規模強化學習。

擴大訓練數據規模:該團隊發現擴大數據量和多樣性對于 Reasoner-Zero 訓練至關重要。雖然在有限的學術數據集(如 MATH)上進行訓練會導致性能快速停滯,但該團隊精細編排的大規模多樣化數據集能夠實現持續擴展,而不會在訓練和測試集上出現飽和跡象。

實驗表現如何?

下面介紹 Open-Reasoner-Zero 模型的全面實驗結果和分析。其中包括兩個方面的初步實驗結果:利用訓練得到的推理器進行蒸餾,在蒸餾得到的模型上使用 Open-Reasoner-Zero 訓練流程以進一步增強其推理能力(類似 DeepSeek-R1 的方法)。訓練的細節和超參數請參閱原論文,這里我們重點來看結果。

訓練曲線

圖 2 顯示了在 Open-Reasoner-Zero 7B 和 32B 上的實驗的訓練獎勵和平均響應長度曲線,而圖 5 展示了在訓練和評估集上對 Open-Reasoner-Zero 7B 的實驗的獎勵 / 準確度和平均響應長度曲線。訓練獎勵曲線和響應長度曲線分別表示生成的響應的平均獎勵和每個生成步驟中生成的響應的平均長度。

可以看到,這些指標在整個訓練過程中在兩個模型和所有基準上都得到了持續的改進,并有值得注意的觀察結果:OpenReasoner-Zero 表現出一種有趣的「階躍時刻」現象,其中響應指標在訓練過程中突然增加,這表明其涌現出了推理能力。

響應長度擴展與 DeepSeek-R1-Zero

如圖 6 所示,可以看到整個訓練過程中響應長度持續增加,沒有飽和跡象,類似于 DeepSeek-R1-Zero 中看到的行為。

值得注意的是,雖然模型大小和訓練步驟都有助于改善響應長度,但 Open-Reasoner-Zero-32B 模型僅用 1/5.8 的訓練步數就實現了與 DeepSeek-R1-Zero (671B MoE) 相當的響應長度。這種卓越的訓練效率證明了新的極簡主義方法對大規模強化學習訓練的有效性。

質量分析

該團隊也對 Open-Reasoner-Zero 模型生成的響應進行了一些定性分析。為了分析模型的反思能力并觀察像 DeepSeek-R1-Zero 這樣的頓悟時刻,他們遵從之前的方法確定了五種代表性的反思模式(wait、recheck、retry、alternatively、however)。他們將包含任何這些模式的響應數量計為「反思響應」,并確定平均正確反思長度(包含獲得正確答案的反思模式的響應的長度)。

如圖 7 所示,在整個訓練過程中,平均正確反思長度始終超過平均響應長度,這表明包含反思模式的響應利用了更多的「思考時間」來獲得正確答案,類似于 OpenAI o1 中描述的測試時間擴展。

一個特別值得注意的現象出現在步驟 680 左右,該團隊觀察到三個指標同時加速:獎勵、平均正確反思長度和平均響應長度。通過手動檢查步驟 680 之前和之后的模型輸出,該團隊發現之后的響應中有更明顯的反思模式。這種涌現行為值得進一步研究,該團隊表示目前正在進行詳細分析,以了解這種現象的潛在機制。

該團隊也研究了新模型在知識和指令遵從基準 MMLU_PRO 和 IFEval 上的泛化能力,結果見表 2。

可以看到,Open-Reasoner-Zero 32B 模型表現出了強大的泛化能力:無需任何額外的指令微調,在 MMLU、MMLU_PRO 基準上,通過純規模化強化學習訓練在面向推理的任務上顯著優于 Qwen2.5 Instruct 32B。

該團隊也進行了詳細的消融實驗,詳見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-06-06 09:50:03

蘋果收購交易iPhone

2019-12-23 16:57:26

搶票春運車次

2015-11-02 17:37:33

GartnerAWS數據庫

2025-03-13 11:07:30

2025-06-23 09:07:00

2025-03-11 01:00:00

GRPO算法模型

2025-02-19 08:00:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-05-28 02:25:00

2025-02-17 10:40:20

2025-03-11 13:07:58

2025-02-20 17:19:08

2022-11-14 10:22:12

訓練強化學習

2025-03-24 10:00:00

2025-02-19 08:33:18

2025-04-25 13:34:53

R1DeepSeekAgent

2025-10-10 08:33:49

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2021-06-11 09:28:04

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

国产女教师bbwbbwbbw| 亚洲综合在线中文字幕| 欧美激情aaa| 黄色成人小视频| 亚洲精品久久7777| 麻豆av一区二区三区久久| 丰满熟女人妻一区二区三| 91av精品| 欧美xxxxx牲另类人与| 日韩精品视频久久| 精品视频在线一区二区| 成人激情综合网站| 国产精品激情av电影在线观看| 国产大片免费看| 国产亚洲电影| 精品播放一区二区| 中文字幕亚洲乱码| 午夜激情电影在线播放| 亚洲欧洲制服丝袜| 女人一区二区三区| 好吊色视频一区二区| 免费观看一级特黄欧美大片| 国内精品模特av私拍在线观看| 少妇精品无码一区二区免费视频 | 精品国产91久久久久久老师| 在线电影看在线一区二区三区| 四虎影院在线播放| 懂色av一区二区夜夜嗨| 国产美女扒开尿口久久久| 亚洲第一精品在线观看| 欧美天堂亚洲电影院在线观看 | www.在线视频| 欧美韩国日本一区| 免费在线国产精品| 亚洲色欧美另类| 成人va在线观看| 97欧洲一区二区精品免费| 一级做a爰片久久毛片16| 免费视频久久| 2019中文字幕在线观看| 久久久久久久久久久久国产| 国产韩日影视精品| 在线视频中文亚洲| 在线观看免费小视频| 要久久爱电视剧全集完整观看| 精品成a人在线观看| 无码人妻久久一区二区三区蜜桃| 小说区图片区亚洲| 欧美日韩一区二区三区四区五区| 亚欧在线免费观看| 国产在线|日韩| 欧美在线观看视频一区二区三区| 亚洲精品无码久久久久久| 自拍视频在线看| 日韩欧亚中文在线| 精品免费国产一区二区| 日韩在线影院| 欧美亚洲动漫精品| 亚洲久久中文字幕| 国产亚洲久久| 日韩欧美一级二级| 亚洲成人福利视频| 凹凸成人在线| 国产午夜精品理论片a级探花| 国产精品无码在线| 天天久久夜夜| 亚洲人成欧美中文字幕| 国产一区二区三区精品在线| 残酷重口调教一区二区| 色偷偷av亚洲男人的天堂| 国产一区二区三区视频播放| 天堂美国久久| 欧美激情乱人伦一区| 久久高清免费视频| 国产视频一区三区| 国产精品99导航| 国产又爽又黄免费软件| 国产999精品久久久久久| 精品国产乱码久久久久久郑州公司| 亚洲人成色777777精品音频| 久久综合九色综合欧美98 | 欧美午夜影院| 欧美在线激情网| 又骚又黄的视频| 国产精品91xxx| 久久久精品国产一区二区三区| 欧美日韩国产亚洲沙发| 亚洲国产高清不卡| 天天做天天躁天天躁| 亚洲精品mv| 91精品国产手机| 在线观看av中文字幕| 大片网站久久| 欧美激情综合亚洲一二区| 国产无套丰满白嫩对白| 狠狠色丁香久久婷婷综| 精品欧美一区二区精品久久| 日本在线免费网| 天天影视涩香欲综合网 | 国产精品成人3p一区二区三区| 精品国产区一区| 国产一区二区三区精品在线| 在线播放亚洲| 国产日韩欧美综合| 四虎精品在线| 一区二区三区在线视频观看| www日韩在线观看| 91久久精品无嫩草影院| 在线看欧美日韩| 91看片在线播放| 狠狠色2019综合网| 秋霞毛片久久久久久久久| 天堂av最新在线| 欧美色图片你懂的| 少妇精品一区二区| 午夜日韩视频| 国产精品专区一| 欧美日韩在线精品一区二区三区激情综 | 亚洲精品韩国| 亚洲淫片在线视频| 一区二区三区视频网站| 色综合色狠狠综合色| 四虎永久免费观看| 国产精品国产三级国产在线观看| 清纯唯美亚洲激情| 日本高清视频在线| 伊人夜夜躁av伊人久久| 手机av在线网| 精品一区电影| 日韩av电影在线网| 三级视频在线播放| 天天亚洲美女在线视频| jjzzjjzz欧美69巨大| 欧美一区影院| 91精品视频网站| 亚洲视频tv| 在线观看免费视频综合| 欧美黄色一级生活片| 亚洲一区二区动漫| 久久精品国产理论片免费| h片精品在线观看| 日韩欧美激情在线| 国产午夜手机精彩视频| 国产在线不卡一区| 91免费视频黄| 亚洲一区av| 久热爱精品视频线路一| 国产偷人妻精品一区二区在线| 国产精品国产自产拍高清av王其| 日韩福利视频在线| 大胆日韩av| 成人情趣片在线观看免费| 欧美尤物美女在线| 欧美蜜桃一区二区三区| 久久成人小视频| 国产一区二区在线影院| 三级在线免费观看| 911精品国产| 97精品在线视频| 视频在线不卡| 一本久久a久久免费精品不卡| 一级片视频免费看| 美国十次了思思久久精品导航| 亚洲一区精彩视频| av日韩在线免费观看| 九九视频这里只有精品| 欧美视频一二区| 欧美午夜无遮挡| 五月婷婷欧美激情| 国产综合色产在线精品| 91视频 - 88av| 伊人成综合网伊人222| 国产精品久久久久久久久久久久久久| 欧美一区二区三区在线观看免费| 欧美一区二区三区精品| 日本一区二区三区四区五区| 久久精品一区二区三区不卡| 国产精品嫩草影院8vv8| 国产精品jizz在线观看美国| 久久99精品国产99久久| 视频一区在线免费看| 欧美成人四级hd版| 偷拍自拍在线| 6080午夜不卡| 日本黄色片视频| 国产精品美女一区二区| www.黄色网| 免费高清成人在线| 成年人看的毛片| 成人影院在线| 国产三区精品| 青青草国产一区二区三区| 久久琪琪电影院| 3d成人动漫在线| 亚洲国产精品成人va在线观看| 国产精华7777777| 亚洲图片欧美色图| 日本视频在线免费| www.99精品| 亚洲av无日韩毛片久久| 亚洲视频大全| 日韩人妻一区二区三区蜜桃视频| 婷婷精品在线| 91麻豆蜜桃| 日韩久久一区| 欧洲亚洲女同hd| 欧洲中文在线| 色偷偷av一区二区三区| 日本一二三区在线视频| 日韩一区二区免费视频| 波多野结衣一区二区三区四区| 亚洲精品高清在线观看| 国产99在线 | 亚洲| 播五月开心婷婷综合| 亚洲成人av免费观看| 日本欧美一区二区在线观看| 免费看国产曰批40分钟| 欧美日韩国产亚洲一区| 中文字幕精品—区二区日日骚| 五月国产精品| 成人欧美一区二区三区在线观看| 日韩欧乱色一区二区三区在线| 欧美在线xxx| h片精品在线观看| 欧美成人精品激情在线观看| 91av资源在线| 夜夜嗨av色一区二区不卡| 日韩在线观看视频网站| 欧美xxxxx牲另类人与| 99热这里只有精| 欧美人与禽zozo性伦| 国产乱码在线观看| 在线看一区二区| 天堂网视频在线| 欧美日韩久久久久| 日本在线视频免费| 午夜精品久久久久久久久| 久久国产精品波多野结衣av | 日本三级黄色大片| 亚洲国产一区二区在线播放| 久久一区二区三| 一区2区3区在线看| 欧美交换国产一区内射| 一区二区久久久久| 久久久久亚洲av无码专区| 一区二区三区在线观看网站| 欧美日韩在线观看成人| 一二三四社区欧美黄| 久久免费在线观看视频| 亚洲国产日韩精品| 国产亚洲欧美精品久久久久久| 一区二区高清在线| 日本熟妇毛耸耸xxxxxx| 精品日韩中文字幕| 亚洲精品成人在线视频| 欧洲一区二区av| 91片黄在线观看喷潮| 欧美高清性hdvideosex| 国产白浆在线观看| 精品久久久久久无| 天天操天天射天天舔| 亚洲免费人成在线视频观看| 国产三级在线观看| 日韩在线不卡视频| 日本大片在线播放| 91精品国产色综合| 91精品影视| 91免费高清视频| 91精品尤物| 欧美一区三区二区在线观看| 日本女优一区| 日本成人在线不卡| 亚洲一区二区三区高清不卡| 韩国日本美国免费毛片| 国产伦精品一区二区三区免费| 免费不卡的av| 久久久久久久国产精品影院| 制服 丝袜 综合 日韩 欧美| 亚洲男人的天堂av| 欧美三级一区二区三区| 欧美色区777第一页| www.av日韩| 亚洲色图25p| 直接在线观看的三级网址| 91av在线看| 四虎地址8848精品| 韩国成人一区| 久久综合国产| 欧美日韩亚洲一| 激情成人午夜视频| 加勒比一区二区| 亚洲精品综合在线| 无码人妻丰满熟妇精品区| 欧美一区二区三级| 成人在线观看网站| 久久久人成影片一区二区三区观看| 影视一区二区三区| 不卡视频一区二区三区| 精品视频网站| 国精产品一区一区三区视频| 精品一区二区在线免费观看| 久久中文字幕人妻| 一级中文字幕一区二区| 波多野结衣一区二区三区四区| 亚洲成人av中文字幕| 麻豆传媒免费在线观看| 2019日本中文字幕| 视频二区欧美| 亚洲欧洲一区二区| 久久av一区| 国产女人18毛片水真多18| 国产精品不卡在线观看| 99超碰在线观看| 亚洲аv电影天堂网| 黄页视频在线播放| 国产精品久久久久久久久影视 | 亚洲精品wwww| 羞羞的网站在线观看| 成人av在线网址| re久久精品视频| 日本wwww视频| av电影天堂一区二区在线观看| 青娱乐免费在线视频| 337p亚洲精品色噜噜狠狠| 北岛玲一区二区三区| 欧美在线精品免播放器视频| 欧美重口另类| 人妻无码久久一区二区三区免费| 国内精品国产成人| 中文字幕精品亚洲| 欧美日精品一区视频| 国产小视频在线观看| 人体精品一二三区| 日韩动漫一区| 欧美一区二区三区爽大粗免费| 成人性视频免费网站| 久久久国产精品黄毛片| 欧美一级日韩一级| 国产精品va在线观看视色| 国产在线视频2019最新视频| 久久综合99| 九九热视频免费| 一区二区三区精品久久久| www.日日夜夜| 久久久亚洲精选| 欧美成人午夜77777| 又粗又黑又大的吊av| 97精品视频在线观看自产线路二| 日韩乱码一区二区| 日韩国产欧美区| 欧美成人精品一区二区男人小说| 欧美日韩精品免费观看| 丝袜亚洲另类丝袜在线| 最近中文字幕免费视频| 色狠狠色狠狠综合| 成人免费黄色网页| 国产日韩精品入口| 欧美日韩18| 久久久久亚洲AV成人无码国产| 欧美日韩精品在线播放| 黄色av网址在线免费观看| 国产精品免费看久久久香蕉 | 久久丝袜美腿综合| 自拍偷拍精品视频| 久久久国产视频| 粉嫩的18在线观看极品精品| 国产淫片免费看| 中文字幕电影一区| 国内老熟妇对白xxxxhd| 午夜精品久久久久久99热| 国产精品亚洲二区| 涩涩网站在线看| 亚洲成年人影院| 成人在线免费观看| 99视频免费观看蜜桃视频| 一本色道精品久久一区二区三区 | 亚洲综合久久久久| 三级在线视频| 成人高清视频观看www| 精品电影一区| 女人十八毛片嫩草av| 欧美不卡视频一区| 亚洲成人不卡| 无码人妻精品一区二区蜜桃百度| 9色porny自拍视频一区二区| 中文字幕理论片| 久久久久久久97| 日韩dvd碟片| 怡红院一区二区| 欧美三级韩国三级日本三斤| 精灵使的剑舞无删减版在线观看| 欧洲一区二区在线 | 欧美日韩激情在线| 漫画在线观看av| 熟女熟妇伦久久影院毛片一区二区| av影院午夜一区| 国产美女无遮挡永久免费| 欧美性受xxxx黑人猛交| 伊人久久大香线| 免费看的黄色网|