精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法 精華

發布于 2025-2-19 11:54
瀏覽
0收藏

大語言模型(LLM)的發展可謂日新月異。大家都知道,LLM 的訓練過程很復雜,其中有兩個關鍵階段:預訓練和后訓練。今天咱們就來深入聊聊在這一過程中發揮重要作用的近端策略優化(PPO)算法和組相對策略優化(GRPO)算法。這倆算法不僅在學術圈備受關注,在實際應用中也有著舉足輕重的地位,理解它們,能讓你更懂 LLM 是如何一步步變得這么 “聰明” 的!

一、從 LLM 訓練說起

LLM 的訓練如同一場漫長而復雜的旅程,主要分為預訓練和后訓練兩個大階段。

  • 預訓練:這是基礎積累階段,模型就像一個勤奮的學生,在大規模網頁數據的知識海洋里學習,通過下一個詞預測任務,不斷積累背景知識,為后續學習打下基礎。這個過程就像是我們學習新知識時,先廣泛閱讀各種資料,建立起基本的認知框架。
  • 后訓練:旨在提升模型的推理能力,又細分為兩個階段。

a.監督微調(SFT):可以理解為老師針對學生的薄弱環節進行專項輔導。它利用少量高質量的專家推理數據,讓模型學習如何模仿專家的解題思路和方法,像指令遵循、問答以及思維鏈等能力都是在這個階段培養的。

b.強化學習從人類反饋(RLHF):當專家數據有限時,RLHF 就派上用場了。它借助人類的反饋來訓練獎勵模型,再由獎勵模型引導 LLM 學習,使模型的輸出更符合人類的偏好。比如學生做完作業后,老師根據作業情況給予反饋,學生根據老師的反饋來改進自己的學習方法。

不過,DeepSeek 的 R1 - zero 模型卻走出了一條與眾不同的路。它直接跳過 SFT 階段,將 RL 直接應用到基礎模型上。這樣做帶來了不少好處,計算效率提高了,模型能夠通過自主探索實現推理能力的 “自我進化”,還避免了 SFT 數據可能引入的偏差。當然,這一切的前提是要有一個非常出色的基礎模型。

不僅如此,DeepSeek 還引入 GRPO 算法替代 PPO 來優化 RLHF 部分。這一改變可不得了,直接減少了對價值函數(也就是 critic 模型,通常和策略模型一樣大)的需求,內存和計算開銷降低了約 50%,大大提高了訓練效率。

二、RLHF 的工作流程揭秘

在深入了解 PPO 和 GRPO 之前,我們先來揭開 RLHF 的神秘面紗。RLHF 的工作流程主要分為四步:

  1. 采樣:針對每個提示,模型會生成多個響應。就好比老師提出一個問題,學生們會給出各種各樣的答案。
  2. 排序:人類根據這些答案的質量進行排序,判斷哪個回答得好,哪個還有提升空間。這一步就像是老師批改作業,給學生的答案打分。
  3. 訓練獎勵模型:由于讓人類對模型的所有輸出進行打分不太現實,所以采用一種節省成本的方法,讓標注人員對 LLM 輸出的一小部分進行評分,然后訓練一個獎勵模型,讓它學會預測標注人員的偏好。這個獎勵模型就像是一個智能打分器,經過訓練后能模擬人類的評價標準。
  4. 微調模型:使用 RL 算法(如 PPO、GRPO)對 LLM 進行微調,讓模型在獎勵模型的引導下,不斷提高自己的得分。這就好比學生根據老師的反饋和打分,不斷調整自己的學習方法,努力提高成績。

在這個過程中,獎勵模型和 RL 算法是兩個核心組件,接下來咱們就重點講講它們。

三、獎勵模型:模擬人類評價的 “小能手”

一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法-AI.x社區

四、PPO:復雜而強大的優化算法

PPO(近端策略優化)在 RLHF 中起著至關重要的作用,它包含幾個關鍵組件:

  • 策略(Policy):就是經過預訓練或 SFT 的 LLM,它負責生成對提示的響應,就像學生根據自己學到的知識回答問題一樣。
  • 獎勵模型(Reward model):這是一個已經訓練好并凍結的網絡,根據完整響應給出標量獎勵,相當于老師根據學生完整的回答給出一個具體的分數。
  • 評論家(Critic,也叫值函數):它是一個可學習的網絡,根據部分響應預測標量獎勵,有點像老師在學生回答問題的過程中,根據學生已經回答的部分,預測最終可能得到的分數。

PPO 的工作流程如下:

  1. 生成響應:LLM 根據提示生成多個響應。
  2. 打分:獎勵模型給每個響應分配獎勵。
  3. 計算優勢:這里用到了通用優勢估計(GAE)方法。優勢的概念是特定動作(比如生成的某個詞)相較于平均動作的優勢程度。計算優勢有兩種常見方法:

a.蒙特卡洛(MC)方法:利用完整軌跡的獎勵,雖然偏差小,但方差高。這是因為獎勵比較稀疏,就像在學習過程中,只有偶爾幾次考試成績能作為評價依據,獲取足夠樣本進行優化的成本高。

b.時間差分(TD)方法:用一步軌跡獎勵,方差低了,但偏差又高了。這就好比只根據學生某一次的課堂表現來評價他的整體學習情況,難以準確預測部分響應的最終獎勵。

c.GAE:為了平衡這兩者,通過多步 TD 來計算優勢。不過,由于不完整響應的獎勵為 0,所以需要評論家模型來預測獎勵,從而計算 TD 誤差。

  1. 優化策略:通過優化總目標來更新 LLM,讓模型生成的每個詞都能最大化獎勵,就像學生努力讓自己每次回答問題都能得到更高的分數。
  2. 更新評論家:訓練值函數,讓它能更準確地預測部分響應的獎勵,以便更好地指導策略的優化。

PPO 的目標函數包含幾個部分:

  1. 裁剪的替代目標:通過限制策略更新的概率比,讓模型在追求高優勢動作的同時,避免過度自信,防止策略過于偏向某個動作。比如,在選擇答案時,避免模型過于依賴某一種解題思路。
  2. 熵獎勵:鼓勵模型探索更多的可能性,避免生成過于單一的結果,讓模型的回答更加多樣化。
  3. KL 懲罰:防止當前策略偏離原始模型太遠,保證訓練的穩定性,確保模型在優化過程中不會 “跑偏”。
  4. 評論家的 L2 損失:用于優化評論家模型,使其能更好地預測獎勵,提高評價的準確性。

5. GRPO:PPO 的精簡升級版本

GRPO 是對 PPO 的改進,理解了 PPO,GRPO 就很好懂啦。它和 PPO 的關鍵區別在于估計優勢的方式。GRPO 不再依賴評論家模型,而是通過對同一提示生成的多個響應來計算優勢。

GRPO 的工作流程是這樣的:

  1. 采樣:針對每個提示,從 LLM 策略中采樣一組響應。
  2. 計算獎勵:用獎勵模型給每個響應計算獎勵。
  3. 計算組歸一化優勢:將每個響應的獎勵減去組內平均獎勵,再除以組內標準差,得到歸一化的優勢,公式為:一文讀懂 PPO 與 GRPO:LLM 訓練的關鍵算法-AI.x社區

GRPO 的目標函數和 PPO 類似,也包含裁剪的替代損失和 KL 懲罰,但沒有熵獎勵,因為基于組的采樣方式本身就鼓勵了模型的探索。

6. DeepSeek R1 的極簡設計理念

DeepSeek R1 在 LLM 訓練上展現出一種獨特的 “極簡主義” 風格,除了前面提到的跳過 SFT 階段和使用 GRPO 算法,還有很多值得關注的設計:

  • 基于規則的確定性獎勵:拋棄了復雜的神經過程獎勵模型或結果獎勵模型,采用簡單的二進制檢查,如答案正確性、格式規范、語言一致性等檢查。比如,對于數學問題,檢查答案是否正確;對于代碼問題,檢查是否能正確編譯。這樣既避免了模型 “耍小聰明” 欺騙獎勵模型,又節省了獎勵模型的訓練成本。
  • 冷啟動數據:最小化人工干預:不再費力收集大規模的 SFT 數據集,而是通過少量高質量的思維鏈(CoT)示例,加上簡單的人工后處理,為 RL 訓練提供一個 “夠用” 的起點。這種方式避免了昂貴的 SFT 階段,同時又能讓模型快速啟動訓練。
  • 拒絕采樣:嚴格篩選,強化訓練:RL 訓練后,生成大量推理軌跡,只保留正確的響應用于監督微調,簡單粗暴但很有效。就像在眾多練習中,只挑選做對的題目進行深入分析,提高訓練的針對性。
  • 蒸餾:復制推理模式:訓練小模型時,直接在大模型生成的大量響應上進行微調,讓小模型繼承大模型通過暴力 RL 發現的推理模式,避免了小模型進行復雜 RL 訓練的成本。

這種設計理念體現了 AI 領域的一個趨勢:有時候,簡單直接的方法配合大規模的計算資源,比復雜的工程設計更能取得好的效果。

7. 小結

PPO 和 GRPO 作為 LLM 訓練中的重要算法,各自有著獨特的優勢和應用場景。

PPO 雖然復雜,但功能強大;

GRPO 則通過簡化設計,提高了訓練效率。

而 DeepSeek R1 的一系列創新設計,也為 LLM 的發展提供了新的思路。

本文轉載自??鴻煊的學習筆記??,作者: 乘風破浪jxj ????

收藏
回復
舉報
回復
相關推薦
亚洲免费毛片网站| 久久精品久久精品| 亚洲天堂第一页| 手机在线成人免费视频| 成年人网站在线| 国产成人av一区| 欧美中文在线字幕| 久久国产高清视频| 狠狠一区二区三区| 欧美视频在线观看一区二区| 大陆极品少妇内射aaaaaa| 天天干天天舔天天射| 麻豆精品久久久| 国模极品一区二区三区| 四虎成人免费影院| 白嫩白嫩国产精品| 欧美色综合久久| 国产九九九九九| 欧美午夜电影一区二区三区| k8久久久一区二区三区| 国产日产欧美精品| 中文字幕视频网| 最新国产精品| 色小说视频一区| 亚洲一区二区三区四区av| 99只有精品| 天天色 色综合| 宅男av一区二区三区| 香蕉久久国产av一区二区| 九九热在线视频观看这里只有精品| 韩国一区二区电影| 三级在线观看免费大全| 国产亚洲第一伦理第一区| 精品国产露脸精彩对白| 最新av免费在线观看| 香蕉视频亚洲一级| 午夜精品成人在线| xxxxxx在线观看| 福利成人在线观看| xfplay精品久久| 国产精品白丝jk白祙| 国产精品呻吟久久| 美腿丝袜在线亚洲一区| 人人做人人澡人人爽欧美| 国产一卡二卡在线| 欧美1区2区视频| 久久精品国产久精国产一老狼| 一级黄色片大全| 色88888久久久久久影院| 欧美大片顶级少妇| 国产精品99久久久精品无码| 亚洲香蕉久久| 欧美高清一级片在线| 五月天亚洲视频| 国产精品蜜月aⅴ在线| 欧美视频专区一二在线观看| 老太脱裤让老头玩ⅹxxxx| 日本一级理论片在线大全| **网站欧美大片在线观看| 亚洲成色www久久网站| 国产永久免费高清在线观看视频| 95精品视频在线| 久久精品国产一区二区三区不卡| 无码精品黑人一区二区三区| 99这里都是精品| 久久久久一区二区三区| 可以直接在线观看的av| 国产婷婷色一区二区三区四区| 日本在线成人一区二区| 伊人在线视频| 亚洲三级久久久| 人人妻人人澡人人爽欧美一区| 性爱视频在线播放| 午夜视黄欧洲亚洲| 欧美日韩在线中文| a成人v在线| 欧美一区国产二区| 99久久久无码国产精品性波多 | 国产精品久久久久久av下载红粉| av中文在线播放| 久久综合中文| 国产欧美精品一区二区| 99精品在线视频观看| 国产a视频精品免费观看| 精品日产一区2区三区黄免费| 天天爱天天干天天操| 国产三区在线成人av| 亚洲日本一区二区三区在线不卡 | 精品一区毛片| 中文日韩在线观看| 免费一级全黄少妇性色生活片| 亚洲精品偷拍| 国产精品免费小视频| 99久久精品无免国产免费| 国产福利一区二区三区视频在线| 国产精品有限公司| 阿v免费在线观看| 亚洲中国最大av网站| 国产精品亚洲αv天堂无码| 亚洲欧美综合久久久久久v动漫| 亚洲成人久久久| 亚洲欧美va天堂人熟伦| 牛牛国产精品| 国产精品久久久久影院日本| 亚洲成人77777| 久久久久久久久一| 黄色一级大片免费| 777午夜精品电影免费看| 69堂国产成人免费视频| 偷拍女澡堂一区二区三区| 91精品啪在线观看国产81旧版| 欧美整片在线观看| 精品国产乱码久久久久久蜜臀网站| 91丝袜高跟美女视频| 黄色一级视频播放| 精品网站在线| 日韩福利在线播放| 九九热精品免费视频| 免费观看成人鲁鲁鲁鲁鲁视频| 国产美女99p| 欧美r级在线| 色婷婷综合久色| 国产精品一区二区人妻喷水| 最新精品国产| 成人福利在线视频| 岛国在线视频| 欧美日韩在线观看视频| 白丝校花扒腿让我c| 99久久精品费精品国产风间由美| 国产v综合ⅴ日韩v欧美大片| 国产综合在线播放| 亚洲精品久久嫩草网站秘色| 超碰在线97免费| 外国成人在线视频| 午夜剧场成人观在线视频免费观看| 国产喷水吹潮视频www| 国产精品久久影院| 一级特黄性色生活片| 要久久电视剧全集免费| 久久免费视频在线| 韩国av免费在线| 夜夜揉揉日日人人青青一国产精品| 亚洲国产日韩欧美在线观看| 精品成人影院| 国产精品久久久久久久久免费 | 91麻豆免费看片| 毛片在线播放视频| 国产人妖ts一区二区| 欧美高清在线视频观看不卡| www.日日夜夜| 亚洲宅男天堂在线观看无病毒| 国产男女无遮挡猛进猛出| 图片小说视频色综合| 亚洲999一在线观看www| 99福利在线| 日韩欧美国产成人一区二区| 久草免费新视频| av在线不卡网| 国产精品秘入口18禁麻豆免会员| 欧美亚洲tv| 日韩av免费在线播放| 精品欧美不卡一区二区在线观看| 色婷婷久久一区二区三区麻豆| a天堂中文字幕| 麻豆一区二区三区| 公共露出暴露狂另类av| 99re91这里只有精品| 69久久夜色精品国产69乱青草 | 欧美老女人xx| 天天操天天干天天| 色爱区综合激月婷婷| 999福利视频| 国产精品18久久久久久久久 | 欧美特黄aaaaaaaa大片| 中文字幕日韩欧美| 99热这里只有精品在线| 亚洲一区二区三区自拍| 人体私拍套图hdxxxx| 久久综合影音| 性做爰过程免费播放| 久久久伦理片| 国产精品一区av| 丝袜在线观看| 亚洲一区二区精品| av手机免费看| 欧美性极品xxxx做受| av最新在线观看| www.欧美.com| 中文字幕国产高清| 免费欧美在线| 国产高清免费在线| 美日韩黄色大片| 91九色综合久久| jizz内谢中国亚洲jizz| 久久精品人人做人人爽| 亚洲av毛片成人精品| 欧美人狂配大交3d怪物一区| 国产无套在线观看| 亚洲欧洲精品成人久久奇米网 | 中文字幕在线观看不卡| 97精品人人妻人人| 麻豆91小视频| 国产男女无遮挡| 欧美1区2区3区| 视频一区视频二区视频三区视频四区国产 | 欧美精品色一区二区三区| 日韩欧美国产亚洲| 亚洲天天做日日做天天谢日日欢| 一女三黑人理论片在线 | 亚洲欧美日韩偷拍| 美国一区二区三区在线播放 | 精品亚洲一区二区| 国产福利小视频| 在线观看www91| 欧美一区二区三区四| 亚洲三级在线看| 国产白丝一区二区三区| 久久伊99综合婷婷久久伊| jjzz黄色片| 国产精品一区在线观看你懂的| 黑人粗进入欧美aaaaa| 亚洲激情欧美| 国内自拍中文字幕| 99久久亚洲精品蜜臀| 欧洲一区二区在线观看| 久久香蕉精品香蕉| 粉嫩精品一区二区三区在线观看| 日韩深夜福利网站| 国产精品高潮呻吟久久av无限| 欧洲一区精品| 午夜精品理论片| 美女精品视频| 欧美尺度大的性做爰视频| 免费观看在线午夜影视| 在线精品国产欧美| 成年人在线观看网站| 亚洲视频欧洲视频| 国产小视频在线| 精品亚洲国产视频| 欧洲一级在线观看| 亚洲日本aⅴ片在线观看香蕉| 日本美女一级视频| 精品成人佐山爱一区二区| www.日韩在线观看| 精品久久人人做人人爱| 亚洲av无码一区二区三区性色 | 亚洲成人动漫一区| 久久久久香蕉视频| 亚洲国产精品一区二区久久| 久久黄色免费网站| 亚洲电影第三页| 成人免费看片98| 亚洲午夜av在线| 麻豆一区产品精品蜜桃的特点| 亚洲激情图片一区| 久青草免费视频| 香蕉成人伊视频在线观看| 丰满少妇乱子伦精品看片| 第一福利永久视频精品| 天堂а√在线中文在线新版 | 久久久噜噜噜久久| 99热99re6国产在线播放| 97国产真实伦对白精彩视频8| a√中文在线观看| 欧美一区二区.| 日韩欧美一区二区三区在线观看| 国产精品高潮呻吟久久av野狼| 成人精品三级| 亚洲999一在线观看www| 国产欧美自拍一区| 日韩一区二区电影在线观看| 久久中文视频| 97久久国产亚洲精品超碰热| 亚洲午夜极品| 日韩免费毛片视频| 久久av老司机精品网站导航| 熟妇无码乱子成人精品| 成人18视频在线播放| 国产精久久一区二区三区| 亚洲视频一区二区在线| 日韩福利片在线观看| 在线一区二区视频| 国产视频在线观看视频| 亚洲国产欧美在线成人app| 二区在线视频| 久久久久久伊人| 91精品影视| 国产成人亚洲欧美| 成人a'v在线播放| 毛片av在线播放| 日韩成人一区二区| 九九九久久久久久久| 久久久一区二区三区捆绑**| 免费看特级毛片| 欧美日韩在线影院| 国产毛片毛片毛片毛片| 亚洲激情自拍图| 日本在线免费看| 欧美一级片一区| 欧美中文高清| 香蕉久久夜色| 亚洲免费成人| www.久久久久久久久久久| 91美女片黄在线| 99精品久久久久| 欧洲av在线精品| 污污视频在线免费看| 久久精品在线视频| 天天免费亚洲黑人免费| 成人在线看片| 91精品综合| 日本久久久久久久久久久久| 成人av一区二区三区| 日日操免费视频| 一本色道久久综合精品竹菊| 亚洲第一成人av| 久久精品99国产精品酒店日本| 制服丝袜专区在线| 国产精品xxxx| 欧美三区在线| 久久6免费视频| 国产精品久久一级| 天堂av免费在线观看| 日韩不卡在线观看| 国产啊啊啊视频在线观看| 91九色视频在线| 天天操夜夜操国产精品| 国产wwwxx| 久久精品人人做| 秋霞av一区二区三区| 亚洲免费视频一区二区| av最新在线| 国语精品免费视频| 亚洲成色精品| 国产伦精品一区二区三区精品| 一区二区三区四区五区视频在线观看| 一级黄色a视频| 色综合伊人色综合网| 色婷婷综合久久久中字幕精品久久| 乱色588欧美| 久久99伊人| 精品无码国产污污污免费网站| 黄色精品在线看| 手机福利小视频在线播放| 51精品在线观看| 免费欧美激情| 北条麻妃视频在线| 中日韩av电影| 一级做a爱片性色毛片| 中文字幕在线视频日韩| 国产成人免费| 欧美日韩在线免费观看视频| 黄色资源网久久资源365| 强制高潮抽搐sm调教高h| 制服丝袜在线91| 婷婷色在线资源| 国产尤物91| 免费亚洲婷婷| 久久精品国产亚洲AV成人婷婷| 欧美亚洲国产怡红院影院| 天天综合视频在线观看| 91亚洲精品视频| 亚洲一级电影| 日韩一级视频在线观看| 色www精品视频在线观看| seseavlu视频在线| 91视频九色网站| 一区视频在线看| 菠萝菠萝蜜网站| 欧美系列在线观看| 久久五月精品| 国产乱码精品一区二区三区日韩精品 | 在线观看视频二区| 免费不卡欧美自拍视频| 国产精品jk白丝蜜臀av小说| 免费无码国产v片在线观看| 国产欧美一区二区精品久导航 | 韩国精品久久久| 国产一国产二国产三| 亚洲欧美三级伦理| 成人豆花视频| 国产免费黄色小视频| 中文子幕无线码一区tr| 亚洲精品97久久中文字幕无码| 91av在线不卡| 久久人体视频| 国产性生活毛片| 欧美日韩一区在线观看| 三级福利片在线观看| 欧洲一区二区日韩在线视频观看免费| 久久精品国产99久久6| 日韩成人av毛片| 久久九九有精品国产23| 欧美调教网站| 97免费公开视频| 日韩欧美在线字幕| 色综合999| 亚洲一区二区三区色| 不卡高清视频专区| 91国内精品视频|