精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek 技術(shù)解析:LLM 訓(xùn)練中的強(qiáng)化學(xué)習(xí)算法

人工智能
為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。

我們將深入探討 DeepSeek 模型訓(xùn)練策略中的關(guān)鍵創(chuàng)新之一[1, 2]:群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization,GRPO)[3]。

為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。接著我們將探討不同的強(qiáng)化學(xué)習(xí)范式,包括基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí),回顧經(jīng)典算法如置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO),最后解析 GRPO 帶來的優(yōu)化創(chuàng)新。

本文目錄結(jié)構(gòu):

  • 技術(shù)背景:闡釋 LLM 訓(xùn)練為何需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理
  • 強(qiáng)化學(xué)習(xí)范式:解析并對(duì)比基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí)范式
  • GRPO:先回顧 TRPO 和 PPO,再詳解 GRPO 如何對(duì) PPO 進(jìn)行優(yōu)化改進(jìn)
  • 總結(jié)
  • 參考文獻(xiàn)

1.技術(shù)背景

1.1 為什么在大語言模型訓(xùn)練中需要強(qiáng)化學(xué)習(xí)

在將強(qiáng)化學(xué)習(xí)引入大語言模型訓(xùn)練之前,自然語言處理模型的訓(xùn)練通常分為兩個(gè)階段,即通常所說的「預(yù)訓(xùn)練(Pre-training)和微調(diào)(finetuning)」范式:

  • 預(yù)訓(xùn)練階段:通過在大量文本語料上進(jìn)行無監(jiān)督目標(biāo)訓(xùn)練(如預(yù)測(cè)缺失的 token),幫助模型建立對(duì)語言的整體理解。
  • 監(jiān)督微調(diào)階段:使用人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,使模型適應(yīng)問題解答等特定任務(wù),生成更有用且更有條理的輸出。

然而,即使完成這兩個(gè)階段的訓(xùn)練,大語言模型生成的回答仍常常與人類的偏好不一致。典型問題包括:產(chǎn)生不準(zhǔn)確的信息(幻覺)、回答過于冗長或過于簡潔、忽略隱含的上下文信息,或誤解諷刺與幽默等表達(dá)。

換言之,要讓大語言模型真正具備實(shí)用性,需要將其與人類偏好對(duì)齊,而僅靠監(jiān)督式微調(diào)難以實(shí)現(xiàn)這一目標(biāo)。

這又是為什么呢?

這背后的核心挑戰(zhàn)在于:如何將「對(duì)齊人類偏好」這種抽象概念轉(zhuǎn)化為可學(xué)習(xí)的任務(wù)目標(biāo),使其能夠被正確標(biāo)注,并用于構(gòu)建有意義的學(xué)習(xí)目標(biāo)。由于人類偏好的復(fù)雜性,想要窮舉所有可能的問題并為每種問題定義具體標(biāo)簽是不現(xiàn)實(shí)的(譯者注:例如,為“冗余回答”標(biāo)注 0,為“簡潔回答”標(biāo)注 1)。

這正是強(qiáng)化學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。

1.2 強(qiáng)化學(xué)習(xí)的工作原理

機(jī)器學(xué)習(xí)算法可大致分為三類:

  • 監(jiān)督學(xué)習(xí) (Supervised Learning):通過標(biāo)注數(shù)據(jù)(每個(gè)輸入 x 對(duì)應(yīng)目標(biāo) y)訓(xùn)練模型,目標(biāo)是構(gòu)建從 x 預(yù)測(cè) y 的映射。當(dāng) y 為離散值時(shí)稱為分類問題,連續(xù)值時(shí)稱為回歸問題。
  • 無監(jiān)督學(xué)習(xí) (Unsupervised Learning):在沒有標(biāo)注數(shù)據(jù)時(shí),通過發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在模式進(jìn)行學(xué)習(xí),例如主成分分析(PCA)等降維方法,或 K-Means 等聚類算法。
  • 強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL):當(dāng)難以定義明確的學(xué)習(xí)目標(biāo)時(shí),讓 RL 模型通過與環(huán)境交互獲取獎(jiǎng)勵(lì)信號(hào)來更新模型。該方法常用于訓(xùn)練機(jī)器人保持平衡、行走等場(chǎng)景。

下圖展示了強(qiáng)化學(xué)習(xí)框架的五個(gè)核心要素:

image.pngimage.png

圖 1. 強(qiáng)化學(xué)習(xí)的五個(gè)要素:智能體、環(huán)境、獎(jiǎng)勵(lì)、狀態(tài)和動(dòng)作(Image from wiki)

以訓(xùn)練小狗坐下為例,五要素對(duì)應(yīng)如下:

  • 智能體 (Agent):學(xué)習(xí)指令的小狗
  • 環(huán)境 (Environment):小狗所處的周圍環(huán)境
  • 狀態(tài) (State):小狗當(dāng)前姿勢(shì)(是否處于坐姿)
  • 獎(jiǎng)勵(lì) (Reward):小狗正確執(zhí)行指令后獲得的零食
  • 動(dòng)作 (Action):小狗可執(zhí)行的動(dòng)作(坐下、跳躍、吠叫等)

監(jiān)督學(xué)習(xí)中的學(xué)習(xí)目標(biāo)和強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制有何本質(zhì)區(qū)別?

在監(jiān)督學(xué)習(xí)中,每個(gè)輸入樣本都需配備一個(gè)明確的標(biāo)準(zhǔn)答案,模型通過最小化預(yù)測(cè)值與正確答案間的損失函數(shù)(loss function)進(jìn)行優(yōu)化。而在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境的交互來學(xué)習(xí) —— 每個(gè)動(dòng)作都沒有明確的標(biāo)準(zhǔn)答案,而是通過環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào)(reward)來調(diào)整其行為。

需要注意,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)通常具有一定的延遲,而且可能非常稀少。例如下棋時(shí),只有游戲結(jié)束時(shí)才能獲得“勝利”或“失敗”的最終獎(jiǎng)勵(lì)。這意味著智能體無法立即判斷單個(gè)動(dòng)作的優(yōu)劣,必須通過長期試錯(cuò)來學(xué)習(xí)如何使累積到的獎(jiǎng)勵(lì)最大化。

這一特性使強(qiáng)化學(xué)習(xí)在缺乏明確標(biāo)準(zhǔn)答案但能獲取反饋的場(chǎng)景中極具優(yōu)勢(shì)。例如訓(xùn)練機(jī)器人行走時(shí),我們無法預(yù)先定義每個(gè)狀態(tài)下關(guān)節(jié)的“正確”角度,但當(dāng)機(jī)器人嘗試不同動(dòng)作后,若成功邁出一步,這一結(jié)果即可作為獎(jiǎng)勵(lì)信號(hào),表明其之前的動(dòng)作是有效的。

回到我們訓(xùn)練小狗的案例,強(qiáng)化學(xué)習(xí)流程如下:

  • 初始階段:小狗(智能體)不理解“坐下”指令,會(huì)在環(huán)境(家中)嘗試各種動(dòng)作(奔跑、坐下、吠叫)。
  • 獎(jiǎng)勵(lì)反饋:每次執(zhí)行坐下的動(dòng)作時(shí)獲得零食(獎(jiǎng)勵(lì))。
  • 最終結(jié)果:小狗逐漸將“坐下”動(dòng)作與獎(jiǎng)勵(lì)關(guān)聯(lián),最終學(xué)會(huì)響應(yīng)指令。

強(qiáng)化學(xué)習(xí)的核心在于通過試錯(cuò)法學(xué)習(xí),而設(shè)計(jì)合理的獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵。獎(jiǎng)勵(lì)必須與目標(biāo)高度對(duì)齊,否則模型無法習(xí)得所需的行為;同時(shí),獎(jiǎng)勵(lì)的計(jì)算應(yīng)盡可能簡單高效。若獎(jiǎng)勵(lì)生成過程過于復(fù)雜或緩慢,會(huì)導(dǎo)致訓(xùn)練效率低下,難以實(shí)際應(yīng)用。

例如,在游戲場(chǎng)景中,模型的每步動(dòng)作都可從游戲環(huán)境中直接獲得分?jǐn)?shù)獎(jiǎng)勵(lì)(如擊殺敵人+10分),獎(jiǎng)勵(lì)與游戲表現(xiàn)直接掛鉤。

而在現(xiàn)實(shí)任務(wù)中,多數(shù)場(chǎng)景缺乏現(xiàn)成的獎(jiǎng)勵(lì)機(jī)制,需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然而,許多復(fù)雜行為難以轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)(如“如何讓智能體的回答更禮貌”中“禮貌”的定義包含語調(diào)、用詞、文化差異等多維度因素)。

這就引出了基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)...

1.3 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

再次以訓(xùn)練小狗為例,假設(shè)你的小狗最終學(xué)會(huì)了坐下,但有時(shí)會(huì)邊坐邊吠叫,或先跳上沙發(fā)再坐下。此時(shí)該如何糾正?

有了 RLHF,你就不再需要每次坐下都給零食,而是通過比較它的行為給予差異化的獎(jiǎng)勵(lì)。例如:如果小狗安靜地坐在地板上,它得到的獎(jiǎng)勵(lì)就會(huì)比一邊叫一邊坐或跳到沙發(fā)上坐的獎(jiǎng)勵(lì)要多。這樣,即使沒有明確向小狗解釋“安靜”的含義,小狗也能通過獎(jiǎng)勵(lì)的不同知道安靜地坐在地板上更好。

如前文所述,簡單高效的獎(jiǎng)勵(lì)機(jī)制是 RL 的關(guān)鍵,但直接依賴人類進(jìn)行實(shí)時(shí)反饋(如每次動(dòng)作都需人類評(píng)分)并不現(xiàn)實(shí)。為此,RLHF 通過以下三個(gè)階段實(shí)現(xiàn)規(guī)模化訓(xùn)練:

  • 收集人類反饋:采集模型輸出,由人類標(biāo)注員比較不同回答哪個(gè)更好(如標(biāo)注回答 A 比回答 B 更符合要求)。
  • 訓(xùn)練獎(jiǎng)勵(lì)模型:基于人類標(biāo)注員的偏好數(shù)據(jù),構(gòu)建模擬人類判斷的獎(jiǎng)勵(lì)模型(Reward Model)。
  • 強(qiáng)化學(xué)習(xí)優(yōu)化策略:使用學(xué)習(xí)到的獎(jiǎng)勵(lì)模型替代人工反饋,通過 RL 算法優(yōu)化策略(Policy)。

此處的策略(Policy)是指智能體根據(jù)環(huán)境狀態(tài)選擇動(dòng)作的決策規(guī)則。下圖展示了 InstructGPT 微調(diào)過程中 RLHF 的實(shí)現(xiàn)流程,其核心步驟與上述三階段一致:

image.pngimage.png

圖 2. InstructGPT/ChatGPT 訓(xùn)練過程中的 RLHF 步驟示意圖。(圖片來自文獻(xiàn) [6])

如圖所示,RL 過程主要發(fā)生在第 3 步,通過近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法優(yōu)化策略(policy)。

那么,PPO 算法是如何工作的呢?

為了理解這一點(diǎn),在下一節(jié)中,我們將首先解析強(qiáng)化學(xué)習(xí)的三大基礎(chǔ)范式:基于價(jià)值的方法(Value-based)、基于策略的方法(Policy-based)和 Actor-Critic 方法。

2.強(qiáng)化學(xué)習(xí)范式

在深入研究所有數(shù)學(xué)細(xì)節(jié)之前,讓我們先來解釋一下強(qiáng)化學(xué)習(xí)背景下的價(jià)值函數(shù)(value functions)和策略(policy)。

在強(qiáng)化學(xué)習(xí)中,價(jià)值函數(shù)(value functions)表示智能體在狀態(tài) s 采取動(dòng)作 a 并遵循策略 π 后,所能獲得的預(yù)期收益:

image.pngimage.png

其中

  • R_t 表示智能體在第 t 個(gè)時(shí)間步執(zhí)行某個(gè)動(dòng)作后,環(huán)境給出的即時(shí)反饋(獎(jiǎng)勵(lì))。
  • γ 稱為折扣因子,用于量化未來獎(jiǎng)勵(lì)的價(jià)值

這里需要提及幾點(diǎn):

  • 我們需要考慮未來收益的原因是:強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)通常具有延遲性,因此不能根據(jù)即時(shí)收益判斷某個(gè)動(dòng)作的好壞。
  • 引入折扣因子有助于平衡短期獎(jiǎng)勵(lì)與長期收益。它還能穩(wěn)定訓(xùn)練過程并加速模型收斂,因?yàn)楫?dāng) γ 取值在 0 到 1 之間時(shí),能確保價(jià)值函數(shù)不會(huì)無限增大,始終保持在一個(gè)合理范圍內(nèi)。
  • 上述價(jià)值函數(shù)定義涉及策略 π,它可以被視為智能體遵循的決策策略,用于決定在給定狀態(tài)下采取何種行動(dòng),通常表示為從狀態(tài)(states)到動(dòng)作概率(action probabilities)的映射

上述關(guān)于價(jià)值函數(shù)(value functions)和策略(policy)的定義表明,RL 智能體可以通過優(yōu)化價(jià)值函數(shù)或策略來進(jìn)行訓(xùn)練。這就產(chǎn)生了三種不同的訓(xùn)練范式:基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí),以及 Actor-Critic 強(qiáng)化學(xué)習(xí)。

2.1 基于價(jià)值的強(qiáng)化學(xué)習(xí)

基于價(jià)值的強(qiáng)化學(xué)習(xí)方法根據(jù)貝爾曼方程[8]更新價(jià)值函數(shù),該方程將狀態(tài)價(jià)值(the value of a state)分解為兩個(gè)部分:即時(shí)獎(jiǎng)勵(lì)(the immediate reward)和下一狀態(tài)的折扣價(jià)值(the discounted value of the next state)。

以Q-learning[7]為例,其價(jià)值函數(shù)可通過以下公式更新:

image.pngimage.png

其中

  • alpha 是用于結(jié)合即時(shí)價(jià)值與未來價(jià)值的學(xué)習(xí)率
  • Q(S_t, A_t) 表示當(dāng)前狀態(tài)的即時(shí)價(jià)值
  • R_{t+1} 表示在狀態(tài) S_t 下采取行動(dòng) A_t 后觀察到的獎(jiǎng)勵(lì)
  • Q(S_{t+1}, a) 表示在下一狀態(tài)采取行動(dòng) a 時(shí)的價(jià)值,因此對(duì) a 取 max 可得到從 S_{t+1} 狀態(tài)能獲得的最大獎(jiǎng)勵(lì)

具體而言,更新過程如下所示:

  • 初始化:我們以隨機(jī)的 Q(S_t, A_t) 值開始
  • 與環(huán)境交互:在時(shí)間步 t,智能體在狀態(tài) S_t 選擇行動(dòng) A_t,隨后從環(huán)境獲得獎(jiǎng)勵(lì) R_{t+1},并轉(zhuǎn)移到下一狀態(tài) S_{t+1}
  • 使用上述規(guī)則更新價(jià)值函數(shù)
  • 重復(fù)該過程直至收斂

然而,上述更新過程涉及 argmax 運(yùn)算,這在具有無限種可能動(dòng)作的連續(xù)動(dòng)作空間(continuous action space)中是難以實(shí)現(xiàn)的。這是因?yàn)閷?duì)所有動(dòng)作計(jì)算 argmax 需要在每個(gè)學(xué)習(xí)步驟中進(jìn)行全局優(yōu)化,計(jì)算成本極高。

當(dāng)使用 Q 網(wǎng)絡(luò)(如深度 Q 網(wǎng)絡(luò)(DQN))時(shí),這種情況還會(huì)伴隨訓(xùn)練不穩(wěn)定問題而更加復(fù)雜。由于 Q 網(wǎng)絡(luò)通常是非凸的,有時(shí) Q(s, a) 的微小更新就可能導(dǎo)致行為選擇發(fā)生巨大變化。

因此,基于價(jià)值的強(qiáng)化學(xué)習(xí)通常適用于離散的動(dòng)作空間場(chǎng)景,且最好具有較少的可選動(dòng)作,例如 Atari 游戲或 AlphaGo 中的 DQN 應(yīng)用。

但如果必須處理連續(xù)或大規(guī)模動(dòng)作空間呢?這時(shí)就需要基于策略的強(qiáng)化學(xué)習(xí)方法。

2.2 基于策略的強(qiáng)化學(xué)習(xí)

如前文所述,策略(Policy)指智能體用于決定采取何種行為的規(guī)則,是狀態(tài)到行為概率的映射:

image.pngimage.png

其中,策略 π(a|s) 通常是一個(gè)可微函數(shù),比如神經(jīng)網(wǎng)絡(luò),而 θ 就是這個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

因此,與基于價(jià)值的強(qiáng)化學(xué)習(xí)在動(dòng)作空間中進(jìn)行搜索不同,基于策略的強(qiáng)化學(xué)習(xí)在參數(shù)空間(θ)中進(jìn)行搜索,以最大化預(yù)期的獎(jiǎng)勵(lì)。

具體而言,基于策略的強(qiáng)化學(xué)習(xí)通過使用策略梯度算法(policy gradient)進(jìn)行梯度上升來優(yōu)化策略網(wǎng)絡(luò):

image.pngimage.png

在策略梯度算法中,梯度估計(jì)量的數(shù)學(xué)表達(dá)式通常呈現(xiàn)為:

image.pngimage.png

其中 R 是累計(jì)收益(即各時(shí)間步獎(jiǎng)勵(lì)之和)。

通過引入策略梯度算法,基于策略的強(qiáng)化學(xué)習(xí)消除了在動(dòng)作空間計(jì)算 argmax 的需求,使其更適用于大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景。

然而,策略梯度的計(jì)算仍然具有挑戰(zhàn)性。在圍棋等現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)任務(wù)中,收益通常取決于整個(gè)事件的累計(jì)獎(jiǎng)勵(lì),而且可能包含大量噪聲,這會(huì)導(dǎo)致策略梯度的方差較大并引發(fā)訓(xùn)練的不穩(wěn)定。

為解決該問題,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過結(jié)合基于價(jià)值和基于策略的方法,降低方差并提升訓(xùn)練的穩(wěn)定性。

2.3 Actor-Critic 強(qiáng)化學(xué)習(xí)方法

Actor-Critic 強(qiáng)化學(xué)習(xí)方法是綜合基于價(jià)值和基于策略的強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)設(shè)計(jì)而成,其核心結(jié)構(gòu)包含:

  • 策略網(wǎng)絡(luò)(稱為 Actor)用于選擇動(dòng)作
  • 價(jià)值函數(shù)(稱為 Critic)用于評(píng)估動(dòng)作

由于動(dòng)作選擇由策略網(wǎng)絡(luò)處理,Actor-Critic 方法同樣適用于大規(guī)模或連續(xù)動(dòng)作空間。此外,通過引入 Critic 網(wǎng)絡(luò),該方法能夠降低策略梯度的方差并提升訓(xùn)練穩(wěn)定性。

具體而言,原始策略梯度中的累計(jì)收益 R 被優(yōu)勢(shì)函數(shù)(Advantage Function)所替代:

image.pngimage.png

其中

  • Q(s, a) 表示在狀態(tài) s 采取動(dòng)作 a 的預(yù)期收益
  • V(s) 是基線價(jià)值函數(shù),用于估計(jì)當(dāng)前狀態(tài)的預(yù)期收益

通過引入基線價(jià)值函數(shù) V(s),優(yōu)勢(shì)函數(shù)通過將每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值減去該狀態(tài)下的預(yù)期收益,實(shí)現(xiàn)對(duì)獎(jiǎng)勵(lì)的“歸一化”,從而穩(wěn)定學(xué)習(xí)過程,防止因高方差獎(jiǎng)勵(lì)信號(hào)導(dǎo)致的大幅度參數(shù)更新。

基于此,策略梯度可被改寫為:

image.pngimage.png

Actor-Critic 方法被廣泛應(yīng)用于涉及大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景,例如 LLM 對(duì)齊過程中的 RLHF 訓(xùn)練,以及先進(jìn)機(jī)器人技術(shù)和自動(dòng)駕駛系統(tǒng)的開發(fā)。

盡管在許多應(yīng)用中取得成功,Actor-Critic 方法仍面臨訓(xùn)練不穩(wěn)定和超參數(shù)敏感性有關(guān)的挑戰(zhàn),因?yàn)樵摲椒ㄐ枰瑫r(shí)訓(xùn)練 Actor 和 Critic 網(wǎng)絡(luò),而保持兩者之間的平衡更新可能較為困難。

在下一節(jié),我們將解釋深度求索(DeepSeek)的 GRPO 方法如何解決這些挑戰(zhàn)。

3.群組相對(duì)策略優(yōu)化(GRPO)

為了更好地理解 GRPO,我們先來簡要回顧兩種啟發(fā)它的常用 Actor-Critic 方法:置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。

3.1 置信域策略優(yōu)化(TRPO)

如前文所述,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過用優(yōu)勢(shì)函數(shù)計(jì)算策略梯度的估計(jì)值來優(yōu)化策略網(wǎng)絡(luò),其梯度估計(jì)值可通過微分以下目標(biāo)函數(shù)獲得:

image.pngimage.png

這種方法的一個(gè)缺點(diǎn)是容易導(dǎo)致策略更新幅度過大,從而導(dǎo)致強(qiáng)化學(xué)習(xí)過程的不穩(wěn)定。為解決這一問題,TRPO [4] 通過限制策略更新的幅度,引入了一個(gè)替代目標(biāo)函數(shù)(surrogate objective function):

image.pngimage.png

其中,π_θ 和 π_(θ_old) 分別表示更新后的策略網(wǎng)絡(luò)和更新前的參考策略網(wǎng)絡(luò)。

上述目標(biāo)函數(shù)明確區(qū)分了新舊策略網(wǎng)絡(luò),并以兩者的 KL 散度作為約束條件(KL 散度常用于衡量概率分布之間的差異)。

3.2 近端策略優(yōu)化(PPO)

基于穩(wěn)定策略梯度的思想,PPO [5] 通過引入“裁剪后的替代目標(biāo)函數(shù)”(clipped surrogate objective)進(jìn)一步改進(jìn)了 TRPO。

具體而言,PPO 首先定義了新舊策略網(wǎng)絡(luò)之間的概率比:

image.pngimage.png

隨后將 TRPO 的目標(biāo)函數(shù)改寫為:

image.pngimage.png

其中 CPI 表示保守策略迭代框架(Conservative Policy Iteration)。

在此基礎(chǔ)之上,“裁剪后的替代目標(biāo)函數(shù)”可表示為:

image.pngimage.png

其中:

  • min() 中的第一項(xiàng)與 TRPO 相同,即L^{CPI}
  • min() 中的第二項(xiàng)會(huì)通過超參數(shù) ? 將概率比裁剪至區(qū)間[1 ? ?, 1 +?]

PPO 算法通過對(duì)未裁剪的和裁剪后的目標(biāo)函數(shù)應(yīng)用 min() 操作,相當(dāng)于為原始的“未裁剪目標(biāo)函數(shù)”設(shè)定一個(gè)下界,從而實(shí)現(xiàn)更保守的參數(shù)更新,避免訓(xùn)練過程中出現(xiàn)劇烈波動(dòng),從而提升整體穩(wěn)定性。

PPO 被廣泛應(yīng)用于大語言模型訓(xùn)練(如 InstructGPT [6])。然而,該方法仍然存在與前文提到的 actor-critic 方法面臨的相同挑戰(zhàn)。此外,隨著大語言模型規(guī)模的持續(xù)增長,維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)(value network)的成本顯著增加,因?yàn)閮r(jià)值網(wǎng)絡(luò)的規(guī)模通常與策略模型相當(dāng)。

在下一節(jié)中,我們將解釋 GRPO 如何消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求。

3.3 群組相對(duì)策略優(yōu)化(GRPO)

GRPO 的核心思想是在保持訓(xùn)練穩(wěn)定性的同時(shí)消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,這使得 GRPO 成為一種完全基于策略的強(qiáng)化學(xué)習(xí)方法。

為清晰展示 PPO 與 GRPO 的區(qū)別,我們先將 PPO 的目標(biāo)函數(shù)改寫如下:

image.pngimage.png

其中 q 和 o 分別是從問題數(shù)據(jù)集和舊策略網(wǎng)絡(luò)中采樣的問題和輸出。該目標(biāo)函數(shù)通過基于問題樣本的組別劃分計(jì)算均值,使其更容易擴(kuò)展至 GRPO[3] 中提出的分組結(jié)構(gòu)。

具體來說:

image.pngimage.png

其中,懲罰項(xiàng)(penalty term)被定義為無偏差的 KL 散度:

image.pngimage.png

而優(yōu)勢(shì)值 A_i 的計(jì)算方式為:

image.pngimage.png

其中,r_1 至 r_G 表示每組內(nèi)各輸出對(duì)應(yīng)的獎(jiǎng)勵(lì)。這種分組結(jié)構(gòu)在 GRPO 中至關(guān)重要,因?yàn)槊總€(gè)用戶問題(query)都具有獨(dú)特性,若直接基于不同用戶問題(query)的全局獎(jiǎng)勵(lì)計(jì)算歸一化后的優(yōu)勢(shì)值,對(duì)模型更新的指導(dǎo)意義較弱。

GRPO 與 PPO 的關(guān)鍵區(qū)別在于:通過使用各組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估算優(yōu)勢(shì)函數(shù),完全消除了對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,使其成為完全基于策略的 RL 方法而非 Actor-Critic 架構(gòu)。

如前文所述,移除價(jià)值網(wǎng)絡(luò)顯著降低了訓(xùn)練資源的需求(因?yàn)閮r(jià)值網(wǎng)絡(luò)通常與策略模型規(guī)模相當(dāng))。此外,這一設(shè)計(jì)還能通過避免優(yōu)化兩個(gè)獨(dú)立網(wǎng)絡(luò)產(chǎn)生的復(fù)雜問題,提高了訓(xùn)練過程的穩(wěn)定性。

但為什么這種方法可行呢?

請(qǐng)回顧一下優(yōu)勢(shì)函數(shù)的本質(zhì):它衡量的是特定動(dòng)作相較于給定狀態(tài)下預(yù)期收益的優(yōu)劣程度。在 PPO 中,這通過價(jià)值函數(shù) Q(s,a) 與基線價(jià)值函數(shù) V(s) 的差值來估算。

這意味著,只要定義的指標(biāo)能等價(jià)表示「當(dāng)前動(dòng)作相對(duì)于該狀態(tài)預(yù)期收益的優(yōu)劣程度」,即可直接替代傳統(tǒng)優(yōu)勢(shì)函數(shù)。

在 GRPO 中,該指標(biāo)是在每組之內(nèi)計(jì)算的(每組可視為一個(gè) query),因?yàn)閯澐值倪@些組本質(zhì)上代表智能體所處的狀態(tài)。因此,通過比較特定動(dòng)作的獎(jiǎng)勵(lì)與同組內(nèi)其他采樣動(dòng)作的獎(jiǎng)勵(lì),GRPO 能夠自然推導(dǎo)出優(yōu)勢(shì)函數(shù)的估計(jì)值。

下圖對(duì)比了 PPO 和 GRPO,注意后者沒有價(jià)值模型(value model):

圖 3.  PPO vs. GRPO。圖片引自文獻(xiàn) [3]圖 3. PPO vs. GRPO。圖片引自文獻(xiàn) [3]

以下算法總結(jié)了 GRPO 的實(shí)現(xiàn)方式:

圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]

4.Summary

本文全面介紹了理解深度求索(DeepSeek)提出的群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization, GRPO)技術(shù)所需的強(qiáng)化學(xué)習(xí)基礎(chǔ)概念。

我們首先從宏觀層面探討了強(qiáng)化學(xué)習(xí)對(duì)大語言模型訓(xùn)練的關(guān)鍵作用,強(qiáng)調(diào)了其在監(jiān)督學(xué)習(xí)之外實(shí)現(xiàn)模型輸出與人類偏好保持一致的價(jià)值。隨后,探討了強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理,說明獎(jiǎng)勵(lì)模型如何協(xié)助大語言模型行為與人類偏好對(duì)齊。

為建立堅(jiān)實(shí)的認(rèn)知基礎(chǔ),我們介紹強(qiáng)化學(xué)習(xí)的三大范式——基于價(jià)值(value-based)、基于策略(policy-based)以及 actor-critic 方法,分別闡述其優(yōu)勢(shì)、局限性和實(shí)際應(yīng)用場(chǎng)景。

在此基礎(chǔ)上,我們進(jìn)一步分析了兩種廣泛使用的 actor-critic 方法:置信域策略優(yōu)化(Trust Region Policy Optimization, TRPO)和近端策略優(yōu)化(Proximal Policy Optimization, PPO)。最后重點(diǎn)介紹深度求索提出的 GRPO 方法,展示其如何通過分組結(jié)構(gòu)和相對(duì)優(yōu)勢(shì)估計(jì)(relative advantage estimation)改進(jìn) PPO 框架。

Reference

[1] DeepSeek(https://www.deepseek.com/)

[2] DeepSeek-V3 Technical Report(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

[3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(https://arxiv.org/abs/2402.03300)

[4] Trust Region Policy Optimization(https://arxiv.org/abs/1502.05477)

[5] Proximal Policy Optimization Algorithms(https://arxiv.org/abs/1707.06347)

[6] Training Language Models to Follow Instructions with Human Feedback(https://arxiv.org/pdf/2203.02155)

[7] Q-learning(https://en.wikipedia.org/wiki/Q-learning)

[8] Bellman Equation(https://en.wikipedia.org/wiki/Bellman_equation#Bellman's_principle_of_optimality)

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2025-03-11 01:00:00

GRPO算法模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-06-05 06:36:17

2025-02-17 10:40:20

2025-03-28 10:16:15

2025-10-11 04:00:00

2024-09-05 08:23:58

2023-06-25 11:30:47

可視化

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2025-11-10 04:15:00

2025-10-08 10:44:16

2025-04-25 13:34:53

R1DeepSeekAgent

2025-03-07 09:24:00

2024-10-12 17:14:12

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-01-26 08:31:49

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2020-12-02 13:24:07

強(qiáng)化學(xué)習(xí)算法

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

一区二区三区不卡视频| 国产自产2019最新不卡| 亚洲精品午夜精品| 手机视频在线观看| av大片在线| 97精品久久久久中文字幕 | 久久精品—区二区三区舞蹈 | 欧美无乱码久久久免费午夜一区| 致1999电视剧免费观看策驰影院| 日韩一卡二卡在线| 韩国精品一区二区| 欧美一级免费视频| 国产67194| 神马影视一区二区| 日韩欧美一级二级三级| 男人舔女人下面高潮视频| 国产激情视频在线观看| 久久青草欧美一区二区三区| 亚洲va欧美va在线观看| 精品久久久久久久久久久久久久久久| 综合精品一区| 最近中文字幕日韩精品| 国产交换配乱淫视频免费| 亚洲天堂av资源在线观看| 在线视频亚洲一区| 青青艹视频在线| 影音先锋男人资源在线| 国产精品毛片a∨一区二区三区| 国内视频一区| 亚洲第一色视频| 久久国产精品露脸对白| 日韩美女免费视频| 欧美一级视频免费观看| 欧美日韩国产在线一区| 日韩最新在线视频| 免费观看a级片| 亚洲区小说区图片区qvod| 精品久久久久久无| 国产大片一区二区三区| 成人亚洲视频| 在线免费观看不卡av| 乱妇乱女熟妇熟女网站| 91超碰免费在线| 亚洲综合一区二区精品导航| 青草全福视在线| 免费的黄网站在线观看| 中文字幕av一区二区三区| 欧美日韩免费精品| 香蕉人妻av久久久久天天| 大尺度一区二区| 国产精品一码二码三码在线| 亚洲欧美激情另类| 处破女av一区二区| 国产精品区一区二区三在线播放| 国产丰满美女做爰| 国产盗摄精品一区二区三区在线| 91亚洲精品久久久久久久久久久久| 中文字幕日产av| 日本成人在线电影网| 国产精彩精品视频| 正在播放木下凛凛xv99| 日本va欧美va瓶| 成人久久18免费网站图片| 国产精品久久久久久久免费看| 奇米综合一区二区三区精品视频| 国产精品爽爽ⅴa在线观看| jizz国产在线| 久草这里只有精品视频| 精品国产乱码久久久久久闺蜜| 亚洲天堂伊人网| 不卡精品视频| 日韩视频免费观看高清完整版| 亚洲熟女乱综合一区二区| 99ri日韩精品视频| 亚洲精品一区久久久久久| 人妻视频一区二区| 91超碰成人| 欧美激情一级二级| 亚洲成人第一网站| 麻豆91精品视频| 亚洲一区久久久| 天天操天天操天天干| 久久精品一区二区| 正在播放亚洲| 日本三级一区| 欧美色国产精品| 国产精品无码自拍| 中文字幕伦av一区二区邻居| 中文字幕亚洲一区在线观看 | 自拍视频第一页| 欧美精品中文| www国产91| 国产成人无码精品| 久久99精品国产| 粉嫩av四季av绯色av第一区| 欧美日本网站| 亚洲精品高清视频在线观看| 日韩中文字幕三区| 亚洲最大的免费视频网站| 亚洲国产免费av| 国产一区第一页| 国产亚洲毛片| 亚洲专区国产精品| 国产毛片在线看| 亚洲第一成人在线| 亚洲性图一区二区| 亚洲资源网站| 久久久久久伊人| 91久久精品国产91性色69| 97久久超碰国产精品电影| 国产精品12p| 美女100%一区| 亚洲激情视频在线| 久久免费看少妇高潮v片特黄| 激情久久久久久| 国产欧美日韩视频| 你懂的在线看| 婷婷夜色潮精品综合在线| xxxx在线免费观看| 国产在视频线精品视频www666| 欧美精品一区在线播放| 真实新婚偷拍xxxxx| xf在线a精品一区二区视频网站| 麻豆传媒网站在线观看| 国产精品亚洲d| 亚洲欧美福利视频| 国产女同在线观看| 懂色av噜噜一区二区三区av| 一区二区精品在线观看| 日本视频在线观看免费| 丝袜国产在线| 色综合久久99| 51调教丨国产调教视频| 精品成人在线| 99在线观看视频| 成人日韩欧美| 欧美肥胖老妇做爰| 老司机深夜福利网站| 日韩一区精品字幕| 女女同性女同一区二区三区91| 牛牛精品视频在线| 日韩欧美不卡一区| 欧美成人免费看| 国产成人精品一区二区三区四区| 欧美精品一区二区性色a+v| 成人全视频在线观看在线播放高清 | 亚洲资源在线播放| 国产精品麻豆欧美日韩ww| 超碰在线97免费| 超碰成人久久| 国产一区二区色| 国产日产一区二区| 日韩一级二级三级精品视频| 国产suv一区二区三区| 国内精品久久久久影院薰衣草| 宅男一区二区三区| 久久在线观看| 午夜精品福利在线观看| 四虎精品在永久在线观看| 色综合久久久久| avhd101老司机| 精品制服美女久久| 日本老太婆做爰视频| 综合久久成人| 91精品国产91久久久久久| 欧美视频免费一区二区三区| 91福利国产精品| 午夜国产福利视频| 国产粉嫩在线观看| 成人免费高清在线观看| 无码人妻精品一区二区蜜桃网站| 日韩免费成人| 97成人超碰免| 国产一级网站视频在线| 欧美日韩精品一区二区三区 | 亚洲中国最大av网站| 扒开伸进免费视频| 米奇777在线欧美播放| 亚洲欧美一区二区原创| 国产日韩一区二区三免费高清| 欧美日韩成人网| 日韩专区一区二区| 欧美精品xxxxbbbb| 日本熟女一区二区| 国产欧美一区二区三区在线老狼| 无尽裸体动漫2d在线观看| 黑人一区二区三区四区五区| 久久久久久九九| 久久亚洲资源中文字| 欧美大片欧美激情性色a∨久久| 色网站在线免费观看| 91成人免费网站| 疯狂试爱三2浴室激情视频| 不卡电影一区二区三区| 尤蜜粉嫩av国产一区二区三区| 中文字幕免费一区二区三区| 久久影院理伦片| 国产一区二区三区免费在线 | 精品无码一区二区三区的天堂| 中文字幕一区二区三区视频 | 日韩美女毛片| 91精品国产综合久久男男| а√在线中文在线新版| 不卡的电视剧免费网站有什么| 国产精品96久久久久久| 黄色免费在线看| 亚洲跨种族黑人xxx| 97在线视频人妻无码| 精品久久在线播放| 福利所第一导航| 中文字幕欧美激情| 欧美日韩人妻精品一区在线| 久久国产人妖系列| 免费在线观看的毛片| 亚洲大片在线| 日韩最新中文字幕| 欧美日一区二区| 久久精品日韩精品| 成人性生交大片免费看96| 国产有码一区二区| 少妇一区视频| 97视频com| 四虎av在线| 久久九九全国免费精品观看| 久久这里精品| 日韩久久午夜影院| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 欧美日韩久久一区| 中国精品一区二区| 日本精品一级二级| 欧美h在线观看| 婷婷成人激情在线网| 久久久久久久久久久久久久久久久 | 99香蕉国产精品偷在线观看| 大地资源网在线观看免费官网| 久久电影院7| 欧美日韩另类一区| 中文精品在线观看| 99在线精品免费| 欧亚乱熟女一区二区在线 | 老司机免费视频| 成人一区二区三区视频在线观看 | 日韩专区在线观看| 香蕉视频在线播放| 最近2019年好看中文字幕视频 | 三上悠亚在线一区| 麻豆精品在线观看| 亚洲精品自拍网| 美女视频黄 久久| 天堂网在线免费观看| 欧美aaaaaa午夜精品| 在线观看av日韩| 毛片不卡一区二区| 污污网站在线观看视频| 激情综合色播五月| 中文 日韩 欧美| 国产高清视频一区| 成人免费看片载| 成人18视频日本| aa一级黄色片| 欧美国产视频在线| 日本少妇aaa| 一区二区免费看| 欧美一区二区三区…… | 亚洲在线视频播放| 56国语精品自产拍在线观看| av av片在线看| 精品久久人人做人人爰| 日本天堂在线| 在线观看视频99| a级影片在线| 韩国精品久久久999| 超碰国产一区| 国产日本欧美一区二区三区在线| 国产视频一区二| 狠狠久久综合婷婷不卡| 精品欧美久久| 四虎影院一区二区| 99热免费精品| 不卡的av中文字幕| 成人av电影在线| 五月婷婷欧美激情| 亚洲精品久久嫩草网站秘色| 91精品国产乱码久久久张津瑜| 91福利精品视频| 午夜久久久久久噜噜噜噜| 日韩精品在线视频美女| av网站在线免费播放| 久久97久久97精品免视看| 樱桃视频成人在线观看| 国产在线观看91精品一区| 成人直播在线观看| 欧美在线视频一区二区三区| 亚洲香蕉av| 欧美成人黑人猛交| 国产做a爰片久久毛片| ass精品国模裸体欣赏pics| 1000精品久久久久久久久| 日韩 欧美 中文| 欧美一区二区三区色| 欧美日韩在线精品一区二区三区激情综 | 在线观看成人小视频| 性欧美18一19性猛交| 国产性猛交xxxx免费看久久| 另类视频在线| 欧洲视频一区二区| 亚洲欧美久久久久| 成人激情校园春色| 三级黄色免费观看| 欧美性生交大片免费| 午夜精品久久久久久久99热黄桃| 在线观看日韩视频| 中文在线8资源库| 国产精品免费一区二区三区在线观看| 91亚洲人成网污www| 无码无遮挡又大又爽又黄的视频| 成人小视频在线| 日韩a级片在线观看| 欧美特级限制片免费在线观看| 无码精品视频一区二区三区| 欧美久久精品午夜青青大伊人| 日韩一区二区三区在线免费观看| 国产一区高清视频| 欧美全黄视频| 久久久久久久久久毛片| 国产精品区一区二区三区| 探花视频在线观看| 亚洲精品福利资源站| 日本伦理一区二区| 亚洲bt天天射| 在线观看免费一区二区| 最新天堂中文在线| 国产精品卡一卡二卡三| 91视频久久久| 亚洲欧洲国产一区| 美女高潮视频在线看| 精品日本一区二区三区在线观看| 欧美另类女人| 女教师高潮黄又色视频| 一区二区三区自拍| 99久久国产热无码精品免费| 久久激情视频免费观看| 久久69成人| 亚洲精品在线视频观看| 日本成人在线不卡视频| 四季av中文字幕| 欧美日韩亚洲综合一区二区三区| 成年人视频网站在线| 国产精品久久久久免费a∨大胸| 青青草国产成人a∨下载安卓| 国产又黄又猛又粗又爽的视频| 国产喂奶挤奶一区二区三区| 天天干天天操天天操| 亚洲一级片在线看| 91精品美女| 在线成人av电影| 国产一区在线看| 欧美日韩在线视频免费播放| 日韩精品一区在线观看| 啊啊啊久久久| 鲁鲁狠狠狠7777一区二区| 久久国产日韩| 国产精品情侣呻吟对白视频| 制服丝袜av成人在线看| 性xxxfreexxxx性欧美| 国产尤物99| 日韩高清在线一区| 国产天堂av在线| 欧美大片日本大片免费观看| 日韩电影毛片| 亚洲黄色成人久久久| 国产麻豆精品95视频| 日本午夜小视频| 国产亚洲欧洲高清一区| 麻豆一区在线| 精品视频免费在线播放| 亚洲国产精品黑人久久久| 国产成人三级一区二区在线观看一 | 欧美丝袜丝nylons| 最新黄网在线观看| 精品伦精品一区二区三区视频| 丝袜诱惑亚洲看片 | 偷拍日韩校园综合在线| 成人高潮成人免费观看| 91久久久一线二线三线品牌| 国产精品亚洲综合久久| 国产精品视频看看| 日韩精品欧美国产精品忘忧草| 97精品国产综合久久久动漫日韩 | av福利在线导航| 日韩在线第一区| 国产·精品毛片| 91porny九色| 欧美激情中文网| 日韩欧美伦理| 法国伦理少妇愉情| 欧美一区二区成人| 日本精品另类| 亚洲人成无码网站久久99热国产| 中文子幕无线码一区tr|