DeepSeek 技術(shù)解析：LLM 訓(xùn)練中的強(qiáng)化學(xué)習(xí)算法

作者：Baihai IDP 2025-05-28 02:25:00

我們將深入探討 DeepSeek 模型訓(xùn)練策略中的關(guān)鍵創(chuàng)新之一[1, 2]：群組相對(duì)策略優(yōu)化（Grouped Relative Policy Optimization，GRPO）[3]。

為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ)，我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念，重點(diǎn)解析強(qiáng)化學(xué)習(xí)（RL）及基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）在 LLM 訓(xùn)練中的核心作用。接著我們將探討不同的強(qiáng)化學(xué)習(xí)范式，包括基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí)，回顧經(jīng)典算法如置信域策略優(yōu)化（TRPO）和近端策略優(yōu)化（PPO），最后解析 GRPO 帶來的優(yōu)化創(chuàng)新。

本文目錄結(jié)構(gòu)：

技術(shù)背景：闡釋 LLM 訓(xùn)練為何需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的工作原理
強(qiáng)化學(xué)習(xí)范式：解析并對(duì)比基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí)范式
GRPO：先回顧 TRPO 和 PPO，再詳解 GRPO 如何對(duì) PPO 進(jìn)行優(yōu)化改進(jìn)
總結(jié)
參考文獻(xiàn)

1.技術(shù)背景

1.1 為什么在大語言模型訓(xùn)練中需要強(qiáng)化學(xué)習(xí)

在將強(qiáng)化學(xué)習(xí)引入大語言模型訓(xùn)練之前，自然語言處理模型的訓(xùn)練通常分為兩個(gè)階段，即通常所說的「預(yù)訓(xùn)練（Pre-training）和微調(diào)（finetuning）」范式：

預(yù)訓(xùn)練階段：通過在大量文本語料上進(jìn)行無監(jiān)督目標(biāo)訓(xùn)練（如預(yù)測(cè)缺失的 token），幫助模型建立對(duì)語言的整體理解。
監(jiān)督微調(diào)階段：使用人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練，使模型適應(yīng)問題解答等特定任務(wù)，生成更有用且更有條理的輸出。

然而，即使完成這兩個(gè)階段的訓(xùn)練，大語言模型生成的回答仍常常與人類的偏好不一致。典型問題包括：產(chǎn)生不準(zhǔn)確的信息（幻覺）、回答過于冗長或過于簡潔、忽略隱含的上下文信息，或誤解諷刺與幽默等表達(dá)。

換言之，要讓大語言模型真正具備實(shí)用性，需要將其與人類偏好對(duì)齊，而僅靠監(jiān)督式微調(diào)難以實(shí)現(xiàn)這一目標(biāo)。

這又是為什么呢？

這背后的核心挑戰(zhàn)在于：如何將「對(duì)齊人類偏好」這種抽象概念轉(zhuǎn)化為可學(xué)習(xí)的任務(wù)目標(biāo)，使其能夠被正確標(biāo)注，并用于構(gòu)建有意義的學(xué)習(xí)目標(biāo)。由于人類偏好的復(fù)雜性，想要窮舉所有可能的問題并為每種問題定義具體標(biāo)簽是不現(xiàn)實(shí)的（譯者注：例如，為“冗余回答”標(biāo)注 0，為“簡潔回答”標(biāo)注 1）。

這正是強(qiáng)化學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。

1.2 強(qiáng)化學(xué)習(xí)的工作原理

機(jī)器學(xué)習(xí)算法可大致分為三類：

監(jiān)督學(xué)習(xí) (Supervised Learning)：通過標(biāo)注數(shù)據(jù)（每個(gè)輸入 x 對(duì)應(yīng)目標(biāo) y）訓(xùn)練模型，目標(biāo)是構(gòu)建從 x 預(yù)測(cè) y 的映射。當(dāng) y 為離散值時(shí)稱為分類問題，連續(xù)值時(shí)稱為回歸問題。
無監(jiān)督學(xué)習(xí) (Unsupervised Learning)：在沒有標(biāo)注數(shù)據(jù)時(shí)，通過發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在模式進(jìn)行學(xué)習(xí)，例如主成分分析（PCA）等降維方法，或 K-Means 等聚類算法。
強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL)：當(dāng)難以定義明確的學(xué)習(xí)目標(biāo)時(shí)，讓 RL 模型通過與環(huán)境交互獲取獎(jiǎng)勵(lì)信號(hào)來更新模型。該方法常用于訓(xùn)練機(jī)器人保持平衡、行走等場(chǎng)景。

下圖展示了強(qiáng)化學(xué)習(xí)框架的五個(gè)核心要素：

image.png

圖 1. 強(qiáng)化學(xué)習(xí)的五個(gè)要素：智能體、環(huán)境、獎(jiǎng)勵(lì)、狀態(tài)和動(dòng)作（Image from wiki）

以訓(xùn)練小狗坐下為例，五要素對(duì)應(yīng)如下：

智能體 (Agent)：學(xué)習(xí)指令的小狗
環(huán)境 (Environment)：小狗所處的周圍環(huán)境
狀態(tài) (State)：小狗當(dāng)前姿勢(shì)（是否處于坐姿）
獎(jiǎng)勵(lì) (Reward)：小狗正確執(zhí)行指令后獲得的零食
動(dòng)作 (Action)：小狗可執(zhí)行的動(dòng)作（坐下、跳躍、吠叫等）

監(jiān)督學(xué)習(xí)中的學(xué)習(xí)目標(biāo)和強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制有何本質(zhì)區(qū)別？

在監(jiān)督學(xué)習(xí)中，每個(gè)輸入樣本都需配備一個(gè)明確的標(biāo)準(zhǔn)答案，模型通過最小化預(yù)測(cè)值與正確答案間的損失函數(shù)（loss function）進(jìn)行優(yōu)化。而在強(qiáng)化學(xué)習(xí)中，智能體通過與環(huán)境的交互來學(xué)習(xí) —— 每個(gè)動(dòng)作都沒有明確的標(biāo)準(zhǔn)答案，而是通過環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào)（reward）來調(diào)整其行為。

需要注意，強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)通常具有一定的延遲，而且可能非常稀少。例如下棋時(shí)，只有游戲結(jié)束時(shí)才能獲得“勝利”或“失敗”的最終獎(jiǎng)勵(lì)。這意味著智能體無法立即判斷單個(gè)動(dòng)作的優(yōu)劣，必須通過長期試錯(cuò)來學(xué)習(xí)如何使累積到的獎(jiǎng)勵(lì)最大化。

這一特性使強(qiáng)化學(xué)習(xí)在缺乏明確標(biāo)準(zhǔn)答案但能獲取反饋的場(chǎng)景中極具優(yōu)勢(shì)。例如訓(xùn)練機(jī)器人行走時(shí)，我們無法預(yù)先定義每個(gè)狀態(tài)下關(guān)節(jié)的“正確”角度，但當(dāng)機(jī)器人嘗試不同動(dòng)作后，若成功邁出一步，這一結(jié)果即可作為獎(jiǎng)勵(lì)信號(hào)，表明其之前的動(dòng)作是有效的。

回到我們訓(xùn)練小狗的案例，強(qiáng)化學(xué)習(xí)流程如下：

初始階段：小狗（智能體）不理解“坐下”指令，會(huì)在環(huán)境（家中）嘗試各種動(dòng)作（奔跑、坐下、吠叫）。
獎(jiǎng)勵(lì)反饋：每次執(zhí)行坐下的動(dòng)作時(shí)獲得零食（獎(jiǎng)勵(lì)）。
最終結(jié)果：小狗逐漸將“坐下”動(dòng)作與獎(jiǎng)勵(lì)關(guān)聯(lián)，最終學(xué)會(huì)響應(yīng)指令。

強(qiáng)化學(xué)習(xí)的核心在于通過試錯(cuò)法學(xué)習(xí)，而設(shè)計(jì)合理的獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵。獎(jiǎng)勵(lì)必須與目標(biāo)高度對(duì)齊，否則模型無法習(xí)得所需的行為；同時(shí)，獎(jiǎng)勵(lì)的計(jì)算應(yīng)盡可能簡單高效。若獎(jiǎng)勵(lì)生成過程過于復(fù)雜或緩慢，會(huì)導(dǎo)致訓(xùn)練效率低下，難以實(shí)際應(yīng)用。

例如，在游戲場(chǎng)景中，模型的每步動(dòng)作都可從游戲環(huán)境中直接獲得分?jǐn)?shù)獎(jiǎng)勵(lì)（如擊殺敵人+10分），獎(jiǎng)勵(lì)與游戲表現(xiàn)直接掛鉤。

而在現(xiàn)實(shí)任務(wù)中，多數(shù)場(chǎng)景缺乏現(xiàn)成的獎(jiǎng)勵(lì)機(jī)制，需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然而，許多復(fù)雜行為難以轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)（如“如何讓智能體的回答更禮貌”中“禮貌”的定義包含語調(diào)、用詞、文化差異等多維度因素）。

這就引出了基于人類反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback, RLHF）...

1.3 基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）

再次以訓(xùn)練小狗為例，假設(shè)你的小狗最終學(xué)會(huì)了坐下，但有時(shí)會(huì)邊坐邊吠叫，或先跳上沙發(fā)再坐下。此時(shí)該如何糾正？

有了 RLHF，你就不再需要每次坐下都給零食，而是通過比較它的行為給予差異化的獎(jiǎng)勵(lì)。例如：如果小狗安靜地坐在地板上，它得到的獎(jiǎng)勵(lì)就會(huì)比一邊叫一邊坐或跳到沙發(fā)上坐的獎(jiǎng)勵(lì)要多。這樣，即使沒有明確向小狗解釋“安靜”的含義，小狗也能通過獎(jiǎng)勵(lì)的不同知道安靜地坐在地板上更好。

如前文所述，簡單高效的獎(jiǎng)勵(lì)機(jī)制是 RL 的關(guān)鍵，但直接依賴人類進(jìn)行實(shí)時(shí)反饋（如每次動(dòng)作都需人類評(píng)分）并不現(xiàn)實(shí)。為此，RLHF 通過以下三個(gè)階段實(shí)現(xiàn)規(guī)模化訓(xùn)練：

收集人類反饋：采集模型輸出，由人類標(biāo)注員比較不同回答哪個(gè)更好（如標(biāo)注回答 A 比回答 B 更符合要求）。
訓(xùn)練獎(jiǎng)勵(lì)模型：基于人類標(biāo)注員的偏好數(shù)據(jù)，構(gòu)建模擬人類判斷的獎(jiǎng)勵(lì)模型（Reward Model）。
強(qiáng)化學(xué)習(xí)優(yōu)化策略：使用學(xué)習(xí)到的獎(jiǎng)勵(lì)模型替代人工反饋，通過 RL 算法優(yōu)化策略（Policy）。

此處的策略（Policy）是指智能體根據(jù)環(huán)境狀態(tài)選擇動(dòng)作的決策規(guī)則。下圖展示了 InstructGPT 微調(diào)過程中 RLHF 的實(shí)現(xiàn)流程，其核心步驟與上述三階段一致：

image.png

圖 2. InstructGPT/ChatGPT 訓(xùn)練過程中的 RLHF 步驟示意圖。(圖片來自文獻(xiàn) [6]）

如圖所示，RL 過程主要發(fā)生在第 3 步，通過近端策略優(yōu)化（Proximal Policy Optimization, PPO）算法優(yōu)化策略（policy）。

那么，PPO 算法是如何工作的呢？

為了理解這一點(diǎn)，在下一節(jié)中，我們將首先解析強(qiáng)化學(xué)習(xí)的三大基礎(chǔ)范式：基于價(jià)值的方法（Value-based）、基于策略的方法（Policy-based）和 Actor-Critic 方法。

2.強(qiáng)化學(xué)習(xí)范式

在深入研究所有數(shù)學(xué)細(xì)節(jié)之前，讓我們先來解釋一下強(qiáng)化學(xué)習(xí)背景下的價(jià)值函數(shù)（value functions）和策略（policy）。

在強(qiáng)化學(xué)習(xí)中，價(jià)值函數(shù)（value functions）表示智能體在狀態(tài) s 采取動(dòng)作 a 并遵循策略 π 后，所能獲得的預(yù)期收益：

image.png

其中

R_t 表示智能體在第 t 個(gè)時(shí)間步執(zhí)行某個(gè)動(dòng)作后，環(huán)境給出的即時(shí)反饋（獎(jiǎng)勵(lì)）。
γ 稱為折扣因子，用于量化未來獎(jiǎng)勵(lì)的價(jià)值

這里需要提及幾點(diǎn)：

我們需要考慮未來收益的原因是：強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)通常具有延遲性，因此不能根據(jù)即時(shí)收益判斷某個(gè)動(dòng)作的好壞。
引入折扣因子有助于平衡短期獎(jiǎng)勵(lì)與長期收益。它還能穩(wěn)定訓(xùn)練過程并加速模型收斂，因?yàn)楫?dāng) γ 取值在 0 到 1 之間時(shí)，能確保價(jià)值函數(shù)不會(huì)無限增大，始終保持在一個(gè)合理范圍內(nèi)。
上述價(jià)值函數(shù)定義涉及策略 π，它可以被視為智能體遵循的決策策略，用于決定在給定狀態(tài)下采取何種行動(dòng)，通常表示為從狀態(tài)（states）到動(dòng)作概率（action probabilities）的映射

上述關(guān)于價(jià)值函數(shù)（value functions）和策略（policy）的定義表明，RL 智能體可以通過優(yōu)化價(jià)值函數(shù)或策略來進(jìn)行訓(xùn)練。這就產(chǎn)生了三種不同的訓(xùn)練范式：基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)，以及 Actor-Critic 強(qiáng)化學(xué)習(xí)。

2.1 基于價(jià)值的強(qiáng)化學(xué)習(xí)

基于價(jià)值的強(qiáng)化學(xué)習(xí)方法根據(jù)貝爾曼方程[8]更新價(jià)值函數(shù)，該方程將狀態(tài)價(jià)值（the value of a state）分解為兩個(gè)部分：即時(shí)獎(jiǎng)勵(lì)（the immediate reward）和下一狀態(tài)的折扣價(jià)值（the discounted value of the next state）。

以Q-learning[7]為例，其價(jià)值函數(shù)可通過以下公式更新：

image.png

其中

alpha 是用于結(jié)合即時(shí)價(jià)值與未來價(jià)值的學(xué)習(xí)率
Q(S_t, A_t) 表示當(dāng)前狀態(tài)的即時(shí)價(jià)值
R_{t+1} 表示在狀態(tài) S_t 下采取行動(dòng) A_t 后觀察到的獎(jiǎng)勵(lì)
Q(S_{t+1}, a) 表示在下一狀態(tài)采取行動(dòng) a 時(shí)的價(jià)值，因此對(duì) a 取 max 可得到從 S_{t+1} 狀態(tài)能獲得的最大獎(jiǎng)勵(lì)

具體而言，更新過程如下所示：

初始化：我們以隨機(jī)的 Q(S_t, A_t) 值開始
與環(huán)境交互：在時(shí)間步 t，智能體在狀態(tài) S_t 選擇行動(dòng) A_t，隨后從環(huán)境獲得獎(jiǎng)勵(lì) R_{t+1}，并轉(zhuǎn)移到下一狀態(tài) S_{t+1}
使用上述規(guī)則更新價(jià)值函數(shù)
重復(fù)該過程直至收斂

然而，上述更新過程涉及 argmax 運(yùn)算，這在具有無限種可能動(dòng)作的連續(xù)動(dòng)作空間（continuous action space）中是難以實(shí)現(xiàn)的。這是因?yàn)閷?duì)所有動(dòng)作計(jì)算 argmax 需要在每個(gè)學(xué)習(xí)步驟中進(jìn)行全局優(yōu)化，計(jì)算成本極高。

當(dāng)使用 Q 網(wǎng)絡(luò)（如深度 Q 網(wǎng)絡(luò)（DQN））時(shí)，這種情況還會(huì)伴隨訓(xùn)練不穩(wěn)定問題而更加復(fù)雜。由于 Q 網(wǎng)絡(luò)通常是非凸的，有時(shí) Q(s, a) 的微小更新就可能導(dǎo)致行為選擇發(fā)生巨大變化。

因此，基于價(jià)值的強(qiáng)化學(xué)習(xí)通常適用于離散的動(dòng)作空間場(chǎng)景，且最好具有較少的可選動(dòng)作，例如 Atari 游戲或 AlphaGo 中的 DQN 應(yīng)用。

但如果必須處理連續(xù)或大規(guī)模動(dòng)作空間呢？這時(shí)就需要基于策略的強(qiáng)化學(xué)習(xí)方法。

2.2 基于策略的強(qiáng)化學(xué)習(xí)

如前文所述，策略（Policy）指智能體用于決定采取何種行為的規(guī)則，是狀態(tài)到行為概率的映射：

image.png

其中，策略 π(a|s) 通常是一個(gè)可微函數(shù)，比如神經(jīng)網(wǎng)絡(luò)，而 θ 就是這個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

因此，與基于價(jià)值的強(qiáng)化學(xué)習(xí)在動(dòng)作空間中進(jìn)行搜索不同，基于策略的強(qiáng)化學(xué)習(xí)在參數(shù)空間（θ）中進(jìn)行搜索，以最大化預(yù)期的獎(jiǎng)勵(lì)。

具體而言，基于策略的強(qiáng)化學(xué)習(xí)通過使用策略梯度算法（policy gradient）進(jìn)行梯度上升來優(yōu)化策略網(wǎng)絡(luò)：

image.png

在策略梯度算法中，梯度估計(jì)量的數(shù)學(xué)表達(dá)式通常呈現(xiàn)為：

image.png

其中 R 是累計(jì)收益（即各時(shí)間步獎(jiǎng)勵(lì)之和）。

通過引入策略梯度算法，基于策略的強(qiáng)化學(xué)習(xí)消除了在動(dòng)作空間計(jì)算 argmax 的需求，使其更適用于大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景。

然而，策略梯度的計(jì)算仍然具有挑戰(zhàn)性。在圍棋等現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)任務(wù)中，收益通常取決于整個(gè)事件的累計(jì)獎(jiǎng)勵(lì)，而且可能包含大量噪聲，這會(huì)導(dǎo)致策略梯度的方差較大并引發(fā)訓(xùn)練的不穩(wěn)定。

為解決該問題，Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過結(jié)合基于價(jià)值和基于策略的方法，降低方差并提升訓(xùn)練的穩(wěn)定性。

2.3 Actor-Critic 強(qiáng)化學(xué)習(xí)方法

Actor-Critic 強(qiáng)化學(xué)習(xí)方法是綜合基于價(jià)值和基于策略的強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)設(shè)計(jì)而成，其核心結(jié)構(gòu)包含：

策略網(wǎng)絡(luò)（稱為 Actor）用于選擇動(dòng)作
價(jià)值函數(shù)（稱為 Critic）用于評(píng)估動(dòng)作

由于動(dòng)作選擇由策略網(wǎng)絡(luò)處理，Actor-Critic 方法同樣適用于大規(guī)模或連續(xù)動(dòng)作空間。此外，通過引入 Critic 網(wǎng)絡(luò)，該方法能夠降低策略梯度的方差并提升訓(xùn)練穩(wěn)定性。

具體而言，原始策略梯度中的累計(jì)收益 R 被優(yōu)勢(shì)函數(shù)（Advantage Function）所替代：

image.png

其中

Q(s, a) 表示在狀態(tài) s 采取動(dòng)作 a 的預(yù)期收益
V(s) 是基線價(jià)值函數(shù)，用于估計(jì)當(dāng)前狀態(tài)的預(yù)期收益

通過引入基線價(jià)值函數(shù) V(s)，優(yōu)勢(shì)函數(shù)通過將每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值減去該狀態(tài)下的預(yù)期收益，實(shí)現(xiàn)對(duì)獎(jiǎng)勵(lì)的“歸一化”，從而穩(wěn)定學(xué)習(xí)過程，防止因高方差獎(jiǎng)勵(lì)信號(hào)導(dǎo)致的大幅度參數(shù)更新。

基于此，策略梯度可被改寫為：

image.png

Actor-Critic 方法被廣泛應(yīng)用于涉及大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景，例如 LLM 對(duì)齊過程中的 RLHF 訓(xùn)練，以及先進(jìn)機(jī)器人技術(shù)和自動(dòng)駕駛系統(tǒng)的開發(fā)。

盡管在許多應(yīng)用中取得成功，Actor-Critic 方法仍面臨訓(xùn)練不穩(wěn)定和超參數(shù)敏感性有關(guān)的挑戰(zhàn)，因?yàn)樵摲椒ㄐ枰瑫r(shí)訓(xùn)練 Actor 和 Critic 網(wǎng)絡(luò)，而保持兩者之間的平衡更新可能較為困難。

在下一節(jié)，我們將解釋深度求索（DeepSeek）的 GRPO 方法如何解決這些挑戰(zhàn)。

3.群組相對(duì)策略優(yōu)化（GRPO）

為了更好地理解 GRPO，我們先來簡要回顧兩種啟發(fā)它的常用 Actor-Critic 方法：置信域策略優(yōu)化（TRPO）和近端策略優(yōu)化（PPO）。

3.1 置信域策略優(yōu)化（TRPO）

如前文所述，Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過用優(yōu)勢(shì)函數(shù)計(jì)算策略梯度的估計(jì)值來優(yōu)化策略網(wǎng)絡(luò)，其梯度估計(jì)值可通過微分以下目標(biāo)函數(shù)獲得：

image.png

這種方法的一個(gè)缺點(diǎn)是容易導(dǎo)致策略更新幅度過大，從而導(dǎo)致強(qiáng)化學(xué)習(xí)過程的不穩(wěn)定。為解決這一問題，TRPO [4] 通過限制策略更新的幅度，引入了一個(gè)替代目標(biāo)函數(shù)（surrogate objective function）：

image.png

其中，π_θ 和 π_(θ_old) 分別表示更新后的策略網(wǎng)絡(luò)和更新前的參考策略網(wǎng)絡(luò)。

上述目標(biāo)函數(shù)明確區(qū)分了新舊策略網(wǎng)絡(luò)，并以兩者的 KL 散度作為約束條件（KL 散度常用于衡量概率分布之間的差異）。

3.2 近端策略優(yōu)化（PPO）

基于穩(wěn)定策略梯度的思想，PPO [5] 通過引入“裁剪后的替代目標(biāo)函數(shù)”（clipped surrogate objective）進(jìn)一步改進(jìn)了 TRPO。

具體而言，PPO 首先定義了新舊策略網(wǎng)絡(luò)之間的概率比：

image.png

隨后將 TRPO 的目標(biāo)函數(shù)改寫為：

image.png

其中 CPI 表示保守策略迭代框架（Conservative Policy Iteration）。

在此基礎(chǔ)之上，“裁剪后的替代目標(biāo)函數(shù)”可表示為：

image.png

其中：

min() 中的第一項(xiàng)與 TRPO 相同，即L^{CPI}
min() 中的第二項(xiàng)會(huì)通過超參數(shù) ? 將概率比裁剪至區(qū)間[1 ? ?, 1 +?]

PPO 算法通過對(duì)未裁剪的和裁剪后的目標(biāo)函數(shù)應(yīng)用 min() 操作，相當(dāng)于為原始的“未裁剪目標(biāo)函數(shù)”設(shè)定一個(gè)下界，從而實(shí)現(xiàn)更保守的參數(shù)更新，避免訓(xùn)練過程中出現(xiàn)劇烈波動(dòng)，從而提升整體穩(wěn)定性。

PPO 被廣泛應(yīng)用于大語言模型訓(xùn)練（如 InstructGPT [6]）。然而，該方法仍然存在與前文提到的 actor-critic 方法面臨的相同挑戰(zhàn)。此外，隨著大語言模型規(guī)模的持續(xù)增長，維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)（value network）的成本顯著增加，因?yàn)閮r(jià)值網(wǎng)絡(luò)的規(guī)模通常與策略模型相當(dāng)。

在下一節(jié)中，我們將解釋 GRPO 如何消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求。

3.3 群組相對(duì)策略優(yōu)化（GRPO）

GRPO 的核心思想是在保持訓(xùn)練穩(wěn)定性的同時(shí)消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求，這使得 GRPO 成為一種完全基于策略的強(qiáng)化學(xué)習(xí)方法。

為清晰展示 PPO 與 GRPO 的區(qū)別，我們先將 PPO 的目標(biāo)函數(shù)改寫如下：

image.png

其中 q 和 o 分別是從問題數(shù)據(jù)集和舊策略網(wǎng)絡(luò)中采樣的問題和輸出。該目標(biāo)函數(shù)通過基于問題樣本的組別劃分計(jì)算均值，使其更容易擴(kuò)展至 GRPO[3] 中提出的分組結(jié)構(gòu)。

具體來說：

image.png

其中，懲罰項(xiàng)（penalty term）被定義為無偏差的 KL 散度：

image.png

而優(yōu)勢(shì)值 A_i 的計(jì)算方式為：

image.png

其中，r_1 至 r_G 表示每組內(nèi)各輸出對(duì)應(yīng)的獎(jiǎng)勵(lì)。這種分組結(jié)構(gòu)在 GRPO 中至關(guān)重要，因?yàn)槊總€(gè)用戶問題（query）都具有獨(dú)特性，若直接基于不同用戶問題（query）的全局獎(jiǎng)勵(lì)計(jì)算歸一化后的優(yōu)勢(shì)值，對(duì)模型更新的指導(dǎo)意義較弱。

GRPO 與 PPO 的關(guān)鍵區(qū)別在于：通過使用各組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估算優(yōu)勢(shì)函數(shù)，完全消除了對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求，使其成為完全基于策略的 RL 方法而非 Actor-Critic 架構(gòu)。

如前文所述，移除價(jià)值網(wǎng)絡(luò)顯著降低了訓(xùn)練資源的需求（因?yàn)閮r(jià)值網(wǎng)絡(luò)通常與策略模型規(guī)模相當(dāng)）。此外，這一設(shè)計(jì)還能通過避免優(yōu)化兩個(gè)獨(dú)立網(wǎng)絡(luò)產(chǎn)生的復(fù)雜問題，提高了訓(xùn)練過程的穩(wěn)定性。

但為什么這種方法可行呢？

請(qǐng)回顧一下優(yōu)勢(shì)函數(shù)的本質(zhì)：它衡量的是特定動(dòng)作相較于給定狀態(tài)下預(yù)期收益的優(yōu)劣程度。在 PPO 中，這通過價(jià)值函數(shù) Q(s,a) 與基線價(jià)值函數(shù) V(s) 的差值來估算。

這意味著，只要定義的指標(biāo)能等價(jià)表示「當(dāng)前動(dòng)作相對(duì)于該狀態(tài)預(yù)期收益的優(yōu)劣程度」，即可直接替代傳統(tǒng)優(yōu)勢(shì)函數(shù)。

在 GRPO 中，該指標(biāo)是在每組之內(nèi)計(jì)算的（每組可視為一個(gè) query），因?yàn)閯澐值倪@些組本質(zhì)上代表智能體所處的狀態(tài)。因此，通過比較特定動(dòng)作的獎(jiǎng)勵(lì)與同組內(nèi)其他采樣動(dòng)作的獎(jiǎng)勵(lì)，GRPO 能夠自然推導(dǎo)出優(yōu)勢(shì)函數(shù)的估計(jì)值。

下圖對(duì)比了 PPO 和 GRPO，注意后者沒有價(jià)值模型（value model）：

圖 3. PPO vs. GRPO。圖片引自文獻(xiàn) [3]

以下算法總結(jié)了 GRPO 的實(shí)現(xiàn)方式：

圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]

4.Summary

本文全面介紹了理解深度求索（DeepSeek）提出的群組相對(duì)策略優(yōu)化（Grouped Relative Policy Optimization, GRPO）技術(shù)所需的強(qiáng)化學(xué)習(xí)基礎(chǔ)概念。

我們首先從宏觀層面探討了強(qiáng)化學(xué)習(xí)對(duì)大語言模型訓(xùn)練的關(guān)鍵作用，強(qiáng)調(diào)了其在監(jiān)督學(xué)習(xí)之外實(shí)現(xiàn)模型輸出與人類偏好保持一致的價(jià)值。隨后，探討了強(qiáng)化學(xué)習(xí)（RL）及基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的工作原理，說明獎(jiǎng)勵(lì)模型如何協(xié)助大語言模型行為與人類偏好對(duì)齊。

為建立堅(jiān)實(shí)的認(rèn)知基礎(chǔ)，我們介紹強(qiáng)化學(xué)習(xí)的三大范式——基于價(jià)值（value-based）、基于策略（policy-based）以及 actor-critic 方法，分別闡述其優(yōu)勢(shì)、局限性和實(shí)際應(yīng)用場(chǎng)景。

在此基礎(chǔ)上，我們進(jìn)一步分析了兩種廣泛使用的 actor-critic 方法：置信域策略優(yōu)化（Trust Region Policy Optimization, TRPO）和近端策略優(yōu)化（Proximal Policy Optimization, PPO）。最后重點(diǎn)介紹深度求索提出的 GRPO 方法，展示其如何通過分組結(jié)構(gòu)和相對(duì)優(yōu)勢(shì)估計(jì)（relative advantage estimation）改進(jìn) PPO 框架。