DeepSeek用的GRPO有那么特別嗎?萬(wàn)字長(zhǎng)文分析四篇精品論文

隨著 DeepSeek R1 的持續(xù)爆火,推理和強(qiáng)化學(xué)習(xí)已經(jīng)成為 AI 領(lǐng)域的熱門(mén)詞匯。
短短幾個(gè)月的時(shí)間,我們已經(jīng)見(jiàn)證了太多的推理大模型,AI 更新迭代速度似乎已經(jīng)快進(jìn)到了以天為單位。
但在眾多研究成果中找到值得關(guān)注的內(nèi)容并不容易。
這有一篇價(jià)值非常高的博客,可以幫你梳理最近關(guān)于推理模型的研究,重點(diǎn)關(guān)注 DeepSeek R1 里用到的 GRPO 及后續(xù)的改進(jìn)算法,非常值得一讀。作者是來(lái)自 AI2 的 ML 科學(xué)家 Nathan Lambert,他博士畢業(yè)于 UC 伯克利,曾在 HuggingFace 領(lǐng)導(dǎo) RLHF 團(tuán)隊(duì)。

博客地址:https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo
文章列舉了最近比較火的論文和大模型,包括:
- Kimi k1.5:這是一個(gè)與 DeepSeek R1 同一天發(fā)布的推理模型,其技術(shù)報(bào)告非常詳細(xì);
- OpenReasonerZero:這是首次對(duì)基礎(chǔ)模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的完整復(fù)現(xiàn);
- DAPO:這是首篇探討對(duì) GRPO 進(jìn)行改進(jìn)以更好地適應(yīng)推理訓(xùn)練的論文(參見(jiàn)《超越 DeepSeek GRPO 的關(guān)鍵 RL 算法,字節(jié)、清華 AIR 開(kāi)源 DAPO》);
- Dr. GRPO:這篇論文深入研究了從基礎(chǔ)模型開(kāi)始的強(qiáng)化學(xué)習(xí),并提出了對(duì) GRPO 的改進(jìn)以提升學(xué)習(xí)效果(參見(jiàn)《揭秘 DeepSeek R1-Zero 訓(xùn)練方式,GRPO 還有極簡(jiǎn)改進(jìn)方案》)。
此外,作者還給出了參考論文中重復(fù)看到的損失函數(shù),我們不難發(fā)現(xiàn)這應(yīng)該是比較重要的損失函數(shù):

是時(shí)候給 GRPO 降降溫了
現(xiàn)在很多人被 RL 在語(yǔ)言建模領(lǐng)域的表現(xiàn)所吸引,這給人一種錯(cuò)覺(jué),彷佛 GRPO 和 DeepSeek R1(以及之前的模型)的工作已經(jīng)開(kāi)啟了 RL 訓(xùn)練的全新時(shí)代。
但事實(shí)遠(yuǎn)非如此。
其實(shí) GRPO 并不是一種特殊的 RL 算法。
目前許多領(lǐng)先的研究工作和實(shí)驗(yàn)室并沒(méi)有使用 GRPO 進(jìn)行研究。
實(shí)際上,GRPO 與其他 RL 算法關(guān)系極為密切 —— 它源自 PPO(近端策略優(yōu)化),并且具有與 RLOO (REINFORCE Leave One Out)超級(jí)相似的計(jì)算優(yōu)勢(shì)。
GRPO 確實(shí)包含了巧妙的改進(jìn),尤其是在推理訓(xùn)練(reasoning training)而非傳統(tǒng)的 RLHF 場(chǎng)景下。
傳統(tǒng) RLHF 實(shí)踐沿襲了早期 RL 文獻(xiàn)的做法,通常每個(gè)批次中每個(gè)提示詞僅采樣一個(gè)生成結(jié)果進(jìn)行訓(xùn)練。而在推理任務(wù)中,我們現(xiàn)在會(huì)生成多個(gè)答案。
若不深入技術(shù)細(xì)節(jié),現(xiàn)代實(shí)現(xiàn)中 GRPO 和 RLOO 的優(yōu)勢(shì)值計(jì)算幾乎如出一轍 —— 這與 PPO 形成鮮明對(duì)比(PPO 的優(yōu)勢(shì)值來(lái)源于價(jià)值函數(shù),通常采用 GAE 方法計(jì)算)。

因此,REINFORCE 與 GRPO 的唯一區(qū)別僅在于 PPO 的 clipping logic 機(jī)制 —— 它們本質(zhì)上都是同宗同源的策略梯度算法。與此同時(shí),前 LLM 時(shí)代流行的另一個(gè) RL 算法 A2C,根據(jù)超參數(shù)設(shè)置的不同,也可以視為 PPO 的特殊變體。
這里需要把握的核心認(rèn)知是:當(dāng)前使用的所有 RL 算法在實(shí)現(xiàn)層面上是高度相似的。
因此,盡管 GRPO 是當(dāng)前最流行的算法,但如今 RL 算法的變革其實(shí)只聚焦在幾個(gè)核心維度:
- 價(jià)值函數(shù)的取舍:業(yè)界正逐漸轉(zhuǎn)向直接估計(jì)優(yōu)勢(shì)值(advantage),因?yàn)閮r(jià)值函數(shù)(value function)的建模往往較為困難;
- DeepSeek 的研究成果引爆了這場(chǎng)變革,因此人們自然從其 GRPO 算法切入探索。但本質(zhì)上,這一浪潮的推動(dòng)力是強(qiáng)化學(xué)習(xí)范式的進(jìn)化,而非某個(gè)特定算法的突破。
Kimi k1.5
《Kimi k1.5》的報(bào)告內(nèi)容非常豐富,論文長(zhǎng)達(dá) 25 頁(yè)。不過(guò),其并未開(kāi)放模型權(quán)重。
這篇論文報(bào)告了 Kimi k1.5 的訓(xùn)練實(shí)踐,這是 Kimi 團(tuán)隊(duì)最新多模態(tài)大語(yǔ)言模型(LLM),采用 RL 進(jìn)行訓(xùn)練,包括其強(qiáng)化學(xué)習(xí)訓(xùn)練技術(shù)、多模態(tài)數(shù)據(jù)配方以及基礎(chǔ)設(shè)施優(yōu)化。長(zhǎng)上下文擴(kuò)展和改進(jìn)的策略優(yōu)化方法是 Kimi 團(tuán)隊(duì)方法的核心要素,他們建立了一個(gè)簡(jiǎn)單而有效的強(qiáng)化學(xué)習(xí)框架,無(wú)需依賴蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)和過(guò)程獎(jiǎng)勵(lì)模型等更復(fù)雜的技術(shù)。

- 論文標(biāo)題: KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
- 論文地址:https://arxiv.org/pdf/2501.12599
該模型在 o3-mini 發(fā)布之前就已經(jīng)推出,其評(píng)估結(jié)果非常出色。

數(shù)據(jù)分布
這篇論文(以及本文后面提到的《Open Reasoner Zero》)都包含了 01 和 R1 版本所沒(méi)有的對(duì)數(shù)據(jù)的討論。Kimi 團(tuán)隊(duì)強(qiáng)調(diào)了為 RL 進(jìn)行提示策劃(prompt curation)的重要性。這聽(tīng)起來(lái)很簡(jiǎn)單,但強(qiáng)化學(xué)習(xí)提示集的質(zhì)量和多樣性在確保強(qiáng)化學(xué)習(xí)的有效性方面起著關(guān)鍵作用。由此,團(tuán)隊(duì)人員指出了兩點(diǎn)與我們目前看到的大多數(shù)僅數(shù)學(xué)模型不同的地方:
- 多樣化覆蓋:提示應(yīng)涵蓋廣泛的學(xué)科,例如 STEM、編碼和一般推理,以增強(qiáng)模型的適應(yīng)性并確保在不同領(lǐng)域的廣泛適用性。
- 平衡難度:提示集應(yīng)包括分布均勻的易、中、難問(wèn)題,以促進(jìn)漸進(jìn)學(xué)習(xí)并防止過(guò)度擬合到特定的復(fù)雜程度。
在任務(wù)難度方面,Kimi 團(tuán)隊(duì)采用了一種與推理模型相關(guān)的較新的方法: 他們采用基于模型的方法,利用模型自身的能力來(lái)適應(yīng)性地評(píng)估每個(gè)提示的難度。具體來(lái)說(shuō),對(duì)于每個(gè)提示,一個(gè)經(jīng)過(guò)監(jiān)督微調(diào)(SFT)的模型使用相對(duì)較高的采樣溫度生成答案十次。然后計(jì)算通過(guò)率,并將其作為提示難度的代理(proxy)—— 通過(guò)率越低,難度越高。
此外,他們還移除了一些可能促使模型猜測(cè)而不是進(jìn)行推理的問(wèn)題: 經(jīng)驗(yàn)觀察表明,一些復(fù)雜的推理問(wèn)題可能有相對(duì)簡(jiǎn)單且容易猜測(cè)的答案,這會(huì)導(dǎo)致假陽(yáng)性驗(yàn)證 —— 模型通過(guò)不正確的推理過(guò)程得出了正確答案。為了解決這一問(wèn)題,他們排除了容易出現(xiàn)這種錯(cuò)誤的問(wèn)題,例如選擇題、基于證明的問(wèn)題。
訓(xùn)練方法
Kimi K1.5 的訓(xùn)練方案包含了許多有趣的細(xì)節(jié),但隨著訓(xùn)練技術(shù)的成熟,這些方法可能不會(huì)成為長(zhǎng)期推薦的最佳實(shí)踐。
例如,他們的初始階段與 DeepSeek R1 論文非常相似:采用 SFT(監(jiān)督微調(diào))預(yù)熱,結(jié)合長(zhǎng)思維鏈(CoT)和拒絕采樣(rejection sampling)。
又比如,他們重點(diǎn)關(guān)注數(shù)據(jù)中的行為模式,包括規(guī)劃(planning)、評(píng)估(evaluation)、反思(reflection)和探索(exploration),這些對(duì)最終性能提升至關(guān)重要。
進(jìn)入后續(xù)訓(xùn)練階段后,他們的方法變得更加有趣:未采用 GRPO,而是使用了一種在線策略鏡像下降(online policy mirror descent) 的變體(仍屬于策略梯度算法家族)。
除此之外,他們未使用價(jià)值函數(shù),而是采用蒙特卡洛獎(jiǎng)勵(lì)基線(Monte Carlo reward baseline),其核心思想與 GRPO 類(lèi)似,但并非直接用于優(yōu)勢(shì)估計(jì)(advantage)。

為了提高模型訓(xùn)練的穩(wěn)定性和效果,研究者們采用了多種策略。其中一種策略是引入長(zhǎng)度懲罰,即鼓勵(lì)生成較短的回答,并在正確回答中懲罰較長(zhǎng)的回答,同時(shí)明確懲罰錯(cuò)誤答案中的長(zhǎng)回答。這種策略有助于控制模型生成回答的長(zhǎng)度,避免模型過(guò)度生成冗長(zhǎng)且可能不準(zhǔn)確的內(nèi)容,從而提高訓(xùn)練的穩(wěn)定性。盡管這種方法在訓(xùn)練初期可能會(huì)減慢訓(xùn)練速度,但研究者們會(huì)逐漸在訓(xùn)練過(guò)程中引入這種獎(jiǎng)勵(lì)機(jī)制,以實(shí)現(xiàn)更好的訓(xùn)練效果。
此外,研究者們還采用了數(shù)據(jù)序列策略來(lái)輔助模型學(xué)習(xí)。這種方法類(lèi)似于一種明確的教學(xué)大綱,即從較簡(jiǎn)單的任務(wù)開(kāi)始訓(xùn)練,并在訓(xùn)練過(guò)程中對(duì)模型表現(xiàn)不佳的任務(wù)進(jìn)行重新采樣,增加這些任務(wù)的訓(xùn)練頻率。這種策略類(lèi)似于逐步引導(dǎo)模型學(xué)習(xí),類(lèi)似于人類(lèi)學(xué)習(xí)過(guò)程中從易到難的逐步進(jìn)階。盡管這種方法可能會(huì)增加訓(xùn)練的復(fù)雜性,但它被視為一種有效的技巧,可以幫助模型在訓(xùn)練過(guò)程中逐步提升性能。
這些方法雖然在短期內(nèi)可能會(huì)增加訓(xùn)練的復(fù)雜性,但它們有助于模型在長(zhǎng)期訓(xùn)練中保持穩(wěn)定性和一致性,從而提高模型的整體性能和泛化能力。

在關(guān)于模型大小的消融研究中(盡管沒(méi)有明確提及模型的具體大?。?,他們發(fā)現(xiàn),盡管較大的模型在初始階段表現(xiàn)優(yōu)于較小的模型,但較小的模型通過(guò)利用強(qiáng)化學(xué)習(xí)(RL)優(yōu)化的更長(zhǎng)的思維鏈(CoTs)也能達(dá)到相當(dāng)?shù)男阅?。然而,較大的模型通常在 token 效率方面表現(xiàn)得比小模型更好。

另外,這篇論文對(duì)模型最終實(shí)用性方面的總結(jié)非常有趣,也與近期許多強(qiáng)化學(xué)習(xí)(RL)文獻(xiàn)中的觀點(diǎn)一致: 如果目標(biāo)是盡可能達(dá)到最佳性能,那么擴(kuò)大較大模型的上下文長(zhǎng)度具有更高的上限,并且在 token 效率方面更具優(yōu)勢(shì)。然而,如果測(cè)試時(shí)計(jì)算資源有限,那么訓(xùn)練具有較大上下文長(zhǎng)度的小型模型可能是可行的解決方案。
論文中還詳細(xì)介紹了他們的監(jiān)督微調(diào)(SFT)數(shù)據(jù)集、強(qiáng)化學(xué)習(xí)(RL)基礎(chǔ)設(shè)施、長(zhǎng)思維鏈到短思維鏈的蒸餾過(guò)程。感興趣的讀者可以查看論文深入了解。
Open- reasoner - zero
這篇論文的主要貢獻(xiàn)在于,它是第一篇展示在基礎(chǔ)模型上通過(guò) RL 取得非常出色結(jié)果的研究。

論文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf

事實(shí)上,他們使用 Qwen-32B 基座模型時(shí),能夠達(dá)到 DeepSeek 論文在其蒸餾部分提到的 Qwen-32B 強(qiáng)化學(xué)習(xí)(RL)模型的性能。不過(guò),DeepSeek 論文中提到的這個(gè) RL 模型并未引起太多討論,因?yàn)橥槐砀耧@示,DeepSeek 發(fā)現(xiàn)在這種規(guī)模的模型中,蒸餾推理能力(而非從強(qiáng)化學(xué)習(xí)開(kāi)始)能帶來(lái)更顯著的性能提升。

R1 論文:https://arxiv.org/pdf/2501.12948
這里,問(wèn)題在于并非所有的 RL 步驟都是等價(jià)的。它在很大程度上取決于:
- 用于 RL 的批次大小,更大的批次大小意味著更少的步驟;
- 每個(gè)步驟中使用的梯度步驟數(shù),更多的梯度步驟可以導(dǎo)致更多的學(xué)習(xí),但同時(shí)也可能導(dǎo)致更多的不穩(wěn)定性;
- 數(shù)據(jù)集與特定模型的匹配程度,DeepSeek 可能使用了與 DeepSeek 基礎(chǔ)模型相同的數(shù)據(jù)集,這可能不太適合 Qwen 模型(學(xué)習(xí)速度更慢)。
數(shù)據(jù)分布
這項(xiàng)工作的核心成功之處在于,它非常清晰地展示了數(shù)據(jù)對(duì)于學(xué)習(xí)的重要性。
他們從各種來(lái)源收集公開(kāi)數(shù)據(jù),包括 AIME(截至 2023 年)、MATH、Numina-Math 數(shù)據(jù)集、Tulu3 MATH 以及其他開(kāi)源數(shù)據(jù)集。根據(jù)數(shù)據(jù)來(lái)源和問(wèn)題難度,他們提取了 AMC、AIME、數(shù)學(xué)、奧林匹克競(jìng)賽以及 AoPS 論壇的相關(guān)部分,作為難度較高的提示,以確保數(shù)據(jù)集的難度水平適當(dāng)。
該研究還通過(guò)程序化方法合成額外的推理任務(wù),以擴(kuò)充數(shù)據(jù)集。此外,他們還對(duì)數(shù)據(jù)集進(jìn)行格式篩選等一系列操作。
此外,研究者排除了那些難以用基于規(guī)則獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估的問(wèn)題,例如選擇題和證明題,以確保在訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)計(jì)算的準(zhǔn)確性和一致性。
訓(xùn)練消融
《OpenReasonerZero》是另一篇發(fā)現(xiàn) GRPO 對(duì)他們不起作用的論文。作者使用了帶 GAE(Generalized Advantage Estimation)的 PPO 算法來(lái)對(duì)一組響應(yīng)進(jìn)行估計(jì),這也進(jìn)一步證實(shí)了文章之前提到的 GRPO 并非有特別之處。
在訓(xùn)練過(guò)程中,他們沒(méi)有使用任何復(fù)雜的長(zhǎng)度或格式 token(例如 < answer>token)來(lái)構(gòu)建獎(jiǎng)勵(lì)函數(shù),而是發(fā)現(xiàn)僅正確性是必要的。此外,他們還移除了所有的 KL 懲罰,這對(duì)于允許模型在響應(yīng)長(zhǎng)度上進(jìn)行顯著變化以及學(xué)習(xí)新行為至關(guān)重要,這些行為有助于下游性能的提升。
實(shí)驗(yàn)結(jié)果表明,移除 KL 損失和 KL 懲罰能夠?qū)崿F(xiàn)最優(yōu)的訓(xùn)練穩(wěn)定性和最終性能。

這篇論文的附錄里還有更多有趣的消融實(shí)驗(yàn),比如調(diào)整 RL 訓(xùn)練時(shí)的采樣溫度、修改 RL 超參數(shù),或是調(diào)整批次大小和更新規(guī)則等,感興趣的讀者可以查看原文章。
DAPO:一個(gè)大規(guī)模開(kāi)源 LLM 強(qiáng)化學(xué)習(xí)系統(tǒng)
在開(kāi)始討論接下來(lái)的兩篇論文前,我們需要了解一些背景,以便理解機(jī)器學(xué)習(xí)特別是強(qiáng)化學(xué)習(xí)中的算法進(jìn)步。有一個(gè)經(jīng)驗(yàn)法則是,如果你看到一篇論文中提出的方法沒(méi)有提高到基準(zhǔn)方法的 2 倍左右,那么這個(gè)解決方案的成功很可能主要?dú)w功于超參數(shù)調(diào)整或其他混淆變量。這是對(duì)語(yǔ)言模型新型強(qiáng)化學(xué)習(xí)算法應(yīng)持有的適當(dāng)懷疑態(tài)度。
讀這些論文時(shí),你很容易想到「哇,我的項(xiàng)目現(xiàn)在就能順利運(yùn)行了」。實(shí)際情況遠(yuǎn)非如此。這些論文是學(xué)習(xí) GRPO 損失函數(shù)復(fù)雜細(xì)節(jié)的絕佳練習(xí)。多年來(lái),這類(lèi)論文積累起來(lái)會(huì)帶來(lái)巨大的直覺(jué)增益。但目前在訓(xùn)練真正的 SOTA 模型時(shí),大多數(shù)改變?cè)诖a復(fù)雜性上可能會(huì)過(guò)于繁重,相比之下,專(zhuān)注于調(diào)整數(shù)據(jù)分布(如上述論文所討論的)更為重要。
讓我們來(lái)看看 DAPO—— 這是對(duì)之前 Twitter 上簡(jiǎn)短介紹的擴(kuò)展版本。

- 論文標(biāo)題:DAPO: An Open-Source LLM Reinforcement Learning System at Scale
- 論文鏈接:https://arxiv.org/pdf/2503.14476
他們展示的學(xué)習(xí)曲線不錯(cuò),但有些混亂,因?yàn)椤窪eepSeek R1 Zero Qwen 32B」模型的訓(xùn)練步驟精確比較實(shí)際上并不存在(如上所述),尤其是,x 軸是有誤導(dǎo)性的。再?gòu)?qiáng)調(diào)一遍,DeepSeek 所做的工作并非不可復(fù)制。

這是一篇非常整潔的關(guān)于推理的強(qiáng)化學(xué)習(xí)論文。我們將介紹的 GRPO 改進(jìn)包括:
1. 兩個(gè)不同的裁剪超參數(shù),使正向裁剪能夠更多地提升意外的 token。
2. 動(dòng)態(tài)采樣 —— 從批次中移除具有平坦獎(jiǎng)勵(lì)的樣本以提高效率。
3. 使用每個(gè) token 的損失(而非每個(gè)回應(yīng)(per-response)的損失)來(lái)改善學(xué)習(xí)動(dòng)態(tài)。
4. 在損失函數(shù)中管理過(guò)長(zhǎng)生成以獲得更好的穩(wěn)定性。
我希望這篇論文,正如我將在下面討論 Dr. GRPO 論文時(shí)提到的,能做更多關(guān)于最終性能的比較。我們關(guān)心的是評(píng)估結(jié)果,所以在算法變化帶來(lái)性能提升之前,我很難說(shuō)這些是關(guān)鍵的實(shí)現(xiàn)決策。
總之,DAPO 看起來(lái)如下:

像現(xiàn)在的許多論文一樣,他們也建議從 GRPO 中移除 KL 散度懲罰以幫助學(xué)習(xí)。許多人表示,如果沒(méi)有要過(guò)度優(yōu)化的獎(jiǎng)勵(lì)模型,這個(gè)懲罰就不是必要的。對(duì)于基礎(chǔ)模型的強(qiáng)化學(xué)習(xí),我同意這一點(diǎn),因?yàn)槟P屯ǔP枰蟮淖兓拍艹蔀橥暾耐评砟P?。但如果?duì)指令模型進(jìn)行可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),KL 懲罰可能仍然有用。
GRPO 改進(jìn)點(diǎn) 1:更高的裁剪 / 分離裁剪超參數(shù)
PPO 和 GRPO 有一個(gè)控制更新步長(zhǎng)的裁剪超參數(shù)。這是 PPO 和 TRPO 相比 REINFORCE 或普通策略梯度的核心思想。DAPO 將其改為兩個(gè)超參數(shù),這樣上限 / 正向?qū)?shù)比率步長(zhǎng)可以更大。這是為了增加 token 的概率,比如推理鏈中令人驚訝的新 token。

PPO/GRPO 更新是基于對(duì)數(shù)比率的,所以概率較小但正在增加可能性的不太可能的 token 會(huì)變成更大的對(duì)數(shù)比率,比可能性已經(jīng)很高的 token 更容易被裁剪。這對(duì)于提升效果來(lái)說(shuō)是一個(gè)相當(dāng)復(fù)雜的變化,但它很好地說(shuō)明了裁剪如何影響學(xué)習(xí)動(dòng)態(tài)。
這篇論文對(duì)他們的改進(jìn)做了很好的消融實(shí)驗(yàn)!如下圖(右)所示,他們顯示模型在訓(xùn)練過(guò)程中保持了更高的熵(即探索 / 隨機(jī)性)。不錯(cuò)。

GRPO 改進(jìn)點(diǎn) 2:從批次中移除不必要的樣本
本質(zhì)上,在 GRPO 中,如果批次中針對(duì)一個(gè)提示的所有樣本具有相同的獎(jiǎng)勵(lì),則沒(méi)有學(xué)習(xí)信號(hào),因?yàn)槊總€(gè)答案的優(yōu)勢(shì)是計(jì)算為該答案與批次中組平均值的差異。移除它們可以通過(guò)計(jì)算更少的梯度來(lái)提高學(xué)習(xí)速度。
這實(shí)際上是 GRPO 的一個(gè)簡(jiǎn)單事實(shí)。從理論上講,當(dāng)批次中的答案沒(méi)有信號(hào)時(shí),它們不會(huì)影響模型,但這也與為什么更大的模型可能通過(guò)強(qiáng)化學(xué)習(xí)學(xué)習(xí)得更好有關(guān)。更大模型的強(qiáng)化學(xué)習(xí)步驟不太可能無(wú)意中傷害模型中不在學(xué)習(xí)批次中的其他區(qū)域,因?yàn)樗鼈兊哪芰Ψ植荚诟鄥?shù)上。

GRPO 改進(jìn)點(diǎn) 3:token 級(jí)策略梯度
論文作者表示,token 級(jí)損失有助于減輕非常長(zhǎng)的推理鏈中的重復(fù)行為,同時(shí)仍然鼓勵(lì)模型從正向的長(zhǎng)上下文示例中學(xué)習(xí)。這與標(biāo)準(zhǔn) RLHF 實(shí)現(xiàn)不同(見(jiàn)下文關(guān)于 Dr. GRPO 的討論)。他們的改變比我們稍后討論的更為溫和。
作者的直覺(jué)很好,我們將在接下來(lái)的論文中看到很多關(guān)于這種權(quán)衡的討論:
由于所有樣本在損失計(jì)算中被賦予相同的權(quán)重,較長(zhǎng)回應(yīng)中的 token(包含更多 token)對(duì)整體損失的貢獻(xiàn)可能不成比例地低,這可能導(dǎo)致兩種不良影響。首先,對(duì)于高質(zhì)量的長(zhǎng)樣本,這種效果可能阻礙模型學(xué)習(xí)其中與推理相關(guān)的模式的能力。其次,我們觀察到過(guò)長(zhǎng)的樣本通常表現(xiàn)出低質(zhì)量的模式,如胡言亂語(yǔ)和重復(fù)詞匯。因此,樣本級(jí)損失計(jì)算由于無(wú)法有效懲罰長(zhǎng)樣本中那些不受歡迎的模式,導(dǎo)致熵和回應(yīng)長(zhǎng)度的不健康增加。
將長(zhǎng)度歸一化 1/|o | 移到組總和之外,使得損失計(jì)算僅通過(guò)對(duì)兩個(gè)總和內(nèi)部的 token 求和來(lái)完成。

在這里,答案組是按照該提示的總體 token 計(jì)數(shù)歸一化的。默認(rèn) GRPO 只對(duì) token 所對(duì)應(yīng)的回應(yīng)進(jìn)行每 token 損失歸一化。
這很酷,但需要更多的復(fù)制!見(jiàn)下面的討論。在他們的設(shè)置中,他們看到了相當(dāng)不同的行為。

這個(gè)想法是為了能更好地從長(zhǎng)答案中學(xué)習(xí)。好的長(zhǎng)答案應(yīng)該得到充分獎(jiǎng)勵(lì),而重復(fù)的、糟糕的長(zhǎng)答案需要被懲罰。
GRPO 改進(jìn)點(diǎn) 4:避免截?cái)嗟莫?jiǎng)勵(lì)塑造
這是 DAPO 中最微小的改變。本質(zhì)上,他們添加了一個(gè)柔性然后是一個(gè)嚴(yán)格的懲罰,當(dāng)模型生成長(zhǎng)度超過(guò)限制時(shí)。對(duì)于最大上下文長(zhǎng)度為 16k token 的模型,他們?cè)?12k token 開(kāi)始應(yīng)用懲罰,并線性增加到 16k。這種長(zhǎng)度控制機(jī)制感覺(jué)將會(huì)過(guò)時(shí),或者在未來(lái)只是一個(gè)非常小的技巧。
參考一下,許多強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)已經(jīng)包含了一些更大的懲罰,如果模型截?cái)嘧陨恚磸牟簧?EOS token 或答案)。

他們稱之為解耦裁剪和動(dòng)態(tài)采樣策略優(yōu)化(DAPO)算法。稱其為新算法似乎足夠公平,這在強(qiáng)化學(xué)習(xí)中一直如此,但實(shí)際上這基本上是 GRPO++。
訓(xùn)練專(zhuān)注于 AIME,所以最終模型并不超級(jí)有趣,但它們陳述了一個(gè)永恒真理: 即使是初始條件的微小變化,如數(shù)據(jù)和超參數(shù)的變化,也可以通過(guò)迭代強(qiáng)化學(xué)習(xí)過(guò)程放大,產(chǎn)生實(shí)質(zhì)性的結(jié)果偏差。
Dr. GRPO

- 論文標(biāo)題:Understanding R1-Zero-Like Training: A Critical Perspective
- 論文鏈接:https://arxiv.org/pdf/2503.20783
這是我們獲得的第二篇關(guān)于修改 GRPO 以使其更適合推理訓(xùn)練(實(shí)際上,就是讓它更有效)的論文。該論文還包括一些優(yōu)秀的實(shí)驗(yàn),幫助理解不同基礎(chǔ)模型如何影響學(xué)習(xí)到的推理行為。
論文的核心圖表如下:

論文的核心思想是,通過(guò)修改 GRPO,他們可以改善學(xué)習(xí)動(dòng)態(tài),使得在生成長(zhǎng)度增加較少的情況下實(shí)現(xiàn)更強(qiáng)的性能。這是每個(gè)人都應(yīng)該想要的!
他們假設(shè)默認(rèn)的 GRPO 實(shí)現(xiàn)實(shí)際上設(shè)置了一個(gè)偏置,使生成長(zhǎng)度增加的程度超過(guò)了實(shí)際有用的范圍。
關(guān)于 GRPO 的修改
他們提出的核心修改有些微妙,與 GRPO 實(shí)現(xiàn)的常見(jiàn)做法密切相關(guān)。GRPO 實(shí)現(xiàn)的一個(gè)核心步驟在 DeepSeekMath 論文中有詳細(xì)說(shuō)明:
「結(jié)果監(jiān)督在每個(gè)輸出??_??的末尾提供歸一化的獎(jiǎng)勵(lì),并將輸出中所有 token 的優(yōu)勢(shì)???_(i,t)設(shè)置為歸一化獎(jiǎng)勵(lì)...」
本質(zhì)上,不是只在驗(yàn)證結(jié)果的最終 token 上分配優(yōu)勢(shì),而是批次中的每個(gè) token 都被分配了優(yōu)勢(shì)。然后使用這些策略梯度算法計(jì)算每個(gè) token 的損失。
要了解這是如何工作的,讓我們重新回顧論文中的損失函數(shù):

這里發(fā)生的事情是,第一個(gè)求和管理問(wèn)題的回應(yīng)組 G,內(nèi)部求和管理每個(gè) token 的損失。作者正在糾正學(xué)習(xí)中的兩種行為:
- 偏愛(ài)短而正確的答案。對(duì)于正向優(yōu)勢(shì),即一組中正確且更好的回應(yīng),原始損失會(huì)獎(jiǎng)勵(lì)短回應(yīng)。要理解這一點(diǎn),考慮一組中兩個(gè)都是正確的答案,一個(gè)有 10 個(gè) token,一個(gè)有 1000 個(gè)。這兩個(gè)都有相同的優(yōu)勢(shì),但較短答案的概率會(huì)增加更多,因?yàn)閾p失近似于優(yōu)勢(shì) / 長(zhǎng)度。如果這仍然令人困惑,可以考慮 EOS token,它出現(xiàn)在每個(gè)回應(yīng)的最后一個(gè) token —— 對(duì)于短回應(yīng),這個(gè) token 將被增加得更多。
- 不懲罰長(zhǎng)、重復(fù)、錯(cuò)誤的答案。這一點(diǎn)更簡(jiǎn)單,如果優(yōu)勢(shì)是負(fù)面的,歸一化因子 1/|o | 通過(guò)減少每個(gè) token 上優(yōu)勢(shì)的有效大小來(lái)減少對(duì)較長(zhǎng)答案的學(xué)習(xí)信號(hào)。較小的懲罰意味著它比錯(cuò)誤、短答案的可能性更大。
這些合在一起,有點(diǎn)與我們想要的相反(與 DAPO 的想法非常相關(guān))。我們希望在推理時(shí)有更長(zhǎng)的正確答案以提高擴(kuò)展性,并且不想浪費(fèi) token。個(gè)人而言,我更喜歡 DAPO 的解決方案,將長(zhǎng)度歸一化移到組外,而不是完全去除它。
他們提出的第二個(gè)修改非常聰明(已在 TRL 中實(shí)現(xiàn))—— 移除問(wèn)題級(jí)難度偏置。當(dāng)執(zhí)行像 GRPO 這樣的更新(例如也用 PPO)時(shí),優(yōu)勢(shì)的大小影響梯度更新的大小。在這里,相對(duì)于更容易解決(或失?。┑膯?wèn)題,具有高方差的問(wèn)題會(huì)受到懲罰 —— 從直覺(jué)上講,這甚至可能與我們想要的相反!較難的問(wèn)題,特別是在學(xué)習(xí)的關(guān)鍵階段,將有更高的方差。作者也解釋了與之前的強(qiáng)化學(xué)習(xí)實(shí)踐的關(guān)系:
雖然優(yōu)勢(shì)歸一化在強(qiáng)化學(xué)習(xí)中是一種常見(jiàn)技巧,但它通常是在整個(gè)批次中計(jì)算的。
實(shí)際上,這種變化的影響可以完全被高質(zhì)量的數(shù)據(jù)工程所吸收,正如上面其他論文中討論的那樣,批次中問(wèn)題難度的分布是均勻的。
不過(guò),這些變化也沒(méi)有免費(fèi)的午餐 —— 我的同事 Costa Huang 提醒我,低方差問(wèn)題可能是我們模型學(xué)習(xí)的關(guān)鍵。在模型 9 次回答錯(cuò)誤、只有 1 次正確的情況下,移除標(biāo)準(zhǔn)差會(huì)降低那一個(gè)正確答案的權(quán)重。這可能是模型需要學(xué)習(xí)的關(guān)鍵!
他們將這兩個(gè)變化稱為「GRPO Done Right」,即 Dr. GRPO。當(dāng)他們將這些結(jié)合在一起時(shí),模型顯示了他們預(yù)期的輸出長(zhǎng)度變化 —— 總體上更短,特別是錯(cuò)誤答案更短。這里的缺點(diǎn)是,他們實(shí)際上沒(méi)有展示更好的下游最終性能。最終性能是目標(biāo),很可能更多地來(lái)自數(shù)據(jù)。

關(guān)于為強(qiáng)化學(xué)習(xí)更換基礎(chǔ)模型
論文作者比較了來(lái)自 Qwen 2.5、Llama 3.1 和 DeepSeek 的基礎(chǔ)模型,看它們?nèi)绾位卮?MATH 問(wèn)題。對(duì)于這些模型,它們使用 R1 模板、Qwen MATH 模板和無(wú)模板。當(dāng)模型已經(jīng)通過(guò)帶有推理 / CoT 軌跡的中間訓(xùn)練時(shí),這些模板起著至關(guān)重要的作用:
模板 1(R1 模板):A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer.
The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.
模板 2(Qwen-Math 模板): <|im_start|>system Please reason step by step, and put your final answer within \boxed {}. <|im_end|> <|im_start|>user {question} <|im_end|> <|im_start|>assistant
模板 3(無(wú)模板):{question}
他們發(fā)現(xiàn) Llama 和 DeepSeek 使用 R1 模板能夠最好地遵循指令,而 Qwen 在沒(méi)有模板的情況下效果最好。記住這些基礎(chǔ)模型在不同的「微調(diào)」機(jī)制下有多大差異是至關(guān)重要的。格式合規(guī)性的比較如下所示。

中間圖顯示了數(shù)學(xué)問(wèn)題的 pass@8 率,可以理解為「如果我對(duì) 1 個(gè)問(wèn)題采樣 8 個(gè)答案,正確答案出現(xiàn)的頻率是多少?」這是衡量模型在訓(xùn)練開(kāi)始時(shí)學(xué)習(xí)難易程度的指標(biāo)。Qwen 再次表現(xiàn)最佳,溫度的影響比我想象的要小。
最右邊他們顯示,更大的 Qwen 模型在任何強(qiáng)化學(xué)習(xí)訓(xùn)練之前就已經(jīng)有反思行為!如果你正在使用這些模型,這并不令人驚訝,但這是一個(gè)很好的數(shù)據(jù)點(diǎn),可以淡化強(qiáng)化學(xué)習(xí)訓(xùn)練中「啊哈時(shí)刻」的作用。這些模型主要是在放大,而不是學(xué)習(xí)新東西。
論文還有其他不錯(cuò)的結(jié)果,例如在更多領(lǐng)域特定的數(shù)學(xué)數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練可以提高強(qiáng)化學(xué)習(xí)性能,很多人通過(guò)在 Qwen-MATH 模型上訓(xùn)練的容易程度也能看到這一點(diǎn)。

與 GRPO 訓(xùn)練失敗的關(guān)系
在我們?cè)缙诘难芯恐锌吹降囊恍┦。乙矎钠渌麑?shí)驗(yàn)室聽(tīng)到過(guò),是 GRPO 可能會(huì)失敗,開(kāi)始生成非常重復(fù)和長(zhǎng)的回應(yīng)。答案的序列長(zhǎng)度膨脹到訓(xùn)練設(shè)置中允許的最大值,下游評(píng)估的性能降至 0。這些潛在的干預(yù)措施,對(duì)于 Dr. GRPO 和 DAPO 來(lái)說(shuō),都有助于緩解這種情況。我們很快就會(huì)有獨(dú)立的復(fù)制實(shí)驗(yàn)了!
與現(xiàn)有 RLHF 基礎(chǔ)設(shè)施的關(guān)系
在過(guò)去幾周里,我參與了許多關(guān)于 RLHF 基礎(chǔ)設(shè)施中每批次使用總和損失還是平均損失的討論。其中的核心問(wèn)題是:強(qiáng)化學(xué)習(xí)應(yīng)該平等地對(duì)待每個(gè) token(即從批次中較長(zhǎng)的答案學(xué)習(xí)更多)還是應(yīng)該相對(duì)于問(wèn)題對(duì)它們進(jìn)行歸一化?我的基本觀點(diǎn)是,基于每個(gè)問(wèn)題的歸一化更有意義,因?yàn)槟P托枰槍?duì)不同問(wèn)題學(xué)習(xí)不同的行為,但這種學(xué)習(xí)動(dòng)態(tài)很微妙。
這篇論文對(duì)目前所有流行的開(kāi)源強(qiáng)化學(xué)習(xí)工具提出了批評(píng),稱 per-response 的方式偏向于更糟糕的情況。實(shí)際情況比這復(fù)雜得多 ——per-response 求和肯定是標(biāo)準(zhǔn)做法。
區(qū)別在于從像 TRL 這樣的庫(kù)中的 masked_mean 變?yōu)樽髡呤褂玫?masked_sum。

為什么 per-response 可能是好的一個(gè)直覺(jué)是,如果你有一個(gè) KL 懲罰,你不希望一個(gè)非常奇怪的 token(KL 爆炸)影響批次中的每個(gè) token。這些實(shí)現(xiàn)差異非常依賴于特定的訓(xùn)練設(shè)置。
不過(guò),關(guān)于推理 vs.RLHF 的上下文也很酷。是的,在大多數(shù)方面,實(shí)現(xiàn)都如作者所說(shuō),但這只是因?yàn)樯鐓^(qū)之前不像我們現(xiàn)在對(duì)推理模型那樣關(guān)心上下文長(zhǎng)度學(xué)習(xí)動(dòng)態(tài)。
以前,重點(diǎn)是在獎(jiǎng)勵(lì)上。現(xiàn)在,重點(diǎn)是獎(jiǎng)勵(lì)正確的長(zhǎng)上下文行為并懲罰重復(fù)的長(zhǎng)行為。所以,是的,回答傾向于反對(duì)較長(zhǎng)的、高獎(jiǎng)勵(lì)的序列,但我們不在乎!

在原文的「Further reading」作者還推薦了其他論文,感興趣的讀者可以參考下圖。

原文鏈接:https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo






























