精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

寫點(diǎn)代碼 | 從頭編寫GRPO、DrGRPO、GSPO,800行代碼實(shí)現(xiàn)完整訓(xùn)練和驗(yàn)證流程

發(fā)布于 2025-8-26 06:42
瀏覽
0收藏

在大型語言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域,一個(gè)很有潛力的方向是利用可驗(yàn)證的獎勵(Verifiable Rewards)進(jìn)行模型優(yōu)化,即RLVR。傳統(tǒng)的強(qiáng)化學(xué)習(xí)依賴于人類反饋(RLHF)或者一個(gè)專屬的價(jià)值模型(Value Model),這可能主觀又昂貴。而RLVR通過程序化的、客觀的獎勵函數(shù)來指導(dǎo)模型學(xué)習(xí),例如,在數(shù)學(xué)問題上,答案是否正確是可以通過計(jì)算驗(yàn)證的。 這種方法為我們提供了一條更高效、可擴(kuò)展的路徑,來增強(qiáng)模型的推理等復(fù)雜能力。

在RLVR的核心思想指導(dǎo)下,涌現(xiàn)出了一系列優(yōu)秀的算法,其中有代表性的有GRPO、DrGRPO和GSPO。其中是GRPO是訓(xùn)練DeepSeek R1的核心算法,GSPO是訓(xùn)練Qwen 3的核心算法。它們都脫胎于經(jīng)典的PPO算法,但各自在尋求更高效率和穩(wěn)定性的道路上做出了不同的探索。

最近,我在思考如何通過強(qiáng)化訓(xùn)練,提升多模態(tài)工業(yè)大模型的性能。找遍全網(wǎng),沒發(fā)現(xiàn)有中意的實(shí)現(xiàn),干脆自己動手豐衣足食。我花了兩天時(shí)間,寫了一個(gè)Python腳本,800多行代碼,從頭實(shí)現(xiàn)了GRPO、GSPO、DrGRPO 3個(gè)算法和訓(xùn)練框架。 然后用同一個(gè)數(shù)據(jù)集,訓(xùn)練相同的步數(shù),比較他們3個(gè)的性能。整體還不錯(cuò),一次運(yùn)行,效果如下

方法

初始準(zhǔn)確率

最終準(zhǔn)確率

提升幅度 (Δ)

GSPO

12.00%

72.00%

60.00%

GRPO

12.00%

72.00%

60.00%

DrGRPO

12.00%

58.00%

46.00%

你如果想試一下,參考下面的命令,或者訪問 https://github.com/zhangfaen/GRPO_DrGRPO_GSPO_from_scratch_and_benchmark

%git clone https://github.com/zhangfaen/GRPO_DrGRPO_GSPO_from_scratch_and_benchmark
%cd GRPO_DrGRPO_GSPO_from_scratch_and_benchmark
%conda create -n grpo_drgrpo_gspo python=3.12
%conda activate grpo_drgrpo_gspo 
%pip install -r requirements.txt
%python GRPO_DrGRPO_GSPO_from_scratch_and_benchmark.py

寫代碼的過程中,對這3個(gè)算法的理解也更深了,再分享一點(diǎn)對他們的理解。

GRPO、DrGRPO、GSPO:一脈相承,各有千秋

GRPO的核心思想是拋棄PPO中需要額外訓(xùn)練的價(jià)值模型(Value Model),從而大幅降低了計(jì)算和內(nèi)存的開銷。 它的做法非常巧妙:對于同一個(gè)問題(Prompt),讓模型生成一組(Group)答案,然后根據(jù)獎勵函數(shù)為每個(gè)答案打分。接著,它不再預(yù)測一個(gè)絕對的“價(jià)值”,而是計(jì)算每個(gè)答案相對于這組答案平均得分的“優(yōu)勢”(Advantage)。如果一個(gè)答案的得分高于平均分,它就獲得了正優(yōu)勢,模型就會被鼓勵學(xué)習(xí)生成類似答案的策略;反之亦然。 這種“組內(nèi)相對比較”的思想,就是GRPO名字的由來,它讓訓(xùn)練過程變得更加穩(wěn)定和高效。

然而,有研究者認(rèn)為GRPO的原始設(shè)計(jì)存在一些固有的偏見(Bias),它的損失函數(shù)計(jì)算方式會系統(tǒng)性地“偏袒”那些在錯(cuò)誤答案中更長的回復(fù),同時(shí)給予那些難度過高或過低的(即所有生成答案都對或都錯(cuò))問題過大的權(quán)重。

為了解決這些問題,DrGRPO(GRPO Done Right)應(yīng)運(yùn)而生。 它的改進(jìn)非常直接:移除導(dǎo)致偏見的操作。具體來說,DrGRPO去掉了GRPO優(yōu)勢計(jì)算中按標(biāo)準(zhǔn)差進(jìn)行歸一化的步驟,以及損失函數(shù)中按序列長度進(jìn)行歸一化的部分,從而實(shí)現(xiàn)了一個(gè)更加公平和無偏的優(yōu)化目標(biāo)。

GRPO和DrGRPO雖然高效,但有研究者認(rèn)為它們都存在一個(gè)更深層次的問題:獎勵和優(yōu)化的粒度不匹配。 獎勵是針對整個(gè)生成序列(Sequence)的(例如,最終答案是否正確),但優(yōu)化卻是在每個(gè)詞元(Token)上進(jìn)行的。 這種不匹配在高難度任務(wù)和更復(fù)雜的模型(如混合專家模型,MoE)中,會引入大量噪聲,導(dǎo)致訓(xùn)練非常不穩(wěn)定,甚至模型崩潰。

于是,GSPO(Group Sequence Policy Optimization)橫空出世,旨在從根本上解決這個(gè)問題。 GSPO的核心是將優(yōu)化的粒度從詞元級別提升到了序列級別。 它不再為每個(gè)詞元計(jì)算重要性權(quán)重,而是為整個(gè)序列計(jì)算一個(gè)統(tǒng)一的權(quán)重。 這樣一來,優(yōu)化目標(biāo)和獎勵機(jī)制就完全對齊了。 所有的更新操作,包括PPO中的裁剪(Clipping),都是在序列層面上完成的。 這一改動極大地增強(qiáng)了訓(xùn)練的穩(wěn)定性,尤其是在MoE模型的訓(xùn)練上,避免了GRPO需要的“路由回放(Routing Replay)”等復(fù)雜技巧,并顯著提升了訓(xùn)練效率和最終性能。

寫點(diǎn)代碼 | 從頭編寫GRPO、DrGRPO、GSPO,800行代碼實(shí)現(xiàn)完整訓(xùn)練和驗(yàn)證流程-AI.x社區(qū)

再介紹一下這個(gè)Python腳本,方便理解

這個(gè)Python腳本旨在提供一個(gè)清晰、可運(yùn)行的環(huán)境,讓感興趣的同學(xué)能親手實(shí)踐并比較這幾種前沿的RL算法。注:代碼以學(xué)習(xí)和理解為主要目的,實(shí)際使用中請根據(jù)實(shí)際情況進(jìn)行修改和優(yōu)化。

這個(gè)腳本主要包含以下幾個(gè)部分:

  1. **一個(gè)統(tǒng)一的訓(xùn)練器 RLVRTrainer?**:為了公平比較,我將三種算法的通用訓(xùn)練流程封裝在一個(gè)統(tǒng)一的?RLVRTrainer?類中。它涵蓋了模型和分詞器的加載、數(shù)據(jù)處理、日志記錄、模型評估以及最終模型的保存等所有必要環(huán)節(jié)。
  2. 清晰的算法實(shí)現(xiàn):在_compute_loss?方法中,可以通過?loss_type?參數(shù)(可選"grpo", "dr_grpo", "gspo")清晰地看到三種算法在計(jì)算損失函數(shù)時(shí)的核心差異。對于GSPO,還通過?importance_sampling_level?參數(shù)區(qū)分了其序列級別重要性采樣的實(shí)現(xiàn)。代碼邏輯力求與算法的原始思想保持一致,方便對照論文進(jìn)行理解。
  3. 標(biāo)準(zhǔn)化的實(shí)驗(yàn)設(shè)置:腳本使用公開的openai/gsm8k?數(shù)據(jù)集進(jìn)行數(shù)學(xué)推理任務(wù)的訓(xùn)練和評測。在?main?函數(shù)中,可以看到一個(gè)標(biāo)準(zhǔn)化的實(shí)驗(yàn)流程:

加載和準(zhǔn)備數(shù)據(jù):一次性加載數(shù)據(jù)集,并劃分為訓(xùn)練集和評估集。

統(tǒng)一起始點(diǎn):所有算法都從同一個(gè)預(yù)訓(xùn)練模型(Qwen/Qwen2.5-1.5B-Instruct)開始訓(xùn)練,并進(jìn)行初始性能評估,確保比較的起點(diǎn)公平。

相同的訓(xùn)練資源:所有算法都使用相同的超參數(shù)(如學(xué)習(xí)率、批次大小等)和訓(xùn)練步數(shù)(num_steps)進(jìn)行訓(xùn)練。

端到端的比較:腳本會自動依次運(yùn)行GSPO、GRPO和DrGRPO的訓(xùn)練和評估流程,并在最后打印出清晰的性能對比結(jié)果,包括初始準(zhǔn)確率、最終準(zhǔn)確率以及提升幅度。

通過閱讀和運(yùn)行這個(gè)腳本,應(yīng)該可以加深對GRPO、DrGRPO和GSPO核心思想的理解,還能直觀地看到“序列級別優(yōu)化”相比“詞元級別優(yōu)化”所帶來的顯著優(yōu)勢。

我運(yùn)行上述腳本的一個(gè)的結(jié)果

在一張A800 GPU卡上,運(yùn)行上述腳本,大約花費(fèi)5個(gè)小時(shí)左右,產(chǎn)生如下結(jié)果。

方法

初始準(zhǔn)確率

最終準(zhǔn)確率

提升幅度 (Δ)

GSPO

12.00%

72.00%

60.00%

GRPO

12.00%

72.00%

60.00%

DrGRPO

12.00%

58.00%

46.00%

可以看到,沒有經(jīng)過強(qiáng)化訓(xùn)練的Qwen/Qwen2.5-1.5B-Instruct,在數(shù)學(xué)推理任務(wù)中(基于openai/gsm8k數(shù)據(jù)集評測),準(zhǔn)確率約為12.00%。經(jīng)過GSPO和GRPO算法的強(qiáng)化訓(xùn)練,準(zhǔn)確率分別提升至72.00%和72.00%,而經(jīng)過DrGRPO算法的強(qiáng)化訓(xùn)練,則提升至58.00%。GSPO和GRPO的提升幅度為60.00%和60.00%,而DrGRPO的提升幅度為46.00%。需要說明的是,這次運(yùn)行使用的數(shù)據(jù)集openai/gsm8k是小學(xué)水平的數(shù)學(xué)應(yīng)用題,數(shù)據(jù)集規(guī)模小,推理難度較低,訓(xùn)練過程只訓(xùn)練了200步,結(jié)果參考就好,不代表DrGRPO在大規(guī)模生產(chǎn)環(huán)境中比GRPO和GSPO差。

附錄

  • GSPO: https://arxiv.org/abs/2507.18071
  • GRPO: https://arxiv.org/abs/2402.03300
  • Dr.GRPO: ?https://arxiv.org/pdf/2503.20783

本文轉(zhuǎn)載自???后向傳播???,作者: 張發(fā)恩

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产剧情在线观看一区| 欧美一区久久久| 国产成人激情av| 久久久久久香蕉网| 人妻无码一区二区三区| 亚洲永久av| 国产精品第13页| 国产99视频精品免费视频36| 手机看片久久久| 色一区二区三区四区| 日韩一区二区在线看| 国产精品50p| 日本不卡不卡| 91看片淫黄大片一级| 国产在线98福利播放视频| 日产精品久久久久| 91视频精品| 日韩福利视频在线观看| 亚洲免费看av| 91av久久| 亚洲色大成网站www久久九九| 久久精品国产精品青草色艺| 国产乱淫片视频| 久久精品成人| 国产69精品久久久久99| 成人欧美一区二区三区黑人一 | 亚洲一区二区三区四区视频| 亚洲熟妇无码乱子av电影| 欧美 日韩 国产 一区| 亚洲色图17p| 亚洲精品无码一区二区| 日本欧美在线| 欧洲精品视频在线观看| 黄色片网址在线观看| av理论在线观看| 国产精品午夜电影| 欧美国产视频在线观看| 人妻va精品va欧美va| 国产一区二区三区四区五区入口| 国产精品成av人在线视午夜片| 国产一级在线免费观看| 中国成人一区| yw.139尤物在线精品视频| 美女久久久久久久久久| 欧美变态网站| 亚洲黄色在线观看| 永久免费未满蜜桃| 亚洲不卡在线| 精品日韩一区二区三区免费视频| 男女污污视频网站| 四虎国产精品成人免费影视| 欧美日韩一区中文字幕| 黄色aaa级片| 日韩高清不卡| 色美美综合视频| 成年人免费在线播放| 国产在线美女| 粉嫩av一区二区三区免费野| 欧美一级视频免费看| 国产盗摄精品一区二区酒店| 一区二区三区丝袜| 91精品国产91久久久久麻豆 主演| 日本性爱视频在线观看| 一区二区三区四区在线免费观看| 成人国产在线看| 欧美性video| 一区二区高清免费观看影视大全| 国内自拍中文字幕| 国产桃色电影在线播放| 亚洲国产视频一区| 亚洲熟妇av一区二区三区漫画| 波多野结衣中文字幕久久| 性做久久久久久久久| 欧美 日韩 国产 高清| 成人线上视频| 欧美日韩亚洲综合一区 | www.天天色| 午夜亚洲伦理| 国产精品久久久久久久久久ktv| 中文区中文字幕免费看| 精品综合免费视频观看| 97超碰人人模人人爽人人看| 亚洲美女综合网| 久久人人超碰精品| 中文字幕在线中文字幕日亚韩一区| 国产鲁鲁视频在线观看特色| 亚洲一区二区精品视频| 天天摸天天碰天天添| 97精品国产综合久久久动漫日韩 | 91精品国产高清自在线 | missav|免费高清av在线看| 黄色精品在线看| jizz18女人| 成人在线视频你懂的| 亚洲欧美激情一区| 男女做暖暖视频| 国产农村妇女毛片精品久久莱园子| 日韩美女在线播放| 国产xxxx在线观看| 26uuu国产在线精品一区二区| 亚洲欧洲中文| av毛片午夜不卡高**水| 欧美日韩一区不卡| av免费观看不卡| 日本女优一区| 91高清免费在线观看| 影音先锋国产在线| 不卡的av电影| 欧美日韩视频免费在线观看| 在线看的毛片| 日韩欧美一区二区久久婷婷| 欧美老熟妇乱大交xxxxx| 欧美一区综合| 国产精品永久免费在线| 色综合免费视频| 亚洲美腿欧美偷拍| 亚洲一区二区蜜桃| 人体久久天天| 欧美国产激情18| 一本色道久久综合熟妇| 91久色porny| 免费看国产一级片| 欧洲精品99毛片免费高清观看| 亚洲女人天堂成人av在线| 中文字幕影音先锋| 久久国产精品99精品国产| 欧美日本韩国在线| 免费成人在线电影| 精品国偷自产国产一区| 亚洲精品卡一卡二| 免费的国产精品| 欧美在线日韩精品| 英国三级经典在线观看| 精品国产一区二区三区久久久蜜月| www.99re6| 免费一区二区视频| 日本中文不卡| 欧美aa视频| 精品无人区乱码1区2区3区在线| 久草免费在线观看视频| 精品亚洲免费视频| 亚洲欧洲三级| 中文成人在线| 久久中文久久字幕| 97人妻精品一区二区三区软件 | 亚洲第一av在线| 男人的天堂久久久| 国产一区二区三区免费在线观看 | 国内精品久久久久国产| 欧美日韩专区在线| 奇米网一区二区| 免费成人美女在线观看.| 日韩三级电影| 黄色欧美视频| 久久天天躁狠狠躁老女人| 一级黄色a视频| 成人免费一区二区三区视频| 色偷偷中文字幕| 中文字幕亚洲精品乱码| 成人动漫在线观看视频| 成人在线高清免费| 亚洲精品乱码久久久久久按摩观| 国产欧美日韩另类| 久久久久久久久97黄色工厂| 成年人免费在线播放| 精品视频免费| 成人精品一区二区三区电影免费| 97caopron在线视频| 精品久久国产字幕高潮| 久久久久久久极品| 国产欧美一区在线| 91香蕉国产线在线观看| 最新日韩av| 欧美福利一区二区三区| 草莓视频成人appios| 色系列之999| 精品久久久无码中文字幕| 亚洲一区二区三区四区在线观看 | 色综合久久中文字幕综合网小说| av网站在线免费看| 欧美日韩免费观看中文| 亚洲精品国产一区黑色丝袜| 毛片av一区二区| 成人一区二区av| 日韩大胆成人| 国产欧美精品一区二区三区介绍| 亚洲淫性视频| 日韩精品在线观看网站| 中文字字幕在线中文乱码| 亚洲精品福利视频网站| 国产精品无码在线| 久久se这里有精品| 玩弄中年熟妇正在播放| 精品国产一区探花在线观看| 亚洲a在线观看| 中文字幕av一区二区三区佐山爱| 成年人精品视频| 天天操天天操天天| 欧美精品在线观看播放| 亚洲国产精一区二区三区性色| 国产精品乱子久久久久| 污片免费在线观看| 国产一区在线看| 北条麻妃69av| 欧美a级片一区| 日韩av电影在线观看| 1313精品午夜理伦电影| 国产精品欧美激情在线播放| 国产乱码在线| 久久精品中文字幕| 嫩草研究院在线| 日韩欧美一二区| 欧美高清69hd| 欧美日韩亚洲高清| 欧美国产精品一二三| 国产欧美一区二区三区在线老狼| 成人啪啪18免费游戏链接| 麻豆成人免费电影| 午夜精品久久久内射近拍高清| 一区二区三区在线| 亚洲精品高清视频| 亚洲人成亚洲精品| 国产欧美日韩综合一区在线观看 | 91精选在线观看| 中文字幕在线欧美| 五月天欧美精品| 久久久久久久福利| 亚洲欧美日韩在线不卡| 日本一区二区视频在线播放| www激情久久| 色婷婷精品久久二区二区密| 国产一区免费电影| 91av视频免费观看| 蜜桃久久久久久久| 自拍偷拍 国产| 丝袜诱惑制服诱惑色一区在线观看 | 制服下的诱惑暮生| 九色|91porny| 成人不卡免费视频| 久久99精品一区二区三区 | 成人1区2区| 国产精品久久久久久久久久三级 | 国内精品嫩模av私拍在线观看| 公共露出暴露狂另类av| 国产中文字幕一区二区三区| 欧美第一黄网| 国产最新精品| 亚洲制服欧美久久| 91欧美日韩| 狠狠精品干练久久久无码中文字幕| 国产精品成人一区二区不卡| 国产系列第一页| 91精品蜜臀一区二区三区在线| 亚洲 欧洲 日韩| 一本一本久久a久久综合精品| 男女激烈动态图| 欧美日韩免费观看一区=区三区| 国产一二三四区在线观看| 欧美日韩18| 波多野结衣av一区二区全免费观看| 欧美网站在线| 日韩在线一级片| 日韩高清不卡在线| 波多结衣在线观看| 国产一区二区三区黄视频| www.日本久久| 成人免费黄色在线| 亚洲精品中文字幕在线播放| 久久久综合精品| 黄色av片三级三级三级免费看| 亚洲同性gay激情无套| 成人免费毛片东京热| 亚洲亚洲精品在线观看| 国产三级av片| 欧美老女人第四色| 动漫av一区二区三区| 亚洲欧美国产高清va在线播| 99精品老司机免费视频| 久久艳片www.17c.com| 国产区美女在线| 国产精品激情自拍| 国产日本亚洲| 蜜桃视频日韩| 偷偷www综合久久久久久久| 国产精品久久久久久久久电影网| 免费精品视频| 黄色一级片免费播放| aaa国产一区| 91制片厂在线| 偷拍亚洲欧洲综合| 一本色道久久综合精品婷婷| 亚洲第一网站男人都懂| 91社区在线观看| 高清亚洲成在人网站天堂| 成人国产激情在线| 精品国产一区二区三区麻豆免费观看完整版| 教室别恋欧美无删减版| 无码人妻精品一区二区三区99v| 亚洲一区二区网站| 两女双腿交缠激烈磨豆腐| 国产亚洲午夜高清国产拍精品 | 成人不用播放器| 久久久久国产一区二区三区| 日韩电影免费观看高清完整版| 91aaaa| 欧美一区二区三区激情视频| 韩国无码av片在线观看网站| 青青草91视频| 一本色道综合久久欧美日韩精品| 亚洲欧美视频一区| 成人小视频在线播放| 亚洲第一av网| 伊人电影在线观看| 国产精品中文在线| 首页亚洲中字| 国产av人人夜夜澡人人爽麻豆| 精品亚洲成a人| 欧美激情亚洲色图| 婷婷综合久久一区二区三区| 国产强伦人妻毛片| 国产一区二区三区视频在线观看| 咪咪网在线视频| 国产高清自拍一区| 亚洲最新av| 91插插插影院| 国产精品色哟哟| 亚洲无码精品一区二区三区| 亚洲第一视频在线观看| 99热国产在线| 91在线观看免费高清| 成人在线视频免费观看| av免费网站观看| 久久女同精品一区二区| 91国产丝袜播放在线| 欧美精品一区二区三区一线天视频| 国产在线观看免费麻豆| 国产精品丝袜视频| 日韩欧美视频| 99热一区二区| 中文字幕一区免费在线观看| 真实的国产乱xxxx在线91| 亚洲欧美激情另类校园| 久久uomeier| 日本一区二区三区免费观看| 另类图片国产| 久久av无码精品人妻系列试探| 疯狂做受xxxx高潮欧美日本| 少妇av在线播放| 91av在线精品| 香蕉久久夜色精品国产更新时间| 亚洲 欧美 日韩 国产综合 在线| 成人97人人超碰人人99| 日本中文字幕免费| 欧美女优在线视频| 秋霞国产午夜精品免费视频| 亚洲欧美另类国产| 水中色av综合| 日本成人免费在线| 国产一区二区三区天码| 日本爱爱免费视频| 国产精品超碰97尤物18| 99国产精品欲| 欧美激情亚洲激情| 亚洲婷婷伊人| 亚欧在线免费观看| 亚洲欧美日韩人成在线播放| www.爱爱.com| 97精品在线观看| 国产欧美一区二区精品久久久| 日韩av手机版| 亚洲美女在线国产| 日批视频免费播放| 国产精品99导航| 亚洲精品小说| 中文在线一区二区三区| 色婷婷精品大在线视频| 欧美日韩xx| 国产精品污www一区二区三区| 亚洲欧美bt| 欧美成人久久久免费播放| 日韩一区二区三区在线| 欧产日产国产精品视频| 午夜免费电影一区在线观看| 国产一区二区视频在线| 欧美一区二区激情视频| 久久精品国产综合| 色天下一区二区三区| 日韩av一卡二卡三卡| 五月激情综合网| 欧美成人hd| 欧美二区在线看| 国产高清无密码一区二区三区| 精品国产一区二区三区四| 久久国产精品99国产精| 亚洲精品亚洲人成在线观看| 亚洲天堂国产视频| 狠狠色狠色综合曰曰| jizz性欧美| 日韩精品久久久免费观看| 丁香婷婷综合五月|