精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GRPO訓練不再「自嗨」!快手可靈 x 中山大學推出「GRPO衛(wèi)兵」,顯著緩解視覺生成過優(yōu)化

人工智能 新聞
作為首先關注 GRPO 在視覺生成中過優(yōu)化現(xiàn)象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩(wěn)定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優(yōu)化。

論文第一作者為王晶,中山大學二年級博士生,研究方向為強化學習與視頻生成;通訊作者為中山大學智能工程學院教授梁小丹。

目前,GRPO 在圖像和視頻生成的流模型中取得了顯著提升(如 FlowGRPO 和 DanceGRPO),已被證明在后訓練階段能夠有效提升視覺生成式流模型的人類偏好對齊、文本渲染與指令遵循能力。

在此過程中,重要性比值的 clip 機制被引入,用于約束過于自信的正負樣本梯度,避免破壞性的策略更新,從而維持訓練的穩(wěn)定性。然而,實證分析顯示,該機制存在系統(tǒng)性偏差:其均值長期低于 1,導致過度自信的正梯度無法得到有效限制;同時,不同去噪步下比值的分布方差差異顯著,使得部分步驟的 clip 機制失效。

結果,模型在訓練過程中容易陷入過度優(yōu)化狀態(tài)——即代理獎勵持續(xù)上升,但圖像質量及文本與提示的對齊度反而下降,導致優(yōu)化后的模型在實際應用中效果不佳。

圖像質量隨優(yōu)化過程的變化如下:

為此,中山大學、快手可靈以及港中文 MMLab 等團隊聯(lián)合提出了 GRPO-Guard,這是首個針對 GRPO 在流模型中出現(xiàn)的過度優(yōu)化問題而設計的解決方案。GRPO-Guard 能在保證快速收斂的同時,大幅降低過度優(yōu)化的風險。

在 Flow-GRPO、DanceGRPO 等多種 GRPO 變體、不同擴散骨干模型(如 SD3.5-M、FLUX1.dev),GRPO-Guard 在文本渲染、GenEval、PickScore 等多種代理任務中均展現(xiàn)出穩(wěn)定顯著的提升,同時有效緩解 reward hacking 現(xiàn)象,提高優(yōu)化后模型的實際應用價值。

目前該項目的論文和代碼均已開源:

  • 論文標題:GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
  • 論文鏈接:https://arxiv.org/abs/2510.22319
  • 代碼地址:https://github.com/yifan123/flow_grpo

核心問題:比值分布偏移破壞 Clip 約束

在 FlowGRPO 中,通常采用高斯概率函數計算重要性比值中的

由于二階項的引入,log-importance ratio 在 off-policy 情況下會受到二次項的影響,表現(xiàn)出均值低于 1 且不同去噪步驟(denoising step)方差差異顯著的現(xiàn)象。

具體來說,二階項 的影響,使得重要性比值的均值

偏向小于 1,同時方差隨著去噪步驟的增加而逐漸增大。

理想情況下,重要性比值的均值應接近 1,以保證左右 clip 區(qū)間均衡,使有害的正負樣本梯度能夠被有效約束。然而,均值偏移和方差差異會導致預先設定的 clip 機制失效:一方面,正樣本梯度無法被充分約束;另一方面,部分步驟的 clip 機制失效,從而使策略(policy)陷入過度優(yōu)化狀態(tài)。

此外,F(xiàn)lowGRPO 中不同去噪步驟的梯度存在顯著差異。具體而言

其中,受系數梯度系數  影響,高噪聲步驟的梯度貢獻較小,而低噪聲步驟的梯度貢獻較大,這可能導致模型在訓練中偏向于單一的噪聲條件。不同步驟的梯度系數(左一)及實際梯度貢獻(左二)如圖所示:

解決思路:RatioNorm 和跨步梯度平衡

針對上述問題,為每個去噪步驟單獨設定特定的 clip 范圍顯得過于繁瑣。為此,我們提出 GRPO-Guard,在原有 GRPO 框架上引入兩項關鍵改進:

  • 比率歸一化(RatioNorm):對每個去噪步驟的重要性比值分布進行標準化,使其均值接近 1,方差保持一致,從而恢復 clip 機制的有效性,避免因正樣本裁剪失效而引發(fā)的過度優(yōu)化。

該機制對梯度的影響如下所示:

  • 跨步梯度平衡:基于 RatioNorm 對各去噪步驟的梯度進行均衡,使策略在整個噪聲時間表上均勻探索,如右圖(右 1)所示。這不僅防止了單步過擬合,還提升了訓練的穩(wěn)定性與生成多樣性。整體策略損失(policy loss)如下所示:其中

經過 RatioNorm 調整后的重要性比值分布對比:

FlowGRPO:均值小于 1,破壞性正樣本約束失效

GRPO-Guard:均值接近 1,破壞性正樣本得到約束

實驗結果:顯著緩解過優(yōu)化

我們在 FlowGRPO 和 DanceGRPO 兩種不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 兩種擴散骨干模型,以及 GenEval、PickScore 和文本渲染等多種任務上驗證了 GRPO-Guard 的有效性。實驗結果表明,GRPO-Guard 能顯著緩解過度優(yōu)化現(xiàn)象,同時保持與 baseline 相近的性能提升。

具體而言,不同任務的 proxy score 與 gold score 對比顯示:在 baseline 方法中,gold score 存在明顯下降趨勢,而在 GRPO-Guard 下,這一下降趨勢被顯著緩解。

訓練過程圖像質量可視化:FlowGRPO/DanceGRPO 等算法隨著訓練的進行,策略(policy)過度優(yōu)化問題明顯,導致圖像質量顯著下降。GRPO-Guard 則在訓練過程后期仍然保持了較高的圖像質量。

更多可視化樣例顯示,在 baseline 方法下,在文本響應和圖像質量都呈現(xiàn)出明顯的退化,而 GRPO-Guard 能在提升目標 reward 的同時較好地保持文本響應和圖像質量。

在 PickScore 任務中,baseline 方法在訓練后期生成的人體比例存在不一致現(xiàn)象,且多人臉型過于相似,極大影響了生成多樣性,GRPO-Guard 顯著緩解了這個問題。

總結與展望:邁向更穩(wěn)健的視覺生成式強化學習

作為首先關注 GRPO 在視覺生成中過優(yōu)化現(xiàn)象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩(wěn)定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優(yōu)化。實驗表明,無論在不同 GRPO 變體、擴散骨干模型,還是多種代理任務中,GRPO-Guard 都能保持甚至提升生成質量,并提升訓練的穩(wěn)定性和多樣性。

本質上過優(yōu)化問題的出現(xiàn)是由于 proxy score 和 gold score 的巨大差距而導致的,雖然 GRPO-Guard 從優(yōu)化過程上緩解了過優(yōu)化現(xiàn)象,但并未徹底根治。未來,應該構建更精確的獎勵模型,使代理分數更接近真實評估(gold score),從而進一步減少 reward hacking 并提升優(yōu)化效果。這將為 GRPO 在流模型及更廣泛的生成任務中的實際應用提供更可靠的技術保障。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2021-02-24 15:38:37

數據語言架構

2024-01-29 06:40:00

AI模型

2020-11-05 16:21:15

中山大學

2021-11-16 15:37:43

AI 數據人工智能

2025-03-17 10:25:28

2016-12-24 00:08:11

教育信息化

2025-03-17 12:48:50

2014-11-13 10:17:30

中山大學新炬網絡學院大數據技術

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2024-01-12 13:10:06

AI數據

2015-11-18 17:12:25

太一星晨/應用交付

2023-03-14 14:06:52

訓練模型

2023-10-30 17:23:54

數據模型

2024-02-29 13:55:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

性无码专区无码| 视频区 图片区 小说区| 婷婷婷国产在线视频| 亚洲国产婷婷| 精品调教chinesegay| 女人扒开屁股爽桶30分钟| 国产在线超碰| 国产一本一道久久香蕉| 91精品国产91久久久久福利| 日韩精品视频网址| 国产污视频在线播放| 久久精品男人天堂av| 91探花福利精品国产自产在线| 青娱乐国产在线| 日韩精品社区| 欧美精品丝袜中出| 成年人网站国产| 国际av在线| 成人综合婷婷国产精品久久蜜臀 | 一区二区三区在线视频播放| 欧美日本一区二区三区| 日韩三级电影网站| 99久久婷婷国产一区二区三区| 欧美午夜a级限制福利片| 精品亚洲一区二区三区在线播放| 色噜噜狠狠永久免费| 影音先锋在线播放| 国产无遮挡一区二区三区毛片日本| 国产在线高清精品| 中文字幕在线观看视频网站| 91精品国产福利在线观看麻豆| 日韩成人激情在线| 日韩视频在线观看一区二区三区| 成人亚洲欧美| 亚洲无线码一区二区三区| 亚洲国产日韩美| 四虎免费在线观看| 国产凹凸在线观看一区二区| 国产精品网站视频| 国产精彩视频在线观看| 99久久激情| 亚洲片在线资源| jjzz黄色片| 欧美一级在线| 91福利社在线观看| 免费无码不卡视频在线观看| 97影院秋霞午夜在线观看| 从欧美一区二区三区| 成人网在线观看| 中文天堂在线资源| 先锋影音久久| 88xx成人精品| 国产小视频在线观看免费| 日韩影院二区| 在线观看亚洲区| 精品无码一区二区三区| 亚洲超碰在线观看| 91精品国产一区二区三区| 亚洲天堂av线| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲图片欧美一区| 日韩一级特黄毛片| 在线h片观看| 亚洲欧美欧美一区二区三区| 亚洲一区三区电影在线观看| av大片在线观看| 久久无码av三级| 久久精品二区| 免费成人av电影| 国产夜色精品一区二区av| 久久综合九色欧美狠狠| 亚洲人视频在线观看| 99国产精品视频免费观看| 黄色小网站91| 污视频在线免费| 91免费国产在线观看| 精品欧美一区二区精品久久| 五月婷婷六月激情| 91女神在线视频| 欧美成ee人免费视频| 男同在线观看| 成人性视频网站| 久久66热这里只有精品| 欧美777四色影视在线| 91热门视频在线观看| 欧洲亚洲一区二区| www在线播放| 亚洲免费色视频| 草草视频在线免费观看| 亚洲婷婷噜噜| 精品久久久久人成| 一区二区三区国产免费| 999精品视频在线观看| 日韩一区二区在线观看视频| 亚洲视频 中文字幕| 私拍精品福利视频在线一区| 国产午夜精品一区二区三区| 草草影院第一页| 欧美一区二区三| 欧美成年人视频| 国产黄色片免费看| 九九九久久久精品| 超碰97国产在线| 青青久在线视频| 国产精品精品国产色婷婷| 黄色免费高清视频| 国内激情视频在线观看| 精品视频在线免费| 国产艳妇疯狂做爰视频| 经典一区二区| 欧美老女人性生活| 伊人手机在线视频| 韩国欧美国产1区| 国产自产在线视频一区| 日本免费在线观看| 欧美日韩免费看| 爱情岛论坛vip永久入口| 免费一级欧美片在线观看网站| 日韩成人xxxx| 91porn在线视频| 久久亚洲精品伦理| 91在线免费看片| 成年人在线视频免费观看| 亚洲一二三四在线观看| 在线看的黄色网址| 日韩在线麻豆| 欧美另类第一页| 中文精品久久久久人妻不卡| 福利电影一区二区三区| 亚洲欧洲三级| 成人爱爱网址| 日韩欧美精品在线视频| 成人欧美一区二区三区黑人一| 伊人激情综合| 亚洲中国色老太| 自拍视频在线网| 色综合夜色一区| 完美搭档在线观看| 91精品推荐| 国产精品女主播视频| 视频一区二区三区国产 | 色哟哟一一国产精品| 美女久久一区| 久久综合中文色婷婷| 国产乱妇乱子在线播视频播放网站| 色欧美乱欧美15图片| wwwww在线观看| 婷婷综合五月| 国产在线精品播放| 电影在线一区| 色94色欧美sute亚洲线路一ni| 免费中文字幕av| 亚洲美女黄网| 国新精品乱码一区二区三区18| av在线app| 91精品福利在线一区二区三区 | 久久午夜电影网| 国产精品秘入口18禁麻豆免会员| 亚洲精品高潮| 欧美激情videoshd| 黄色一级a毛片| 亚洲一区二区三区中文字幕 | 牛牛电影国产一区二区| 欧美一区二区女人| 久久久久亚洲av无码专区体验| 韩日欧美一区二区三区| 免费观看中文字幕| 国产aa精品| 欧美另类在线播放| 性生活三级视频| 亚洲一级二级在线| 污片免费在线观看| 亚洲欧美高清| 日韩精品在在线一区二区中文| 美女扒开腿让男人桶爽久久软| 亚洲精品二三区| 69视频免费在线观看| 久久午夜免费电影| 欧美男女交配视频| 你懂的国产精品| 成人xxxxx色| 丁香花在线电影小说观看 | а中文在线天堂| 欧美国产日韩亚洲一区| 亚洲综合av在线播放| 欧美高清日韩| 丁香五月网久久综合| av电影免费在线观看| 日韩精品一区二区在线| 久久久久久久久影院| 国产网站一区二区| 波多野结衣在线免费观看| 91精品亚洲| 亚洲一区二区三区在线视频| 国产精品186在线观看在线播放| 日韩大片在线观看视频| 国产美女www| 一区二区在线观看视频在线观看| 香港三级日本三级| 美女视频黄a大片欧美| 日本天堂免费a| 中文字幕亚洲影视| 亚洲一区二区在线播放| 女海盗2成人h版中文字幕| 日韩在线免费av| 人妻少妇精品无码专区久久| 在线免费观看日韩欧美| 538精品在线观看| 久久精品夜色噜噜亚洲a∨| 在线视频一二区| 亚洲精品社区| 亚洲美女自拍偷拍| 亚洲免费福利一区| 亚洲一区久久久| 欧美大片1688| 欧美黑人xxxx| 人妻一区二区三区| 欧美人与性动xxxx| 影音先锋在线国产| 亚洲综合一区在线| 国产极品视频在线观看| aaa国产一区| 美女在线视频一区二区| 999亚洲国产精| 中文字幕中文字幕在线中一区高清| 黄色成人美女网站| 91久久在线播放| 麻豆国产在线| 欧美疯狂做受xxxx高潮| 1769在线观看| 亚洲人成网站777色婷婷| 精品国产九九九| 欧美视频三区在线播放| 看片网址国产福利av中文字幕| 一区二区三区在线免费观看| 免费看一级黄色| 久久久久久久久久久黄色| 亚洲成人激情小说| 久久福利视频一区二区| 亚洲精品怡红院| 久久精品人人| av天堂永久资源网| 91淫黄看大片| 999精品视频| 欧美日韩一区在线观看视频| 中文字幕一区二区三区四区久久| 91精品久久久久久综合乱菊| 天堂av在线网| 性欧美xxxx视频在线观看| 天堂av资源在线观看| 久久亚洲私人国产精品va| 亚洲 精品 综合 精品 自拍| 精品久久国产97色综合| 精品国产av一区二区| 91精品国产色综合久久ai换脸 | 亚洲精品久久久久久久久久久久久久 | 天天综合成人网| 蜜桃视频在线观看一区二区| 久久婷婷国产91天堂综合精品| 久久久久久久欧美精品| 中文字幕无码不卡免费视频| 亚洲一区欧美激情| 91看片就是不一样| 日韩成人免费看| 欧美女人性生活视频| 国产精品日韩精品欧美精品| 欧美一级视频免费看| 在线欧美福利| 3d动漫一区二区三区| 国产一区二区三区的电影| 国产超级av在线| 久色成人在线| 亚洲精品视频导航| 精品一区二区三区免费播放 | 在线精品亚洲欧美日韩国产| 97人人做人人爱| 热三久草你在线| 国产精选久久久久久| 网站一区二区| 久久天堂国产精品| 色一区二区三区四区| 男人添女人下部视频免费| 雨宫琴音一区二区在线| 熟女人妇 成熟妇女系列视频| 极品销魂美女一区二区三区| 美国黄色一级视频| 欧美国产日韩亚洲一区| 精品无码一区二区三区电影桃花| 一本到高清视频免费精品| 国产又粗又猛视频| 日韩电影在线观看中文字幕 | 久久福利视频网| 日韩影院在线| 91视频国产精品| 中国av一区| 国产 欧美 日韩 一区| 日本不卡一区二区| 性久久久久久久久久久| 国产精品的网站| 国产九色在线播放九色| 欧美一级二级在线观看| 国产午夜在线观看| 久久久久国产精品免费网站| 免费观看亚洲| 国产精品xxx在线观看www| 清纯唯美日韩| 无码人妻丰满熟妇区96| 狠狠色伊人亚洲综合成人| 国产精品jizz| 一区二区在线观看免费视频播放| 中国一区二区视频| 亚洲精品99999| bt在线麻豆视频| 国产精品www色诱视频| 国产成人夜色高潮福利影视| 一区一区视频| 青青草国产精品97视觉盛宴| 国产精品无码一区二区三| 亚洲精品自拍动漫在线| 中文字幕有码视频| 亚洲午夜精品久久久久久久久久久久 | 日本天堂一区| 日韩极品视频在线观看| 狠狠v欧美v日韩v亚洲ⅴ| 少妇愉情理伦三级| 色噜噜偷拍精品综合在线| 色婷婷av一区二区三| 欧美人与性动交a欧美精品| 国产成人免费av一区二区午夜| 午夜精品福利一区二区| 三级成人在线视频| 国产精品1000部啪视频| 欧美日韩国产一区中文午夜| 日韩一级免费视频| 国模私拍视频一区| 狠狠一区二区三区| 国产精品裸体瑜伽视频| 成人av在线看| 精品视频一区二区在线观看| 日韩精品一区二| 欧美aaaxxxx做受视频| 99久久自偷自偷国产精品不卡| 久久久久久久久久久妇女| 57pao国产成永久免费视频| 国产精品久久免费看| 一级黄在线观看| 久久天天躁夜夜躁狠狠躁2022| 伊人久久大香线蕉综合影院首页| 一区二区三区av在线| 精品一区精品二区高清| 爱爱视频免费在线观看| 欧美一区二区人人喊爽| 日本精品600av| 国产精品一区视频网站| 在线精品观看| 亚洲午夜福利在线观看| 色噜噜狠狠一区二区三区果冻| 国产精品影院在线| 国产日韩欧美成人| 一区二区免费不卡在线| av在线天堂网| 黑人巨大精品欧美一区二区三区| 深夜影院在线观看| 国产精品久久久久久久久粉嫩av | 国产美女www| 久久九九精品99国产精品| 亚洲一区二区电影| 欧美国产亚洲一区| 国产三级精品在线| 国产精品无码一区二区桃花视频 | 三级成人黄色影院| 在线视频亚洲自拍| 成人一区在线看| 亚洲天堂五月天| 久久久一区二区三区捆绑**| 亚洲中文字幕无码一区二区三区 | 久久久久亚洲AV成人网人人小说| 午夜视频一区二区三区| 久蕉在线视频| 国产专区精品视频| 亚洲精品1区2区| 黄色av片三级三级三级免费看| 欧美一区二视频| 蜜桃av在线播放| 在线观看福利一区| 97国产一区二区| 91麻豆国产视频| 91国语精品自产拍在线观看性色| av一区二区在线播放| 精品国产一二区| 在线观看视频91| 怡红院在线播放| 视频一区视频二区视频三区高| 国产麻豆精品视频| 久久精品五月天| 欧美激情xxxx性bbbb| 久久精品国产99久久| 亚洲av成人片色在线观看高潮| 欧美日韩日日夜夜| 日本а中文在线天堂|