精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DanceGRPO:首個統一視覺生成的強化學習框架

人工智能 新聞
R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

本文由字節跳動 Seed 和香港大學聯合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生,在 CVPR、NeurIPS 等國際頂級會議上發表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

現在,我們推出名為 DanceGRPO 的創新框架,這是首個旨在統一視覺生成強化學習的解決方案,實現了單一強化學習算法在兩大生成范式(diffusion/rectified flow)、三項任務(文本到圖像、文本到視頻、圖像到視頻)、四種基礎模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五類獎勵模型(圖像 / 視頻美學、圖文對齊、視頻動態質量、二元獎勵)中的全面覆蓋。

圖片

  • 論文標題:DanceGRPO: Unleashing GRPO on Visual Generation
  • arXiv 鏈接:https://arxiv.org/pdf/2505.07818

動機

在生成式 AI 快速發展的這三年,RLHF 逐漸的走進了大家的視野,首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義,LLM 領域的 RLHF 方案百花齊放,發展的相對成熟一些,今年更催生了 R1 這一類的大爆款工作。同時,大家也發現,對于視覺生成任務,RLHF 對美感等指標幾乎有著決定性影響,但相較 LLM 的成熟度,生成領域的 RLHF 方案顯然沒那么成熟,目前的主流方案大概分為兩類:

1. Diffusion/Flow-DPO:這一類方法是也是直接來自于 LLM 的 DPO 的影響,在實際操作中,大體分為兩種方案,第一種是離線 DPO,即讓模型去生成一批數據,然后人工標注,然后讓好和壞的數據組成 pairs 送回模型去優化,第二種是在線 DPO,即在線生成數據,然后讓 reward model 實時打分,然后拿回去訓練,這兩種思路大同小異。在實際操作中,我們發現 DPO 對模型的效果比較微弱,比如 DPO 前后的生成結果區別并不是很大,原因也很好理解,DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習,而是用一種類似 SFT 的方案去做,這種情況下對模型的作用并不是很大。

2. ReFL:這一類方案是 diffusion/rectified flow 所專有的,思路非常簡單直接,就是直接在 z_t 步下直接預測 z_0 的結果,然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優化。這一類方案在圖像上效果很明顯,但是因為要對 reward model 和 decode 后的 features 進行反向傳播,在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且,目前 LLM 和 diffusion 聯合訓練已成為大勢所驅,ReFL 這種通過建模 z_t 和 z_0 的關系,并且直接反向傳播的方式,似乎和這一類模型的建模策略有著很大的 gap。

于是,利用強化學習對模型進行優化的思路也就呼之欲出了,之前社區也對強化學習優化生成模型有過一些探索,例如 DDPO 和 DPOK,但是他們都有很強的局限性:

1. 嘗試的數據集非常小,一般小于 100 個 prompts,

2. 只針對文生圖 diffusion model 進行了測試,并沒有涉及到目前流行的 rectified flow 和視頻生成模型

實現目標 

于是,我們的目標也呼之欲出,我們的強化學習算法需要滿足以下特征:

1. 提升明顯,reward 上漲的足夠多

2. 在 video 上實現的時候顯存壓力不能大,即,不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數據集上訓練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻

我們是第一個視覺生成 + 強化學習的大一統框架,一個 DanceGRPO,可以應用在 diffusion 和 rectified flow,可以應用在文生圖,文生視頻,圖生視頻三類任務,我們在四個 foundation model 上進行了測試,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我們還在五個 reward model 上進行了測試。

方案設計

受最近在 LLM 大火的 GRPO 影響,我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩定訓練,首先我們要 claim 的點是,diffusion model 和 rectified flow 的出發點雖然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況,在這種 case 下,他們的采樣方程都可以用 SDE 實現,具體的公式推導參見原文即可。

接下來,我們就開始實現啦,核心的思路還是 follow 了 DeepSeek 的 GRPO 策略,即,用一個 prompt,生成一批數據,然后用 GRPO 的目標函數進行優化,但我們并沒有加入 KL 散度的正則項,因為發現這一項實際上作用不大,以下是我們實驗過程中的一些核心發現:

1. 同一個 prompt 的初始化噪聲最好相同,不然容易 reward hacking

2. 我們可以采樣一個子集的 timesteps 來加速訓練,同時讓模型見過更多的 prompts

3. 實現中可以使用多個 reward model 疊加,而且實現的時候最好是多個 advantage 來疊加

4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡

5. 強化學習會削弱生成的多樣性

6. 訓練盡量不要打開 cfg,如果非要打開的話,一批 prompt 只能更新一次梯度

算法流程如下:

圖片

接下來是關于 reward model 的討論,我們一共使用了五類 reward model:

(1) 圖像美感 

(2) 視頻美感 

(3) 圖文匹配 

(4) 視頻動態質量 

(5) 我們提出了一種新的 reward model,即把美感 & 圖文匹配 reward model 的結果給二值化,意思是大于某個閾值就是 1,小于這個閾值就是 0

我們在文生圖,文生視頻和圖生視頻上進行了測試。

實驗結果 

我們使用了 HPS-v2.1 和 Clip score 去優化模型,結果如下所示:

圖片


圖片

我們利用 VideoAlign 在 HunyuanVideo 上進行訓練:

圖片

以下是一些 reward 曲線:

圖片


圖片


ps:i2v 任務有一些區別,我們拿視覺美感 reward model 訓練的時候很容易發散,個人認為是因為 i2v 的美感更多取決于首幀,這個任務本身只有 motion quality 可言,所以我們只選擇了使用 motion quality reward 去進行訓練。

這是一個隨著 FLUX 訓練迭代次數的增加,可視化的變化,我們在訓練過程中引入隨機性,但是可視化是不會引入的,就是正常的 ODE solver。

圖片

更多的結果歡迎看原文~

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-28 09:15:00

AI視覺模型

2025-11-18 08:50:00

2024-12-09 08:45:00

模型AI

2020-06-05 08:09:01

Python強化學習框架

2020-05-06 16:07:05

百度飛槳

2020-11-16 08:54:05

Google 開源技術

2025-10-30 09:13:55

2025-05-28 11:55:56

模型開源框架

2025-11-06 08:56:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2018-08-29 08:13:22

Google 學習框架技術

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2022-11-02 14:02:02

強化學習訓練

2023-11-07 07:13:31

推薦系統多任務學習

2021-06-25 15:36:37

框架AI開發

2022-09-28 15:26:45

視覺任務

2019-01-31 10:42:04

框架AI開發

2023-07-20 15:18:42

點贊
收藏

51CTO技術棧公眾號

成人h精品动漫一区二区三区| 日韩美女国产精品| 亚洲免费观看高清完整版在线观看| 5566av亚洲| 日本学生初尝黑人巨免费视频| 色天下一区二区三区| 欧美日韩高清影院| 国产不卡一区二区视频| 黑人与亚洲人色ⅹvideos| 久久成人免费电影| 欧美一区二区三区在线观看| 国产深夜男女无套内射| 女女色综合影院| 成人黄色在线看| 国产日韩av在线播放| 日韩免费在线视频观看| 欧美hd在线| 亚洲另类欧美自拍| 人妻换人妻仑乱| 成人视屏在线观看| 午夜精品免费在线| 裸体大乳女做爰69| 国产精品久久一区二区三区不卡 | 91在线免费网站| 天天干在线播放| 精品不卡视频| 久久久91精品国产一区不卡| 能免费看av的网站| 麻豆国产欧美一区二区三区r| 4438x亚洲最大成人网| 久久精品视频91| 免费成人在线电影| 亚洲一区二区三区四区的| 最新中文字幕久久| 日本综合在线| 国产日韩精品一区二区三区| 久久精品久久精品国产大片| 亚洲av无码乱码在线观看性色| 美腿丝袜在线亚洲一区| 国产精品成人播放| 日本一本在线观看| 小嫩嫩精品导航| 2020久久国产精品| 日韩高清精品免费观看| 伊人激情综合| 国内精品久久久久| 青青操视频在线播放| 亚洲国产精品成人| 草民午夜欧美限制a级福利片| 2017亚洲天堂| 日本电影一区二区| 在线看日韩欧美| 欧美丰满老妇熟乱xxxxyyy| 国产欧美日韩精品一区二区免费| 国产偷亚洲偷欧美偷精品 | 中文字幕乱码久久午夜不卡| 日本一区二区三区四区高清视频| 日本电影一区二区在线观看| 91农村精品一区二区在线| 精品一区二区久久久久久久网站| 黄色a在线观看| 不卡视频在线看| 国产精品视频入口| 性感美女福利视频| 久久久亚洲欧洲日产国码αv| 欧美色欧美亚洲另类七区| 精品视频三区| 亚洲欧洲国产专区| 久久久天堂国产精品| 成人福利电影| 欧美日韩亚洲精品一区二区三区| 久草精品在线播放| 精品69视频一区二区三区| 欧美精品一二三| 男人添女人荫蒂国产| 久久午夜影院| 亚洲欧洲一区二区三区在线观看 | 亚洲va欧美va人人爽| 国产一区二区在线视频播放| 中文字幕av一区二区三区佐山爱| 欧美日韩日日夜夜| 人妻换人妻仑乱| 亚洲春色h网| 深夜福利日韩在线看| 欧美国产日韩在线观看成人| 亚洲免费大片| 国产精品亚洲网站| 亚洲精品网站在线| 久久久久国产精品免费免费搜索| 一级特黄录像免费播放全99| 成人性生交大片免费看在线播放| 色综合天天综合网国产成人综合天 | 日韩欧美成人激情| 国产男男chinese网站| 欧美freesextv| 97国产在线观看| 中文字幕在线观看免费| 成人免费高清视频在线观看| 欧洲视频一区二区三区| av免费网站在线| 色综合久久88色综合天天6| 男人午夜视频在线观看| 日韩av网站在线免费观看| 精品国内亚洲在观看18黄| 国产精品19乱码一区二区三区| 日韩国产在线一| 91香蕉亚洲精品| 精品无吗乱吗av国产爱色| 亚洲精品免费在线播放| 天堂社区在线视频| 国产精品videossex| 最新69国产成人精品视频免费| 国产大片中文字幕| 精品一二三四区| 欧美区高清在线| 成人性生交大片免费看网站| 欧美精品欧美精品系列| 久久精品无码一区| 亚洲人成在线影院| 99久久国产免费免费| 最新电影电视剧在线观看免费观看| 亚洲第一久久影院| 欧美高清精品一区二区| 99成人超碰| 国产精品极品在线| 伦理片一区二区三区| 亚洲成人黄色影院| 91丨porny丨九色| 99精品网站| 国产精品扒开腿做爽爽爽男男| 天堂av在线免费观看| 一区二区三区中文字幕| 91福利免费观看| 日韩一区电影| 国产精品免费看久久久香蕉| 久久米奇亚洲| 日韩欧美高清在线视频| 少妇户外露出[11p]| 亚洲三级毛片| 国产精品免费一区二区三区| 欧美黑人xx片| 精品人伦一区二区色婷婷| 国产97免费视频| 精品一区二区久久久| 亚洲欧美日韩在线综合| 黄色精品视频网站| 日韩综合中文字幕| 91成品人影院| 亚洲三级小视频| 欧美激情第四页| 欧美精品日本| 精品国产91亚洲一区二区三区www| 超免费在线视频| 亚洲国产精品字幕| wwwwww国产| 久久色在线观看| 午夜精品久久久内射近拍高清| 伊人久久综合影院| 国产精品女人久久久久久| 91九色在线porn| 91精品国产色综合久久不卡电影| 91porn在线视频| 99久久夜色精品国产网站| 亚洲熟妇国产熟妇肥婆| 美日韩中文字幕| 国产精品视频一区国模私拍| 精品国产白色丝袜高跟鞋| 日韩一卡二卡三卡四卡| 免费观看一级视频| 久久久国产精品不卡| 国产小视频精品| 欧美69wwwcom| 精品欧美一区二区精品久久| 日日夜夜天天综合| xxx一区二区| 蜜臀久久精品久久久久| 91精品91久久久中77777| 貂蝉被到爽流白浆在线观看| 国产麻豆日韩欧美久久| 免费在线观看亚洲视频 | 国产香蕉精品视频一区二区三区| 中文字幕一区二区人妻| 一区二区三区91| 美女100%无挡| 国产在线乱码一区二区三区| 可以在线看的av网站| 日韩免费av| 国产精品日本一区二区| www成人在线视频| 欧美乱大交xxxxx| 免费a在线观看| 日韩一区二区在线免费观看| 久久精品国产成人av| |精品福利一区二区三区| 好吊色视频一区二区三区| 美女脱光内衣内裤视频久久网站 | 粉嫩av一区二区三区天美传媒 | 日韩视频免费在线观看| 姝姝窝人体www聚色窝| 欧美日韩一区二区三区在线| 国产在线免费视频| 中文字幕一区二区三区色视频| 色综合久久五月| 国产一二精品视频| 成年人免费大片| 亚洲大片在线| 做爰高潮hd色即是空| 香蕉久久精品日日躁夜夜躁| 亚洲自拍在线观看| 97人人做人人爽香蕉精品| 国语自产在线不卡| 爆操欧美美女| 综合网中文字幕| 欧美xxx.com| 欧美mv日韩mv| 国产熟女一区二区三区四区| 在线免费观看不卡av| 91国产丝袜播放在线| 亚洲精品欧美激情| 我要看一级黄色录像| 久久精品亚洲精品国产欧美| 在线免费看黄色片| 国产福利精品一区二区| 亚洲第一色av| 久久精品99国产精品日本| 任你操这里只有精品| 亚洲一卡久久| 欧美三级一级片| 黄页网站一区| 男女激情免费视频| 欧美精品成人| 日韩a级黄色片| 午夜国产精品视频| 女同性恋一区二区| 一个色综合网| dy888午夜| 91精品国产乱码久久久久久 | 国产美女精品在线观看| 精品一区二区三区中文字幕在线 | 红杏aⅴ成人免费视频| 草莓视频一区| 国产成人精品福利| 国内成+人亚洲| 欧美重口另类| 久久久影院一区二区三区| 牛牛影视久久网| 九九九久久久| 亚洲成人一品| 午夜精品短视频| 久久综合88| 无码毛片aaa在线| 国模一区二区三区| 男人插女人视频在线观看| 亚洲视频狠狠| 无码人妻丰满熟妇区96| 久久中文欧美| 日日躁夜夜躁aaaabbbb| 国产真实乱对白精彩久久| 亚洲国产欧美91| 成人免费视频网站在线观看| 男人的天堂影院| 久久综合资源网| 极品久久久久久久| 亚洲视频免费在线观看| 久久一二三四区| 欧美日韩美女视频| 欧美一级黄视频| 欧美一区二区免费视频| 人成网站在线观看| 亚洲欧洲在线视频| 日本不卡在线| 欧美高清视频在线| 自拍视频在线看| 国产日韩专区在线| 成人av综合网| 日韩av一级大片| 91成人影院| 18禁网站免费无遮挡无码中文| 亚洲综合丁香| 九九九九九九九九| 99精品国产一区二区三区不卡 | 国产日韩欧美在线一区| 国产精品69久久久久孕妇欧美| 一区二区三区四区在线免费观看| 日韩欧美a级片| 88在线观看91蜜桃国自产| 亚洲免费黄色片| 亚洲性av在线| bl在线肉h视频大尺度| 国产精品久久9| av成人app永久免费| 日韩精品一区二区三区外面 | 久久久久久久一区二区三区| 唐人社导航福利精品| 91中文在线观看| 婷婷亚洲成人| 国产激情在线看| 青青草视频一区| 视频免费在线观看| 国产精品国产三级国产普通话三级| 久久久久久久久久久久久久免费看 | 中文字幕a级片| 日韩经典中文字幕| 在线免费观看的av| 国产精品视频精品| 神马香蕉久久| 国产精品无码免费专区午夜| 青娱乐精品在线视频| 亚洲熟女乱综合一区二区三区 | 日产精品久久久久久久| 欧美日韩视频在线一区二区| 亚洲色图另类小说| 欧美精品aaa| 996久久国产精品线观看| 欧美性大战久久久久| 影音先锋国产精品| 久久综合桃花网| 国产精品第五页| 波多野结衣av无码| 亚洲国产日韩欧美综合久久| 性xxxxfjsxxxxx欧美| 成人精品一区二区三区电影黑人 | 91亚洲精品国产| 久88久久88久久久| 久久丫精品忘忧草西安产品| 亚洲成人黄色影院| 黄色a在线观看| 欧美成人高清视频| 国产一区二区久久久久| 一本一本a久久| 麻豆精品在线播放| 一级片久久久久| 欧美主播一区二区三区| 国家队第一季免费高清在线观看| 2019最新中文字幕| 精品在线手机视频| 青青草原av在线播放| www国产成人| 国产性猛交╳xxx乱大交| 亚洲精品福利免费在线观看| bl视频在线免费观看| 国产精品一码二码三码在线| 一区免费在线| 久久久久无码国产精品一区李宗瑞 | 精品久久久久久久久久久久久久久 | 国产喂奶挤奶一区二区三区| 亚洲毛片一区二区三区| 亚洲视频在线播放| 欧美美女被草| 亚洲AV无码成人精品一区| 国产另类ts人妖一区二区| 青青草在线观看视频| 精品国产在天天线2019| 狠狠操一区二区三区| 久久综合给合久久狠狠色| 亚洲欧美日韩国产| 国产成人av一区二区三区不卡| 在线日韩一区二区| 欧美尤物美女在线| 亚洲xxxx视频| 一区二区国产精品| 非洲一级黄色片| 欧美精品 国产精品| 免费在线观看黄色网| 97人人模人人爽人人喊38tv| 亚洲精品欧美| 亚洲av毛片基地| 精品免费视频.| 成人欧美大片| 亚洲开发第一视频在线播放| 国产剧情一区二区| 天堂网一区二区三区| 中文字幕免费精品一区高清| **日韩最新| 欧美 日韩 国产 高清| 国产欧美日韩精品在线| 国产欧美久久久| 91成人在线播放| 国产精品国内免费一区二区三区| 18深夜在线观看免费视频| 欧美性少妇18aaaa视频| 青青青青在线| 久久精品一二三区| 国产在线视频一区二区| 国产一级理论片| 中文字幕无线精品亚洲乱码一区 | 一区二区 亚洲| 韩国精品美女www爽爽爽视频| 精品国产91乱码一区二区三区四区| 国产精欧美一区二区三区白种人| 午夜成人在线视频| 欧洲美女少妇精品| 久久偷窥视频| 国产福利一区在线观看| 少妇无套内谢久久久久| 欧美精品久久久久久久免费观看| 国产精品一区二区av交换| 秋霞午夜鲁丝一区二区| 91成人在线免费观看| 欧美家庭影院|