精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DPO與GRPO誰更勝一籌?港中文、北大等聯合發布首個系統性對比研究

人工智能 新聞
近日,一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較,不僅評估了它們在域內(in-domain)和域外(out-of-domain)的性能,還細致探究了不同獎勵模型及擴展策略對其能力的影響。

近年來,強化學習 (RL) 在提升大型語言模型 (LLM) 的鏈式思考 (CoT) 推理能力方面展現出巨大潛力,其中直接偏好優化 (DPO) 和組相對策略優化 (GRPO) 是兩大主流算法。

如今,這股 RL 的浪潮也涌向了圖像生成領域。當我們將自回歸圖像生成也視為一種序列化的 CoT 推理過程時,一個核心問題浮出水面:DPO 和 GRPO 在這個新戰場上表現如何?它們各自的優勢、挑戰以及最佳實踐又是什么?

近日,一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究給出了答案。該研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較,不僅評估了它們在域內(in-domain)和域外(out-of-domain)的性能,還細致探究了不同獎勵模型及擴展策略對其能力的影響。

圖片

  • 論文標題:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
  • 論文鏈接:https://arxiv.org/abs/2505.17017
  • 代碼鏈接:https://github.com/ZiyuGuo99/Image-Generation-CoT

與 LLM 的 CoT 推理不同,圖像生成的 CoT 面臨著獨特的挑戰,例如確保文本 - 圖像一致性、提升圖像美學質量以及設計復雜的獎勵模型(而非簡單的基于規則的獎勵)。現有工作雖然已將 RL 引入該領域,但往往缺乏對這些領域特定挑戰以及不同 RL 策略特性的深入分析。

該團隊的這項新研究填補了這一空白,為我們揭示了 DPO 和 GRPO 在圖像生成領域的「相愛相殺」和「各自為王」。

圖片

圖 1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

研究核心發現概覽

研究團隊以最新的自回歸圖像生成模型 Janus-Pro 為基線,在 T2I-CompBench (域內、長文本復雜場景) 和 GenEval (域外、短文本模板化) 數據集上進行了細致評估。核心發現可歸納為三大方面:

1. 域內性能 vs. 域外泛化:DPO 與 GRPO 各擅勝場

  • DPO 稱雄域內: 實驗結果顯示,離策略 (off-policy) 的 DPO 方法在域內任務上表現優于 GRPO。在 T2I-CompBench 數據集上,DPO 的平均性能比 GRPO 高出約 11.53%;在使用官方評估工具作為獎勵信號時,DPO 甚至能達到 7.8% 的峰值提升。這突顯了 DPO 在域內任務上的有效性和魯棒性。
  • GRPO 泛化更強: 與之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表現更出色。在 GenEval 數據集上,GRPO 始終展現出比 DPO 更好的泛化性能;在使用 HPS 獎勵模型時,GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 獎勵模型的影響:DPO 更敏感,優質獎勵模型提升 RL 泛化

  • DPO 對獎勵模型選擇更敏感: 研究發現,DPO 的泛化性能對獎勵模型的選擇比 GRPO 更為敏感,表現為更大的域外性能波動。GRPO 在 GenEval 上的性能方差為 0.5486,顯著低于 DPO 的 0.9547。
  • 獎勵模型的內在泛化能力至關重要: 一個具有更強內在泛化能力的獎勵模型,能夠潛在地提升 RL 算法的整體泛化性能。研究中,不同獎勵模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表現排序,與它們通過 GRPO 或 DPO 優化后的 RL 模型表現排序高度一致。

3. 有效擴展策略的探索:因材施教,DPO 與 GRPO 策略迥異

研究團隊系統探索了三種主流擴展策略:擴展每個提示生成的樣本圖像數量、擴展域內訓練數據的多樣性和體量,以及采用迭代訓練方法。

對于 GRPO:

  • 擴展采樣圖像數量能帶來更高效的域內性能提升。
  • 適度擴展采樣規模和域內數據有助于改善泛化能力,但過度擴展可能導致過擬合。

對于 DPO:

  • 迭代訓練傾向于最大化域內性能,但在多輪迭代后可能損害泛化能力。
  • 適度采樣能銳化偏好對比,優化域內和域外性能;但過度采樣會引入偏差。
  • 擴展域內數據通過緩解小數據集帶來的偏好范圍局限,能同時提升域內和域外性能。

研究細節與洞察

研究團隊首先明確了任務設定:自回歸圖像生成模型(如 LlamaGen、Show-o、Janus-Pro)通過將圖像轉換為離散 token 序列進行預測,其過程與 LLM 的文本生成類似,因此可以無縫集成 DPO 和 GRPO 的損失機制。

在 DPO 與 GRPO 的對比中,研究者確保了兩者在計算成本上的可比性。例如,DPO 中每個 prompt 生成的圖像數量與 GRPO 中的組大小對齊,并使用相同的獎勵模型。

結果清晰地顯示,DPO 憑借其對預收集靜態數據的有效利用,在域內場景(如 T2I-CompBench 的復雜長描述)中表現更佳。而 GRPO 通過迭代優化策略和在線采樣,更能適應復雜任務分布,從而在域外場景(如 GenEval 的模板化短描述)中展現出更強的泛化性。

圖片

圖 2: 域內與域外性能對比的可視化結果。

在獎勵模型影響的分析中,研究團隊考察了三類獎勵模型:基于人類偏好的模型 (HPS, ImageReward)、視覺問答模型 (UnifiedReward, Ft. ORM) 和基于度量的獎勵模型。

一個有趣的發現是,獎勵模型自身的泛化能力(通過 best-of-N 策略在 GenEval 上評估得到)與通過 RL 算法(DPO 或 GRPO)訓練后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。這表明,提升獎勵模型本身的泛化性是提升 RL 泛化性的一個關鍵途徑。

圖片

圖 3: 不同獎勵模型影響的可視化結果。

在擴展策略的探索上,研究團隊針對 GRPO 和 DPO 的特性提出了不同的優化路徑。例如,對于 GRPO,增加每輪采樣的圖像數量(group size)比增加訓練數據量或迭代次數,能更經濟地提升域內性能。

而對于 DPO,迭代訓練(如 DPO-Iter)雖然能顯著提升域內分數,但過早地在泛化能力上達到瓶頸甚至衰退,這可能源于對訓練偏好數據的過擬合。另一方面,擴展域內訓練數據的多樣性和數量,則能幫助 DPO 克服小規模偏好數據集帶來的局限性,從而同時提升域內和域外表現。

圖片

圖 4: 擴展策略影響的可視化結果。

總結與展望

這項研究為我們提供了一幅關于 DPO 和 GRPO 在自回歸圖像生成領域應用的清晰圖景。它不僅揭示了 DPO 在域內任務上的優勢和 GRPO 在域外泛化上的長處,還強調了高質量、高泛化性獎勵模型的重要性,并為兩種 RL 范式提供了針對性的擴展策略建議。

這些發現為未來開發更高效的 RL 算法,以在自回歸圖像生成領域實現更魯棒的 CoT 推理,鋪平了新的道路。研究者希望這項工作能啟發更多后續研究,共同推動 AI 在視覺創造力上的邊界。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-03-06 09:21:28

PWA原生應用Web

2024-07-31 09:39:33

2025-08-05 08:13:19

2010-05-28 11:21:17

2022-07-20 08:16:54

Lombokjava工具

2018-06-12 10:09:41

編程語言PythonJava

2014-03-06 15:07:41

青橙小米

2017-01-11 14:38:39

編程語言Java

2010-05-21 16:36:09

GoogleCode

2017-11-13 15:38:03

VMwareOpenStack混合云

2020-02-02 15:42:22

PythonC++編程語言

2020-01-18 14:55:03

架構運維技術

2019-01-04 09:59:14

KafkaRabbitMQMQ

2023-08-09 18:08:35

ChatGPTStackOverflow

2018-08-15 08:33:33

編程Go語言開發

2018-10-12 13:54:26

2025-01-03 09:27:14

2010-07-27 14:36:31

Flex Array

2013-02-19 13:13:33

SurfaceiPad

2017-06-08 15:38:41

點贊
收藏

51CTO技術棧公眾號

国产精品毛片一区二区在线看| 九色porny自拍视频在线观看| 久久99日本精品| 欧美成人午夜激情| 亚洲精品女人久久久| 日韩经典一区| 亚洲一区二区av电影| 欧美日韩成人一区二区三区| 国产农村老头老太视频| 一区二区激情| 北条麻妃久久精品| 亚洲第一页av| 国产一区二区视频在线看| 午夜视频一区在线观看| 亚洲欧美国产不卡| 性xxxfllreexxx少妇| 激情综合网av| 欧美自拍视频在线| 久久国产免费观看| 99久久国产综合精品成人影院| 精品国产不卡一区二区三区| 日韩高清第一页| sm捆绑调教国产免费网站在线观看| 久久久久国产精品人| 99re在线视频观看| 亚洲国产无线乱码在线观看| 99精品国产在热久久下载| 久久精品国产电影| 久久久久无码精品国产sm果冻| 9l视频自拍九色9l视频成人| 欧美三区免费完整视频在线观看| 少妇无码av无码专区在线观看| 黄视频在线观看网站| 国产亚洲短视频| 国产欧美日韩一区二区三区| 国产精品视频无码| 热久久免费视频| 欧美有码在线观看视频| 日韩精品视频免费播放| 欧美三级视频| 久久天天躁狠狠躁夜夜av| 国产ts在线播放| 九九精品在线| 日韩精品小视频| 久久久久无码国产精品一区李宗瑞| 欧美激情福利| 欧美猛男男办公室激情| 男人插女人下面免费视频| 亚洲女同志freevdieo| 午夜视频久久久久久| 免费cad大片在线观看| 黄色网在线免费看| 亚洲人一二三区| 亚欧洲精品在线视频免费观看| 久久精品a一级国产免视看成人 | 国产高清在线| 久久精品亚洲麻豆av一区二区| 精选一区二区三区四区五区| 特级丰满少妇一级aaaa爱毛片| 成人福利电影精品一区二区在线观看 | 日韩伦理一区二区三区av在线| 无码h黄肉3d动漫在线观看| 9久草视频在线视频精品| 精品综合在线| 免费黄色片在线观看| 久久一夜天堂av一区二区三区| 九色91视频| 欧美日韩在线中文字幕| 久久精品视频在线免费观看| 青青成人在线| av影片免费在线观看| 国产精品久久久久久久久果冻传媒| 先锋影音一区二区三区| 日本免费视频在线观看| 亚洲美女少妇撒尿| 日韩视频 中文字幕| 毛片大全在线观看| 欧美午夜激情小视频| 国产乱子夫妻xx黑人xyx真爽| 性欧美hd调教| 欧美久久久久久蜜桃| 波多野结衣电影免费观看| 91精品国产自产精品男人的天堂| 亚洲国产日韩欧美在线图片| 91成人破解版| 国产精品国产一区| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 欧美牲交a欧美牲交aⅴ免费真| 欧美三区四区| 欧美一区二区在线视频| 变态另类丨国产精品| 精品国产一级毛片| 欧美福利视频网站| 国产毛片aaa| 久久99国产精品久久99果冻传媒| 国产精品免费一区二区| 国产高清一区在线观看| 一区二区三区毛片| 欧美日韩大尺度| 日韩区一区二| 尤物yw午夜国产精品视频明星| 永久看片925tv| 久久成人在线| 99精彩视频| 成人18在线| 亚洲午夜免费福利视频| 国产熟女高潮视频| 日韩免费一级| 综合激情国产一区| 中文字幕亚洲高清| 国产精品一品视频| 日韩在线电影一区| 9765激情中文在线| 91精品麻豆日日躁夜夜躁| 黄色片视频免费观看| 欧美成人一区二免费视频软件| 国产成人黄色av| 亚洲第一天堂影院| 亚洲欧洲av一区二区三区久久| 欧美精品99久久| 看亚洲a级一级毛片| 伊人精品在线观看| 免费在线不卡视频| 国产成人精品1024| 中文字幕免费在线不卡| 日本美女一区| 亚洲精品电影网| 久艹视频在线观看| 国产麻豆精品久久一二三| 亚洲成色www久久网站| 亚洲日本天堂| 亚洲福利视频专区| 免费毛片在线播放免费| 国内精品写真在线观看| 先锋影音亚洲资源| 亚洲mmav| 亚洲图中文字幕| 国产又大又黄又粗| 99re6这里只有精品视频在线观看| 女同性恋一区二区| 成人在线视频区| 色偷偷偷亚洲综合网另类| 日韩不卡高清视频| 2021国产精品久久精品| 日本福利视频在线| 老司机aⅴ在线精品导航| 欧美精品www| 成人av一区二区三区在线观看| 亚洲欧美在线aaa| 粉色视频免费看| 久久国产精品亚洲人一区二区三区| 日本a级片电影一区二区| 视频在线观看你懂的| 高跟丝袜欧美一区| 手机在线看片日韩| 欧美亚洲视频| 欧美精品欧美精品| 香蕉成人av| 在线看国产精品| 97超碰国产在线| 自拍偷拍国产亚洲| 中文字幕无人区二| 欧美午夜精品| 国产一区二区三区高清视频| 超碰资源在线| 亚洲人成网站色ww在线| 在线观看亚洲黄色| 自拍偷拍亚洲激情| 欧美性生交xxxxx| 亚洲免费精品| 日韩一区二区三区高清| 91麻豆精品国产91久久久更新资源速度超快| 日韩小视频网址| www.97超碰| 亚洲h动漫在线| av女人的天堂| 精品一区精品二区高清| 丰满人妻一区二区三区53号| 国产欧美一区二区三区米奇| 欧美一级淫片aaaaaaa视频| 国产在线一二三| 欧美日韩另类一区| 免费中文字幕在线观看| 久久午夜色播影院免费高清 | 国产成人午夜99999| 国产 日韩 亚洲 欧美| 国产日韩欧美一区二区三区| 亚洲a中文字幕| av资源新版天堂在线| 在线播放日韩av| 精品久久人妻av中文字幕| 欧美性感美女h网站在线观看免费| 国产精品成人在线视频| 成人性生交大片免费| 无码人妻精品一区二区三区66| 午夜国产一区二区| 狠狠色噜噜狠狠狠狠色吗综合| 成人高清一区| 久久久之久亚州精品露出| jizz视频在线观看| 亚洲国产97在线精品一区| 中文字幕一级片| 精品久久久久久久久中文字幕 | 亚洲国产精品久久艾草纯爱 | 黄色一级大片在线免费看国产| 一本到高清视频免费精品| 久久亚洲av午夜福利精品一区| 久久精品亚洲精品国产欧美kt∨ | 黄色一区二区视频| 欧美日韩亚洲一区二区三区| 小泽玛利亚一区二区免费| 久久久综合视频| 日本美女视频网站| 韩国一区二区三区| 亚洲视频在线a| 中文久久精品| 日本男女交配视频| 亚洲午夜精品一区二区国产| 色一情一乱一伦一区二区三区丨 | 在线观看日韩视频| 偷拍自拍在线| 精品成人私密视频| 99久久久无码国产精品免费| 欧美手机在线视频| 老熟妇仑乱一区二区av| 精品久久久久久久久国产字幕| 精品视频久久久久| 亚洲欧美日韩在线| 国产91在线播放九色| 久久精品一级爱片| 久久精品国产亚洲AV熟女| 成人美女视频在线观看18| 欧美日韩一区二区区| 国产一区二区三区在线观看免费 | www.com国产| 日本一区二区三级电影在线观看 | 日韩精品一区二区三区中文在线| 91精品国产九九九久久久亚洲| 黑人极品ⅴideos精品欧美棵| 久久九九热免费视频| 成年人在线看| 一本色道久久综合狠狠躁篇怎么玩| 五月婷婷在线播放| 日韩一区二区电影网| 亚洲精品97久久中文字幕| 在线91免费看| 亚洲一卡二卡在线| 制服视频三区第一页精品| 中文字幕欧美在线观看| 在线区一区二视频| 波多野结衣mp4| 一本到高清视频免费精品| 国产成人无码av| 亚洲成人一区二区| www欧美在线| 黑丝美女久久久| 日韩乱码在线观看| 色综合天天综合网天天看片| 亚洲免费黄色网址| 欧美香蕉大胸在线视频观看| 国产寡妇亲子伦一区二区三区四区| 欧美视频在线免费看| 你懂的国产视频| 亚洲国产一区二区在线播放| 精品少妇爆乳无码av无码专区| 亚洲综合清纯丝袜自拍| 欧美风情第一页| 亚洲影视在线观看| 国产午夜视频在线| 亚洲免费在线播放| 国产第100页| 精品久久久久久中文字幕一区奶水| 国产精品变态另类虐交| 一本大道av一区二区在线播放| 91久久国产综合久久91| 在线观看日韩高清av| www.国产黄色| 日韩欧美成人激情| 午夜福利理论片在线观看| 中文字幕av一区二区| 美女国产在线| 欧美寡妇偷汉性猛交| 一呦二呦三呦精品国产| 国产精品一区二区性色av| 北岛玲精品视频在线观看| 成人高清在线观看| 日韩a级大片| 欧美一区1区三区3区公司| 欧美一站二站| 天天成人综合网| 午夜久久99| 日韩免费一级视频| 免费成人美女在线观看| 精品国产乱码久久久久久1区二区 91网址在线观看精品 | 中文久久乱码一区二区| a级大片在线观看| 伊人一区二区三区| 亚洲午夜18毛片在线看| 欧美视频中文字幕| 香蕉视频网站在线| 精品国产一区二区三区久久久| 黄色成人在线观看| 日本91av在线播放| 欧美经典一区| 久久久com| 国产精品99一区二区三| 色综合久久久久无码专区| 麻豆成人91精品二区三区| 麻豆av免费看| 亚洲国产精品成人综合色在线婷婷| 精品无码人妻一区二区三区| 欧美色精品天天在线观看视频| 丰满人妻熟女aⅴ一区| 久久香蕉国产线看观看av| 345成人影院| 99热99热| 欧美日韩国产成人精品| 国产精品乱码久久久久| 高清不卡在线观看| 日韩黄色免费观看| 91福利国产成人精品照片| www.av导航| 久久婷婷国产麻豆91天堂| 欧洲一级精品| 国新精品乱码一区二区三区18| 一级欧洲+日本+国产| 国产1区2区在线| 韩国午夜理伦三级不卡影院| 国产精品酒店视频| 欧美午夜宅男影院在线观看| 日本韩国免费观看| 欧美成人性色生活仑片| 成人全视频免费观看在线看| 欧美在线激情| 亚洲深夜影院| 久久久久久婷婷| 亚洲国产一区二区在线播放| 国产精品熟女久久久久久| 一区二区亚洲欧洲国产日韩| 精品123区| 欧美日韩在线播放一区二区| 黄色亚洲精品| 国产极品一区二区| 一区2区3区在线看| 欧美 中文字幕| 欧美日韩第一视频| 国产精品亚洲欧美一级在线| 婷婷视频在线播放| 日本在线播放一区二区三区| 青青草成人免费视频| 亚洲国产日韩一级| 午夜久久久久久噜噜噜噜| 久久精品视频免费播放| 久久天天久久| ijzzijzzij亚洲大全| 久久成人av少妇免费| 久久精品色妇熟妇丰满人妻| 欧美在线免费播放| 国产中文字幕在线| 国产在线观看精品| 色天天久久综合婷婷女18| 国产一二三区av| 亚洲欧洲精品天堂一级| 国产伦理吴梦梦伦理| 久久精品亚洲一区| 亚洲一级大片| 一本久道高清无码视频| 国产精品影音先锋| 欧美三级韩国三级日本三斤在线观看| 精品国产制服丝袜高跟| 原纱央莉成人av片| 日韩激情久久| 美女免费视频一区二区| 青青草原国产视频| 亚洲国产精品va在线看黑人| tube8在线hd| 蜜桃传媒视频麻豆第一区免费观看| 日韩激情av在线| 色婷婷av777| 在线不卡一区二区| 影院在线观看全集免费观看| 久久av一区二区三区漫画| 亚洲欧美清纯在线制服| 亚洲激情视频小说| 91麻豆精品国产91久久久久久久久| 中文国产字幕在线观看| 久久婷婷人人澡人人喊人人爽| 久久先锋资源| 国产乱子轮xxx农村| 亚洲精品国精品久久99热一| 666av成人影院在线观看| 手机成人在线| 东方欧美亚洲色图在线| 国产午夜麻豆影院在线观看| 色综合天天狠天天透天天伊人| 免费看久久久| 日韩精品你懂的| 五月激情六月综合| 欧美日本高清| 欧美激情www|