精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究

發布于 2025-6-9 10:12
瀏覽
0收藏

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

近年來,強化學習(Reinforcement Learning)在提升大型語言模型(LLM)推理能力上的應用持續升溫,尤其在“思維鏈”(Chain of Thought,簡稱 CoT)推理方面顯示出強大潛力。如今,這一趨勢正從文本領域延伸至圖像生成。

當圖像生成也被抽象為一種逐步決策的推理過程時,我們不禁要問:經典的 DPO(直接偏好優化)和 GRPO(組相對策略優化)在圖像生成場景中表現如何?誰在這個新戰場更勝一籌?

近日,一項由香港中文大學、北京大學和上海人工智能實驗室合作完成的研究給出了答案。他們發表了首個系統性對比 DPO 與 GRPO 在自回歸圖像生成任務中的工作,全面評估了兩種 RL 策略在不同場景下的優劣,填補了相關領域的研究空白。

論文鏈接: https://arxiv.org/abs/2505.17017 
代碼開源: https://github.com/ZiyuGuo99/Image-Generation-CoT

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

圖像生成中的 CoT:從語言模型走向多模態智能

過去幾年中,Chain of Thought 被證明在語言模型推理中具有顯著價值。通過引導模型逐步思考,它能有效提升復雜問題的解決能力。而圖像生成,尤其是基于自回歸模型的生成流程,天然也具備一種“序列化推理”的結構。例如,將圖像離散化為 token,再按順序生成的過程,實際上就可以看作是 CoT 推理在視覺領域的映射。

因此,將 DPO 與 GRPO 這類原本服務于語言模型的 RL 策略遷移至圖像生成,是一個順理成章的探索方向。但這一過程中,也暴露出許多圖像特有的挑戰,例如:

  • 文本與圖像的一致性難以評估
  • 圖像質量難以用規則明確定義
  • 獎勵信號不再單一、線性,涉及主觀審美、多模態對齊等維度

DPO vs. GRPO:研究設置與對比框架

研究團隊基于目前先進的Janus-Pro 自回歸圖像生成模型,構建了完整的實驗體系,并在兩個具有代表性的數據集上進行了細致的實證分析:

  • T2I-CompBench:面向復雜、長文本描述的圖文生成任務(屬于域內任務)
  • GenEval:包含短文本、模板化描述,測試模型的跨場景泛化能力(域外任務)

為了確保對比的公平性,實驗在兩個維度上嚴格控制:

1.DPO 與 GRPO 使用相同的獎勵模型;2.對每個提示(prompt)生成的圖像數量、組大小等參數保持一致,確保計算資源一致可比。

研究核心發現

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

1.域內表現:DPO 更勝一籌

在面對訓練數據分布一致的“域內”場景時,DPO 展現出強勁優勢。研究顯示:

  • 在 T2I-CompBench 上,DPO 的平均生成質量超過 GRPO 約 11.5%;
  • 使用官方評分標準作為獎勵時,DPO 的峰值提升甚至高達 7.8%。

這是因為 DPO 能高效利用預收集的靜態偏好數據,對已有數據集的擬合能力更強,適合深度優化。

2.泛化能力:GRPO 更穩定

但在需要遷移泛化的“域外”場景(GenEval)中,GRPO 的表現更優:

  • 在使用 HPS 獎勵模型時,GRPO 的結果比 DPO 高出約 2.4%;
  • GRPO 由于是 on-policy 策略,更擅長動態適應新數據分布,提升跨任務遷移能力。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖2: 域內與域外性能對比的可視化結果。

3.獎勵模型選擇:影響巨大

兩者都對獎勵模型的選擇敏感,尤其是 DPO:

  • DPO 在不同獎勵模型下的泛化能力差異更大,標準差達 0.9547;
  • GRPO 表現更穩定,標準差約為 0.5486。

此外,一個重要發現是:獎勵模型本身的泛化能力,幾乎決定了最終模型的泛化能力。 在 GenEval 上進行 best-of-N 評估后發現,無論使用哪種 RL 策略,最終的性能排序與獎勵模型本身的打分能力高度一致:

??> UnifiedReward > ImageReward > HPSReward??

這說明,選擇或訓練一個高質量獎勵模型,是強化學習有效性的關鍵前提。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖3: 不同獎勵模型影響的可視化結果。

三種擴展訓練策略效果分析

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖4: 擴展策略影響的可視化結果。

研究還對以下三種訓練策略進行系統探討,以進一步優化模型表現:

1.增加采樣圖像數量(Sampling Size) 2.擴展訓練數據規模與多樣性(Data Size)  3.迭代訓練(DPO-Iter / GRPO-Iter)

對于 GRPO:

  • 增加每輪采樣數量是提升性能的最有效手段;
  • 適度擴大訓練集規模有助于提升泛化;
  • 但過度擴展會引起過擬合現象。

對于 DPO:

  • 多輪迭代訓練可強化域內性能,但存在泛化性能下降的風險;
  • 增加樣本多樣性與數量,有助于突破偏好范圍限制;
  • 小規模采樣利于偏好對比,提升表現;過度采樣則可能引入噪聲或偏差。

理論分析與方法機制

DPO 與 GRPO 的差異并不只是訓練流程不同,它們在策略結構與損失構造上也存在本質區別:

  • DPO 是一種基于離策略訓練的偏好學習方式,依賴靜態的正負樣本對,通過優化偏好傾向函數來提升生成質量;
  • GRPO 更強調“組間對比”,通過在線采樣、策略更新進行逐步優化,策略靈活但成本更高。

研究還特別指出,兩者的訓練損失在計算開銷上可以做精細對齊,從而保證評估結果更具可比性。

總結與展望

這項開創性研究為圖像生成領域引入 RL 思維鏈機制提供了系統的理論與實證支撐。DPO 與 GRPO 并非簡單的“優劣之分”,而是更適合于不同場景:

  • DPO 適合在已有高質量數據基礎上深度優化,追求精細化輸出
  • GRPO 則適合泛化需求高、任務分布多樣的實際應用環境

與此同時,研究也強調了獎勵模型作為“訓練導航儀”的重要性,未來在獎勵模型的泛化性設計上仍有很大提升空間。此外,該研究不僅明確了 DPO 與 GRPO 在不同場景下的適用性,也提供了可復用的實驗框架與擴展策略建議,為圖像生成引入 RL 方法奠定了實踐基礎。


隨著多模態任務復雜度提升,如何在泛化能力、生成質量與訓練效率之間找到平衡,將成為關鍵議題。這項工作為后續設計更魯棒、更智能的圖像生成 RL 框架提供了有力啟示,未來值得期待。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/wgyFWkCXvd89kK0aLeQX6g??

收藏
回復
舉報
回復
相關推薦
精品美女久久| 香蕉久久aⅴ一区二区三区| 久热国产精品| 日韩在线视频网站| 永久看看免费大片| 国产社区精品视频| 国产精品久久毛片av大全日韩| 成人福利在线视频| 日韩精品乱码久久久久久| av一区二区在线播放| 91精品国产aⅴ一区二区| 欧美视频在线播放一区| av中文在线| 成人免费视频免费观看| 国产精品亚洲片夜色在线| 久久高清无码视频| 日本不卡二三区| 精品播放一区二区| 午夜精品久久久久久久99热影院| heyzo高清在线| 国产精品久久毛片| 欧美精品一区二区三区久久| 国产后入清纯学生妹| 日韩不卡手机在线v区| 欧美黄网免费在线观看| 黄大色黄女片18免费| 免费成人三级| 欧美一区二区三区视频在线观看 | 欧美挠脚心网站| 国产精品99久久久久久有的能看| 国产成人精品视频在线| 一区二区三区视频免费看| 五月婷婷六月综合| 在线观看国产精品91| 超碰男人的天堂| 136国产福利精品导航网址应用| 精品视频资源站| 37pao成人国产永久免费视频| 欧美草逼视频| 亚洲愉拍自拍另类高清精品| 最新av在线免费观看| 在线视频91p| 久久精品在线观看| 蜜桃成人在线| 你懂的好爽在线观看| eeuss影院一区二区三区| 51精品国产人成在线观看| 一区二区三区精| 麻豆精品在线观看| 国产乱肥老妇国产一区二| 波多野结衣视频网址| 久久精品综合| 国产成人精品在线| 高潮毛片又色又爽免费 | 国产精品99久久精品| 在线播放国产精品| 性猛交ⅹxxx富婆video | av在线综合网| 国产一区喷水| 同心难改在线观看| 久久综合久久综合久久综合| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 狠狠干成人综合网| 欧美精品久久久久久久| 国产亚洲精品久久久久久无几年桃| 中国成人一区| 久久久女人电视剧免费播放下载| 国产一级一片免费播放| 亚洲精品乱码| 欧美专区福利在线| 老熟妇一区二区三区啪啪| 另类专区欧美蜜桃臀第一页| 91久热免费在线视频| 精品人妻无码一区二区| 成人黄色777网| 蜜桃av久久久亚洲精品| 91高清在线视频| 一区二区三区在线观看欧美| 国产主播自拍av| 日韩电影大全网站| 欧美综合视频在线观看| √天堂资源在线| 97超碰成人| 日韩精品视频免费专区在线播放 | 97激碰免费视频| 国产婷婷色一区二区在线观看| 视频一区欧美日韩| 亚洲一区二区久久久久久久| 四虎免费在线观看| 国产精品久久久久久久久久久免费看 | 秋霞影院午夜丰满少妇在线视频| 一区二区三区中文字幕精品精品 | 亚洲网站在线看| 欧美日韩色视频| 国产一区二区三区久久| 国产一区二区丝袜| 日韩在线观看视频一区| 国产调教视频一区| 免费人成在线观看视频播放| a一区二区三区| 91精品国产综合久久精品| 少妇精品一区二区| 欧美大黑bbbbbbbbb在线| 高清欧美性猛交xxxx| 在线播放亚洲精品| 91小视频在线| 成人免费看片'免费看| 日韩精品麻豆| 亚洲级视频在线观看免费1级| 青青草华人在线视频| 99这里有精品| 91沈先生作品| av大片在线观看| 天天av天天翘天天综合网色鬼国产 | 久久精品二区亚洲w码| 国产乱码精品一区二区三区中文| 在线观看麻豆| 日韩欧美在线一区| 久草免费资源站| 久久精品影视| 国产成人精品最新| 国产又爽又黄网站亚洲视频123| 中文字幕一区二区三区色视频| 男人操女人免费| 中文字幕亚洲在线观看| 久久五月情影视| 这里只有久久精品视频| 91在线视频观看| 国产欧美久久久久| 久久不卡日韩美女| 一本大道亚洲视频| 无码人妻久久一区二区三区| 久久综合久久鬼色| 黄色一级在线视频| 亚洲一区电影| 欧美成人午夜影院| 国产日韩欧美一区二区东京热| 国产欧美视频在线观看| 国产成人久久婷婷精品流白浆| 黄色免费大全亚洲| 久久欧美在线电影| 欧美一级在线免费观看| 亚洲一区免费在线观看| 奇米777在线| 欧美黄色一区二区| 91手机在线视频| 99热国产在线中文| 精品少妇一区二区三区日产乱码| 麻豆国产尤物av尤物在线观看| 韩国精品一区二区| 国内自拍中文字幕| 亚洲精品一二三**| 久久久久亚洲精品成人网小说| 亚洲伦理在线观看| 亚洲成av人片在www色猫咪| 成年人小视频在线观看| 99这里有精品| 欧美亚洲丝袜| 经典三级一区二区| 在线观看国产精品91| 国产又粗又长又大视频| 亚洲欧洲成人自拍| 免费人成视频在线播放| 亚洲性图久久| 欧美精品成人一区二区在线观看 | 久久久久久国产精品无码| 欧美亚洲免费| 亚洲精品人成| 香蕉大人久久国产成人av| 97精品国产97久久久久久| 欧美女v视频| 91精品综合久久久久久| 久久一二三四区| 久久亚洲综合av| 向日葵污视频在线观看| 国色天香一区二区| 久久青青草原一区二区| 欧美激情福利| 久久久久中文字幕2018| 青春有你2免费观看完整版在线播放高清 | 国产一级片免费视频| 国产精品久久久久桃色tv| 女教师高潮黄又色视频| 久久xxxx精品视频| 正在播放精油久久| 久久激情av| 91精品国产自产在线| 欧美另类tv| 亚洲欧洲国产精品| 国产男男gay体育生白袜| 精品久久久久久久久久久久久 | 国产成人精品一区二区| a天堂中文在线官网在线| 日韩国产高清视频在线| 99草在线视频| 欧美丝袜一区二区| 久久久久亚洲av无码专区体验| 久久亚洲欧美国产精品乐播| 亚洲欧美日韩网站| 久久综合伊人| 91免费黄视频| 亚洲草久电影| 日韩欧美亚洲日产国| 6080亚洲理论片在线观看| 国产精品视频公开费视频| 1234区中文字幕在线观看| 色悠悠国产精品| 男人av在线| 精品久久久久av影院| 国产又粗又猛又爽又黄91| 日韩欧美有码在线| 日本a在线观看| 亚洲欧洲成人自拍| 东京热无码av男人的天堂| av午夜一区麻豆| 黑人巨大猛交丰满少妇| 麻豆精品蜜桃视频网站| 日韩视频第二页| 亚洲激情av| a级免费在线观看| 91日韩欧美| 亚洲欧美精品| 国产毛片一区二区三区| 精品国产乱码久久久久久108| 国产精久久久| 91精品美女在线| 91伊人久久| 国产精品pans私拍| 欧美电影免费观看网站| 97在线看免费观看视频在线观看| 国产探花视频在线观看| 欧美另类69精品久久久久9999| 国产区在线观看| 日韩中文字幕久久| 77导航福利在线| 中文字幕国产亚洲2019| avtt亚洲| 久久精品国产69国产精品亚洲| 在线视频自拍| 一夜七次郎国产精品亚洲| 免费动漫网站在线观看| 亚洲美女精品成人在线视频| 午夜在线视频免费| 国产视频自拍一区| 黄视频在线观看免费| 亚洲欧美日韩精品久久| 六十路在线观看| 国产亚洲欧美aaaa| av在线收看| 日韩视频免费看| 69xxx在线| 久久久亚洲国产| 丝袜老师在线| 国产成人av网| 久久亚洲精品中文字幕| 成人有码在线播放| 99精品女人在线观看免费视频| 91亚洲精华国产精华| 91成人入口| 精品乱码一区| 精品亚洲成人| 在线看视频不卡| 韩日欧美一区| 看av免费毛片手机播放| 日韩制服丝袜先锋影音| 一区二区三区欧美精品| 国产精品一区二区男女羞羞无遮挡| av在线天堂网| 99热在这里有精品免费| 美女被到爽高潮视频| 中文字幕一区二区三区不卡在线| 欧美成人三级在线观看| 性欧美大战久久久久久久久| 无码人妻一区二区三区线| 91精品国模一区二区三区| 亚洲国产精品无码久久| 日韩经典第一页| 在线免费看av| 欧美激情一级精品国产| 欧洲av不卡| 成人激情春色网| 国产精品一区二区中文字幕| 青青草成人网| 亚洲九九视频| 欧美 日韩 国产一区| 蜜臀av一级做a爰片久久| 91精产国品一二三| 久久精品一区二区三区不卡| 精品人妻伦九区久久aaa片| 岛国av一区二区三区| 97久久人国产精品婷婷| 亚洲国模精品私拍| 麻豆传媒在线观看| 欧美最猛性xxxxx免费| www 久久久| 欧美中文娱乐网| 激情偷拍久久| www.com污| 久久久美女毛片| 精品少妇theporn| 欧美性色黄大片| 婷婷在线观看视频| 久久精视频免费在线久久完整在线看| 中文字幕在线看片| 96成人在线视频| 久久人人99| 色欲av无码一区二区人妻| 国产一区欧美一区| 性欧美一区二区| 天天综合网 天天综合色| 99国产揄拍国产精品| 国产一区二区三区网站| а√天堂8资源中文在线| 亚洲自拍小视频免费观看| 欧美中文一区二区| 免费观看日韩毛片| 不卡的电视剧免费网站有什么| 欧美成人手机视频| 欧美人妇做爰xxxⅹ性高电影| 黄色片免费在线| 97超级碰碰人国产在线观看| 美女久久精品| 天天综合中文字幕| 久久er99热精品一区二区| 亚洲综合网在线观看| 天天综合天天综合色| 国产香蕉在线观看| 欧美夫妻性生活视频| 粉嫩av国产一区二区三区| 午夜一区二区三区| 久久久久久9| 91精品人妻一区二区| 午夜伦理一区二区| 熟妇人妻中文av无码| 久久久免费精品视频| 高清精品xnxxcom| 妺妺窝人体色777777| 国产乱子伦视频一区二区三区| 中文字幕五月天| 欧美一区二区三区四区视频| 成人黄色在线电影| 999国产视频| 国内自拍视频一区二区三区 | 91片黄在线观看喷潮| 日韩有码在线视频| 亚洲人成777| 国产精品美女在线播放| 精品无人区卡一卡二卡三乱码免费卡 | 日韩无套无码精品| 中文字幕久久午夜不卡| 91精品国产乱码久久久久| 色偷偷噜噜噜亚洲男人| 亚洲成a人片777777久久| 欧美性视频在线播放| 国产精品资源在线观看| 久久久久成人网站| 亚洲精品成人久久电影| 26uuu亚洲电影| 亚洲欧美综合一区| 国产一区二区免费在线| 国产性70yerg老太| 日韩av在线免费观看| 天天综合网站| 一本色道婷婷久久欧美| 国产精品性做久久久久久| 日韩av在线播| 亚洲欧美国产制服动漫| 国产精品伦一区二区| 欧美日韩亚洲国产成人| 国产98色在线|日韩| aaa人片在线| 日日骚久久av| 一区二区三区四区视频免费观看 | 毛片av一区二区三区| 青花影视在线观看免费高清| 亚洲第一av在线| 日韩中文在线播放| 欧美日韩午夜爽爽| 久久网站热最新地址| 97国产精品久久久| 欧美激情一级精品国产| 欧美伦理影院| 少妇欧美激情一区二区三区| 欧美性猛交xxxx| bestiality新另类大全| 欧美xxxx黑人又粗又长精品| 久久99精品国产麻豆不卡| 精品91久久久| 日韩在线观看免费高清| 免费萌白酱国产一区二区三区| 一级黄色录像在线观看| 亚洲国产精品久久久久婷婷884 | 国内成人精品视频| 欧美三级伦理在线| 91传媒理伦片在线观看| 欧美日韩国产大片| 日本黄色免费在线| 亚洲av首页在线| 久久精品水蜜桃av综合天堂| www.我爱av|