效率超F(xiàn)lowGRPO 25倍!清華&英偉達(dá)開源DiffusionNFT:實現(xiàn)擴(kuò)散模型強(qiáng)化學(xué)習(xí)大一統(tǒng)

論文鏈接:https://arxiv.org/pdf/2509.16117
Git鏈接:https://research.nvidia.com/labs/dir/DiffusionNFT/

DiffusionNFT 的性能。(a)在 GenEval 任務(wù)上與 FlowGRPO 的頭對頭比較。(b)通過采用多種獎勵模型,DiffusionNFT顯著提高了SD3.5-Medium 在每個測試基準(zhǔn)測試中的性能,同時完全無需 CFG
亮點直擊
- 一種新的在線強(qiáng)化學(xué)習(xí)(RL)范式:擴(kuò)散負(fù)面感知微調(diào)(DiffusionNFT)。DiffusionNFT 并不基于策略梯度框架,而是通過流匹配目標(biāo)直接在前向擴(kuò)散過程中進(jìn)行策略優(yōu)化。
- 通過在多個獎勵模型上對 SD3.5-Medium進(jìn)行后訓(xùn)練來評估 DiffusionNFT。整個訓(xùn)練過程刻意在無 CFG 的環(huán)境中進(jìn)行。盡管這導(dǎo)致初始性能顯著降低,但 DiffusionNFT 在域內(nèi)和域外獎勵上顯著提高了性能,迅速超越 CFG 和 GRPO 基線。
- 在單一獎勵設(shè)置中與 FlowGRPO 對比。四個任務(wù)中,DiffusionNFT 一直表現(xiàn)出 3 倍到 25 倍的效率,并取得更好的最終得分。
總結(jié)速覽
解決的問題
- 在線強(qiáng)化學(xué)習(xí)(RL)在擴(kuò)散模型中的應(yīng)用面臨挑戰(zhàn),主要由于難以處理的似然性。
- 現(xiàn)有方法如離散化反向采樣過程存在求解器限制、前向-反向不一致性,以及與無分類器引導(dǎo)(CFG)的復(fù)雜整合。
提出的方案
- 引入擴(kuò)散負(fù)面感知微調(diào)(DiffusionNFT),一種新的在線RL范式,通過流匹配直接在前向過程中優(yōu)化擴(kuò)散模型。
- DiffusionNFT 通過對比正負(fù)生成來定義隱式的策略改進(jìn)方向,將強(qiáng)化信號自然融入監(jiān)督學(xué)習(xí)目標(biāo)中。
應(yīng)用的技術(shù)
- 使用流匹配目標(biāo)進(jìn)行策略優(yōu)化,而非傳統(tǒng)的策略梯度框架。
- 允許使用任意黑箱求解器進(jìn)行訓(xùn)練,消除對似然性估計的需求。
- 采用隱式參數(shù)化技術(shù),整合強(qiáng)化引導(dǎo)到優(yōu)化策略中。
- 僅需干凈的圖像用于策略優(yōu)化,而不需存儲整個采樣軌跡。
達(dá)到的效果
- DiffusionNFT 的效率比 FlowGRPO 高達(dá) 25 倍,并且無需使用 CFG。
- 在多個基準(zhǔn)測試中顯著提升了 SD3.5-Medium 的性能。
- 例如,在 1000 步內(nèi)將 GenEval 得分從 0.24 提高到 0.98,而 FlowGRPO 在超過 5000 步和額外的 CFG 使用下僅達(dá)到 0.95。
- 證明了在無 CFG 環(huán)境中,DiffusionNFT 在域內(nèi)和域外獎勵上顯著提高了性能。
擴(kuò)散強(qiáng)化通過負(fù)面感知微調(diào)
問題設(shè)置

帶有前向過程的負(fù)面感知擴(kuò)散強(qiáng)化


定理 3.2(策略優(yōu)化)。考慮訓(xùn)練目標(biāo):

其中

在數(shù)據(jù)和模型容量無限的情況下,方程 (5) 的最優(yōu)解滿足



1. 前向一致性。 與在反向擴(kuò)散過程中構(gòu)建 RL 的策略梯度方法(例如,F(xiàn)lowGRPO)不同,DiffusionNFT 在前向過程中定義了一個典型的擴(kuò)散損失。這保留了本文稱之為前向一致性的特性,即擴(kuò)散模型底層概率密度對 Fokker-Planck 方程的遵從性,確保所學(xué)習(xí)的模型對應(yīng)于一個有效的前向過程,而不是退化為級聯(lián)高斯分布。
2. 求解器靈活性。 DiffusionNFT 完全解耦了策略訓(xùn)練和數(shù)據(jù)采樣。這使得在整個采樣過程中可以充分利用任何黑箱求解器,而不是依賴于一階隨機(jī)微分方程(SDE)采樣器。它還消除了在數(shù)據(jù)收集過程中存儲整個采樣軌跡的需要,只需要用于訓(xùn)練的干凈圖像及其相關(guān)的獎勵。

4. 無需似然性公式。 以前的擴(kuò)散 RL 方法在本質(zhì)上受到其對似然性近似的限制。無論是通過變分界限近似邊際數(shù)據(jù)似然并應(yīng)用 Jensen 不等式以降低損失計算成本,還是離散化反向過程以估計序列似然,它們不可避免地在擴(kuò)散后訓(xùn)練中引入系統(tǒng)性估計偏差。相比之下,DiffusionNFT 本質(zhì)上是無需似然性的,避開了這些妥協(xié)。
實現(xiàn)
本文在算法 1 中提供了 DiffusionNFT 的偽代碼。

下面,本文詳細(xì)說明關(guān)鍵的設(shè)計選擇。




無 CFG 優(yōu)化。 無分類器引導(dǎo)(CFG)是提高推理時生成質(zhì)量的默認(rèn)技術(shù),但它使得訓(xùn)練后處理復(fù)雜化并降低效率。從概念上講,本文將 CFG 解釋為一種離線形式的強(qiáng)化引導(dǎo)(公式 (4)),其中條件和無條件模型對應(yīng)于正負(fù)信號。在這種理解下,本文在算法設(shè)計中舍棄了 CFG。策略僅由條件模型初始化。盡管這種初始化看似不佳,本文觀察到性能激增并迅速超越 CFG 基線(下圖 1)。這表明 CFG 的功能可以通過訓(xùn)練后強(qiáng)化學(xué)習(xí)有效地學(xué)習(xí)或替代,呼應(yīng)了最近的研究,這些研究在訓(xùn)練后不使用 CFG 也能取得強(qiáng)勁的性能。

實驗
本文從三個角度展示 DiffusionNFT 的潛力:(1)多獎勵聯(lián)合訓(xùn)練以實現(xiàn)強(qiáng)大的無 CFG 性能,(2)與 FlowGRPO 在單一獎勵上的正面對比,以及(3)關(guān)鍵設(shè)計選擇的消融研究。
實驗設(shè)置
本文的實驗基于 SD3.5-Medium,分辨率為 512×512,大多數(shù)設(shè)置與 FlowGRPO 一致。
獎勵模型。 (1)基于規(guī)則的獎勵,包括用于組合圖像生成的 GenEval 和用于視覺文本渲染的 OCR,其中部分獎勵分配策略遵循 FlowGRPO。(2)基于模型的獎勵,包括 PickScore 、ClipScore、HPSv2.1 、Aesthetics、ImageReward 和 UnifiedReward,用于衡量圖像質(zhì)量、圖像-文本對齊和人類偏好。
?
提示數(shù)據(jù)集。 對于 GenEval 和 OCR,本文使用 FlowGRPO 的相應(yīng)訓(xùn)練和測試集。對于其他獎勵,本文在 Pick-a-Pic 上訓(xùn)練,并在 DrawBench 上評估。

多獎勵聯(lián)合訓(xùn)練
本文首先評估 DiffusionNFT 在全面增強(qiáng)基礎(chǔ)模型方面的有效性。從無 CFG 的 SD3.5-M(25 億參數(shù))開始,本文聯(lián)合優(yōu)化五個獎勵:GenEval、OCR、PickScore、ClipScore 和 HPSv2.1。由于獎勵基于不同的提示,本文首先在 Pick-a-Pic 上使用基于模型的獎勵進(jìn)行訓(xùn)練,以增強(qiáng)對齊和人類偏好,然后是基于規(guī)則的獎勵(GenEval,OCR)。在域外評估中,本文使用 Aesthetics、ImageReward 和 UnifiedReward。
如下表 1 所示,本文最終的無 CFG 模型不僅在域內(nèi)和域外指標(biāo)上超越了 CFG,并且匹配僅適用于單一獎勵的 FlowGRPO,還優(yōu)于基于 CFG 的更大模型,如 SD3.5-L(80 億參數(shù))和 FLUX.1-Dev(120 億參數(shù))。下圖 5 中的定性比較展示了本文方法的卓越視覺質(zhì)量。


正面對比
本文與 FlowGRPO 在單一訓(xùn)練獎勵上進(jìn)行正面對比。如上圖 1(a) 和下圖 6 所示,本文方法在掛鐘時間方面效率提高了 3 到 25 倍,僅需約 1000 次迭代即可實現(xiàn) GenEval 得分 0.98。這表明在本文的框架下,無 CFG 模型可以快速適應(yīng)特定的獎勵環(huán)境。

消融實驗
本文分析了核心設(shè)計選擇的影響:

擴(kuò)散采樣器。 DiffusionNFT 中的在線樣本既用于獎勵評估,也用作訓(xùn)練數(shù)據(jù),因此質(zhì)量至關(guān)重要。下圖 7 顯示 ODE 采樣器優(yōu)于 SDE 采樣器,尤其是在對噪聲敏感的 PickScore 上。二階 ODE 在 GenEval 上略優(yōu)于一階 ODE,而在 PickScore 上表現(xiàn)相當(dāng)。



結(jié)論
Diffusion Negative-aware FineTuning(DiffusionNFT),這是一種用于擴(kuò)散模型在線強(qiáng)化學(xué)習(xí)的新范式,直接作用于前向過程。通過將策略改進(jìn)表述為正負(fù)生成之間的對比,DiffusionNFT 無縫地將強(qiáng)化信號整合到標(biāo)準(zhǔn)擴(kuò)散目標(biāo)中,消除了對似然估計和基于 SDE 的反向過程的依賴。實證上,DiffusionNFT 展示了強(qiáng)大且高效的獎勵優(yōu)化,效率比 FlowGRPO 高達(dá) 25 倍,同時生成單一的全能模型,在各種域內(nèi)和域外獎勵上超過 CFG 基線。相信這項工作代表了在擴(kuò)散中統(tǒng)一監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的一步,并突出了前向過程作為可擴(kuò)展、高效且理論上有原則的擴(kuò)散 RL 的有前途的基礎(chǔ)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/j2ZMLT3JoB2VWAOsBfHmgg??

















