完美提升Stable Diffusion生成質量和效率!UniFL:統一反饋學習框架

文章鏈接:https://arxiv.org/pdf/2404.05595
github鏈接:???https://uni-fl.github.io/??
擴散模型已經徹底改變了圖像生成領域,導致高質量模型和多樣化的下游應用不斷涌現。然而,盡管取得了重大進展,當前競爭性解決方案仍然存在一些局限性,包括視覺質量較差、缺乏美學吸引力以及推理效率低,而沒有全面的解決方案。

- 感知反饋學習,提高視覺質量;
- 解耦反饋學習,提高美學吸引力;
- 對抗反饋學習,優化推理速度。
深入的實驗和廣泛的用戶研究驗證了本文提出的方法在提高生成模型質量和加速性能方面的卓越表現。例如,UniFL在生成質量方面超過了ImageReward 17%的用戶偏好,并在4步推理中超越了LCM和SDXL Turbo分別為57%和20%。此外,也已驗證了本文的方法在下游任務中的有效性,包括LoRA、ControlNet和AnimateDiff。
優化后效果

效果比較


介紹
擴散模型的出現將文本到圖像(T2I)領域推向了前所未有的進步領域,其突出貢獻如DALLE-3、Imagen、Midjourney等。特別是,開源圖像生成模型的引入,如Stable Diffusion,開啟了一個變革性的文本到圖像時代,產生了許多下游應用,如T2I個性化、可控生成和文本生成視頻(T2V)。盡管迄今為止取得了顯著進展,但當前基于Stable Diffusion的圖像生成模型仍存在一定的局限性。
- 低質量:生成的圖像通常質量較差,缺乏真實性。例如,角色可能出現殘缺的肢體或扭曲的身體部位,以及在風格表示方面的有限保真度。
- 缺乏美學:生成的圖像在美學吸引力方面存在明顯的偏差,往往無法與人類偏好相一致。在關鍵方面如細節、光照和氛圍方面的不足進一步加劇了這種美學差距。
- 推理效率低:擴散模型采用的迭代去噪過程引入了顯著的效率低,從而顯著降低了推理速度,限制了這些模型在各種應用場景中的實用性。
最近,許多工作致力于解決上述挑戰。例如,SDXL通過改進訓練策略來提高擴散模型的生成質量,而RAPHAEL則采用了專家混合技術(MoE)。RAFT、HPS、ImageReward和DPO提出了將人類反饋納入擴散模型以引導其與人類偏好一致的技術。另一方面,SDXL Turbo、PGD和LCM則通過蒸餾和一致性模型等技術解決了推理加速的問題。
然而,這些方法主要集中于通過專門的設計解決單個問題,這對于直接集成這些技術提出了重大挑戰。例如,MoE顯著復雜化了流程,使加速方法變得不可行,而一致性模型改變了擴散模型的去噪過程,使得直接應用ImageReward提出的ReFL框架變得困難。
問題出現了:我們能否設計一種更有效的方法,全面提升擴散模型在圖像質量、美學外觀和生成速度方面的性能?
?
本文提出了UniFL,通過統一的反饋學習為擴散模型提供全面改進。UniFL旨在提升視覺生成質量、增強偏好美學,并加速推理過程。為了實現這些目標,提出了三個關鍵組成部分。
首先,引入了一個開創性的感知反饋學習(PeFL)框架,有效利用了各種現有感知模型中嵌入的廣泛知識,以提高視覺生成質量。該框架使得能夠提供更精確和有針對性的反饋信號,最終在各個方面增強視覺生成的質量。
其次,采用解耦反饋學習來優化美學質量。通過將粗略的美學概念分解為色彩、氛圍和紋理等不同方面,UniFL簡化了美學優化的挑戰。此外,引入了一種主動提示選擇策略,選擇更具信息量和多樣性的提示,以促進更有效的美學偏好反饋學習。
最后,UniFL開發了對抗反饋學習,在其中獎勵模型和擴散模型進行對抗訓練,使得在低去噪步驟下的樣本通過獎勵反饋得到很好的優化,最終實現了優越的推理加速。提出了一個統一的反饋學習公式,既簡單又多才多藝,使其適應于各種模型,并獲得了令人印象深刻的改進。
貢獻總結如下:
- 新的領悟:提出的方法UniFL引入了一個統一的反饋學習框架,以優化擴散模型的視覺質量、美學和推理速度。據我們所知,UniFL首次嘗試同時解決生成質量和速度的問題,在該領域提供了新的視角。
- 新穎性和開創性:揭示了利用現有感知模型在擴散模型的反饋學習中的潛力。強調了解耦獎勵模型的重要性,并通過對抗訓練闡明了加速機制。相信消融實驗提供了寶貴的見解,豐富了社區對這些技術的理解。
- 高效性:通過大量實驗,UniFL展示了在多種類型的擴散模型上取得的顯著改進,包括SD1.5和SDXL,在生成質量和加速方面。此外,UniFL優于競爭性的現有方法,并在各種下游任務中展現出強大的泛化能力。
相關工作
文本到圖像擴散模型
近年來,擴散模型引起了廣泛關注,并成為文本到圖像生成的事實標準方法,超越了傳統的概率模型如GAN和VAE。已經提出了許多相關工作,包括GLIDE、DALL-E2、Imagen、CogView等。在這些工作中,潛在擴散模型(LDM)將擴散過程擴展到潛在空間,并顯著提高了擴散模型的訓練和推理效率,為可控生成、圖像編輯、圖像個性化等各種應用打開了大門。盡管迄今取得了進展,但當前的文本到圖像擴散模型仍存在視覺生成質量較差、偏離人類審美偏好和推理效率低等限制。本文的目標是提供一種全面解決這些問題的方法。
文本到圖像擴散模型的改進
鑒于上述限制,研究人員提出了各種方法來解決這些問題。值得注意的是,[6, 32, 59]致力于通過更先進的訓練策略來改善生成質量。在以RLHF(reinforcement learning with human feedback)在LLM領域的成功為基礎上,[2,54,55,57,64]探索了將人類反饋納入以改善圖像美學質量。另一方面,[27,28,39,41,46]專注于加速技術,例如蒸餾和一致性模型來實現推理加速。盡管這些方法已經證明了它們在解決特定挑戰方面的有效性,但它們的獨立性使得將它們結合起來進行全面改進具有挑戰性。相反,本文的研究通過反饋學習框架統一了提高視覺質量、符合人類審美偏好和加速的目標。
準備工作
文本到圖像擴散模型


獎勵反饋學習。獎勵反饋學習(ReFL)是一個旨在通過人類偏好反饋來改進擴散模型的偏好微調框架。它主要包括兩個階段:
- (1)獎勵模型訓練
- (2)偏好微調




本文的方法遵循與ReFL類似的學習框架,但設計了幾個新穎的組件,以實現全面的改進。
:統一反饋學習
本文提出的方法UniFL旨在從多個方面改進Stable Diffusion,包括視覺生成質量、人類審美質量和推理效率。我們的方法采用統一的反饋學習視角,提供了一種全面而簡潔的解決方案。
UniFL的概述如下圖2所示。接下來將深入探討三個關鍵組成部分的細節:感知反饋學習以增強視覺生成質量;解耦反饋學習以改善美學吸引力;和對抗反饋學習以促進推理加速。

感知反饋學習
當前的擴散模型在實現高質量視覺生成方面存在局限性,特別是在圖像風格轉換和對象結構失真等方面。這些限制源于僅在潛在空間中依賴重構損失,缺乏基于圖像空間的視覺感知監督。
為了解決這個問題,如下圖3所示,本文提出了感知反饋學習(PeFL),利用現有感知模型提供的視覺反饋來微調擴散模型。我們的關鍵見解是,各種視覺感知模型已經從不同方面包含了豐富的視覺先驗知識。

完整的PeFL過程總結如算法1所示。

- 風格:為了捕捉圖像風格,我們使用VGG模型對圖像特征進行編碼,并使用廣泛采用的gram矩陣在風格轉換中提取視覺風格。風格的反饋計算如下:

其中,V 是 VGG 網絡,Gram 是gram矩陣的計算。
- 結構:為了提取視覺結構信息,利用視覺實例分割模型,因為實例masks提供了基本的對象結構描述。目標被公式化為:

其中, 是實例分割模型, 是的實例分割標注真值,是實例分割損失。PeFL 的靈活性使我們能夠利用各種現有的視覺感知模型,例如語義分割模型,以提供特定的視覺反饋。更多的實驗和結果可以在附錄中找到。
解耦反饋學習
解耦美學微調。與客觀視覺質量不同,美學質量是抽象且主觀的,需要人類美學偏好反饋來引導模型根據人類偏好進行優化。ImageReward通過在ReFL框架內訓練收集到的偏好數據的人類偏好獎勵模型來解決這個問題。雖然有效,但我們認為ImageReward 不夠優化,因為它依賴于一個使用粗糙標注的美學偏好數據訓練的單一獎勵模型。主要挑戰來自于試圖在單一獎勵模型中封裝跨多個維度的人類偏好,這將導致固有的沖突,正如某些大語言模型 (LLM) 研究所證明的那樣。
為了解決這個問題,我們提出在偏好建模過程中解耦不同的美學維度,以實現更有效的美學反饋學習。具體來說,將通用的美學概念分解為代表性維度,并分別對其進行標注。這些維度包括顏色、布局、光照和細節。數據收集過程在附錄中詳細描述。隨后,使用這些標注的數據訓練美學偏好獎勵模型,根據公式2。解耦反饋學習的目標是:

主動提示選擇。觀察到,當使用隨機選擇的提示進行偏好微調時,由于語義豐富度有限,擴散模型往往會迅速過擬合,導致獎勵模型的有效性降低。這種現象通常被稱為過度優化。
為了解決這個問題,本文進一步提出了一種主動提示選擇策略,該策略從提示數據庫中選擇最具信息量和多樣性的提示。這個選擇過程涉及兩個關鍵組件:基于語義的提示過濾器和最近鄰提示壓縮。通過利用這些技術,過度優化可以得到極大的緩解,實現更有效的美學獎勵微調。
對抗反饋學習
文本到圖像擴散模型中采用的緩慢迭代去噪過程對其實際應用構成了重大障礙。為了解決這一限制,最近的進展,如UFOGen和SDXL-Turbo,提出將對抗訓練目標納入微調擴散模型中。基于這一見解,我們介紹了一種對抗反饋學習方法,將反饋學習與對抗目標相結合,旨在加速推理過程。
擴散模型的原始優化目標是增加輸出圖像的獎勵得分,同時保持獎勵模型不變。不凍結獎勵模型,而是在微調過程中將對抗獎勵模型ra (·) 的優化納入其中,將其視為一個鑒別器。這樣,擴散模型充當生成器,被優化以增強獎勵得分,而獎勵模型充當鑒別器,旨在區分首選和非首選樣本。因此,對抗反饋學習的目標可以重新表述如下:

在實踐中,我們遵循 PeFL 來實現對抗訓練,將GT圖像視為首選樣本,將去噪圖像視為非首選樣本。通過這種方式,我們不斷引導擴散模型生成具有更高保真度和視覺質量的樣本,從而極大地加速了推理速度。
訓練流程
我們的訓練過程包括兩個階段,每個階段針對特定的目標。 在第一階段,專注于提高視覺生成質量和美學。在第二階段,應用對抗反饋學習來加速擴散推理速度,同時使用對抗訓練目標更新擴散模型和獎勵模型。我們還整合了解耦反饋學習來保持美感。

實驗
實現細節和指標
數據集。對于 PeFL 訓練階段,精選了一個包含約 15 萬個藝術風格文本圖像的大型高質量數據集,用于風格優化,并利用了具有實例標注和標題的 COCO2017 訓練集數據集進行結構優化。此外,從不同方面(如顏色、布局、細節和光照)收集了解耦美學反饋學習的人類偏好數據集。從 DiffusionDB 中通過主動提示選擇篩選出了 10 萬個用于美學優化的提示。在對抗反饋學習期間,僅使用了 LAION的美學子集,其圖像美學得分高于 5。

基線模型。本文選擇了兩個具有不同生成能力的代表性文本到圖像擴散模型,全面評估了 的有效性,包括 (i) SD1.5;(ii) SDXL。基于這些模型,選擇了幾種最先進的方法(例如,ImageReward、Dreamshaper 和 DPO 用于提高生成質量,LCM、SDXL-Turbo 和 SDXL-Lightning用于推理加速),以比較其質量改進和加速效果。所有這些方法的結果都是使用提供的官方代碼重新實現的。
評估指標。使用來自 COCO2017 驗證集的提示生成 5K 張圖像,報告了 Fréchet Inception Distance(FID) 作為總體視覺質量指標。還報告了使用 ViT-B-32 的 CLIP 分數和 LAION 美學預測器的美學評分,以分別評估生成圖像的文本到圖像對齊和美學質量。考慮到質量評估的主觀性,還進行了全面的用戶研究,以獲得更準確的評估。
主要結果
定量比較。下表1 總結了在 SD1.5 和 SDXL 上與競爭性方法的定量比較。

總體而言, UniFL在兩種架構上都表現出一致的性能改進,并超越了現有的專注于改善生成質量或加速的方法。具體而言,DreamShaper 在 SD1.5 中獲得了相當高的美學質量(5.44),而 ImageReard 在 SDXL 中表現最佳(5.88)。即便如此, UniFL在 SD1.5 和 SDXL 上的所有這些指標上都超過了這些方法。就加速而言, UniFL仍然表現出顯著的性能優勢,在 SD1.5 和 SDXL 上的相同 4 步推理上超過了 LCM。
令人驚訝的是, UniFL有時在更少的推理步驟下獲得了更好的美學質量。例如,當應用于 SD1.5 時,美學得分從 5.26 提升到了 5.54,而不加速。在使用對抗反饋學習進行加速后,美學得分進一步提高到了 5.88,而推理步驟明顯減少。相關原因將在消融實驗中進行調查。還比較了 SDXL 上的兩種最新加速方法,包括 SDXL Turbo 和 SDXL Lightning。盡管保留了高的文本到圖像對齊性,我們發現 SDXL Turbo 生成的圖像往往缺乏保真度,導致 FID 分數較低。SDXL Lightning 在所有這些方面都達到了最平衡的性能,并在 4 步推理中達到了令人印象深刻的美學質量。然而, UniFL在所有指標中仍然表現出色,并取得了最佳性能。
用戶研究。使用 SDXL 進行了全面的用戶研究,以評估我們的方法在提高生成質量和加速方面的有效性。如下圖4所示,本文的方法在生成質量方面顯著改善了原始的 SDXL,偏好率達到了 68%,并分別超過了 DreamShaper 和 DPO,偏好率分別提高了 36% 和 25%。

由于感知反饋學習和解耦美學反饋學習,即使與競爭性的 ImageReward 相比,我們的方法也表現出改善,并且被額外的 17% 人偏好。在加速方面,我們的方法在 4 步推理中大幅超過了廣泛使用的 LCM,偏好率提高了 57%。即使與最新的加速方法如 SDXL-Turbo 和 SDXL-Lightning 相比, UniFL仍然表現出優勢,并獲得了更多的偏好。這凸顯了對抗反饋學習在實現加速方面的有效性。
定性比較。如下圖5所示,與其他方法相比, UniFL實現了更優秀的生成結果。例如,與 ImageReward 相比, UniFL生成的圖像表現出更連貫的物體結構(例如,馬),更合適的風格(例如,雞尾酒),以及更吸引人的美學質量(例如,戰士)。值得注意的是,即使推理步驟較少, UniFL仍然始終展示出更高的生成質量,優于其他方法。值得注意的是,由于 SDXL-Turbo 修改了擴散假設,它往往會生成具有獨特風格的圖像。

消融研究
PeFL 的工作原理。 為了更好地理解 PeFL 的工作原理,我們以 PeFL 進行結構優化的示例為例,并可視化中間結果。如下圖6所示,實例分割模型有效地捕獲了生成對象的整體結構,并成功地識別了結構缺陷,例如小女孩的扭曲肢體、缺失的滑板、模糊的大象和馬等。與簡單的擴散損失分配給每個像素相比,這種類型的反饋使得擴散模型更加關注特定的結構概念。

在下圖7中展示了通過 PeFL 優化風格和結構后的一些生成結果。顯然,與簡單的擴散損失相比,PeFL 顯著提升了風格生成(例如“壁畫”、“濃厚油彩”風格)和物體結構優化(例如女性眼鏡、芭蕾舞者的腿)。

解耦式反饋學習的效果。 為了驗證這種解耦合美學策略的重要性,通過使用一個全局美學獎勵模型對 SD1.5 模型進行微調,該模型使用了不同維度的所有收集到的美學偏好數據。如下圖8(a)所示,由于緩解了抽象美學學習的挑戰,采用解耦式美學獎勵調整的生成結果受到更多個體的喜愛,超過了非解耦式方式約 17%。圖8(a)還顯示,積極的提示選擇獲得了更高的偏好率(54.6% vs 45.4%),這表明了提示選擇策略的重要性。

對于加速,UniFL引入了對抗反饋學習,并且在某些情況下,加速結果甚至超過了非加速模型;根據我們的實驗觀察,加速和顯著性能可以歸因于兩個潛在因素:
- 對抗訓練使獎勵模型能夠持續提供指導:如圖9(a)所示,傳統的反饋微調在擴散模型中往往會迅速過度擬合于由凍結獎勵模型生成的反饋信號,這被稱為過度優化。通過采用對抗性反饋學習,可訓練的獎勵模型(作為鑒別器)能夠迅速適應擴散模型輸出的分布偏移,從而顯著減輕了過度優化現象,這使得獎勵模型能夠在整個優化過程中提供有效的指導。
- 對抗訓練擴展了反饋學習優化的時間步:在訓練過程中引入強有力的對抗目標,迫使高噪聲時間步通過對抗目標生成更清晰的圖像,這使得獎勵模型即使在較少的降噪步驟下也能表現良好。如圖9(b)所示,禁用對抗性損失并保留包含整個去噪過程的優化步驟后,獎勵模型無法為較少去噪步驟下的樣本提供有效指導,由于高水平的噪聲,這導致了較差的推理結果。有了這兩個好處,對抗反饋學習顯著提高了在較低推理步驟中樣本的生成質量,最終實現了更優秀的加速性能。

為進一步驗證UniFL的泛化能力,我們進行了LoRA、ControlNet和AnimateDiff等下游任務的實驗。具體來說,選擇了幾種流行的LoRA風格、幾種類型的ControlNet和AnimateDiff模塊,并將它們分別插入我們的模型中執行相應的任務。如圖10和圖8(b)所示,我們的模型在風格學習、可控生成和視頻生成方面展現出了出色的能力。

討論與局限性
UniFL在生成高質量圖像方面展現出了令人期待的結果。然而,還有幾個方面可以進一步改進:
- 大型視覺感知模型:我們正在積極研究利用先進的大型視覺感知模型提供增強監督的可能性。
- 極端加速:雖然目前的一步模型的性能可能相對較差,但我們在4步推斷中取得的顯著成功表明,UniFL在一步推斷方面具有重要的探索潛力。
- 簡化為單階段優化:探索將當前的兩階段優化過程簡化為更簡潔的單階段方法的可能性是進一步研究的有前途的方向。
結論
UniFL,這是一個通過反饋學習增強視覺質量、審美吸引力和推斷效率的統一框架。通過整合感知、解耦和對抗性反饋學習,UniFL在生成質量和推斷加速方面超越了現有方法,并且在各種類型的擴散模型和不同的下游任務中具有很好的泛化能力。
本文轉自AI生成未來,作者:iacheng Zhang等
原文鏈接:??https://mp.weixin.qq.com/s/QwQLPLK4INNeui5sOiOMHA??

















