風格與主體終于完美融合!字節USO模型打破AI繪畫‘二選一’困境,開源界新爆款誕生

文章鏈接:https://arxiv.org/pdf/2508.18966 Git鏈接:https://github.com/bytedance/USO
亮點直擊
- 概念: 現有的風格驅動和主體驅動方法僅專注于各自任務內的孤立解耦,忽略了它們之間的潛在互補性,從而導致次優的解耦效果。首次提出了一種新穎的跨任務協同解耦范式,該范式統一了風格驅動和主體驅動任務,實現了相互增強,并為兩者帶來了顯著的性能提升。
- 技術: 引入了USO,一個統一的定制架構,它結合了漸進式風格對齊訓練、內容-風格解耦訓練以及風格獎勵學習范式,以進一步促進跨任務解耦。發布了USO-Bench,第一個為評估跨任務定制而量身定制的基準。
- 表現: 廣泛評估表明,USO在主體驅動、風格驅動以及聯合風格-主體驅動任務上均取得了SOTA,獲得了最高的CLIP-T、DINO和CSD分數。
USO能夠處理單個任務及其自由組合,同時在主體一致性、風格保真度和文本可控性方面表現出卓越的性能,如圖1所示。

總結速覽
解決的問題
任務割裂問題: 現有文獻通常將風格驅動生成(追求風格相似性)和主體驅動生成(追求主體一致性)視為兩個獨立甚至對立的任務,缺乏統一的框架。特征解耦不充分: 視覺參考圖像本身包含豐富且混雜的特征(如風格、外觀主體),而現有方法主要在單一任務背景下進行特征解耦,未能充分利用不同任務之間的互補性來更精確地分離相關與無關特征。評估基準缺失: 缺乏能夠同時、綜合評估生成圖像風格相似度和主體保真度的基準(Benchmark)。
提出的方案
USO框架(Unified Style-Subject Optimized customization model): 一個統一的風格-主體優化定制模型,旨在通過一個框架同時解決風格化和主體定制兩個任務。跨任務協同解耦范式(Cross-task co-disentanglement paradigm): 核心思想是聯合建模風格驅動和主體驅動這兩個互補任務,讓它們相互促進。例如,主體驅動任務學習“包含”主體特征的能力,可以幫助風格驅動任務更好地學習“排除”這些主體特征,反之亦然,從而實現更精確的特征分離。具體實現路徑:
- “主體為風格”數據構建框架 (Subject-for-style):利用先進的主體模型生成高質量的風格化數據,構建大規模的三元組數據集?
?<風格參考圖, 去風格化的主體參考圖, 風格化主體結果圖>??。 - “風格為主體”模型訓練框架 (Style-for-subject):在風格獎勵和解耦訓練的指導下,訓練一個更有效的統一模型(USO)。
應用的技術
大規模三元組數據集構建: 創建了包含內容圖、風格圖及其對應風格化內容圖的大規模數據集,為模型訓練提供數據基礎。解耦學習方案 (Disentangled learning scheme): 通過兩個互補的訓練目標同時進行特征對齊和解耦:風格對齊訓練 (Style-alignment training): 對齊風格特征。內容-風格解耦訓練 (Content-style disentanglement training): 將內容從風格中分離出來。
- 風格獎勵學習范式 (Style Reward-Learning, SRL):引入獎勵學習機制來進一步增強模型的風格化性能。
- USO-Bench 評估基準:發布了首個能夠聯合評估風格相似性和主體保真度的多指標基準,用于全面衡量模型性能。
達到的效果
實現了風格與主體的統一: 成功地將風格驅動和主體驅動生成任務統一到一個單一的框架中。取得了先進的性能: 大量實驗表明,USO模型在主體一致性和風格相似性兩個維度上均達到了開源模型中的最先進(SOTA)性能。提供了首個聯合評估基準: 發布的USO-Bench填補了該領域聯合評估基準的空白,為后續研究提供了可靠的評估工具。
方法
跨任務三元組構建框架
下面詳細介紹為USO訓練構建跨任務三元組的過程。盡管先前的工作已經探索了三元組的生成,但它們保留了原始布局,阻止了對主體進行任何姿態或空間上的重新排列。為了共同實現超越簡單基于指令編輯的主體驅動和風格驅動生成,本文策劃了一個新的USO數據集,專門為實現一統一目標而設計。



統一定制框架(USO)
下面描述了如何將傳統上被分開處理的兩個任務——風格驅動生成和主體驅動生成——統一到單個模型中。每個任務都要求模型掌握不同的知識:前者強調風格相似性,而后者堅持主體一致性。通過同時精通這兩者,模型自然地將內容與風格分離開來,這是風格驅動生成長期以來的焦點,這反過來又提高了風格化和定制的質量。除了在風格驅動生成過程中僅僅保留布局之外,該模型現在可以自由地將任何主體與任何風格重新組合。
風格對齊訓練





在此階段,凍結除分層投影器(Hierarchical Projector)之外的所有參數,使得提取的風格特征能夠快速與原生文本分布對齊。因此,預訓練的T2I模型被轉換為一個能夠接受風格參考圖像作為條件輸入的風格化變體。
內容-風格解耦訓練


因此,USO可以直接在所提出的三元組數據集上處理主體驅動和風格驅動任務。 與先前的開源風格驅動方法相比(其中大多數要么(i)在改變風格時 rigidly 保留內容布局,要么(ii)通過外部 ControlNet 以犧牲與內容圖像的主體一致性為代價來保留布局),USO 消除了這些限制。通過在我們的三元組數據上進行訓練,它可以自由地將內容圖像中的主體重新定位到任何場景中,同時以參考圖像的風格重新渲染它。
風格獎勵學習

最終目標結合了兩種損失:

如算法1所示,展示了詳細的SRL算法。整個過程包括無梯度推斷和隨后的獎勵反向傳播步驟。

實驗
實驗設置
USO統一基準
為了實現全面評估,本文引入了USO-Bench,這是一個統一的基準測試集,由50張內容圖像(20張以人為中心,30張以物體為中心)與50張風格參考圖像配對組成。進一步精心設計了30個涵蓋姿態變化、描述性風格化和指導性風格化的主體驅動提示詞,以及30個風格驅動提示詞。對于主體驅動和風格驅動任務,每個提示詞生成四張圖像,對于組合的風格-主體驅動任務,每個提示詞生成一張圖像。這為主體驅動生成產生了6000個樣本,為風格驅動生成產生了個7040樣本,為組合任務產生了29500個樣本;完整的構建細節在補充材料中提供。
評估指標
為了進行定量評估,從三個維度評估每個任務:(1) 主體一致性,通過遵循[34]的CLIP-I和DINO嵌入的余弦相似度來衡量;(2) 風格相似性,對于風格驅動和風格-主體驅動生成,通過遵循[37]的CSD分數來報告;(3) 文本-圖像對齊,使用CLIP-T在所有三個任務中進行評估。
對比方法
作為一個統一的定制框架,USO與特定任務和統一的基線方法進行了比較評估。對于主體驅動生成,將RealCustom++、RealGeneral、UNO、OmniGen2、BAGEL 、FLUX.1 Kontext dev 和 Qwen-Image Edit作為基準。對于風格驅動生成,比較了StyleStudio、DreamO、CSGO、InstantStyle 和 DEADiff。對于具有雙重條件的聯合風格-主體驅動設置,比較了OmniStyle 和 StyleID。本文還與InfiniteYou進行了比較,以進一步證明本文提出的方法對身份任務的積極影響。
實驗結果
主體驅動生成
如下圖5所示,前兩列表明USO同時滿足描述性和指導性的風格編輯,同時保持高度的主體一致性。相比之下,競爭方法要么無法應用風格,要么丟失了主體。最后兩列進一步說明了USO在保留人物外觀和身份方面的優勢;它嚴格遵循文本提示,并幾乎完美地保留了面部和身體特征,而其他方法則有所不足。當提示為“The man is reading a book in a cafe”時,FLUX.1 Kontext dev實現了不錯的面部相似性,但存在復制粘貼的風險。在下圖7中,我們與特定任務的身份保持方法進行了比較;USO產生了更真實、非塑料感的結果,具有更高的身份一致性。如表1所示,USO顯著優于先前的工作,取得了最高的DINO和CLIP-I分數,以及領先的CLIP-T分數。


風格驅動生成
下圖6顯示,USO在保留原始風格(包括全局調色板和繪畫筆觸)方面優于特定任務的基線方法。在最后兩列中,給定高度抽象的參考(如材質紋理或皮克斯風格渲染),USO幾乎完美地處理了它們,而先前的方法則很吃力,這證明了本文跨任務協同解耦的泛化能力。定量上,下表1證實USO在所有風格驅動方法中取得了最高的CSD和CLIP-T分數。


風格-主體雙驅動生成
如下圖8所示,在布局保持和布局變換兩種場景下評估了USO。當輸入提示為空時,USO不僅保留了內容參考的原始布局,還提供了最強的風格遵循度。在最后兩列中,在一個更復雜的提示下,USO同時保持了主體和身份一致性,匹配了參考風格,并與文本對齊,而其他方法明顯落后,僅能遵循文本。下表2證實了這些觀察結果,顯示USO取得了最高的CSD和CLIP-T分數,并大幅優于所有基線方法。


用戶研究
本文進一步進行了一項在線用戶研究問卷調查,以比較最先進的主體驅動和風格驅動方法。問卷分發給領域專家和非專家,他們對每個任務的最佳結果進行了排名。(1) 主體驅動任務從文本保真度、視覺吸引力、主體一致性和整體質量方面進行評估。(2) 風格驅動任務從文本保真度、視覺吸引力、風格相似性和整體質量方面進行評判。如下圖9所示,本文的USO在兩個任務上都取得了頂級性能,驗證了我們跨任務協同解耦的有效性,并展示了其提供最先進結果的能力。

消融實驗
風格獎勵學習(SRL)的效果驗證
對于風格驅動任務:如下圖10所示,最后三列顯示風格驅動和風格-主體驅動任務的風格相似性得到明顯提升;筆觸紋理和繪畫風格與參考圖像緊密匹配,證實了我們風格獎勵學習的有效性。

對于主體驅動任務:在圖10的前三列和最后一列中,我們觀察到主體和身份一致性有顯著改善,細節更統一,面部相似度更高。
如下表3所示,移除SRL會導致CSD分數急劇下降,同時CLIP-I和CLIP-T分數也出現下降。本文僅依賴風格獎勵,并未引入任何特定身份數據;然而,統一模型在內容一致性方面受益。通過增強模型提取和保留所需特征的能力,SRL在所有任務上都帶來了整體改進,有力地驗證了本文的動機。除了在主體和身份保真度方面的收益外,還觀察到美學質量(例如VMix中的紋理)有明顯提升,并且塑料偽影顯著減少,這是長期困擾文本到圖像生成的問題。通過SRL訓練,模型即使在訓練期間未明確針對的任務中也展現出新興特性。

風格對齊訓練(SAT)的效果驗證
移除SAT并改為從頭開始聯合微調SigLIP和DiT會降低主體驅動任務上的CLIP-T分數,并降低風格-主體驅動任務上的CSD分數(表3)。定性上,下圖11顯示“獵豹”示例的油畫風格明顯減弱。

解耦編碼器(DE)的效果驗證
用單個VAE同時處理風格和內容圖像來替換解耦編碼器會損害幾乎所有指標(表3)。視覺上,“獵豹”恢復到更逼真的外觀,而男子的身份特征出現明顯丟失(圖11)。
層級投影器的效果驗證
下表4顯示分層投影器產生了最高的CSD分數和領先的CLIP-T分數,極大地有利于風格對齊訓練。

結論
USO,一個能夠進行主體驅動、風格驅動以及聯合風格-主體驅動生成的統一框架。本文引入了一種跨任務協同解耦范式,該范式首先構建了一個系統的三元組策劃流程,然后在策劃的三元組上應用漸進式風格對齊和內容-風格解耦訓練。此外,提出了一種風格獎勵學習范式來進一步提升性能。為了全面評估我們的方法,構建了USO-Bench,一個為現有方法提供特定任務和聯合評估的統一基準。最后,大量實驗證明USO在主體驅動、風格驅動及其聯合風格-主體驅動任務上設立了新的最先進結果,展現出卓越的主體一致性、風格保真度和文本可控性。
本文轉自AI生成未來 ,作者:AI生成未來

















