頂刊TPAMI!字節(jié)聯(lián)合中科大重磅打造文本到圖像定制化生成新范式!

論文鏈接:https://ieeexplore.ieee.org/abstract/document/11206511 代碼鏈接:https://github.com/bytedance/RealCustom 項目鏈接:https://corleone-huang.github.io/RealCustom_plus_plus/ Hugging Face:https://huggingface.co/bytedance-research/RealCustom
亮點直擊
- 突破傳統(tǒng)方法存在的主體一致性和文本可控性之間的權衡取舍問題,創(chuàng)新性地將參考圖主體表征為真實文本單詞,通過解耦文本和參考圖的影響區(qū)域,同時實現(xiàn)高度主體一致性和文本可控性;
- 曾作為即夢線上主體保持生成算法廣泛應用;
研究動機

現(xiàn)有范式將主體表示為一個偽詞(例如),并將其與文本結合用于生成。偽詞本身存在固有沖突(即,會導致其他真實詞語偏離其原有語義)和糾纏(即,影響范圍與文本有重疊),從而產(chǎn)生了雙最優(yōu)悖論:主體相似性與文本可控性之間存在權衡。
提出RealCustom++ 的真詞定制化生成新范式,首先將主體表示為真實詞語(例如主體的超類別詞),在引導分支中生成引導圖像,并獲得主體引導掩碼。隨后,在生成分支中,主體僅在掩碼范圍內(nèi)發(fā)揮影響,而其他區(qū)域則完全由文本控制,從而同時實現(xiàn)了高主體相似性和文本可控性。
方法優(yōu)勢
- 生成圖像的主體區(qū)域與參考圖高度一致,非主體區(qū)域則完全不受參考圖影響,實現(xiàn)主體保持的一致性和文本可控性的協(xié)同統(tǒng)一。

- 高度靈活:通過在推理階段選擇不同的單詞,我們方法實現(xiàn)了靈活通用的任意層次的主體/主體群的精準保持生成。

技術方案
RealCustom++ 采用了一種全新的“訓練-推理”解耦框架,拜托了對主體保持的配對數(shù)據(jù)依賴: (1)在訓練階段,RealCustom++學習視覺條件與文本中所有真實詞語之間的通用對齊關系。具體實現(xiàn)包括:通過跨層跨尺度投影器(CCP)提取細粒度且魯棒的主體表征,以及通過課程式訓練策略(CTR) 平滑且高效地注入主體表征。 (2)在推理階段,RealCustom++提出了由自適應掩碼引導(AMG)機制連接的雙分支架構。其中,引導分支生成主體引導掩碼,生成分支則利用該掩碼,僅在與主體相關的區(qū)域內(nèi)定制生成特定真實詞語。

效果對比

我們在單主體保持和多主體保持效果上都顯著超越了SOTA方法。


結論
本文提出了RealCustom++這一創(chuàng)新定制范式,首次通過真實詞匯無沖突地表征主體,實現(xiàn)了主體相似性與文本可控性的精準解耦。該范式通過訓練-推理解耦框架內(nèi)的漸進式定制過程,將目標真實詞匯從通用概念逐步細化為具體主體。RealCustom++采用跨層跨尺度投影器與漸進式課程訓練策略,實現(xiàn)了魯棒的特征提取及姿態(tài)與尺寸的多樣性。在推理階段,自適應掩碼指導技術能準確定制目標真實詞匯,同時有效保留主體無關區(qū)域。我們進一步通過多真實詞匯定制算法將RealCustom++擴展至多主體場景。大量實驗表明,該方法在單主體與多主體的實時開放域定制任務中,在主體相似性與文本可控性方面均達到了最先進的性能水平。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















