身份保持超越Nano Banana!獲多項SOTA!浙大ContextGen實現布局控制+身份保真雙突破

文章鏈接: https://arxiv.org/abs/2510.11000
項目主頁: https://nenhang.github.io/ContextGen/
【導語】 AI作圖正在從“自由創作”走向“精確工程”。面對商業應用中對多主體身份一致性和空間布局的客制化要求,現有的Diffusion模型仍有不足。浙江大學 ReLER 團隊提出了 ContextGen,這一創新框架通過整合布局錨定和身份注意力兩大機制,顯著提升了模型在復雜多實例生成(MIG)任務上的可靠性和保真度。

亮點直擊
- ContextGen框架:創新性采用基于DiT的架構,通過上下文布局錨定(CLA)實現精準版面控制,并利用身份一致性注意力(ICA)機制完成細膩的身份特征保留;
- IMIG-100K數據集:首個具備布局與身份標注的大規模層次化圖像引導多實例生成數據集,包含十萬級樣本量;
- 頂尖性能表現:在布局控制、身份保持與視覺質量方面顯著超越現有方法,實現了最先進的生成效果。
一、挑戰:AI作圖的兩個“木桶短板”
在生成包含多個特定對象的復雜圖像時,模型的性能往往受限于以下兩個關鍵瓶頸:
- 布局控制的魯棒性不足 (Inadequate Position Control):缺乏有效且穩定的機制來確保生成對象精確地位于用戶指定的畫面位置,這限制了AI在設計和敘事場景中的應用。
- 多實例身份退化問題 (Identity Degradation):當畫面中需要出現多個引用主體時,模型難以區分和保持每個主體的細微特征,導致身份丟失或混淆。
ContextGen正是為了解決這些制約商業和專業應用的關鍵問題而設計。
二、ContextGen的技術核心:實現“雙重約束”
ContextGen框架是一種基于 Diffusion Transformer (DiT) 的創新架構。它的核心思想是將布局信息和身份信息同時作為強力的上下文約束引入,從而在生成過程中實現對輸出結果的雙重精確約束。

Overview
1. Contextual Layout Anchoring (CLA):上下文布局錨定
CLA機制旨在提供強大的空間定位能力,解決布局失控問題。
- 機制核心:CLA將用戶提供的復合布局圖像(包括邊界框、分割掩碼或草圖)編碼并融入到 DiT 的生成上下文。這種布局圖像被模型視為一種結構化指南,而非簡單的條件輸入。
- 實現細節:它在 DiT 模型的每一層中,都引入了布局特征,通過上下文學習引導模型在去噪過程中將像素生成與預設的空間位置緊密關聯。
- 優勢:CLA確保對象被牢固地錨定在目標區域,極大地提高了布局的準確性和穩定性。
2. Identity Consistency Attention (ICA):身份一致性注意力
ICA機制專為解決身份保真度問題而設計,確保多主體的獨立性。
- 機制核心:ICA是一種針對多實例場景優化的注意力模塊。它不再單純依賴于文本提示或單一的圖像嵌入,而是直接從原始的高清參考圖像中捕獲獨特且細粒度的身份特征。
- 實現細節:ICA將這些身份特征作為額外信息輸入到 DiT 的注意力層。通過分層注意力架構,ICA被策略性地部署在模型的中間 DiT 塊(實驗證實應用于中間 19 個 DiT 塊效果最佳),因為這些層更擅長處理實例級別的屬性和細節信息。
- 優勢:這種精準的注入方式有效地阻止了不同主體特征之間的信息泄漏或混淆,確保了每個被引用的主體都獲取到最細粒度、最高保真的身份信息。
三、ContextGen的另一大貢獻:IMIG-100K 數據集
為了推動多實例圖像生成(MIG)領域的發展,研究團隊構建了 IMIG-100K 數據集。這是第一個大規模、分層結構化的圖像引導多實例生成數據集,旨在彌補現有數據資源的不足。

IMIG-100K Samples
IMIG-100K 數據集被系統地劃分為三個專門的子集,以全面訓練模型所需的復雜能力:
- 基礎實例構成 (Basic Instance Composition): 專注于訓練模型的基本對象合成和空間定位能力。
- 復雜實例交互 (Complex Instance Interaction): 針對高難度、高復雜度場景設計,包含多達 8 個實例的圖像,重點模擬現實世界中的遮擋、視角旋轉等復雜交互。
- 靈活構成與參考 (Flexible Composition with References): 旨在訓練模型處理低一致性輸入的魯棒性,允許合成后的實例在保持身份的同時,具有更大的靈活性和形變,以適應不同的生成上下文。
這一數據集的貢獻為 ContextGen 的訓練和評估提供了堅實的基礎,也為社區提供了寶貴的研究資源。
四、實驗驗證:組件貢獻與性能基準
研究團隊通過嚴謹的實驗和多個 Benchmark 證明了ContextGen的有效性和先進性。
1. 關鍵性能基準(Benchmark)結果
ContextGen 在多個公認的 MIG 基準測試中取得了領先結果,包括用于評估多主體驅動生成的 LAMICBench++、評估復雜屬性布局生成任務的 COCO-MIG 以及評估復雜文本布局生成任務 LayoutSam-Eval。
- 核心優勢:ContextGen在衡量較多主體場景下身份細節保持能力的“身份保留”(IDS)指標上,以30.42的成績顯著高于 GPT-4o(17.12)和 Nano Banana(16.67)。

LAMICBench++ Table

LAMICBench++ Demo
- 全面性:在COCO-MIG以及LayoutSam-Eval數據集上,ContextGen 的 布局控制和屬性控制指標均保持領先地位,證明了其優越的魯棒性。

COCO-MIG Table

COCO-MIG Demo

LayoutSam-Eval Demo
2. 消融實驗:組件有效性分析與 DPO 優化
- CLA與ICA的貢獻:實驗表明,移除任一核心組件都會導致性能指標下降。特別是將 ICA 機制應用于中間 DiT 塊時,模型獲得了最佳的身份保留分數。
- DPO(Direct Preference Optimization)精調:為解決模型在高度依賴布局圖時可能出現的僵化問題,ContextGen引入了DPO。通過將目標圖像設為偏好樣本、復合布局圖像作為非偏好樣本,DPO成功地指導模型在增強場景理解和保持身份/對象細節之間進行有效權衡,使模型在整體指標上達到更佳的平衡。

DPO Demo
五、未來方向:保真度與生成靈活性的權衡
ContextGen 框架優先確保核心身份特征的準確性,在需要對光照或姿勢進行大幅度、創造性修改時,模型可能會更傾向于保留參考圖像的固有屬性,以保證保真度不下降。研究團隊將致力于解決這一前沿挑戰,進一步解鎖 ContextGen 在更靈活、更具創造性的風格和屬性遷移方面的潛力,從而進一步拓寬其應用邊界。
【結語】ContextGen以其創新的雙重約束機制,成功將 AI 圖像生成領域推進到“精確控制”的新階段。這項研究為需要高精度、高可靠性的專業內容創作提供了堅實的基礎,具有重要的產業應用價值。
本文轉自AI生成未來 ,作者:AI生成未來

















