CVPR2025|不改U-Net也能提升生成力!MaskUNet用掩碼玩轉擴散模型
1. 一眼概覽
MaskUNet 提出了一種基于可學習掩碼的參數篩選機制,在不更新預訓練U-Net參數的前提下,有效提升了擴散模型的圖像生成質量和下游泛化能力。
2. 核心問題
當前擴散模型在不同時間步使用相同U-Net參數生成結構和紋理信息,限制了模型的表達靈活性。該研究聚焦于:如何在不更改預訓練U-Net的參數下,提升其對不同時間步和樣本的適應性,以生成更高質量的圖像?
3. 技術亮點
- 參數掩碼機制:提出可學習的二值掩碼,對預訓練U-Net的參數進行篩選,使其在不同時間步與樣本中發揮最大效能;
- 雙重優化策略:設計基于訓練(使用擴散損失)與免訓練(使用獎勵模型)的兩種掩碼優化方法,適應不同場景需求;
- 廣泛驗證:在COCO及多個下游任務(圖像定制、關系反轉、文本轉視頻)中驗證,展示優越性能和強泛化能力。
4. 方法框架
圖片
MaskUNet方法如下圖流程所示:
- 引入掩碼機制:對預訓練U-Net參數施加時間步和樣本相關的二值掩碼,實現參數選擇性激活;
- 訓練方式一:帶監督學習:通過MLP生成掩碼,聯合時間嵌入與樣本特征進行訓練,目標函數為擴散損失;
- 訓練方式二:免訓練優化:借助獎勵模型(如ImageReward與HPSv2)指導掩碼更新,無需額外訓練掩碼生成器。
該機制不修改原U-Net參數結構,而是通過靈活的掩碼動態激活權重,從而提升模型表達能力。
5. 實驗結果速覽
圖片
在COCO 2014和COCO 2017兩個文本到圖像的零樣本生成任務中,MaskUNet相較于原始的Stable Diffusion 1.5與LoRA方法,在圖像質量指標(FID)上均有顯著提升。例如,在COCO 2014數據集上,MaskUNet將FID分數從12.85降低至11.72,COCO 2017上則從23.39降至21.88,表現出更強的生成能力。同時,在圖文一致性方面(CLIP分數)與其他方法持平,說明MaskUNet在不影響語義對齊的前提下,顯著增強了圖像質量。
在多個下游任務如DreamBooth圖像定制、Textual Inversion新概念學習、ReVersion關系圖像生成以及Text2Video-Zero文本轉視頻中,MaskUNet均展現出更強的個性化表達能力與細節還原能力,進一步驗證了其作為通用增強組件的實用價值。
6. 實用價值與應用
MaskUNet方法適用于文本生成圖像、視頻生成、圖像定制、關系表達等任務,尤其在無需大規模參數更新的資源受限場景下表現出色,適合作為輕量級增強模塊嵌入現有擴散框架中。
7. 開放問題
? 掩碼機制在跨模態生成(如音頻到圖像)任務中是否同樣有效?
? MaskUNet是否可以與LoRA等參數高效微調方法協同工作以實現更強性能?
? 如何進一步壓縮掩碼生成模塊的計算量,使其適用于移動端或邊緣設備?


































