RAE的終極形態(tài)?北大&阿里提出UniLIP: 將CLIP拓展到重建、生成和編輯
本文作者來(lái)自北京大學(xué)和阿里通義萬(wàn)相實(shí)驗(yàn)室。其中論文第一作者是湯昊,北京大學(xué) 2022 級(jí)博士生,發(fā)表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要關(guān)注統(tǒng)一的多模態(tài)理解和生成。指導(dǎo)教授是王立威老師,北京大學(xué)智能學(xué)院教授,曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎(jiǎng)。
統(tǒng)一多模態(tài)模型要求視覺(jué)表征必須兼顧語(yǔ)義(理解)和細(xì)節(jié)(生成 / 編輯)。早期 VAE 因語(yǔ)義不足而理解受限。近期基于 CLIP 的統(tǒng)一編碼器,面臨理解與重建的權(quán)衡:直接量化 CLIP 特征會(huì)損害理解性能;而為凍結(jié)的 CLIP 訓(xùn)練解碼器,又因特征細(xì)節(jié)缺失而無(wú)法精確重建。例如,RAE 使用凍結(jié)的 DINOv2 重建,PSNR 僅 19.23。

為解決這一核心矛盾,UniLIP 提出創(chuàng)新的 CLIP 微調(diào)框架,通過(guò)兩階段重建訓(xùn)練與自蒸餾損失,在不損失模型原有理解性能的同時(shí),實(shí)現(xiàn)了卓越的圖像重建能力。UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT),并保持甚至略微提升其理解性能。
不同于 RAE 僅在 ImageNet 上進(jìn)行了實(shí)驗(yàn),UniLIP 進(jìn)行了大規(guī)模的生成和編輯訓(xùn)練。UniLIP 僅用 1B 和 3B 參數(shù)的模型,便在 GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94) 等多個(gè)基準(zhǔn)上取得了 SOTA 性能,媲美甚至超越了更大規(guī)模的模型。

- 論文鏈接:https://www.arxiv.org/pdf/2507.23278
- 開源代碼:https://github.com/nnnth/UniLIP
- 開源模型:https://huggingface.co/kanashi6/UniLIP-3B
方法細(xì)節(jié)

CLIP 無(wú)損適應(yīng)圖像重建
為解決 CLIP 特征因細(xì)節(jié)缺失導(dǎo)致的重建模糊問(wèn)題,UniLIP 提出了一種創(chuàng)新的兩階段訓(xùn)練方案,旨在增強(qiáng)其像素級(jí)重建能力,同時(shí)不損害其卓越的語(yǔ)義理解力。該方案基于一個(gè)包含 CLIP、像素解碼器及投影層的自編碼器架構(gòu)。
第一階段:解碼器對(duì)齊。 此階段凍結(jié) CLIP,僅訓(xùn)練像素解碼器和投影層,使其學(xué)習(xí)從固定的 CLIP 特征中重建圖像。訓(xùn)練目標(biāo)為:

第二階段:自蒸餾微調(diào)。 由于原始 CLIP 特征缺乏像素細(xì)節(jié),第一階段的重建質(zhì)量受限。因此,此階段將共同訓(xùn)練 CLIP,并通過(guò)自蒸餾方法約束其特征,防止其偏離原始分布,從而在注入細(xì)節(jié)的同時(shí)保留語(yǔ)義。訓(xùn)練目標(biāo)為:

其中
表示原始 CLIP 特征,
是微調(diào)后的 CLIP 特征。
通過(guò)此方案,UniLIP 克服了語(yǔ)義理解與像素重建的內(nèi)在權(quán)衡,其理解能力甚至在部分基準(zhǔn)上得到增強(qiáng)(見(jiàn)下表)。對(duì)于生成與編輯任務(wù),UnLIP 特征帶來(lái)了三大優(yōu)勢(shì):
(1)高保真壓縮:實(shí)現(xiàn) 32 倍圖像壓縮,并能通過(guò)輕量級(jí)解碼器高質(zhì)量恢復(fù)。
(2)強(qiáng)文本對(duì)齊:繼承 CLIP 的對(duì)齊能力,確保對(duì)文本指令的精準(zhǔn)響應(yīng)。
(3)完備特征表示:同時(shí)編碼高級(jí)語(yǔ)義與像素細(xì)節(jié),為高保真編輯提供完整信息。

用于圖像生成和編輯的雙條件架構(gòu)

UniLIP 借鑒了 MetaQuery 范式,但突破了其在圖像編輯任務(wù)中的信息瓶頸。傳統(tǒng)方法僅用固定數(shù)量的查詢嵌入(Query Embeddings)連接 MLLM 與擴(kuò)散模型,這在傳遞參考圖像豐富的像素級(jí)細(xì)節(jié)時(shí)力不從心,常導(dǎo)致編輯結(jié)果細(xì)節(jié)退化或內(nèi)容不一致。
為此,UniLIP 提出了一種雙條件架構(gòu)。該架構(gòu)在查詢嵌入之外,額外引入 MLLM 的多模態(tài)隱藏狀態(tài)作為第二個(gè)條件,共同引導(dǎo) DiT 的交叉注意力模塊。這有效地補(bǔ)充了缺失的像素級(jí)信息。這種設(shè)計(jì)成功地將復(fù)雜任務(wù)解耦:MLLM 專注于高級(jí)推理和意圖理解,DiT 則基于這套無(wú)損傳遞的、兼具高級(jí)語(yǔ)義與底層細(xì)節(jié)的豐富線索,進(jìn)行高保真度的圖像合成。最終,UniLIP 在圖像生成與編輯任務(wù)上均實(shí)現(xiàn)了卓越性能。
實(shí)驗(yàn)結(jié)果
模型架構(gòu)
UniLIP 包括 1B 和 3B 兩個(gè)模型變體,它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來(lái)。在架構(gòu)上,UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器,并結(jié)合 DC-AE 的像素解碼器。連接器則設(shè)計(jì)為 6 層,結(jié)構(gòu)與 LLM 保持一致,并使用了 256 個(gè)可學(xué)習(xí)查詢。
訓(xùn)練數(shù)據(jù)
UniLIP 的生成數(shù)據(jù)來(lái)自 BLIP3-o,包括 38M 的預(yù)訓(xùn)練數(shù)據(jù)和 60k 的指令微調(diào)數(shù)據(jù)。UniLIP 的編輯預(yù)訓(xùn)練數(shù)據(jù)來(lái)自 GPT-Image-Edit-1.5M,指令微調(diào)數(shù)據(jù)來(lái)自包含 46K 編輯數(shù)據(jù)的 ShareGPT-4o-Image。
圖像重建

在 256x256 分辨率下,UniLIP 不僅超越了此前的量化方法,其更高的下采樣率也帶來(lái)了生成效率優(yōu)勢(shì)。在 448x448 分辨率下,與使用擴(kuò)散解碼器的 Emu2 相比,UniLIP 由于打開 CLIP 進(jìn)行重建訓(xùn)練取得顯著優(yōu)勢(shì)。
多模態(tài)理解

UniLIP 可以直接替換 InternVL 的視覺(jué)編碼器在理解基準(zhǔn)上進(jìn)行測(cè)試。得益于重建訓(xùn)練對(duì)原始能力的有效保持,UniLIP 實(shí)現(xiàn)了同規(guī)模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。
圖像生成

在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準(zhǔn)上,UniLIP 憑借卓越的文圖對(duì)齊能力,不僅超越了同規(guī)模模型,還達(dá)到了與 BAGEL 等更大模型相當(dāng)?shù)乃健?/span>
圖像編輯

在 ImgEdit-Bench 圖像編輯基準(zhǔn)上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先進(jìn)模型。其強(qiáng)大性能歸功于 UniLIP 特征的豐富細(xì)節(jié)與精準(zhǔn)語(yǔ)義對(duì)齊能力。UniLIP 創(chuàng)新的雙條件架構(gòu)充分利用了這些特征,確保了編輯的精確性和非編輯區(qū)的一致性。
可視化結(jié)果

在生成任務(wù)中,UniLIP 可以生成美觀且嚴(yán)格遵循用戶提示的圖像;而在編輯任務(wù)中,UniLIP 可以在準(zhǔn)確修改圖像的同時(shí)保持周圍區(qū)域的一致性。
結(jié)論
通過(guò)精心設(shè)計(jì)的兩階段訓(xùn)練與自蒸餾約束,UniLIP 有效解決了語(yǔ)義理解與像素細(xì)節(jié)保留的矛盾。此外,其創(chuàng)新的雙條件架構(gòu)無(wú)縫連接了 MLLM 與擴(kuò)散模型,確保了生成和編輯任務(wù)中的高保真度與一致性。UniLIP 在多個(gè)基準(zhǔn)上展示的卓越性能,為下一代統(tǒng)一多模態(tài)模型提供了新的范式。

































