天下苦VAE久矣:阿里高德提出像素空間生成模型訓(xùn)練范式, 徹底告別VAE依賴
近年來,基于擴散模型的圖像生成技術(shù)發(fā)展迅猛,催生了Stable Diffusion、Midjourney等一系列強大的文生圖應(yīng)用。然而,當(dāng)前主流的訓(xùn)練范式普遍依賴一個核心組件——變分自編碼器(VAE),這也帶來了長久以來困擾研究者們的幾個問題:
- 訓(xùn)練復(fù)雜性:VAE旨在將高維圖像壓縮至低維隱空間,并能從中重建圖像。但其訓(xùn)練過程需要在壓縮率和重建質(zhì)量之間取得精妙平衡,本身就極具挑戰(zhàn)。
- 高昂的微調(diào)成本:當(dāng)需要在新的領(lǐng)域(域外數(shù)據(jù)集)上微調(diào)生成模型時,如果預(yù)訓(xùn)練的VAE在該領(lǐng)域表現(xiàn)不佳,則必須連同生成模型一起微調(diào),這無疑會顯著增加訓(xùn)練成本和開發(fā)周期。
為了從根本上解決VAE帶來的諸多限制,EPG中提出通過自監(jiān)督預(yù)訓(xùn)練(SSL Pre-training)與端到端微調(diào)(End-to-End Fine-tuning)相結(jié)合的方式,徹底去除了生成模型對VAE的依賴。

其核心優(yōu)勢在于:
訓(xùn)練效率與生成效果雙重突破:在ImageNet-256和512數(shù)據(jù)集上,EPG在訓(xùn)練效率遠超基于VAE的主流模型DiT/SiT的同時,僅僅通過75次模型前向計算就取得了更優(yōu)的生成質(zhì)量,F(xiàn)ID分別達到了2.04和2.35。

首次實現(xiàn)像素空間的一致性模型訓(xùn)練:在不依賴VAE及預(yù)訓(xùn)練的擴散模型權(quán)重的前提下,EPG首次成功在像素空間中端到端地訓(xùn)練了一致性模型(Consistency Model),在ImageNet-256上僅需單步即可取得8.82的FID。

△在8xH200上測得的訓(xùn)練開銷。*: 基于官方代碼預(yù)估
訓(xùn)練方法:“像訓(xùn)練圖像分類器一樣訓(xùn)練生成模型”
EPG的核心思想借鑒了計算機視覺領(lǐng)域經(jīng)典的“預(yù)訓(xùn)練-微調(diào)”范式,將復(fù)雜的生成任務(wù)解耦為兩個更易于處理的階段。
第一階段:自監(jiān)督預(yù)訓(xùn)練 (SSL Pre-training) —— 解耦表征學(xué)習(xí)與像素重建
EPG的核心洞察在于,生成模型本質(zhì)上需要從帶噪圖像中學(xué)習(xí)高質(zhì)量的視覺表征。受此啟發(fā),EPG創(chuàng)新地將學(xué)習(xí)表征與重建像素解耦為兩個獨立的學(xué)習(xí)階段。
在第一階段,模型僅需利用自監(jiān)督表征學(xué)習(xí)算法,從帶噪圖像中提取高質(zhì)量的視覺特征。這一階段只訓(xùn)練模型的前半部分網(wǎng)絡(luò)——編碼器(Encoder)。然而,現(xiàn)有表征學(xué)習(xí)方法難以直接應(yīng)用于噪聲圖像,尤其當(dāng)噪聲完全覆蓋圖像內(nèi)容時。
為解決此問題,EPG提出了一種簡潔而高效的解決方案:讓模型在干凈圖像上學(xué)習(xí)“標(biāo)準(zhǔn)”表征,再通過一致性損失將該表征對齊(傳遞)給帶噪圖像的表征。具體地,文中選取ODE采樣路徑上的相鄰兩點作為帶噪圖像對,以保證每個帶噪版本都能學(xué)習(xí)到唯一的、與干凈圖像對齊的表征。
此階段的預(yù)訓(xùn)練損失函數(shù)包含兩部分:a. 對比損失 (Contrastive Loss):從干凈圖像中學(xué)習(xí)高質(zhì)量的初始表征。 b. 表征一致性損失 (Representation Consistency Loss):將帶噪圖像的表征與干凈圖像的表征對齊。

△訓(xùn)練方法總覽。
(左圖)預(yù)訓(xùn)練方法。c是一個可學(xué)習(xí)表征,t0, tn, tn-1為時間步條件,y1,y2為每一次訓(xùn)練所采樣圖片x0進行數(shù)據(jù)增強后的圖像,xtn, x_tn-1為ODE采樣路徑上時序上相鄰的兩點。θ是網(wǎng)絡(luò)參數(shù),θ^-是\theta的EMA版本,sg表示stop gradient操作。(右圖)端到端微調(diào)方法。預(yù)訓(xùn)練結(jié)束后,僅使用Eθ 加隨機初始化的解碼器D_θ進行端到端微調(diào)。
第二階段:端到端微調(diào) (End-to-End Fine-tuning) —— 無縫銜接下游生成任務(wù)
預(yù)訓(xùn)練階段完成后,EPG的微調(diào)過程十分直接:將預(yù)訓(xùn)練好的編碼器(Eθ)與一個隨機初始化的解碼器(Dθ)拼接,然后直接使用擴散模型或一致性模型的損失函數(shù)進行端到端微調(diào)。
EPG的訓(xùn)練框架與經(jīng)典的圖像分類任務(wù)框架高度相似,這極大地簡化了生成模型的訓(xùn)練流程,降低了開發(fā)和應(yīng)用下游生成任務(wù)的門檻。
實驗
EPG在ImageNet-256和ImageNet-512兩大標(biāo)準(zhǔn)數(shù)據(jù)集上驗證了其有效性。
將去噪訓(xùn)練作為微調(diào)目標(biāo)(擴散模型)的生成效果:


將一致性訓(xùn)練作為微調(diào)目標(biāo)(單步生成)的生成效果:

訓(xùn)練效率與生成質(zhì)量:
實驗證明,EPG框架不僅完全彌補了以往像素空間訓(xùn)練與隱空間訓(xùn)練在效率和效果上的差距,更在同等計算資源下實現(xiàn)了超越。這為未來在更高分辨率、更大數(shù)據(jù)集上的訓(xùn)練,乃至視頻生成等領(lǐng)域,提供了極具參考價值的解決方案。
推理性能:
基于EPG訓(xùn)練的擴散模型,在推理時僅需75次模型前向計算即可達到最優(yōu)效果,步數(shù)遠低于其他方法。此外,EPG的骨干網(wǎng)絡(luò)采用Vision Transformer(ViT)且Patch Size為16x16,在256x256圖像上的單張生成速度可媲美DiT;在512x512圖像上(使用32x32的Patch Size),其生成速度依然能和在256x256的速度保持一致,展現(xiàn)了優(yōu)異的可擴展性。
總結(jié)
EPG框架的提出,為像素空間生成模型的訓(xùn)練提供了一條簡潔、高效且不依賴VAE的全新路徑。
通過“自監(jiān)督預(yù)訓(xùn)練 + 端到端微調(diào)”的兩階段策略,EPG成功地將復(fù)雜的生成任務(wù)分解為目標(biāo)明確的表征學(xué)習(xí)和像素重建兩個步驟。這不僅使其在訓(xùn)練效率和最終生成質(zhì)量(FID低至2.04)上全面超越了依賴VAE的DiT等主流模型,更重要的是,EPG首次在完全不依賴任何外部預(yù)訓(xùn)練模型(如VAE或DINO)的情況下,實現(xiàn)了像素空間內(nèi)一致性模型的端到端訓(xùn)練,取得了單步生成8.82 FID的優(yōu)異成績。
這項工作不僅為圖像生成領(lǐng)域帶來了性能與效率的雙重提升,也為視頻生成、多模態(tài)統(tǒng)一模型等前沿方向提供了極具潛力的基礎(chǔ)框架。EPG所代表的“去VAE化”、端到端的訓(xùn)練范式,將進一步推動生成式AI的探索與應(yīng)用,降低開發(fā)門檻,激發(fā)更多創(chuàng)新。
論文鏈接:
https://arxiv.org/pdf/2510.12586
代碼倉庫鏈接:
https://github.com/AMAP-ML/EPG
































