VAE再被補(bǔ)刀!清華快手SVG擴(kuò)散模型亮相,訓(xùn)練提效6200%,生成提速3500%
前腳謝賽寧剛宣告VAE在圖像生成領(lǐng)域退役,后腳清華與快手可靈團(tuán)隊也帶著無VAE潛在擴(kuò)散模型SVG來了。
該方法實(shí)現(xiàn)了在訓(xùn)練效率上62倍、生成速度上35倍的提升。

VAE為何被接連拋棄?主要還是因?yàn)?/span>語義糾纏的缺陷——語義特征都放在同一個潛空間,調(diào)一個數(shù)值就會“牽一發(fā)而動全身”,比如只想改變貓的顏色,結(jié)果體型、表情都跟著變。
和謝賽寧團(tuán)隊極簡復(fù)用預(yù)訓(xùn)練編碼器、改造DiT架構(gòu),專注于生成性能的RAE不同,SVG通過語義+細(xì)節(jié)雙分支+分布對齊,實(shí)現(xiàn)了多任務(wù)通用。

下面具體來看。
主動構(gòu)建語義與細(xì)節(jié)融合的特征空間
在傳統(tǒng)的「VAE+擴(kuò)散模型」圖像生成范式中,VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征(可以理解為圖像的簡化代碼),供后續(xù)擴(kuò)散模型學(xué)習(xí)生成邏輯。
但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起,比如貓和狗的特征邊界模糊不清等。
直接導(dǎo)致兩個問題:
- 一是擴(kuò)散模型訓(xùn)練效率極低,需要數(shù)百萬步迭代才能勉強(qiáng)理清特征邏輯;
- 二是生成過程繁瑣,往往需要經(jīng)過幾十甚至上百步采樣才能輸出清晰圖像。
并且,生成的特征空間用途單一,除了圖像生成,幾乎無法適配圖像識別、語義分割等其他視覺任務(wù)。
面對VAE的困境,謝賽寧團(tuán)隊的RAE技術(shù)選擇了極致聚焦生成的思路。直接復(fù)用DINOv2、MAE等成熟的預(yù)訓(xùn)練編碼器,不額外修改編碼器結(jié)構(gòu),僅通過優(yōu)化解碼器來還原圖像細(xì)節(jié),同時針對性地改造擴(kuò)散模型架構(gòu)。
最終實(shí)現(xiàn)了生成效率與質(zhì)量的跨越式提升,簡單說就是把重心全放在了“把圖生成得又快又好”上。
而清華&快手可靈團(tuán)隊的SVG技術(shù),則走了兼顧生成與多任務(wù)通用的路線,核心差異就在于對特征空間的構(gòu)建邏輯上。
RAE是直接復(fù)用預(yù)訓(xùn)練特征,SVG 則是主動構(gòu)建語義與細(xì)節(jié)融合的特征空間。

具體來看,SVG選擇以DINOv3預(yù)訓(xùn)練模型作為語義提取器。
原因是DINOv3經(jīng)過大規(guī)模自監(jiān)督學(xué)習(xí),能夠精準(zhǔn)捕捉圖像的高層語義信息,讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨,從根源上解決了語義糾纏問題。
但團(tuán)隊也發(fā)現(xiàn),DINOv3提取的特征偏重于宏觀語義,會丟失顏色、紋理等高頻細(xì)節(jié),因此又專門設(shè)計了一個輕量級的殘差編碼器來進(jìn)行細(xì)節(jié)補(bǔ)充,針對性地學(xué)習(xí)這些被忽略的細(xì)節(jié)信息。
而為了讓「語義」和「細(xì)節(jié)補(bǔ)充」能夠完美融合,SVG還加入了關(guān)鍵的分布對齊機(jī)制。
這一機(jī)制通過技術(shù)手段調(diào)整殘差編碼器輸出的細(xì)節(jié)特征,使其在數(shù)值分布上與DINOv3的語義特征完全匹配,避免細(xì)節(jié)信息擾亂語義結(jié)構(gòu)。
實(shí)驗(yàn)數(shù)據(jù)也印證了這一機(jī)制的重要性。去掉分布對齊后,SVG生成圖像的FID值(衡量生成圖像與真實(shí)圖像相似度的核心指標(biāo),數(shù)值越低越優(yōu))從6.12升至9.03,生成質(zhì)量大幅下滑。

實(shí)驗(yàn)結(jié)果顯示,SVG在生成質(zhì)量、效率、多任務(wù)通用性上全面超越傳統(tǒng)VAE方案。
訓(xùn)練效率方面,在ImageNet 256×256數(shù)據(jù)集上,SVG-XL模型僅訓(xùn)練80個epoch,在無分類器引導(dǎo)時FID達(dá)6.57,遠(yuǎn)超同規(guī)?;赩AE的SiT-XL(22.58);如果延長訓(xùn)練至1400個epoch,F(xiàn)ID可低至1.92,接近當(dāng)前頂級生成模型水平。

推理效率方面,消融實(shí)驗(yàn)中,5步采樣時,SVG-XL的gFID為12.26,而SiT-XL(SD-VAE)為69.38、SiT-XL(VA-VAE)為74.46。這表明在較少的采樣步數(shù)下,SVG-XL就能達(dá)到較好的生成質(zhì)量。

不僅是生圖,SVG的特征空間繼承了DINOv3的能力,可直接用于圖像分類、語義分割、深度估計等任務(wù),且無需微調(diào)編碼器。例如,在ImageNet-1K分類任務(wù)中Top-1精度達(dá)到81.8%,與原始DINOv3幾乎一致;在ADE20K語義分割任務(wù)中mIoU達(dá)46.51%,接近專門的分割模型。

團(tuán)隊介紹
團(tuán)隊由鄭文釗擔(dān)任項(xiàng)目負(fù)責(zé)人,目前是加州大學(xué)伯克利分校博士后。此前,他在清華大學(xué)自動化系獲博士學(xué)位,研究集中在人工智能和深度學(xué)習(xí)領(lǐng)域。
同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學(xué)位,研究重點(diǎn)為多模態(tài)生成模型。
其中,史明磊透露自己還在創(chuàng)辦一家專注于人工智能應(yīng)用的公司。
△從左到右:鄭文釗、史明磊、王皓霖
Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團(tuán)隊。
其中,Pengfei Wan是快手可靈視頻生成模型負(fù)責(zé)人。
從謝賽寧團(tuán)隊的RAE到清華快手的SVG,盡管技術(shù)路線各有側(cè)重,但從兩者的突破可以看出,預(yù)訓(xùn)練視覺模型的特征空間,或許已經(jīng)具備了替代VAE的能力。
論文地址:https://arxiv.org/abs/2510.15301
代碼地址:https://github.com/shiml20/SVG


































