更少的token生成更好的圖!香港大學聯合階躍星辰等讓AI繪畫真正理解了再畫
告別像素級死記硬背,VFMTok用語義理解圖像!
香港大學、階躍星辰等,用一種名為VFMTok的新方法,通過讓圖像生成模型借用頂級視覺AI的眼睛來看世界,實現了更快、更高質量的圖像生成,并且不再需要復雜的引導技巧。

這項研究的核心,是利用預訓練好的視覺基礎模型(vision foundation models, VFMs),如DINOv2,來充當一個高效的視覺分詞器(visual tokenizer)。
它徹底改變了自回歸模型理解和重構圖像的方式,將過去那種對像素細節的死記硬背,轉變為對高級語義的深刻理解。
圖像生成的瓶頸:一套笨拙的視覺詞匯
自回歸圖像生成,這個從語言模型領域借鑒而來的強大范式,其原理就像寫作一樣:一個詞一個詞地往外蹦,直到湊成一句話。
在圖像領域,就是一個像素塊一個像素塊地畫,直到畫完整張圖。
要實現這一點,首先需要一個視覺詞匯表,也就是一個視覺分詞器。
它的工作是把一張連續的、充滿無數像素信息的圖像,翻譯成一串離散的、有限的tokens。最著名的分詞器之一是VQGAN。
傳統的VQGAN,像一個從零開始學習語言的學生。它通過不斷的看圖說話練習(即圖像重建),自己發明一套視覺詞匯。這套詞匯的目標非常單純:只要能用這些詞把原圖盡可能無損地拼回去就行。
這種方式導致了一個根本性的問題。
VQGAN的詞匯表里,充斥著大量描述底層細節的詞,比如這里是深灰色紋理、那里是尖銳邊緣。它對像素的還原能力很強,但對圖中內容的意義卻知之甚少。它知道如何描述一只貓的毛發質感,卻不真正理解什么是貓。
這個潛在空間充滿了冗余信息,而且缺乏高級語義。就像用上千個描述筆畫的詞去形容一幅書法作品,而不是用行云流水、力透紙背這樣更具概括性的詞。
這套笨拙的詞匯表帶來了兩個直接的后果。
因為詞匯太底層、太冗長,自回歸模型需要學習非常長的序列才能畫出一張圖,這極大地延長了訓練時間。
當需要根據類別(比如生成一只貓)來創作時,由于詞匯本身不包含足夠的語義信息,模型很難準確把握創作方向。
為了得到高保真度的圖像,研究者們不得不引入一種名為無分類器引導(classifier-free guidance, CFG)的復雜技術。這就像在寫作時,需要一個語法老師在旁邊不斷地指點:你這個詞用得不對,應該這樣寫才更像貓。CFG雖然有效,卻讓推理過程變得更加緩慢和復雜。
就在生成模型為這套視覺詞匯所困擾時,計算機視覺領域的另一條路上,已經誕生了一批視覺大師——預訓練的視覺基礎模型,比如DINOv2和CLIP。
它們通過在海量數據上的學習,早已具備了提取豐富語義、并且泛化能力極強的視覺特征的能力。它們能輕易地分辨出圖片中的物體、場景和概念。
那這些視覺大師腦中的、高度結構化和語義豐富的特征,能否直接作為一套更高級、更高效的視覺詞匯,供生成模型使用呢?
一場初步探索:借用大師之眼看世界
為了驗證這個想法,研究人員進行了一項初步研究。
他們直接拿來已經訓練好的、凍結的視覺基礎模型(DINOv2、CLIP和SigLIP2),讓它們去看一張圖像,并提取出它們大腦深處的特征圖。
這些特征圖隨后被量化成離散的token,再交給一個VQGAN的解碼器,任務是把這些token翻譯回圖像。
結果令人振奮。

直接使用這些大師之眼提取的特征,在圖像重建和生成性能上,已經可以與從零開始訓練的普通VQGAN相媲美,甚至在某些方面有所超越。
更關鍵的發現是,這些基于視覺基礎模型的分詞器,其詞匯的語義質量(L.P.線性探測得分)遠遠高于VQGAN。
例如,VQGAN的L.P.得分只有23.1,而借用DINOv2特征的分詞器得分高達56.4,CLIP的更是達到了59.5。這說明,它們的詞匯本身就蘊含著豐富的意義。
實驗中也發現了一個有趣的現象:不同的大師,其視覺語言風格也不同。
使用DINOv2和SigLIP2特征的效果,要優于使用CLIP特征。研究人員推測,這與它們的訓練方式有關。
DINOv2和SigLIP2在訓練時都包含掩碼預測任務,這迫使它們不僅要理解整體語義,還要關注局部細節,這種能力對于高質量的圖像重建至關重要。而CLIP的訓練目標則更側重于全局的圖文對齊。
這次初步探索證實了核心假設:與其讓生成模型自己費力地創造一套笨拙的詞匯,不如直接讓它學會使用視覺大師的語言。
這為VFMTok的誕生奠定了基礎。
VFMTok的設計:更聰明的區域化視覺語言
基于視覺基礎模型能提供語義豐富的網格特征這一洞見,研究人員設計了VFMTok,一個全新的區域自適應分詞器。

它的核心思想是,不再像過去那樣死板地把圖像切成一個固定的網格,而是智能地識別出圖像中語義一致的區域,并為每個區域生成一個token。

VFMTok的第一步,是利用一個凍結的、預訓練好的視覺基礎模型(如DINOv2)作為編碼器,將輸入圖像翻譯成深層的特征嵌入。
研究人員認識到,視覺基礎模型的特征是分層的。淺層特征富含細節信息(紋理、邊緣),深層特征則包含高級語義(物體、概念)。
這兩者對于高質量的圖像重建都不可或缺。因此,VFMTok會從視覺基礎模型的多個層級提取特征,并通過一個簡單的多層感知機(MLP)將它們投影到統一的維度。
接下來是VFMTok最核心的創新:區域自適應采樣。
它不再是簡單地取用整個特征網格,而是引入了一組可學習的錨點查詢(anchor queries)。這些錨點可以被想象成一個個微小的、可自由移動的采樣探針。初始時,它們被放置在一個規則的網格上。
通過多層可變形交叉注意力機制,這些探針開始在多層級的特征圖上智能地探索。在每一層,每個探針都會預測一組采樣偏移量,這讓它能夠跳出固定的網格,從圖像中任何一個數據依賴的、不規則的位置進行采樣。
這些探針學會了自己去尋找那些語義上相似的區域,比如,一個探針可能會學著去覆蓋整只眼睛,另一個則覆蓋整個車輪。
它們從這些區域采樣特征,并通過注意力分數進行加權聚合,不斷更新自身,最終捕獲到高度濃縮的、特定于區域的信息。
這個過程結束后,最終優化好的查詢,就是VFMTok的視覺token——區域自適應token。
這種方式與固定網格相比,優勢是巨大的。
它自適應地將語義一致的區域聚合為一個token,極大地減少了空間上的冗余。一張圖不再需要用576個甚至1024個token來描述,VFMTok證明了,僅僅256個語義濃縮的token,就足以實現更高質量的重建和生成。
獲得了這些代表不規則區域的token后,下一步就是將它們解碼回一張規則的圖像。這里存在一個對齊的挑戰。
VFMTok為此設計了一個巧妙的解碼流程。它首先初始化一組掩碼圖像token,可以理解為一張空白的、等待被填充內容的畫布。這組空白token與位置嵌入信息相加,從而具備了空間感知能力。
隨后,去量化后的區域自適應token(也就是從碼本中查回來的連續向量)與這組空白畫布token連接在一起。這個組合序列被送入一個輕量級的Transformer解碼器(EViT)。
這個Transformer的作用,就像一個信息廣播站。它將每個區域自適應token中蘊含的豐富信息,有效地傳播到畫布上的正確位置。通過因果自注意力機制,信息流動的方向被設計為與后續自回歸模型的生成順序保持一致。
最終,這個Transformer輸出一組被填充好的圖像token,它們已經形成了規則的2D網格結構。這些token被重塑成空間網格,再輸入一個標準的解碼器,就能重建出最終的圖像。
為了確保VFMTok的視覺token不僅能還原圖像的皮囊,更能保留其靈魂(即語義),研究人員在訓練時加入了一個額外的監督信號。
除了傳統的圖像重建損失(追求形似),VFMTok還增加了一個特征重建目標(追求神似)。
模型不僅要重建出原始圖像,還要嘗試重建出視覺基礎模型自己看到原圖時,在其最深層產生的那些高級語義特征。
通過計算重建特征與真實特征之間的余弦相似度損失,VFMTok的token被強制要求與視覺大師的理解保持高度一致。
在計算圖像重建的對抗損失時,VFMTok用一個預訓練的DINOv1-S模型替換了傳統的PatchGAN判別器。研究人員發現,用一個同樣懂語義的模型來做裁判,能提供更有意義的指導,從而穩定地提升重建質量。
通過圖像重建和特征重建這兩個目標的協同作用,VFMTok的訓練過程被有效地引導,最終產生的token既能保留豐富的低級細節,又蘊含著高級的語義信息。
實驗結果:更少的token,更好的畫作
VFMTok在多個基準測試中都展現了其卓越的性能,無論是圖像重建的保真度,還是圖像生成的質量和效率。
在圖像重建任務上,VFMTok與多個主流分詞器進行了對比。

可以清晰地看到,VFMTok僅用256個token,就取得了0.89的rFID分數(越低越好),優于使用576個token的VQGAN(0.95)和同樣使用256個token的TiTok(1.05)。
rIS分數(越高越好,衡量的是重建圖像與原始圖像在語義上的一致性)高達215.4,顯著超過了所有其他方法,比如VQGAN的197.3和TiTok的191.5。這強有力地證明了VFMTok的token在重建過程中,能夠更好地保持圖像的核心語義內容不丟失。
在更具挑戰性的ImageNet 256×256類別條件生成任務上,VFMTok的表現堪稱驚艷。
VFMTok與主流擴散模型、掩碼預測模型和自回歸模型的全面對比。

在與同類自回歸模型的比較中,VFMTok的優勢尤為明顯。在相同的訓練設置下,VFMTok-B(111M參數)的gFID(越低越好)為3.43,gIS(越高越好)為252.2,而使用VQGAN的LlamaGen-B的gFID為6.09,gIS僅為182.5。VFMTok在性能上實現了碾壓式的提升。
更令人印象深刻的是,當VFMTok與頂級的RAR生成框架結合時,它取得了1.36的gFID分數,這是目前已知的該任務上的最先進(SOTA)性能。
最關鍵的發現來自于無CFG的實驗結果。當去掉無分類器引導這個輔助輪后,大多數模型的性能都會急劇下降。例如,LlamaGen-3B的gFID從2.19惡化到9.38。
而VFMTok,即使在沒有CFG的情況下,其1.4B參數的模型(VFMTok-XXL)依然能取得1.95的gFID,甚至比帶CFG的LlamaGen-3B還要好。
這個結果意義重大,它表明VFMTok的token本身就具有極強的語義指向性,模型不再需要額外的強力引導就能生成高質量、類別準確的圖像。這也意味著,VFMTok可以在推理時省去CFG的復雜計算,從而極大地提升生成速度。
拆解VFMTok:每個部件都不可或缺
為了證明VFMTok的每一個設計都是有效的,研究人員進行了一項詳細的消融研究,像搭積木一樣,一步步地構建出完整的VFMTok,并觀察每一步帶來的變化。

這個過程清晰地揭示了VFMTok成功的秘訣:
- 起點(VQGAN):基線性能,使用576個token。
- + 凍結VFM:第一步,用凍結的DINOv2替換VQGAN的編碼器。重建和生成性能基本持平,但token的語義質量(L.P.)從23.1飆升到56.4。這證明了引入大師之眼的價值。
- + 區域自適應:第二步,引入區域自適應采樣,將token數量減少到256。效率提升了,但由于缺乏明確監督,重建和生成質量略有下降。
- + 多級特征:第三步,讓采樣探針從VFM的多個層級提取特征。重建質量得到顯著提升(rFID從1.20降至0.92),因為模型同時獲得了細節和語義信息。
- + 特征重建:最后一步,加入特征重建目標。這是點睛之筆。所有指標都得到了顯著提升,rFID達到0.89,rIS達到215.4,生成gFID降至3.42,語義質量L.P.更是高達69.4。這個目標有效地校準了token,使其與視覺大師的理解完全對齊。
最后,研究人員還做了一個反向實驗:如果保留VFMTok的全部結構,但把預訓練的VFM換成一個隨機初始化的編碼器會怎樣?
結果顯示(表4最后一行),性能全面退化,回到了普通VQGAN的水平。
這最終證明,凍結的、預訓練的視覺基礎模型,正是VFMTok成功的基石。它不僅提供了一個絕佳的起點,其語義豐富的潛在空間還極大地加速了自回歸模型的訓練收斂速度,達到了普通VQGAN的3倍。
VFMTok通過一套環環相扣的精妙設計,最終產生了一套緊湊、高效且語義豐富的視覺詞匯,為自回歸圖像生成帶來了質的飛躍。
VFMTok這套新的語言讓自回歸模型在圖像重建和生成任務上都取得了SOTA級別的性能。
更重要的是,它用更少的token,實現了更快的訓練收斂和推理速度,并且擺脫了對CFG的依賴。

































