視覺Token注入CLIP語義,走向多模態理解與生成新范式
讓視覺token說話,既能看懂圖像,又可以畫出圖像!
騰訊ARC Lab聯合中科院自動化所、香港城市大學、浙江大學等機構提出了一種全新的視覺分詞器——TokLIP,即Token+CLIP。
可以將低級的離散視覺Token與高級的CLIP語義相結合,實現多模態理解與生成的高效統一。
不僅支持端到端的自回歸訓練,還能無縫接入現有LLM框架,極大降低了多模態模型的計算與數據門檻。
訓練數據量僅需同類方法的20%,還可以在圖像分類、圖文檢索和多模態理解等多項任務中達成SOTA,有理由相信,TokLIP或將成為構建下一代多模態通用模型的重要基礎組件。

下面是更多詳細內容介紹。
TokLIP 的結構與核心設計
過去幾年里,人工智能的發展已經從單一模態走向多模態,無論是圖像、視頻,還是文本,人們希望機器能夠像人類一樣,既能“看懂”世界,也能“說清”所見。
其中關鍵問題是:如何在同一個模型中實現統一的理解(comprehension)與生成(generation)能力。
目前的自回歸多模態大模型對圖像的編碼大多依賴兩類核心部件。
一類是視覺編碼器(如CLIP),它擅長把圖像轉化為高層語義表征,從而實現跨模態對齊,但是難以支持視覺生成任務。
另一類是視覺tokenizer(如VQ-VAE系列),它能把圖像離散化成token,使其在形式上與文本一致,方便自回歸Transformer聯合建模。
比如Emu3和Chameleon采用了全模態離散化的方案,把圖像、文本甚至其他模態統一轉化為離散token,交給大語言模型直接處理,這種方法在形式上實現了統一,但缺點在于:離散token包含的信息大多為圖像底層特征,導致語義信息不足,統一訓練的代價高昂,多模態理解任務性能受限。
另一方面,VILA-U等工作則強調通過離散化CLIP特征來增強視覺理解,但往往在語義對齊與底層重建的統一之間產生沖突,加大訓練損失的優化難度,可能出現“理解強但生成弱”或者“生成順暢但語義模糊”的問題。

因此,多模態領域迫切需要一種新的方法,能夠既保留視覺tokenizer的形式統一性,又融入CLIP級別的語義理解力,從而打破“理解與生成割裂”的瓶頸。
視覺Token語義化:讓圖像“能說話”
TokLIP的關鍵創新在于引入CLIP的語義來對視覺token進行語義化處理。
這意味著,圖像被分解成的每一個離散token,不僅攜帶底層結構信息,還被注入了與語言對齊的高層語義信息。
因此后續的自回歸模型不再面對“無意義的符號串”,而是直接處理帶有語義標簽的token,從而在跨模態對齊和任務泛化能力上都顯著提升。
換句話說,TokLIP讓視覺token不再只是“圖像的殘片”,而是變成了“會說話的語義單元”。
TokLIP框架與訓練流程
在模型架構上,TokLIP采用了視覺tokenizer與ViT-based token encoder相結合的方式,并通過語義監督損失學習圖像高層特征。

具體而言,圖像先經過一個預先加載的VQGAN進行離散化編碼,離散Tokens再通過一個MLP層被投影到CLIP初始化的ViT-based token encoder,得到高層語義特征,然后使用蒸餾和對比學習的損失函數優化MLP層和token encoder。
為了保證自回歸生成任務的能力,研究人員使用了Causal的Token encoder,保證自回歸生成圖像過程不存在信息泄漏。
與以往將連續圖像高層特征離散化訓練的方案不同,TokLIP在訓練過程中直接將語義注入到視覺token中,這種設計的好處在于:
- 不需要專門的重構損失來保證token的可逆性,避免了重構損失和語義監督的訓練沖突,降低了訓練復雜度;
- Freeze VQGAN的設計保留了生成能力和框架的靈活替換性,模型能夠在訓練過程中自適應地調整token的語義表達,使其既保留圖像細節,又兼顧語義對齊;
- 繼承預訓練的CLIP權重,在相同算力資源下能夠更快收斂,整個pipeline更加簡潔高效,并取得更優的性能。
這種“輕量而統一”的訓練范式,使TokLIP在兼顧理解與生成能力的同時,降低了訓練優化難度和資源需求,而且可以隨著VQGAN和CLIP的技術更迭得到進一步增強。
另外,訓練得到的TokLIP在嵌入MLLM時,研究人員會將low-level的tokens和high-level的clip features進行concat后,送入MLLM進行自回歸編碼,這樣的架構設計在增強視覺tokens語義的前提下,保證了離散化方案的統一理解生成能力。
實驗效果
TokLIP基于預訓練VQGAN,提供三種版本:TokLIP-B(256×256,VQGAN來自LlamaGen);TokLIP-L(384×384,同樣來自LlamaGen);TokLIP-XL(512×512,采用IBQ,26萬codebook)。
所有模型都使用16倍下采樣,encoder初始化自SigLIP2,并通過兩層MLP將VQGAN特征映射到語義空間,訓練數據涵蓋CapsFusion、CC12M、LAION-high-resolution,其中TokLIP-B額外加入LAION400M子集。
圖像分類與圖文檢索任務
在圖像分類與跨模態檢索中,TokLIP超越了VILA-U、QLIP等離散語義方法,并超過了部分連續的視覺編碼器,證明語義化VQ token的有效性。
更重要的是,TokLIP所需訓練數據遠少于同類方案,卻依然取得領先性能,展現出一種輕量而高效的解決路徑。

多模態理解任務
當TokLIP被接入多模態大語言模型(MLLM)時,其語義token能無縫嵌入現有的語言建模框架。
實驗中,研究人員在常用的7個下游任務上進行了評估,結果表明:TokLIP在離散化方案中取得了很有競爭力的結構,證明了TokLIP能夠提供帶有語義信息的輸入,使得MLLM在問答與推理時更加準確。

自回歸圖像生成任務
在自回歸生成(AR Generation)任務上,TokLIP的語義化token在這一環節提供了語義信息,實驗表明,TokLIP比僅使用VQGAN在不同訓練設置下都取得了更低的FID效果,證明了語義信息可以幫助生成任務。

TokLIP通過創新性地將語義化VQ token與CLIP級語義對齊相結合,為離散tokens注入高層語義,有效提升了離散化方案的理解與生成的能力。
憑借獨特的架構設計和高效的數據利用,TokLIP在分類、檢索、MLLM理解及自回歸生成等多模態任務中均展現出優異表現,為統一的理解與生成范式提供了一種輕量而高效的解決方案,也為未來多模態模型的發展開辟了新的方向。
目前,TokLIP的模型和訓練代碼已經開源,感興趣的uu可以戳文末鏈接關注更多詳情。
論文鏈接:https://arxiv.org/abs/2505.05422
代碼鏈接:https://github.com/TencentARC/TokLIP
模型權重:https://huggingface.co/TencentARC/TokLIP





































