多模態大語言模型離散標記化技術:演進、挑戰與未來方向
多模態大模型為何需要離散標記化?
大語言模型(LLMs)的核心優勢在于處理離散文本序列,但現實世界數據(圖像、音頻、視頻等)本質上是連續信號。直接將這些數據輸入LLMs會面臨兩大挑戰:
- 模態鴻溝:連續信號與LLMs的離散token空間不兼容,導致跨模態對齊困難。
- 計算瓶頸:高維原始數據(如4K視頻)直接輸入LLMs將引發災難性的計算開銷。
離散標記化(Discrete Tokenization) 成為關鍵解決方案:通過向量量化(VQ) 技術將連續數據壓縮為緊湊的離散token序列,既保留語義信息,又無縫適配LLMs的架構。
新方法:八大量化技術構建統一token空間
論文提出首個系統化VQ技術分類框架,涵蓋8類核心方法,突破傳統量化瓶頸:
1. 向量量化(VQ)
- 原理:將連續向量映射到有限碼本(Codebook)的最近鄰碼字。
- 創新點:提出EMA碼本更新與碼本重置策略,解決“碼本坍塌”(90%碼字未被使用)問題。

2. 殘差向量量化(RVQ)
- 原理:多階段量化殘差信號(如圖3),逐步逼近原始數據。
- 優勢:MAGVIT-v2采用RVQ,在視頻生成任務中**碼本利用率達99%**,比傳統VQ提升40%。

3. 免查找量化技術
- 有限標量量化(FSQ):將向量各維度獨立量化為整數(如
{-1,0,1}),無需碼本查找。 - 查找自由量化(LFQ):二值化量化(
{-1,1}),直接生成token索引。 - 突破:LFQ在ImageNet生成任務中推理速度提升3倍,且無碼本坍塌問題。
FSQ/LFQ/BSQ對比
FSQ/LFQ/BSQ對比
4. 其他關鍵技術
- 乘積量化(PQ):高維空間分解為子空間獨立量化,壓縮率提升10倍。
- 圖錨點標記化(GART):用錨節點+關系類型替代傳統碼本,**知識圖譜任務參數量減少70%**。
實驗結果
論文通過100+篇文獻實驗驗證離散標記化的有效性,關鍵結果如下:
1. 圖像生成:LFQ碾壓傳統VQ

2. 語音處理:離散token提升魯棒性
- VALL-E [192]:基于離散token的TTS模型,在零樣本語音合成中MOS評分達4.28(人類評分4.5)。
- JTFS LM [230]:離散token在語音識別任務中WER降低15%**,優于連續特征。
3. 多模態LLMs:統一token空間成關鍵
- Chameleon [183]:采用VQ統一圖文token,實現圖文交錯生成。
- VideoPoet [87]:結合LFQ(圖像/視頻)+RVQ(音頻),在分鐘級視頻生成中FID達18.7。

4. 推薦系統:RVQ壓縮效率顯著
- VQ-Rec :用RVQ壓縮用戶行為序列,存儲空間減少60%,召回率提升8%。
總結
本文首次系統梳理了多模態LLMs的離散標記化技術:
- 技術價值:通過VQ/RVQ/FSQ等8類方法,解決模態鴻溝與計算瓶頸。
- 性能突破:LFQ、MAGVIT-v2等模型在圖像/視頻生成、語音合成等任務中達到SOTA。
- 未來方向:動態量化、跨模態統一token空間、可解釋碼本設計。
?
論文代碼與數據集:GitHub鏈接:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey


































