簡(jiǎn)單卻強(qiáng)大!端到端視覺Tokenizer調(diào)優(yōu)讓多模態(tài)任務(wù)性能飆升!智源&盧湖川團(tuán)隊(duì)等發(fā)布ETT

文章鏈接:https://arxiv.org/pdf/2505.10562
亮點(diǎn)直擊
- 提出了一種新的視覺分詞器訓(xùn)練范式,以釋放視覺分詞器在下游自回歸任務(wù)中的潛力。該視覺分詞器能夠感知并針對(duì)下游訓(xùn)練進(jìn)行優(yōu)化。
- 引入了一種簡(jiǎn)單而有效的端到端視覺分詞器調(diào)優(yōu)方法ETT。ETT利用分詞器的碼本嵌入而不僅限于離散索引,并應(yīng)用詞級(jí)描述損失來優(yōu)化視覺分詞器的表示。
- ETT顯著提升了基于下一詞預(yù)測(cè)范式的下游任務(wù)結(jié)果,包括多模態(tài)理解和生成任務(wù),同時(shí)保持了分詞器的重建性能。

總結(jié)速覽
解決的問題
- 現(xiàn)有視覺分詞器(vision tokenizer)的訓(xùn)練與下游任務(wù)解耦,僅針對(duì)低層重建(如像素級(jí))優(yōu)化,無法適應(yīng)不同下游任務(wù)(如圖像生成、視覺問答)的多樣化語義需求。
- 分詞過程中的信息損失可能成為下游任務(wù)的性能瓶頸(例如圖像中文本的分詞錯(cuò)誤導(dǎo)致生成或識(shí)別失敗)。
- 現(xiàn)有自回歸模型僅使用分詞器的離散索引,忽略了視覺嵌入表示的學(xué)習(xí),導(dǎo)致視覺-語言對(duì)齊困難。
提出的方案
- 端到端聯(lián)合優(yōu)化:將視覺分詞器與下游自回歸任務(wù)(如文本生成)共同訓(xùn)練,同時(shí)優(yōu)化分詞器的重建目標(biāo)和下游任務(wù)目標(biāo)(如描述生成)。
- 利用詞嵌入而非離散索引:引入分詞器碼本(codebook)的連續(xù)視覺嵌入表示,而非僅使用離散索引,增強(qiáng)視覺語義學(xué)習(xí)。
- 保持簡(jiǎn)潔性:無需修改大語言模型(LLM)的原始文本碼本或架構(gòu),僅通過調(diào)整分詞器的訓(xùn)練方式提升性能。
應(yīng)用的技術(shù)
- 多任務(wù)聯(lián)合訓(xùn)練:結(jié)合圖像重建損失(如VQ-VAE的量化損失)和下游任務(wù)損失(如描述生成損失)。
- 連續(xù)嵌入表示:通過分詞器的碼本嵌入(而非離散token索引)傳遞視覺信息,改善視覺-語言對(duì)齊。
- 輕量化集成:直接復(fù)用現(xiàn)有分詞器和LLM的架構(gòu),僅通過梯度回傳優(yōu)化分詞器的碼本表示。
達(dá)到的效果
- 性能提升:在多模態(tài)理解(如視覺問答)和視覺生成任務(wù)上,相比凍結(jié)分詞器的基線模型,性能提升2%-6%。
- 保留重建能力:在優(yōu)化下游任務(wù)的同時(shí),不損害分詞器的原始圖像重建能力。
- 通用性與易用性:方法簡(jiǎn)單易實(shí)現(xiàn),可無縫集成到現(xiàn)有多模態(tài)基礎(chǔ)模型(如Emu3)中,適用于生成和理解任務(wù)。
方法論
視覺分詞器

端到端視覺分詞器調(diào)優(yōu)
從離散索引到碼本嵌入。Emu3等類似方法僅在下游任務(wù)中使用視覺分詞器的離散索引,丟棄了視覺分詞器嵌入的豐富表示能力。這些方法僅依賴離散碼本索引,阻礙了梯度傳播,使得端到端訓(xùn)練無法實(shí)現(xiàn)。為解決這一限制,本文提出ETT,直接將視覺分詞器的碼本嵌入連接到 LLM,有效利用視覺分詞器中編碼的更豐富特征表示,同時(shí)實(shí)現(xiàn)端到端訓(xùn)練。



多模態(tài)生成與理解的訓(xùn)練方案
下游多模態(tài)感知與生成的完整訓(xùn)練流程包含三個(gè)連續(xù)訓(xùn)練階段。采用的訓(xùn)練數(shù)據(jù)由公開圖像數(shù)據(jù)集構(gòu)成,并輔以如下表 1 所示的多樣化理解和生成指令數(shù)據(jù)。

階段1:對(duì)齊學(xué)習(xí)

階段2:語義學(xué)習(xí)

階段3:后訓(xùn)練
通過端到端調(diào)優(yōu)獲得增強(qiáng)版視覺分詞器后,采用標(biāo)準(zhǔn)后訓(xùn)練流程實(shí)現(xiàn)多模態(tài)理解與生成。本階段凍結(jié)視覺分詞器,調(diào)優(yōu)視覺投影層和LLM層,分別訓(xùn)練兩個(gè)專用模型:
- ETT-Chat:增強(qiáng)多模態(tài)理解中的指令跟隨能力,使用SOL-recap、LLaVA-OneVision和Infinity-MM等多源高質(zhì)量指令數(shù)據(jù)
- ETT-Gen:優(yōu)化文本到圖像生成,包含1400萬Flux模型生成的AI樣本,以及從開源網(wǎng)絡(luò)數(shù)據(jù)篩選的1600萬圖文對(duì)(基于圖像分辨率和LAION美學(xué)評(píng)分)
實(shí)驗(yàn)結(jié)果
訓(xùn)練設(shè)置
數(shù)據(jù)準(zhǔn)備。(1)視覺語言預(yù)訓(xùn)練&視覺分詞器數(shù)據(jù)集。采用[8]的預(yù)處理流程優(yōu)化SA-1B、OpenImages和LAION,分別得到11M、7M和14M張圖像。使用[8]的標(biāo)題生成引擎產(chǎn)出32M條高質(zhì)量描述。(2)監(jiān)督微調(diào)數(shù)據(jù)集。對(duì)于理解任務(wù),從Infinity-MM提取31.8M個(gè)多任務(wù)樣本,從LLaVA-OneVision篩選3.5M條優(yōu)先復(fù)雜對(duì)話結(jié)構(gòu)的指令數(shù)據(jù);對(duì)于生成任務(wù),通過Flux模型生成14M個(gè)AI創(chuàng)作樣本,并從開源網(wǎng)絡(luò)數(shù)據(jù)精選16M個(gè)圖文對(duì),基于圖像分辨率和美學(xué)評(píng)分進(jìn)行過濾。

多模態(tài)理解評(píng)估
在主流視覺語言感知基準(zhǔn)上驗(yàn)證ETT,包括:任務(wù)專項(xiàng)評(píng)估(GQA、TextVQA)、幻覺檢測(cè)(POPE)、開放域多模態(tài)理解(MME、MMBench、SEED-Bench、MM-Vet)以及科學(xué)推理(ScienceQA-IMG)。
如下表2所示,ETT在更小模型和數(shù)據(jù)規(guī)模下,持續(xù)超越Chameleon、LWM、Liquid等離散方法,凸顯端到端調(diào)優(yōu)策略的高效性。相比Show-o,ETT在顯著減少訓(xùn)練數(shù)據(jù)的同時(shí)實(shí)現(xiàn)更優(yōu)性能,證明其數(shù)據(jù)利用策略的有效性。與QwenVL-Chat、EVE、Janus等基于連續(xù)編碼器的SOTA視覺語言模型相比,ETT在不依賴額外視覺編碼器的情況下仍具競(jìng)爭(zhēng)力,既簡(jiǎn)化架構(gòu)又降低計(jì)算開銷。ETT的成功源于視覺分詞器的端到端訓(xùn)練方案,其有效協(xié)調(diào)了多模態(tài)理解與生成的內(nèi)在沖突。

視覺生成評(píng)估
在GenEval和T2I-CompBench基準(zhǔn)上,全面評(píng)估文本到圖像生成能力,對(duì)比基于擴(kuò)散和自回歸的SOTA方法(含專業(yè)模型與通用模型)。如下表3所示,在top-k=131,072(視覺詞表大小)和top-p=1.0的推理配置下,本文的方法以較少LLM參數(shù)和小規(guī)模訓(xùn)練數(shù)據(jù)取得0.63的綜合得分,超越SDXL等擴(kuò)散模型。相比LlamaGen(專業(yè)模型)和Chameleon(通用模型)等自回歸方法,ETT所需訓(xùn)練數(shù)據(jù)或參數(shù)量更少。結(jié)合提示詞改寫后,其性能逼近DALL-E3和EMU3等領(lǐng)先模型。在T2I-CompBench上,ETT在顏色、形狀、紋理三個(gè)維度分別取得81.03、58.19和72.14分,與基于擴(kuò)散的SOTA模型相當(dāng)。這些結(jié)果充分驗(yàn)證了端到端視覺分詞器調(diào)優(yōu)方案的有效性。

下圖2展示了ETT生成的定性結(jié)果,可見其能準(zhǔn)確遵循提示詞生成多樣化視覺內(nèi)容。該模型擅長(zhǎng)處理不同藝術(shù)風(fēng)格、主體和背景的圖像生成,可適應(yīng)多種構(gòu)圖結(jié)構(gòu)和審美偏好。

消融實(shí)驗(yàn)
為驗(yàn)證ETT對(duì)下游多模態(tài)生成與理解任務(wù)的有效性,本文在多個(gè)主流理解基準(zhǔn)(如SEEDBench-Img、GQA、TextVQA和MME-Perception)及文本到圖像生成評(píng)估數(shù)據(jù)集GenEval上進(jìn)行了全面消融研究。
端到端調(diào)優(yōu)優(yōu)勢(shì)。首先探究ETT對(duì)促進(jìn)多模態(tài)下游任務(wù)的有效性。為公平驗(yàn)證ETT優(yōu)化視覺分詞器特征表示的潛力,所有理解與生成任務(wù)模型均采用SOL-recap訓(xùn)練,理解任務(wù)額外使用LLaVA-mix-665K進(jìn)行監(jiān)督微調(diào)。如下表4所示,相比傳統(tǒng)分詞器利用方式,引入ETT在理解與生成任務(wù)上均帶來顯著性能提升。未采用端到端調(diào)優(yōu)時(shí),用碼本嵌入替換離散索引可部分緩解信息損失問題,在多模態(tài)理解基準(zhǔn)上帶來明顯增益;盡管該替換會(huì)降低視覺生成性能,但其建立了完全可微的模型架構(gòu),為端到端優(yōu)化奠定基礎(chǔ)。在此基礎(chǔ)之上,引入視覺分詞器的端到端調(diào)優(yōu)相比傳統(tǒng)設(shè)置(即首行)進(jìn)一步提升了理解與生成性能,尤其在依賴視覺特征的任務(wù)上表現(xiàn)突出(如通用視覺問答↑5%、光學(xué)字符識(shí)別↑6%)。

理解與重建的權(quán)衡。進(jìn)一步研究ETT在視覺重建與多模態(tài)理解之間的內(nèi)在任務(wù)權(quán)衡。如下表5所示,相比未調(diào)優(yōu)基線(首行),調(diào)優(yōu)視覺分詞器始終為理解任務(wù)帶來顯著收益,但會(huì)以不同程度犧牲重建性能。僅用圖像到文本理解任務(wù)調(diào)優(yōu)分詞器(第二行)在各類理解基準(zhǔn)上取得最佳性能,但重建質(zhì)量大幅下降(ImageNet 256X256設(shè)置的rFID從1.033驟降至45.701);引入權(quán)重0.25的輔助重建目標(biāo)后,理解精度略有下降而重建質(zhì)量顯著改善(rFID從45.701提升至1.648),表明聯(lián)合訓(xùn)練理解與重建任務(wù)的重要性;將重建權(quán)重α增至1.0可獲得最佳重建rFID 1.500,但會(huì)導(dǎo)致感知能力最弱。因此本文選擇α=0.25作為默認(rèn)重建損失權(quán)重以平衡兩項(xiàng)任務(wù)。

下圖3可視化對(duì)比了引入ETT前后的重建結(jié)果。經(jīng)ETT調(diào)優(yōu)的視覺分詞器在保持與原模型相當(dāng)?shù)牡图?jí)視覺細(xì)節(jié)同時(shí),增強(qiáng)了文本渲染等特定方面,表明ETT既能保留豐富的底層細(xì)節(jié),又能改善高層語義表征。

結(jié)論
本研究致力于解決多模態(tài)學(xué)習(xí)中視覺分詞器的表征瓶頸問題,提出了一種簡(jiǎn)單而有效的端到端視覺分詞器調(diào)優(yōu)方法ETT。該方法通過采用碼本嵌入替代純離散索引,并施加分詞級(jí)標(biāo)題損失來實(shí)現(xiàn)分詞器與下游訓(xùn)練的聯(lián)合優(yōu)化。實(shí)驗(yàn)表明,ETT在幾乎保持分詞器重建能力(甚至提升文本渲染等特定方面的重建性能)的同時(shí),顯著提升了純解碼器架構(gòu)下的多模態(tài)理解與生成能力。
局限性與未來方向
當(dāng)前工作的主要局限在于:端到端微調(diào)的數(shù)據(jù)規(guī)模和模型容量仍有擴(kuò)展空間,以進(jìn)一步提升視覺表征與下游任務(wù)性能。此外,現(xiàn)有方法聚焦于通過優(yōu)化現(xiàn)有視覺分詞器的視覺特征(利用LLM的語義能力)來構(gòu)建簡(jiǎn)單有效的框架,而非從頭設(shè)計(jì)兼具理解與生成能力的視覺分詞器。雖然ETT證明了LLM驅(qū)動(dòng)的語義反饋對(duì)增強(qiáng)視覺分詞的有效性,但其仍依賴于對(duì)已有分詞器的微調(diào)而非從零開發(fā)。因此,未來本文將探索從零開始端到端訓(xùn)練視覺分詞器,以構(gòu)建更全面、適應(yīng)性更強(qiáng)的多模態(tài)表征方案。另外,突破圖像與文本模態(tài)的局限(如引入視頻與音頻)也是值得探索的前沿方向。本文希望這一簡(jiǎn)單有效的方法能為超越視覺生成與理解的多模態(tài)基礎(chǔ)模型發(fā)展提供啟示。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















