小模型大能力!蘋果發布統一多模態小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!

文章鏈接:https://arxiv.org/pdf/2509.16197

文本到圖像的生成定性分析

定量分析
亮點直擊
- hybrid tokenizer 設計巧妙:通過共享編碼器+雙適配器結構,在一個語義空間中同時支持連續和離散表征,顯著緩解了理解與生成之間的任務沖突。
- 統一且可擴展的訓練配方:三階段訓練策略有效整合多樣數據,支持模型同時學習理解和生成,并具備良好的擴展性。
- 強競爭力與擴展性:小模型(3B)即可達到SOTA, scaling實驗表明模型能力隨參數增加持續提升,尤其在文本豐富任務和圖像結構完整性上表現突出。
總結速覽
解決的問題
- 現有開源統一多模態大語言模型(LLMs)在圖像理解與圖像生成能力之間存在明顯的性能權衡,通常顧此失彼。
- 生成任務偏好離散圖像token,而理解任務更受益于連續嵌入,這種表征沖突導致模型性能下降,尤其在文本密集(text-rich)任務上表現顯著落后于專用模型。
- 現有解決方案(如雙tokenizer或混合專家模型)存在參數效率低、架構復雜或無法有效協同 scaling 等問題。
提出的方案
- 提出Manzano,一個簡單且可擴展的統一多模態框架,核心是混合圖像分詞器(hybrid image tokenizer)和精心設計的訓練策略。
- 使用一個共享視覺編碼器,搭配兩個輕量適配器:
a.連續適配器:為圖像理解任務輸出連續嵌入;
b.離散適配器:為文本到圖像生成任務輸出離散token。
- 采用統一的自回歸LLM同時預測文本和圖像token,再通過一個輔助擴散解碼器將圖像token轉換為像素。
應用的技術
- 混合分詞器:基于同一視覺編碼器生成連續和離散表征,減少任務沖突。
- 三階段訓練配方:
a.預訓練:在大規模純文本、圖文交錯、圖像到文本(IT)、文本到圖像(TI)數據上進行;
b.繼續預訓練:使用更高質量的IT和TI數據;
c.有監督微調(SFT):使用精心策劃的指令數據提升理解和生成能力。
- 擴散解碼器:用于將生成的圖像token解碼為高質量圖像。
達到的效果
- 在統一模型中實現了SOTA性能,在理解和生成任務上均表現優異。
- 在文本密集型評估中媲美專用模型,且模型規模更小(如3B參數即達到競爭性性能)。
- 實驗顯示任務沖突極小,聯合訓練有效;模型能力隨LLM decoder(300M→30B)和擴散解碼器的擴大而持續提升。
模型
Manzano 是一個統一理解與生成任務的多模態大語言模型(MLLM),采用自回歸(AR)方法實現。其架構包含三個組成部分:
- 一個混合視覺分詞器,可同時生成連續和離散的視覺表示;
- 一個LLM解碼器,可接收文本token和/或連續圖像嵌入,并以自回歸方式從聯合詞匯表中預測下一個離散圖像或文本token;
- 一個圖像解碼器,用于將預測出的圖像token渲染為圖像像素(框架見下圖3)。

設計選擇
統一的混合表示。混合圖像分詞器將圖像編碼為用于理解(I2T)的連續token和用于生成(T2I)的離散token,同時共享同一個視覺編碼器。
- I2T 任務使用連續表示。Manzano 在 I2T 任務中使用連續嵌入,這一策略已被主流視覺理解模型廣泛采用,并被證明具有優越性能,尤其是在需要更多視覺細節的文本密集型任務(如 DocVQA、ChartQA 和 InfoVQA)中。我們的消融實驗(表1)也表明,離散token在理解任務上表現較差,這也反映了一些純離散統一模型在理解任務上的較弱結果。
- T2I 任務使用離散表示。將圖像表示為離散代碼索引使LLM能夠采用與文本相同的自回歸下一token學習策略,從而簡化生成流程并改善擴展行為。
- 共享的統一語義空間。兩個分支源自同一編碼器主干,因此連續與離散token處于共同的語義空間中,這減少了潛在的任務沖突。
LLM解碼器專注于回歸高層語義(文本和圖像token),而擴散解碼器負責在像素空間中渲染高保真細節。許多現有的統一模型為理解和生成使用獨立的分詞器——例如,使用CLIP分詞器處理理解任務,使用VAE分詞器處理生成任務。盡管該策略保留了更多圖像空間細節,但它加劇了后續LLM內部的任務沖突。一些研究[9,10]發現,專用的生成分詞器與LLM的兼容性不如語義分詞器。因此,我們采用的混合統一圖像分詞器使用單一圖像編碼器處理理解和生成兩類任務。
簡潔性與可擴展性。我們的設計保持訓練損失的標準性以及各組件的清晰解耦,從而簡化了統一MLLM的統一化與擴展過程。
- 統一的自回歸目標。我們的統一LLM解碼器對純文本、I2T 和 T2I 任務使用單一的自回歸目標,無需額外的輔助損失或針對不同任務的輸出頭。
- 解耦的組件。語義預測(LLM解碼器)與細節生成(圖像解碼器)之間的清晰分離支持基礎LLM與圖像解碼器的獨立擴展。
- 實用的擴展機制。本文的方法能夠直接利用來自LLM/MLLM以及擴散解碼器的成熟、可擴展的訓練流程。相比之下,先前的工作(例如 Transfusion和 Bagel)嘗試在單一LLM中融合自回歸文本預測和擴散圖像生成過程以進行圖像生成,但大規模擴展方面的探索仍顯不足。我們解耦式的設計有助于將LLM解碼器擴展至30B參數,擴散解碼器擴展至3B參數,并展現出良好的擴展特性。
架構
混合圖像分詞器。
本文的分詞器包含三個組件:(i)一個標準視覺Transformer(ViT)作為視覺主干;(ii)一個連續適配器,首先應用一個3x3的空間到通道(STC)層將空間token數量減少至1/9(例如,從42x42x1024減少到14x14x9216),然后使用一個MLP將每個特征投影到LLM特征維度(例如2048);(iii)一個離散適配器,同樣以STC壓縮步驟開始,但隨后使用有限標量量化(FSQ)對特征進行進一步量化——選擇該方法是因為其簡單性以及對大碼本(實驗中為64K)的良好擴展性——最后再通過一個MLP投影到LLM特征維度。
統一LLM。將混合圖像分詞器連接到一個標準文本LLM解碼器上,以便在包含文本、理解數據和生成數據的混合數據集上進行統一訓練。對于語言主干,利用預訓練的LLM。
圖像解碼器。
在預訓練的混合圖像分詞器之上訓練一個圖像解碼器,以從離散圖像token重建像素空間中的圖像。給定輸入圖像,混合分詞器首先將其編碼為潛在表示,該表示作為流匹配(flow-matching) pipeline的條件輸入,該pipeline將高斯噪聲轉換為真實圖像。對于解碼器主干,本文采用DiT-Air架構,該架構采用分層參數共享策略,將標準MMDiT模型的尺寸減小約66%,同時保持相當的性能。我們提供了三種解碼器配置,參數規模分別為0.9B、1.75B和3.52B,支持從256到2048像素的一系列輸出畫布分辨率。
推理流程。
前面圖3(右)展示了理解和生成任務的推理流程。對于理解任務,Manzano使用混合圖像分詞器提取連續特征。這些特征與文本特征一起被輸入統一LLM解碼器,以預測最終答案。對于生成任務,Manzano接收文本輸入并預測一個圖像token序列。圖像解碼器隨后將這些token渲染為圖像像素。
訓練
數據
我們的訓練數據混合了純文本、圖像理解和生成數據,分為預訓練、繼續預訓練和監督微調(SFT)三個階段。我們利用高質量的純文本數據進行預訓練和SFT,以保持Manzano模型的語言建模能力。
預訓練與繼續預訓練
理解。本文使用兩種類型的圖像理解數據:描述性數據(配對的圖像和文本描述)和交錯圖文數據。對于描述性數據,我們組合使用了多個來源的23億個圖文對,包括CC3M、CC12M、COYO、VeCap和內部許可數據。這些數據經過過濾和重新描述處理以確保高質量。對于交錯數據,使用了來自[40]的17億個文檔和網絡爬取的交錯數據,類似于MM1和MM1.5的做法。
在繼續預訓練階段,進一步使用2400萬高質量能力導向數據進行訓練,包括文檔、圖表、多語言OCR、知識與推理、高質量合成描述數據,所有這些數據都啟用了圖像分割功能。
生成。圖像生成預訓練數據包含10億個內部文本-圖像對。本文使用不同的描述生成模型生成合成描述。在繼續預訓練階段,我們選擇了一個高質量的許可圖像子集,并使用更強大的MLLM重新為它們生成描述,生成的長度從20到128個token不等。
監督微調
理解。遵循MM1.5的方法,我們最終的理解SFT方案包含75%的圖文數據和25%的純文本數據。圖文部分進一步由約30%的通用知識數據、20%的文檔和圖表理解數據以及25%的視覺思維鏈(CoT)和內部生成的推理數據組成。
生成。本文的文本到圖像SFT數據包括精心策劃的真實數據和合成數據的混合。從DreamO數據集的真實世界文本-圖像對開始。然而,我們觀察到僅在該數據集上訓練,雖然對于標準的基于擴散的生成器足夠,但會導致我們的統一自回歸模型過擬合。為了緩解這個問題,用合成樣本擴展了訓練數據。首先,納入了來自成熟數據集的9萬個文本-圖像對,包括DALLE3-1M、BLIP-3o和ShareGPT-4o。其次,為了達到更大規模,通過將JourneyDB中的提示輸入到開源獨立擴散模型Flux.1-schnell中,生成了額外的400萬個對。
訓練方案
混合分詞器訓練
混合圖像分詞器旨在產生兩種類型的token:用于理解的連續token和用于生成的離散token,這些token與多模態LLM語義空間進行了預對齊。
首先使用CLIP預訓練視覺編碼器(ViT)。然后我們通過兩個并行的連續和離散適配器將一個預訓練的小型LLM解碼器(300M)連接到共享視覺編碼器(見圖3-左)。對于每個訓練樣本,我們隨機選擇一個適配器,并將相應的嵌入饋送到LLM解碼器,該解碼器使用下一token預測進行訓練。我們解凍所有參數,并在各種理解數據領域上訓練模型,包括通用知識、推理和文本密集型任務。
此過程增強了分詞器的理解能力,包括高層語義理解和細粒度空間細節。同時,兩個分支也被對齊到同一空間。我們按照第4.1節中描述的理解和純文本數據,進行預訓練、繼續預訓練和SFT階段。
訓練完成后,丟棄小型LLM解碼器,保留得到的混合圖像分詞器,然后將其用作統一LLM和圖像解碼器的視覺輸入模塊。
統一LLM訓練
如下圖4-左所示,我們凍結視覺編碼器和離散適配器的參數,以在訓練期間保持圖像token詞匯表的固定。我們按照分詞器中FSQ層的相同碼本大小,用64K個圖像token擴展了LLM嵌入表。

對于圖像理解,圖像分詞器從輸入圖像中提取連續特征,并將其直接饋送到LLM中,并在文本目標上計算標準下一token損失。對于圖像生成,分詞器使用其離散適配器將輸入圖像轉換為離散圖像token ID序列,這些ID通過擴展的LLM嵌入表映射到圖像token。然后,LLM僅對這些圖像token計算交叉熵損失。為了平衡理解任務和生成任務的訓練,將文本損失與圖像損失的權重比設置為1:0.5。
在三個階段訓練統一LLM。預訓練和繼續預訓練使用第4.1.1節中描述的圖像理解、圖像生成和純文本數據的40/40/20混合比例。我們在預訓練期間使用1.6T token(30B模型使用0.8T token)進行訓練,并在繼續預訓練期間額外使用83B token。類似地,SFT階段使用第4.1.2節中的數據集,按41/45/14的混合比例使用精心策劃的理解、生成和文本指令數據。
圖像解碼器訓練
本文的圖像解碼器按照漸進式分辨率增長范式進行訓練。我們首先在256x256分辨率下預訓練解碼器40萬步。隨后,模型在512、1024和2048的更高分辨率上逐步進行微調,每個階段訓練較短的計劃10萬步。對于每個階段,僅使用短邊大于目標分辨率的圖像進行訓練。
實驗
評估
本文在流行的基準測試上評估模型在圖像理解和生成方面的能力。
理解。采用以下三類基準進行多模態理解評估:
- 通用VQA:SeedBench、RealWorldQA和MMBench。
- 知識與推理:AI2D、ScienceQA、MMMU和MathVista。
- 文本密集型文檔與圖表理解:ChartQA、TextVQA、DocVQA、InfoVQA和OCRBench。
生成。使用自動評估和人工評估兩種方式:
- 自動評估:自動基準測試包括用于提示跟隨生成的GenEval和DPGBench,以及用于世界知識 informed 生成的WISE。
- 人工評估:我們策劃了一個包含800個具有挑戰性提示的綜合評估集,這些提示從已建立的學術基準和廣泛使用的社區評估平臺中二次抽樣得出。生成的輸出由內部人工評估員在三個維度上進行評估:結構完整性、指令遵循和美學質量。對于每個維度,評估員分配三個等級之一:嚴重問題、輕微問題或無問題,隨后量化為分數。為減少偏差,實體信息被掩蓋,樣本順序隨機化。每個樣本由三名評估員獨立評分,最終分數通過評估員間的平均得出以減少變異性。
理解-生成的相互作用
本節從兩個軸研究任務沖突:(i)分詞器策略(純離散 vs. 雙編碼器 vs. 我們的混合策略);(ii)任務混合(統一 vs. 單任務)。為簡化起見,我們在這些消融實驗中跳過了統一LLM訓練中的繼續預訓練階段。
分詞器策略。構建了兩個基線來比較統一混合分詞器策略:
- 純離散。先前的工作使用各種量化技術訓練量化的語義視覺分詞器,然后使用LLM預測下一個文本和圖像token。為了在我們的設置中模擬這些方法,我們將LLM的理解輸入替換為來自我們混合分詞器的離散特征,因此LLM對理解和生成使用相同的離散token。為了隔離量化對理解的影響,我們使用與混合分詞器中相同的視覺編碼器和離散適配器權重。
- 雙編碼器。另一種流行模型使用雙編碼器策略,通過語義編碼器保留詳細特征以用于理解,并通過VAE風格編碼器用于生成,有效減輕了理解性能的下降。我們通過將混合分詞器中的離散token替換為由內部復現的MagViT-2(一種自編碼器風格的分詞器)生成的token來復現此基線。該MagViT-2分詞器使用FSQ,具有64K碼本和8的空間壓縮比。對于生成任務,我們將圖像大小調整為像素128x128,而不是原始的256x256。這將每幅圖像的token數量減少到256個,提高了模型在基準測試中的指令遵循能力。
下表1顯示了圖像理解和生成任務的結果。混合分詞器范式顯示出最小的任務沖突,并在所有任務上優于純離散和雙編碼器基線。純離散基線導致理解性能顯著下降——尤其是在文本密集型基準測試中,這是由于量化造成的信息損失。雖然雙編碼器基線減輕了部分性能下降,但在所有理解任務上——尤其是在嚴重依賴LLM推理能力的知識基準測試上——它仍然 consistently 表現不如我們的混合分詞器。這表明異構視覺token之間的沖突存在于LLM內部。

統一 vs. 單任務。為了量化我們混合分詞器范式中的任務沖突,將本文的統一模型與專門為理解或生成訓練的基線進行比較。對于僅理解基線,我們從預訓練和SFT階段移除了所有文本到圖像數據。我們減少訓練步數,確保其接觸到的文本和圖像理解token數量與本文的統一模型相同。類似地,對于僅生成基線,我們移除理解數據,僅保留純文本和文本到圖像數據,同時減少訓練步數。使用300M和3B的LLM解碼器進行了此消融研究。下圖5a和5b中繪制的結果表明,使用我們的混合分詞器訓練的統一LLM在幾乎所有任務上的表現與專用的單任務模型相當,即使在300M這樣緊湊的規模下也是如此。這表明本文的統一混合分詞器范式成功統一了視覺感知和生成,而沒有性能權衡。

模型擴展行為
借助LLM解碼器和圖像解碼器的解耦設計,沿著兩個維度探索模型擴展行為:LLM解碼器和圖像解碼器。在擴展實驗中跳過了統一LLM訓練中的繼續預訓練階段。
擴展LLM解碼器。僅改變LLM解碼器的大小(300M、1B、3B和30B),同時保持圖像解碼器(0.9B)、數據混合和訓練超參數固定。下圖6a顯示,隨著LLM解碼器的擴展,所有理解(通用/知識/文本密集型)和生成(GenEval/DPG/WISE)指標均獲得單調提升。與300M相比,我們的3B Manzano模型顯著提高了+14.2(通用)、+18.8(知識)、+10.9(文本密集型)、+11.0(GenEval)、+1.48(DPG)和+12.0(WISE)。進一步擴展到30B相比3B產生了較小但一致的增益。下圖7展示了圖像生成的定性示例。我們可以看到,包括指令遵循、文本渲染和整體圖像質量在內的生成能力在不同LLM規模下 consistently 得到改善。這些結果支持了Manzano簡單而有效的設計:LLM解碼器捕獲高層語義,擴展它有益于理解和生成。


擴展圖像解碼器。評估了建立在3B LLM解碼器之上的不同大小圖像解碼器的性能。圖6b顯示,在人工評估中,結構完整性顯著提高(+9.9),而指令遵循性能保持不變。觀察到美學質量略有下降。對于自動生成基準測試,GenEval和DPGEval上的性能幾乎相同,而WISE表現出適度改善(+2.0)。
要點。擴展統一LLM主干 consistently 改善理解和生成,在文本密集型理解任務和生成的WISE上收益顯著。擴展圖像解碼器也提高了圖像質量,且對理解沒有負面影響。我們觀察到,當模型變大時,GenEval和DPG基準測試的性能趨于飽和。這種飽和促使重新審視如何評估統一模型的涌現能力,因為現有基準測試可能僅捕獲整體能力的有限部分,并可以通過有針對性的數據調優來提升。同時,我們觀察到世界知識生成任務的顯著改進,希望這些發現為未來社區研究的新方向鋪平道路。
與統一模型和專用模型的比較
本節在各種基準測試上評估我們的Manzano模型在圖像理解和文本到圖像生成方面的能力。為全面評估我們模型的性能,將其與SOTA統一模型和專用模型(即僅理解模型和獨立生成模型)進行比較。
圖像理解
從三個角度評估模型的理解能力:知識與推理、通用視覺問答以及文本密集型文檔與圖表理解。下表2所示的結果將本文的模型與類似大小的其他僅理解模型進行了比較。盡管是一個統一模型,本文的模型在許多理解基準測試上實現了最先進的性能,尤其是在文本密集型任務上。

知識與推理。在3B規模上,本文的模型優于7B規模內的所有統一模型,并達到與3B規模最佳專用模型相當或更好的性能。在30B規模上,本文的模型在ScienceQA、MMMU和MathVista基準測試中排名第一,在AI2D基準測試中排名第三,在這些類別中優于所有其他統一和專用模型。值得注意的是,本文的模型在ScienceQA上超過了最后三行列出的專有模型,并在AI2D基準測試上與當前最先進的模型具有競爭力。
通用視覺問答。對于通用視覺問答,本文的模型盡管規模較小,但通常優于其他統一模型。它在兩個規模上也與最先進的專用模型取得了競爭性結果。
文本密集型文檔與圖表理解。在文本密集型和圖表理解任務上,與所有其他統一模型、專用模型和專有模型相比,本文的模型在五個基準測試中的四個(ChartQA、TextVQA、DocVQA和OCRBench)上取得了最佳性能。對于InfoVQA任務,本文的模型顯著優于其統一對應模型,并在專用模型中取得了最佳結果。
圖像生成
展示了模型圖像生成能力的定量結果,并在兩個基準測試上進行了評估:GenEval和WISE。雖然兩個基準測試都評估模型遵循文本指令的能力,但WISE還通過世界知識 informed 屬性評估語義 grounding。如表3所示,本文的模型在GenEval和WISE上均實現了統一MLLM中的SOTA結果。3B模型已經能夠與更大的統一模型競爭或表現更好,而擴展到30B進一步提高了生成質量——最顯著的是在WISE上獲得了巨大收益,同時保持了強大的GenEval性能。這證實了我們的統一架構和訓練方案支持強大的指令遵循生成。
與統一模型的比較
除了專用模型,還與最近的統一模型(如Janus-Pro、X-Omni和Bagel)進行了比較,這些模型旨在單個框架內同時處理理解和生成任務。Manzano模型在幾乎所有理解基準測試上都顯著優于這些統一基線。在相似規模下,我們的3B模型在DocVQA、OCRBench和SEEDBench上超過了X-Omni和BAGEL,同時在MathVista和ChartQA上保持了競爭性性能。30B模型進一步擴大了這一領先優勢, consistently 在知識、通用VQA和文本密集型領域超越所有現有統一模型。這表明統一不必以犧牲理解能力為代價。通過精心的架構和訓練設計,本文的模型匹配或超越了最佳專用模型,同時提供了強大的生成能力。圖8中提供了與最先進統一模型的更多定性比較。

圖像編輯的能力擴展
圖像編輯既是關鍵應用,也是文本到圖像生成的自然延伸。盡管Manzano展示了強大的多模態建模能力,尤其是在文本密集型理解基準測試上,但在細粒度圖像編輯中實現像素級精度仍然具有挑戰性。類似地,解耦LLM-擴散范式中的近期工作報告稱,僅依賴LLM進行精確編輯存在困難,因為LLM缺乏直接像素級控制的本機機制。
將參考圖像同時提供給LLM和擴散解碼器。在這種 formulation 中,LLM負責多樣化的指令遵循和保持語義連貫性,而擴散解碼器則強制執行精確的像素級控制。通過聯合以參考圖像為條件,Manzano能夠實現準確的語義指令遵循,同時保持細粒度的視覺一致性。在圖9中,Manzano展示了多功能的編輯能力,包括指令引導編輯、風格遷移、修復、外繪和深度估計。

結論
Manzano,這是一個通過混合圖像分詞器和統一自回歸主干結合視覺理解與圖像生成的MLLM。LLM以文本和圖像token的形式預測高層語義,而輕量級的基于擴散的圖像解碼器則根據生成的圖像token渲染最終像素。結合簡化的三階段訓練方案,該架構實現了:(i)理解任務的最先進性能,(ii)在統一模型中生成能力的顯著提升,以及(iii)通過相互作用和擴展消融實驗驗證的最小任務干擾。除了生成,Manzano通過以參考圖像為條件同時作用于LLM和圖像解碼器,自然支持圖像編輯,實現了具有像素級控制的指令遵循。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/-sMTyYbRiO97d8-rWYbD6Q??

















