自回歸模型殺回圖像生成!實(shí)現(xiàn)像素級(jí)精準(zhǔn)控制,比Diffusion更高效可控
當(dāng)下的AI圖像生成領(lǐng)域,Diffusion模型無(wú)疑是絕對(duì)的王者,但在精準(zhǔn)控制上卻常常“心有余而力不足”。
在精確視覺控制、平衡多模態(tài)輸入以及高昂的訓(xùn)練成本方面仍面臨挑戰(zhàn)。有沒有一種更高效、控制更精準(zhǔn)的范式?
近日,來(lái)自伊利諾伊大學(xué)香檳分校(UIUC)、威斯康星大學(xué)麥迪遜分校、清華大學(xué)、北京大學(xué)、Adobe以及微軟的研究者們,將目光投向了另一條技術(shù)路線——
自回歸(Autoregressive, AR)模型,并提出了一個(gè)全新的高效多模態(tài)微調(diào)框架MENTOR,僅用十分之一的訓(xùn)練數(shù)據(jù)和次優(yōu)的模型組件,就能夠?qū)崿F(xiàn)超越Diffusion方法(如Emu2、DreamEngine)的性能,為復(fù)雜的多模態(tài)圖像生成提供了一個(gè)更高效、更可控的新范式。
圖片
MENTOR巧妙地繞開了Diffusion模型中常見的復(fù)雜設(shè)計(jì),通過獨(dú)特的兩階段訓(xùn)練法,讓自回歸模型也能高效地進(jìn)行多模態(tài)條件下的圖像生成,實(shí)現(xiàn)了像素級(jí)精準(zhǔn)控制。
多模態(tài)條件生成效果展示
解決多模態(tài)圖像生成中的平衡難題
在真實(shí)世界的應(yīng)用中,我們常常需要模型能夠理解和處理比純文本更復(fù)雜的指令,比如“讓這只貓戴上這頂帽子”或者“把這張圖的風(fēng)格變成梵高那樣”。這種包含圖像、文本等多種信息的輸入,對(duì)現(xiàn)有模型提出了巨大挑戰(zhàn):
- 精確控制難: Diffusion模型固有的隨機(jī)性,使得在需要高保真度的任務(wù)(如圖像重建)上難以實(shí)現(xiàn)精確的、確定性的控制.
- 模態(tài)失衡: 現(xiàn)有方法在融合多種輸入時(shí),常常會(huì)“偏科”,比如過度依賴參考圖像而忽略文本指令,或者反之。
- 訓(xùn)練成本高: 許多基于Diffusion的方法,為了對(duì)齊不同模態(tài),引入了復(fù)雜的適配器或額外的對(duì)齊模塊,需要大量的訓(xùn)練,計(jì)算成本高昂。
面對(duì)這些難題,我們不禁要問:是否存在一種更高效、更可控的范式來(lái)解決多模態(tài)圖像生成中的平衡難題?
為了應(yīng)對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了MENTOR,一個(gè)簡(jiǎn)單而高效的自回歸(AR)框架。MENTOR利用統(tǒng)一的Transformer架構(gòu),直接將多模態(tài)輸入與輸出的圖像token對(duì)齊,從而簡(jiǎn)化了模型結(jié)構(gòu)和訓(xùn)練過程。
MENTOR 概覽。左側(cè)為模型結(jié)構(gòu),右側(cè)為兩階段訓(xùn)練范式
與Diffusion模型不同,自回歸模型(如GPT系列)通過逐個(gè)預(yù)測(cè)下一個(gè)token來(lái)生成內(nèi)容。MENTOR的核心思想正是將這種序列生成能力應(yīng)用到圖像上:將所有輸入(文本、參考圖、分割圖等)和輸出圖像都“Token化”,轉(zhuǎn)換成一個(gè)統(tǒng)一的序列,然后讓AR模型來(lái)學(xué)習(xí)這個(gè)序列的生成規(guī)則。
MENTOR的核心設(shè)計(jì)包含兩大亮點(diǎn):
1. 統(tǒng)一的自回歸架構(gòu):模型由一個(gè)多模態(tài)編碼器和一個(gè)自回歸生成器組成。編碼器負(fù)責(zé)將輸入的圖像、文本等信息統(tǒng)一編碼成一個(gè)共享的表示(embedding)。然后,自回歸生成器會(huì)逐個(gè)生成圖像token,最終解碼成一張完整的圖片。這種序列化的生成方式,天然地實(shí)現(xiàn)了輸入和輸出之間精細(xì)的、token級(jí)別的對(duì)齊。
2. 精心設(shè)計(jì)的“兩階段”訓(xùn)練范式:為了讓模型學(xué)會(huì)“兼顧”不同模態(tài)的輸入,研究者設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練策略:
第一階段:多模態(tài)對(duì)齊預(yù)訓(xùn)練 (Multimodal Alignment)
在這一階段,模型的核心任務(wù)是學(xué)會(huì)“看懂”不同類型的輸入,建立像素級(jí)和語(yǔ)義級(jí)的底層對(duì)齊。通過圖像重建、對(duì)象分割和文生圖三個(gè)任務(wù),強(qiáng)制模型學(xué)習(xí)輸入圖像的精細(xì)視覺細(xì)節(jié)和空間結(jié)構(gòu),而不是僅僅把它當(dāng)成一個(gè)“視覺提示”。這個(gè)階段的訓(xùn)練,為模型打下了堅(jiān)實(shí)的多模態(tài)理解基礎(chǔ),讓它知道了“文字描述的‘狗’”和“圖像中的‘狗’”在視覺Token層面是如何關(guān)聯(lián)的。
經(jīng)過多模態(tài)對(duì)齊預(yù)訓(xùn)練的圖像重建效果
第二階段:多模態(tài)指令微調(diào) (Multimodal Instruction Tuning)
在對(duì)齊的基礎(chǔ)上,這個(gè)階段旨在提升模型的指令遵循和跨模態(tài)推理能力。除了延續(xù)第一階段的任務(wù)外,還引入了兩個(gè)新任務(wù):
- 圖像恢復(fù) (Image Recovery): 通過人為制造一些“殘缺”的圖像(如旋轉(zhuǎn)、縮放、替換背景),讓模型學(xué)會(huì)利用文本提示來(lái)“腦補(bǔ)”和恢復(fù)出原始圖像,從而促進(jìn)多模態(tài)信息的融合與糾錯(cuò)。
- 主體驅(qū)動(dòng)的圖像生成 (Subject-driven Image Generation): 要求模型在嚴(yán)格遵循文本指令的同時(shí),保持參考圖像中主體的視覺特征。
通過這種“先對(duì)齊,后微調(diào)”的策略,MENTOR成功地解決了模態(tài)失衡問題,實(shí)現(xiàn)了對(duì)視覺和文本指導(dǎo)的有效、可控的融合。
“降本增效”的顯著成果
盡管MENTOR的模型規(guī)模不大,且使用的組件(如Flan T5,LlamaGen)性能有限,但它在DreamBench++上取得了令人矚目的成績(jī)。
1. 性能與平衡性的雙重勝利
圖片
表1:MENTOR 在DreamBench++的性能對(duì)比在CP-PF分?jǐn)?shù)上MENTOR不僅超越了Emu2(37B參數(shù))和DreamEngine(10.5B參數(shù)),更重要的是,它的CP/PF比率是所有免調(diào)優(yōu)方法中最低的。這表明MENTOR在保持參考圖視覺特征和遵循文本指令之間取得了最佳的平衡。
圖片
MENTOR在DreamBench++上的性能對(duì)比。圓圈大小代表CP-PF分?jǐn)?shù),MENTOR(左下角橙色)在模型大小和訓(xùn)練數(shù)據(jù)量都遠(yuǎn)小于對(duì)手的情況下,取得了極具競(jìng)爭(zhēng)力的平衡性能。
2. 訓(xùn)練效率
MENTOR 在整個(gè)訓(xùn)練過程中僅使用約300萬(wàn)組圖文對(duì),耗時(shí)約1.5天(基于8張A100顯卡)。相比之下,Kosmos-G、Emu2 等基線方法在訓(xùn)練資源上的消耗顯著更高,充分體現(xiàn)了 MENTOR 在架構(gòu)設(shè)計(jì)和訓(xùn)練范式上的高效性。在相同訓(xùn)練資源下的對(duì)比實(shí)驗(yàn)中也可以觀察到,MENTOR 相較于以 Kosmos-G 為代表的Diffusion方法展現(xiàn)出了更優(yōu)的性能。
圖片
表2:MENTOR與Komos-G 在DreamBench++的受控對(duì)比試驗(yàn)結(jié)果
3.卓越的圖像重建保真度

表3: MENTOR在COCO和JourneyDB上進(jìn)行圖像重建任務(wù)的定量對(duì)比。
在圖像重建任務(wù)中,MENTOR的表現(xiàn)同樣出色,其重建誤差(l2距離)遠(yuǎn)低于其他頂尖模型,這有力地證明了其自回歸架構(gòu)在保留視覺細(xì)節(jié)方面的強(qiáng)大能力。
△ MENTOR在圖像重建任務(wù)上的定性對(duì)比,展現(xiàn)了其超高的保真度。
4. 豐富的應(yīng)用潛力
MENTOR框架的通用性極強(qiáng),只需在特定任務(wù)的數(shù)據(jù)上進(jìn)行簡(jiǎn)單的微調(diào),就能勝任多種復(fù)雜的多模態(tài)生成任務(wù),無(wú)需對(duì)模型架構(gòu)做任何修改:
文本引導(dǎo)的圖像分割
多圖像融合生成
主體驅(qū)動(dòng)的圖像生成
多模態(tài)上下文學(xué)習(xí)
...
多圖像多模態(tài)條件生成訓(xùn)練,有助于提升模型在視覺細(xì)節(jié)保留方面的能力
自回歸范式的潛力
總而言之,MENTOR的提出,為復(fù)雜可控的圖像生成任務(wù)開辟了一條新的、有別于Diffusion模型的道路。
它通過一種更簡(jiǎn)潔的自回歸框架和高效的兩階段訓(xùn)練策略,實(shí)現(xiàn)了對(duì)多模態(tài)輸入的精細(xì)化、像素級(jí)對(duì)齊和控制,以更小的模型尺寸和更少的訓(xùn)練資源,實(shí)現(xiàn)了更平衡、更可控的生成效果。展現(xiàn)了AR模型在視覺生成領(lǐng)域的巨大潛力,證明了在多模態(tài)生成任務(wù)上,“大道至簡(jiǎn)”同樣行之有效。
當(dāng)然,研究者們也指出,受限于當(dāng)前AR生成模型的底層能力,MENTOR在某些方面(如空間推理、細(xì)粒度人像渲染等)與最頂尖的Diffusion模型相比仍有較大差距。但我們有理由相信,隨著更強(qiáng)大的自回歸基礎(chǔ)模型的出現(xiàn),MENTOR這類框架的潛力將被進(jìn)一步釋放,為構(gòu)建下一代通用、精細(xì)、可控的視覺內(nèi)容創(chuàng)作系統(tǒng)奠定堅(jiān)實(shí)的基礎(chǔ)。
論文鏈接:https://arxiv.org/abs/2507.09574
項(xiàng)目主頁(yè):https://haozhezhao.github.io/MENTOR.page
代碼倉(cāng)庫(kù):https://github.com/haozhezhao/MENTOR




































