架構(gòu)勝規(guī)模:為何離散搜索讓小視覺模型碾壓大擴(kuò)散模型

大家好,我是肆〇柒。今天我們一起深入閱讀一篇來自丹麥技術(shù)大學(xué)(Technical University of Denmark)與Pioneer Center for AI的研究團(tuán)隊發(fā)表的重要論文。他們發(fā)現(xiàn),一個僅2B參數(shù)的視覺模型,通過巧妙的推理時搜索,竟能全面超越12B參數(shù)的擴(kuò)散模型——這不僅是一次性能的飛躍,更可能重塑我們對生成式AI未來發(fā)展的理解。
推理時計算正在重塑生成模型的范式
一個顛覆性事實正在挑戰(zhàn)視覺生成領(lǐng)域的傳統(tǒng)認(rèn)知:一個參數(shù)量僅為2B的視覺模型,通過精巧的推理時搜索,能夠超越12B參數(shù)的擴(kuò)散模型,同時節(jié)省46%的計算成本。

推理效率與定性效果對比
上圖直觀展示了這一突破:在ImageReward評分與推理計算量(NFEs)的對比中,2B自回歸模型配合beam search(綠色)不僅超越了12B擴(kuò)散模型配合隨機(jī)搜索(橙色)的最終性能,且達(dá)到該性能所需的計算量更少。圖中定性示例進(jìn)一步揭示了搜索的作用機(jī)制——baseline生成存在"六把鑰匙"計數(shù)錯誤、"長頸鹿在右側(cè)"的空間關(guān)系錯誤以及"綠色玫瑰和藍(lán)色郁金香"的顏色綁定錯誤,而beam search成功修正了這些組合性缺陷。
這一現(xiàn)象并非偶然。語言模型領(lǐng)域已實現(xiàn)根本性轉(zhuǎn)變——小規(guī)模語言模型通過推理時計算可匹配14倍參數(shù)規(guī)模大模型的性能,如OpenAI的o1和DeepSeek-R1通過搜索與推理顯著提升效果。然而,視覺生成領(lǐng)域卻長期困于"參數(shù)規(guī)模至上"的思維定式,擴(kuò)散模型雖占據(jù)主導(dǎo)地位,推理時搜索策略卻收效甚微。
論文首次系統(tǒng)性證明,模型架構(gòu)對推理時優(yōu)化的適配性比參數(shù)規(guī)模更為關(guān)鍵。研究顯示,離散自回歸模型通過搜索策略可超越更大規(guī)模的擴(kuò)散模型,實現(xiàn)架構(gòu)優(yōu)勢對參數(shù)規(guī)模的逆轉(zhuǎn)。架構(gòu)與搜索的適配性能夠彌補(bǔ)六倍的參數(shù)規(guī)模差距。這一發(fā)現(xiàn)從根本上顛覆了傳統(tǒng)的“規(guī)模至上”生成模型發(fā)展路徑。
為什么擴(kuò)散模型難以受益于推理時搜索?
擴(kuò)散模型與推理時搜索存在根本性不兼容。擴(kuò)散模型的連續(xù)潛空間與搜索算法的離散本質(zhì)形成鮮明對比——在連續(xù)空間中,路徑之間缺乏明確邊界,無法像語言模型那樣進(jìn)行早期剪枝。所以,連續(xù)空間中路徑之間沒有明確邊界,導(dǎo)致搜索算法難以有效導(dǎo)航,這一特性從根本上限制了推理時搜索在擴(kuò)散模型中的應(yīng)用潛力。
有專家系統(tǒng)的做了研究,擴(kuò)散模型中三種主流搜索策略均無法帶來顯著提升:噪聲軌跡搜索(noise trajectory search)無法有效導(dǎo)航連續(xù)空間;零階優(yōu)化(zero-order optimization)在高維空間效率低下;路徑擴(kuò)展(path expansion)計算成本高但收益有限。這表明在擴(kuò)散模型中,精心設(shè)計的搜索策略反而不如簡單的隨機(jī)采樣有效。
在擴(kuò)散模型的連續(xù)噪聲空間中,搜索算法難以識別哪些路徑值得繼續(xù)探索,哪些應(yīng)該提前放棄。由于缺乏離散決策點,模型無法像語言模型那樣在早期階段就剪除低質(zhì)量路徑,導(dǎo)致計算資源被浪費在無望的搜索分支上。
論文著重指出,連續(xù)模型的改進(jìn)空間相對有限,而離散型大型語言模型(LLM)卻實現(xiàn)了巨大的性能提升,這鮮明的對比暗示著架構(gòu)適配性是推理時擴(kuò)展的關(guān)鍵缺失要素。這一發(fā)現(xiàn)揭示了視覺生成領(lǐng)域在推理時優(yōu)化所面臨的深層挑戰(zhàn),問題并非出在搜索策略本身無效,而是模型架構(gòu)與搜索算法之間存在根本性的不匹配。在連續(xù)空間中,由于缺乏明確的決策邊界,搜索算法難以進(jìn)行高效導(dǎo)航,也就無法實現(xiàn)像離散模型中那樣通過前綴共享來提升計算效率。
視覺自回歸模型的天然優(yōu)勢
與擴(kuò)散模型不同,Infinity 與VAR 等新型視覺自回歸模型通過"next-scale prediction"實現(xiàn)了多尺度、離散Token、粗到精的生成方式,創(chuàng)造了與語言模型結(jié)構(gòu)相似的搜索空間。

搜索策略比較
上圖清晰展示了三種核心搜索策略的工作原理:Random Search生成n張獨立圖像并選擇最高分結(jié)果;GTO在每個尺度生成c個候選,選擇產(chǎn)生最佳結(jié)果的單個token;Beam Search維護(hù)w個并行序列,每個步驟探索c個選項,保留top w序列。
關(guān)鍵突破在于這些模型僅需13個決策點即可完成1024×1024圖像生成。Infinity通過13個漸進(jìn)尺度生成圖像,每個尺度生成所有token(而非傳統(tǒng)自回歸模型的數(shù)千個token),大大簡化了搜索空間。這一創(chuàng)新使得模型能夠以離散序列的方式生成圖像,為推理時搜索提供了結(jié)構(gòu)基礎(chǔ)。
更關(guān)鍵的是計算復(fù)用機(jī)制——一旦計算出前k個尺度的token,其transformer的key-value表示可緩存并在所有共享該前綴的搜索分支中復(fù)用。論文明確指出:"計算優(yōu)勢源于前綴復(fù)用:共享計算將獨立生成的O(n·K)復(fù)雜度降低至beam search的約O(n·K/w),其中n表示候選圖像,K表示尺度數(shù)"。這一機(jī)制使得beam search生成195張圖像僅需1,365 NFEs(平均每個圖像僅需7次NFEs),而隨機(jī)搜索需2,535 NFEs(195×13),實現(xiàn)46%的效率增益。

不同搜索策略的視覺對比
上圖通過具體的提示詞,展示了四種不同的圖像生成方式之間的差異,這些提示詞包括“藍(lán)色的披薩”“一臺筆記本電腦放在泰迪熊上面”“一只鳥嚇唬稻草人”等。在每一個案例中,基線生成(baseline)都存在明顯的缺陷,而由 ImageReward 引導(dǎo)的束搜索(beam search)則能夠有效地修正這些錯誤,同時還能保持圖像的質(zhì)量。例如,在“斑馬在西蘭花下面”這個提示詞下,基線生成錯誤地將斑馬放在了西蘭花的上方,而束搜索則正確地生成了斑馬在西蘭花下方的圖像。
實驗設(shè)計與核心發(fā)現(xiàn)
為系統(tǒng)評估搜索策略,研究建立了多維度驗證器(Verifier)體系。

驗證器計算需求對比
上表清晰展示了不同驗證器的計算開銷:輕量級驗證器包括ImageReward (25ms/圖, 1.7GB)、CLIPScore (14ms/圖, 1.6GB)和Aesthetic Score (19ms/圖, 1.6GB),而重量級驗證器LLaVA-OneVision處理每張圖像需500ms并占用15.3GB內(nèi)存,其處理時間接近Infinity-2B模型的生成時間(800ms)。這一36倍速度差異和9倍內(nèi)存差異,使得驗證器選擇成為實際部署的關(guān)鍵考量。
研究測試了(w,c) ∈ {(2,2),(3,5),(3,10)}的參數(shù)配置,覆蓋從最小到廣泛搜索的范圍。計算成本度量采用兩種標(biāo)準(zhǔn):NFEs(transformer前向傳遞次數(shù),1 NFE = 生成一個尺度的tokens)和圖像數(shù)量(經(jīng)驗證的完整圖像總數(shù))。

驗證分?jǐn)?shù)與計算預(yù)算的對數(shù)關(guān)系
上圖揭示了關(guān)鍵規(guī)律:所有三個驗證器在預(yù)算規(guī)模增加時均呈現(xiàn)對數(shù)擴(kuò)展行為,即
。這一對數(shù)關(guān)系解釋了為什么單純增加隨機(jī)搜索樣本效率低下,為引入更智能的搜索策略提供了理論基礎(chǔ)。

不同驗證器的擴(kuò)展行為
上圖展示了搜索策略在不同驗證器下的性能擴(kuò)展曲線。在Aesthetic、CLIPScore和ImageReward驗證器上,beam search和GTO都顯著優(yōu)于隨機(jī)搜索,且隨著計算預(yù)算增加,beam search的優(yōu)勢不斷擴(kuò)大。特別是在ImageReward驗證器下,beam search的擴(kuò)展效率最為明顯,證明了其在引導(dǎo)高質(zhì)量圖像生成方面的優(yōu)勢。

不同搜索策略在DrawBench上的性能對比
上表是系統(tǒng)比較了三種搜索策略在不同計算預(yù)算下的表現(xiàn)。結(jié)果顯示,即使在極低預(yù)算下,beam search也展現(xiàn)出顯著優(yōu)勢——僅需54張圖像(377 NFEs)就能取得有競爭力的結(jié)果,僅用隨機(jī)搜索7%的計算成本。在中等預(yù)算(195張圖像,1365 NFEs)下,beam search在所有驗證器指導(dǎo)下都超越了baseline性能,為后續(xù)超越更大規(guī)模模型奠定了基礎(chǔ)。
小模型如何逆襲大模型?
在DrawBench基準(zhǔn)測試中,研究結(jié)果令人矚目。

與12B擴(kuò)散模型的性能對比
上表展示了關(guān)鍵對比:2B參數(shù)自回歸模型配合beam search (1365 NFEs)在ImageReward得分上達(dá)到1.59,超越12B擴(kuò)散模型的最佳結(jié)果1.58(2880 NFEs),計算成本減少52.6%。在高預(yù)算設(shè)置下(2730 NFEs),2B模型在Aesthetic Score上達(dá)到7.75(對比12B模型的6.38),CLIPScore達(dá)到0.86(對比0.82),ImageReward Score達(dá)到1.68(對比1.58),提升幅度達(dá)1.3×-3.1×。

T2I-CompBench++上的性能對比
上表進(jìn)一步驗證了這一趨勢:在更具挑戰(zhàn)性的T2I-CompBench++測試中,2B自回歸模型配合beam search在所有類別上超越12B擴(kuò)散模型。量化對比顯示,自回歸方法平均提升11.3% vs 擴(kuò)散模型的5.7%,在形狀任務(wù)上提升17.38% vs 7.72%,空間推理提升10.45% vs 6.14%。

不同驗證器在組合任務(wù)上的定性表現(xiàn)
上圖通過具體案例展示了beam search的修正能力。在"男人在燈的右側(cè)"的空間任務(wù)中,baseline生成錯誤地將男人放在燈的左側(cè),ImageReward引導(dǎo)的beam search部分修正了這一錯誤,但只有LLaVA-OneVision引導(dǎo)的beam search完全正確地生成了"男人在燈的右側(cè)"的圖像。在"五個蠟燭"的計數(shù)任務(wù)中,baseline只生成了三個蠟燭,而兩種beam search都成功生成了五個蠟燭。這些定性結(jié)果直觀地證明了搜索策略在修正組合性錯誤方面的有效性。

GenEval上的性能對比
上表進(jìn)一步展示了beam search在對象組合任務(wù)上的系統(tǒng)性優(yōu)勢:在雙對象組合任務(wù)上提升19%,計數(shù)任務(wù)提升25%,位置推理提升26%,顏色屬性提升19%,整體平均提升16%。這些數(shù)據(jù)特別突顯了beam search在處理空間關(guān)系和對象計數(shù)等復(fù)雜組合任務(wù)上的優(yōu)勢,而這些正是視覺生成中的傳統(tǒng)難點。Baseline Infinity-2B模型在位置推理任務(wù)上表現(xiàn)尤其薄弱(0.25),而beam search將這一指標(biāo)提升至0.51,證明了搜索策略對空間關(guān)系理解的顯著改善。





定性比較結(jié)果
上表系統(tǒng)展示了195張圖像的beam search與baseline的對比。在"bee left of key"任務(wù)中,baseline錯誤地將蜜蜂放在鑰匙右側(cè),而beam search成功修正;在"four pens"任務(wù)中,baseline生成三支筆,beam search生成四支;在"green rose, blue tulip"任務(wù)中,baseline顏色顛倒,beam search正確生成。這些具體案例證明了beam search在修正組合性錯誤方面的系統(tǒng)性優(yōu)勢,特別是在處理對象計數(shù)、空間關(guān)系和屬性綁定等關(guān)鍵組合任務(wù)上。
論文有提到,“架構(gòu)與搜索的兼容性可以克服6倍的參數(shù)劣勢”,這證實了架構(gòu)優(yōu)勢能夠彌補(bǔ)參數(shù)規(guī)模的差距。在效率與質(zhì)量的平衡方面,研究成果同樣顯著:使用beam search生成195張圖像僅需1365次函數(shù)評估(NFEs),而隨機(jī)搜索生成390張圖像則需要5070次NFEs。beam search通過前綴緩存和引導(dǎo)性探索,實現(xiàn)了比隨機(jī)搜索更優(yōu)的性能,且計算成本降低了46%。在實際部署中,這種計算節(jié)省意味著顯著的能源和成本節(jié)約。
驗證器的選擇是一門藝術(shù)
研究深入分析了不同驗證器的適用場景。

不同驗證器的任務(wù)性能對比
上表量化了驗證器選擇的權(quán)衡:對于顏色綁定任務(wù),ImageReward得分為0.84,而LLaVA-OneVision為0.82;但在空間推理任務(wù)上,LLaVA-OneVision以0.36大幅領(lǐng)先ImageReward的0.27。這一差距表明,對于需要理解對象間關(guān)系的任務(wù),必須使用具有強(qiáng)大視覺語言能力的驗證器。表格還顯示,在計數(shù)任務(wù)上,LLaVA-OneVision(0.62)相比ImageReward(0.61)有輕微優(yōu)勢,而在復(fù)雜組合任務(wù)上兩者表現(xiàn)相當(dāng)。

不同驗證器選擇結(jié)果
上圖揭示了驗證器黑客現(xiàn)象:美學(xué)驗證器可能忽略關(guān)鍵提示細(xì)節(jié)以生成更美觀圖像(如上圖a,提示"a metallic ring and a fluffy hat",美學(xué)驗證器選擇生成了美觀但缺少"metallic ring"的圖像);CLIPScore驗證器可能犧牲視覺質(zhì)量追求嚴(yán)格提示匹配(如上圖b,手部生成質(zhì)量下降)。這些案例說明,過度優(yōu)化單一指標(biāo)可能導(dǎo)致其他方面的質(zhì)量下降。

不同搜索策略與驗證器組合的效果
上表進(jìn)一步量化了不同驗證器與搜索策略的組合效果。使用ImageReward+Beam Search,顏色綁定得分達(dá)到0.84,形狀理解0.63,紋理識別0.75;而使用LLaVA-OneVision+Beam Search,空間推理得分躍升至0.36,計數(shù)能力達(dá)到0.67。這些數(shù)據(jù)表明,驗證器的選擇應(yīng)基于任務(wù)類型:對于簡單的屬性綁定任務(wù),輕量級ImageReward足夠;對于復(fù)雜的推理任務(wù),需要LLaVA-OneVision的深度理解能力。
論文建議采用“因任務(wù)而異的驗證器選擇”策略——對于簡單的屬性綁定任務(wù),使用輕量級模型就足夠了;而對于復(fù)雜的推理任務(wù),則需要使用重量級模型。這一策略在實際應(yīng)用中極為關(guān)鍵。研究還發(fā)現(xiàn),即使在空間推理和計數(shù)任務(wù)中使用了計算開銷巨大的LLaVA-OneVision驗證器,2B參數(shù)的自回歸模型依然能夠超越12B參數(shù)的擴(kuò)散模型,這充分凸顯了架構(gòu)優(yōu)勢的強(qiáng)大。
搜索參數(shù)的精細(xì)調(diào)控
研究還探索了采樣溫度對搜索性能的影響。

不同采樣溫度下的性能表現(xiàn)
詳細(xì)展示了將采樣溫度τ從1.0增至2.0時的性能變化。在顏色任務(wù)上提升1%,形狀任務(wù)提升2%,紋理任務(wù)提升1%,但空間任務(wù)略有下降(-1%)。這一現(xiàn)象表明,更高的溫度增加了候選路徑的多樣性,有利于計數(shù)和形狀任務(wù),但可能放大ImageReward在空間任務(wù)上的局限性——更多樣化的錯誤空間布局反而難以被有效懲罰。研究建議,數(shù)值任務(wù)應(yīng)使用較高溫度(τ=2.0),而空間推理任務(wù)則應(yīng)使用較低溫度(τ=1.0)以獲得最佳性能。
在搜索寬度與候選數(shù)方面,研究發(fā)現(xiàn)小預(yù)算場景下beam search僅需54張圖像(377 NFEs)即可取得有競爭力的結(jié)果,僅用隨機(jī)搜索7%的成本。

不同搜索策略在DrawBench上的性能對比
上表詳細(xì)展示了不同(w,c)配置的效果:(2,2)提供最小搜索范圍,(3,5)提供平衡點,(3,10)提供最廣泛探索。研究發(fā)現(xiàn),中等寬度(3)與適度候選數(shù)(5-10)提供最佳平衡,既避免了GTO的局部最優(yōu)問題,又控制了計算成本。
動態(tài)預(yù)算分配實驗得出重要結(jié)論:基于方差的動態(tài)分配策略效果不佳。

方差基礎(chǔ)的動態(tài)分配啟發(fā)式分析
上圖揭示了方差基礎(chǔ)的動態(tài)分配機(jī)制:藍(lán)色線(右側(cè)坐標(biāo)軸)顯示每個生成步驟的驗證器分?jǐn)?shù)方差,橙色條(左側(cè)坐標(biāo)軸)顯示啟發(fā)式方法分配的候選數(shù)量。

動態(tài)vs固定預(yù)算GTO比較
該方法將搜索集中在早期高方差步驟,但上表顯示,動態(tài)GTO(130張圖像,1275 NFEs)的ImageReward得分為1.55,而固定GTO(195張圖像,1365 NFEs)得分為1.58;即使與消耗相似NFEs(1365)的固定GTO相比,動態(tài)策略在所有指標(biāo)上仍表現(xiàn)更差。
這一負(fù)面結(jié)果提供了寶貴的見解:“評分方差單獨作為信號似乎是嘈雜的或不足以指導(dǎo)最優(yōu)預(yù)算分配”。前期的計算投入并沒有帶來相應(yīng)的質(zhì)量回報。一種可能的解釋是,即使在后期的低方差步驟中,也可能存在關(guān)鍵的決策點,在這些點上,持續(xù)進(jìn)行更廣泛的搜索是有益的。這一發(fā)現(xiàn)表明,與這種基于啟發(fā)式的特定方法相比,保持每一步穩(wěn)定的搜索寬度(如固定預(yù)算方法)或并行探索多條路徑(如束搜索)是更穩(wěn)健、更高效的策略。
總結(jié):啟示與未來方向
這篇論文的核心結(jié)論清晰且具有顛覆性:離散token空間是推理擴(kuò)展的關(guān)鍵。離散的token空間使得高效的剪枝和計算復(fù)用成為可能,這使得一個擁有2B參數(shù)的模型在使用beam search時,能夠超越一個12B參數(shù)的擴(kuò)散模型。這一突破性的意義在于,架構(gòu)優(yōu)勢可以克服6倍的參數(shù)規(guī)模差距,并且在計算效率上表現(xiàn)得更為出色,這證明了“架構(gòu)與搜索的兼容性可能比原始參數(shù)數(shù)量更為重要”。
推理效率與定性效果對比
上圖中展示的對比數(shù)據(jù)提供了證據(jù):在相同或更少的計算資源下,2B自回歸模型配合beam search在多個評估維度上系統(tǒng)性超越12B擴(kuò)散模型。這一發(fā)現(xiàn)不僅挑戰(zhàn)了參數(shù)規(guī)模至上的傳統(tǒng)認(rèn)知,更揭示了生成式AI未來發(fā)展的新方向——模型與推理算法的協(xié)同設(shè)計(co-designing models and inference algorithms)可能比單純擴(kuò)大參數(shù)規(guī)模更具效率。
在實際應(yīng)用層面,46%的NFEs節(jié)省在大規(guī)模部署中意味著顯著的能源和成本節(jié)約;根據(jù)任務(wù)類型選擇驗證器——ImageReward用于常規(guī)生成,LLaVA用于復(fù)雜推理,可實現(xiàn)質(zhì)量與效率的最佳平衡;輕量驗證器可在生成時間內(nèi)完成評估,而LLaVA接近生成時間,需權(quán)衡質(zhì)量與延遲。
研究的復(fù)現(xiàn)性聲明強(qiáng)調(diào)"所有代碼將在發(fā)表后公開",為研究社區(qū)提供了驗證和擴(kuò)展這一發(fā)現(xiàn)的堅實基礎(chǔ)。




































