多模態進入“實時交互”時代!字節Hyper-Bagel馴服巨模型:三大任務無損加速最高22倍!

文章鏈接:https://arxiv.org/pdf/2509.18824
項目鏈接:https://hyper-bagel.github.io/

經過6-NFE加速的BAGEL模型生成的圖像生成樣例

經過6-NFE加速的BAGEL模型生成的圖像編輯樣例
亮點直擊
- Hyper-Bagel,一個統一的加速框架,旨在同時提升多模態理解和生成任務的速度。方法采用分治策略,利用推測解碼進行下一token預測,并采用多階段蒸餾過程進行擴散去噪,確保一個領域的加速不會影響另一個領域。
- 該框架帶來了顯著的性能提升,在多模態理解上實現了超過2倍的加速。對于生成任務,它實現了更顯著的加速,將文本到圖像生成速度提升16.67倍,圖像編輯速度提升22倍,同時保持了原始模型的高質量輸出。
- 進一步開發了一個高效的1-NFE模型,能夠實現近乎實時的交互式編輯和生成。通過結合先進的對抗蒸餾與人類反饋學習,該模型實現了極致的成本效益和響應能力,使復雜的多模態交互變得無縫且即時。
總結速覽
解決的問題
- 計算開銷大:隨著多模態內容(交織的圖像和文本token)越來越復雜,統一多模態模型在理解和生成任務中的迭代過程(如擴散去噪和自回歸解碼)帶來了巨大的計算負擔,導致速度緩慢。
- 現有加速方法在多模態場景下效果不佳:現有的推測解碼技術在處理純文本的大型語言模型時效果顯著,但在處理多模態模型(如BAGEL)時,由于圖像和文本嵌入空間的復雜性,加速效果大打折扣。
- 保持模型能力與質量:在加速擴散過程時,需要同時保持模型的關鍵能力,包括通過分類器無關引導實現的控制能力(指令遵循、圖像編輯一致性),以及生成圖像的結構完整性和視覺保真度。
提出的方案
- Hyper-Bagel框架:一個統一的加速框架,采用“分而治之”的策略,同時針對多模態理解(自回歸解碼)和生成(擴散去噪)任務進行加速。
- 針對理解任務的加速:采用改進的推測解碼。訓練一個輕量級的“草稿模型”來預測多個連續標記,然后由目標模型并行驗證,將內存訪問瓶頸轉化為計算瓶頸。
- 針對生成任務的加速:采用多階段蒸餾過程。將目標分解為三個關鍵維度(CFG控制、結構完整性、圖像保真度)并分別優化,逐步減少采樣所需的步驟。
應用的技術
- 推測解碼:基于EAGLE-3范式,但針對多模態挑戰進行了關鍵改進,設計了一個高效的中間層架構來橋接目標模型和草稿模型,提升草稿模型在復雜多模態序列中的預測準確性。
- 擴散蒸餾:
- CFG蒸餾:將文本/圖像引導尺度與時間步一起作為控制條件嵌入到單次前向傳播中。
- 對抗性蒸餾:設計了多頭判別器,在多尺度上判別潛在表示的真偽,以增強生成圖像的結構完整性。
- 分數蒸餾:提出了DMDO方法,采用基于常微分方程的歐拉離散采樣器生成圖像,避免了基于SDE的方法可能產生的圖像過度平滑問題,且無需額外的正則化器。
- 極致加速模型(1-NFE):在6-NFE模型基礎上,通過基于修正流的對抗性訓練和基于人類反饋的獎勵學習(ReFL)進行進一步優化,使用具備更強視覺理解能力的VLM-based HPSv3作為獎勵模型。
達到的效果
- 多模態理解:實現了超過2倍(2.16倍)的加速(Tokens Per Second從98.3提升至212.4)。
- 多模態生成(6-NFE模型):
- 文本到圖像生成:實現16.67倍加速。
- 圖像編輯:實現22倍加速。
- 質量保持:在上述加速下,在GenEval和GEdit-Bench指標上保持了與原始模型相當的輸出質量,是無損加速。
- 極致效率(1-NFE模型):實現了接近實時的交互式編輯和生成,在保證成本效益的同時,使復雜的多模態交互變得無縫和即時。
數據
本文中用于草稿模型訓練和擴散蒸餾的VLM圖像-文本配對數據、文本到圖像生成數據、圖像到圖像編輯數據以及交織數據均源自線上可獲取的開源數據集。
- VLM圖像-文本配對數據:采用LLaVA-OneVision中的單圖像階段數據混合集作為VLM任務的訓練數據,其中包含約400萬個圖像-文本對。為了與目標模型的預測分布對齊并訓練草稿模型,我們也調用目標模型為每個問題生成新的答案(如EAGLE3中的做法),而不是使用數據集中的答案。
- 文本到圖像生成數據:引入JourneyDB作為文本到圖像擴散蒸餾的訓練數據,這是一個包含超過400萬張由Midjourney生成的圖像以及由VLM標注的詳細標題的合成數據集。由于圖像的原始提示均由用戶提供,這種合成分布與實際使用情況高度吻合,其豐富的多樣性也有利于蒸餾訓練。
- 圖像到圖像編輯與交織數據:為了保留BAGEL的新興特性,我們在蒸餾訓練過程中也加入了交織數據。具體來說,使用SEED-Data-Edit 數據集的Part-2和Part-3中的編輯數據。Part-2包含52K個真實場景中的編輯圖像對,而Part-3包含21K個人工標注的多輪對話(每輪最多5個回合),總計95K個編輯圖像對。
方法
推測解碼
在采用推測解碼時,遵循EAGLE-3的訓練范式。為了解決不同模態標記之間的差異使得能力有限的草稿模型難以編碼目標特征這一挑戰,特別在中間層、初始化策略和損失函數方面實施了一系列改進以增強EAGLE-3。所提出的中間層架構如下圖3所示,其中還將草稿解碼器層數擴展到N=2以增強表示能力。

使用元查詢的目標特征聚合
EAGLE的中間層在為草稿模型執行下一token預測提供必要信息方面起著至關重要的作用,但正如我們在引言中討論的,這對BAGEL來說挑戰更大,因為包括文本、ViT標記、干凈潛在表示和噪聲潛在表示在內的更多多模態標記都交織在一起。本文第一個改進是通過注意力機制而非簡單的全連接層來聚合來自目標模型的更多特征,這限制了集成更多特征層的可能性。

帶殘差的零初始化全連接層

減弱前向 KL 散度監督
一個潛在的問題是,雖然來自目標模型概率分布的軟標簽包含了豐富的知識,但使用前向 KL 散度作為損失函數來覆蓋所有模式對于能力非常有限的草稿模型來說可能過于困難。為了放寬這一約束,額外引入了由目標模型輸出的 one-hot 硬標簽監督的交叉熵損失。


擴散蒸餾
關于擴散蒸餾,本文的主要目標是保留模型的全部能力,包括控制和質量兩個方面。本文訓練了一個在圖像生成和編輯基準測試中無損的 6-NFE 模型,以及一個高成本效益的 1-NFE 模型。6-NFE 模型通過包含 CFG 蒸餾、TSCD和 DMDO的三階段訓練獲得。1-NFE 模型則從 6-NFE 模型出發,通過兩個額外的階段(即 AD和 ReFL)進行微調得到。
階段一:CFG 蒸餾
為了保留模型通過 CFG 控制指令遵循程度以及在編輯場景中保持與原始圖像一致性的能力,在第一階段的訓練中將 CFG 嵌入蒸餾到其單次前向傳播中。本文精心設計了兩個額外的時間步編碼層,分別用于注入文本引導尺度和圖像引導尺度。文本引導尺度在圖像生成和編輯中通用,而圖像引導尺度僅用于編輯場景。它們的架構和注入位置與時間步的編碼完全一致,這與 FLUX中的最佳實踐類似,確保了控制信號能夠精確傳播到 DiT的每一層。
在蒸餾訓練過程中,對于文本到圖像數據,隨機選擇一個范圍在 1 到 5 之間的文本引導尺度值;而對于編輯樣本,額外采樣一個在 1.0 到 2.5 之間的隨機圖像引導尺度值作為輸入。關于訓練時間步調度,發現將擴散時間步偏移設置為至少 3.0 對于實現更高的結構完整性和圖像保真度是必要的。
階段二:軌跡分段一致性蒸餾
在 CFG 蒸餾之后,采用與之前工作 Hyper-SD 類似的一致性蒸餾方法。盡管我們的目標是得到一個 6-NFE 模型,但我們不像 Hyper-SD 那樣采用漸進式蒸餾(例如,將分段數從 8→4→2→1 減少),而是直接在一個階段中實現 3 段配置。并且我們棄用了均方誤差(MSE)損失函數,完全轉向對抗性損失。在判別器設計上,采用與 DMDX 相同的多頭架構以增強判別能力,并且預訓練骨干網絡的參數也被設置為可訓練。
所有這些改進背后的直覺是為了在第二階段增強結構完整性,同時將提升圖像保真度的任務委托給第三階段的分數蒸餾。消除多階段漸進式蒸餾簡化了訓練流程并減少了訓練時間,而純對抗性損失和多頭判別器設計使模型能夠更專注于跨多個尺度的整體圖像構圖。
階段三:通過 ODE 的分布匹配蒸餾
DMD 系列方法的一個主要缺點是在少步生成器中使用了基于 SDE 的一致性采樣器,這導致生成的圖像過于平滑且缺乏細節。這與在第三階段提升圖像保真度的目標相悖。為此,本文提出了通過 ODE 的分布匹配蒸餾(DMDO),旨在保持原始采樣器不變,并盡可能保持學生模型和教師模型之間 ODE 軌跡的對齊。


通過這種偽造模型和少步生成器的交替優化,最終獲得了一個在所有基準維度上都無損的 6-NFE 模型。在這個分數蒸餾階段,模型顯著提高了生成圖像的保真度,在色彩鮮艷度和細節豐富度上都實現了與原始模型的高度近似。
階段四:對抗性擴散預訓練
為了進一步實現 1-NFE 圖像生成和編輯以達到極致的成本效益,我們在 6-NFE 模型的基礎上額外引入了第四和第五階段的微調。我們在構建 1-NFE 模型時采用了與訓練 6-NFE 模型類似的方法:首先增強結構完整性以建立圖像的整體構圖,然后細化生成內容的顏色和細節。然而,考慮到模型容量在 1-NFE 時顯著下降,要求其與教師模型的分布對齊的原始訓練范式是不現實的。本方法是首先嘗試與 6-NFE 模型的分布進行結構級別的對齊,然后通過人類反饋來彌補保真度方面的不足。

階段五:獎勵反饋學習

實驗
設置
在擴散蒸餾過程中,凍結了理解分支的參數。因此,由于通過推測解碼訓練的草稿模型在預測后需經過目標模型的驗證,理解任務的性能指標不受影響。遵循 EAGLE-3的報告方式,匯報草稿模型的平均接受長度。對于生成基準測試,本文遵循 BAGEL 的做法,分別報告圖像生成和編輯任務在 GenEval 和 GEdit-Bench 上的性能。
有些人可能擔心擴散蒸餾是否會影響文本生成,尤其是在交織場景中的思維能力,因為 VAE 標記被納入了序列上下文。然而,在 BAGEL 的上下文管理中,每次擴散去噪后的干凈潛在表示是通過預填充(prefill)方式納入上下文的,并不保留帶噪潛在表示的 KV 緩存。這意味著在部署時,可以分別部署蒸餾后的模型的生成分支權重和原始模型的權重。只在去噪過程中調用蒸餾后的模型,并在預填充階段切換回原始模型,從而確保理解性能沒有損失。
定量結果


圖像生成。如下表 2 所示,我們的 6-NFE Hyper-BAGEL 模型在 GenEval 基準測試中展示了無損的性能。它取得了 0.8647 的綜合得分,略微超過了 100-NFE BAGEL 基線的 0.8640 分。這一結果證實了我們的蒸餾過程在將采樣步數從 100 NFE 減少到 6 NFE 從而實現 16.67 倍加速的同時,并未損害生成質量。此外,高效的 1-NFE 模型與其他最先進的統一模型相比仍具有競爭力,其 0.7962 的綜合得分與 Janus-Pro-7B 和 MetaQuery-XL(兩者均為 0.80 分)等領先模型相當。

圖像編輯。本文加速模型的無損特性在 GEdit-Bench(下表 3)上評估的圖像編輯任務中表現明顯。6-NFE Hyper-BAGEL 在英文和中文數據集上均一致地優于 132-NFE 基線,分別取得了 6.612 和 6.671 的更高綜合得分。盡管計算成本大幅降低,相當于實現了約 22 倍的推理加速,但仍保持了這種卓越的一致性。值得注意的是,為追求極致效率而設計的 1-NFE 模型依然表現出強大的性能,其在英文和中文數據集上分別取得的 5.975 和 5.966 的綜合得分顯著超過了如 OmniGen 等現有方法。

定性結果
圖像生成。下圖 5 展示了本文的加速模型與 100-NFE 基線在圖像生成任務上的定性比較。從所有四個案例中可以明顯看出,我們的 6-NFE 模型的結果在視覺上與基線無法區分,忠實地再現了復雜的細節,例如猴子襯衫上的數字“619”、黑暗騎士場景中復雜的構圖和光照,以及動物毛皮的紋理。相比之下,為追求極致效率而設計的 1-NFE 模型則表現出明顯的權衡。雖然它能快速生成與提示詞高度相關的圖像,但這是以降低細節保真度為代價的。例如,它有時可能會忽略提示詞中的關鍵元素,如小貓的眼鏡,或者在細節上出現微小偏差,如猴子襯衫上的數字。盡管如此,其輸出的核心語義和整體質量仍然具有很強的競爭力。這些視覺比較有力地驗證了6-NFE 模型實現了無損加速,而 1-NFE 模型則為優先考慮實時交互的應用提供了一個高效可靠的選擇。

圖像編輯。下圖 6 展示了本文的加速模型與 132-NFE 基線在圖像編輯任務中的定性性能表現。對于每個案例,6-NFE Hyper-BAGEL 模型都展示了卓越的保真度,執行了精確的編輯,例如移除花生、替換文本或消除人物,其結果與高 NFE 基線幾乎無法區分。這證實了6-NFE 加速的無損特性,在提供顯著加速的同時,沒有任何可感知的編輯質量下降。1-NFE 模型在編輯場景中展現出一個顯著優勢。它能夠利用源圖像的結構和上下文信息,使其能夠保持強大的視覺連貫性并成功應用所請求的編輯。雖然與更高 NFE 版本的模型相比,細微的細節或完美的照片真實感可能略有不足,但 1-NFE 模型仍然能提供高度可用且上下文準確的編輯,使其成為近乎實時的交互式編輯的強大工具,在這種場景下,快速模型提供的即時視覺反饋是無價的。

結論
Hyper-Bagel,一個旨在成功減輕先進多模態模型中顯著計算開銷的統一框架。采用分治策略,對理解任務使用推測解碼,對生成任務使用多階段蒸餾,通過全面的實驗證明該策略非常有效。已經證明,無損 6-NFE 模型將文本到圖像生成和編輯任務分別加速了超過 16.67 倍和 22 倍,實現了與高 NFE 基線相當甚至更優的性能,同時將多模態理解的速度提高了一倍。高效的 1-NFE 模型為近實時應用提供了一個穩健且實用的解決方案,尤其在交互式編輯中證明特別有效。最終,Hyper-Bagel 提供了一個整體解決方案,彌合了統一多模態模型的強大能力與實際部署需求之間的差距,實現了無縫且即時的創造性交互,而無須妥協。
本文轉自AI生成未來 ,作者:AI生成未來

















