NeurIPS重磅:華南理工團隊重構擴散模型推理,質量效率雙SOTA
從Stable Diffusion的文生圖到Sora的文生視頻,擴散模型憑借其卓越的生成質量始終占據著圖像和視頻生成領域的主導地位。然而,這種高質量的生成往往伴隨著巨大的代價(包括最近的擴散語言模型),它需要通過數十甚至上百步的迭代,從純噪聲中逐步恢復圖像。
這就帶來了兩個讓業界頭疼的核心矛盾:
- 推理效率與質量的博弈:想快(減少步數),畫質就崩;想畫質好,就得忍受漫長的生成時間。
- 理論與實踐的割裂:為了加速,業界提出了各種基于微分方程(ODE)的求解器(如DPM-Solver)。但這些方法往往更像是一種「數值近似技巧」,缺乏對擴散過程本質的解釋。例如,為什么某些參數化方法(如預測噪聲)效果不如預測數據?我們到底在優化什么?
更棘手的是,現有的許多SOTA加速算法(如LD3,DPM-Solver-v3)都依賴于參考軌跡(Reference Trajectory)進行優化或者蒸餾。
也就是說,為了優化這10步的生成路徑,你需要先跑一遍高精度的路徑 (比如200步下的結果) 作為「參考答案」。
在實際應用中,不僅增加了巨大的計算開銷,也限制了基礎模型的泛化能力。
華南理工大學「統計推斷,數據科學與人工智能」團隊提出的EVODiff,正是為了解決這兩種核心的問題,不再修補ODE求解器的數值誤差,而是回到了擴散模型的物理本源——熵(Entropy)。

論文鏈接:https://openreview.net/forum?id=rKASv92Myl
EVODiff的核心洞察非常深刻:擴散模型的去噪過程,本質上就是一個不斷減少不確定性、恢復信息的過程。

EVODiff的熵減路徑的直觀理解
在物理學中,熵代表系統的混亂程度。前向擴散過程是向圖像中加噪,熵不斷增加;反向去噪過程則是從混亂中恢復秩序,條件熵(Conditional Entropy) 應當不斷降低。
研究團隊不僅在數學上嚴格證明了數據預測在推理生成過程中優于噪聲預測,還提出了一種「免參考」(Reference-free)的自適應方差優化框架(EVODiff)。
該框架首次展現出,在不依賴于高成本「參考軌跡」優化的前提下,就能夠獲得比一些依賴參考軌跡的方法(如DPM-Solver-v3, LD3)更高效、且更優的生成質量。
在CIFAR-10上,僅需10步推理,FID評測指標即達到驚人的2.78,相比于同樣是無需參考軌跡優化的DPM-Solver++,生成誤差率降低了45.5% (從5.10到2.78)。

在CIFAR-10上與「Referenc-free」方法DPM-Solver++的視覺對比
論文作者李仕貴和陳煒均是華南理工大學數學學院的博士研究生。通訊作者是華南理工大學電子與信息學院的曾德爐教授。
為何「數據預測」完勝「噪聲預測」?
在擴散模型社區,存在一個長期的經驗性共識:在做推理生成時,直接使用預測干凈數據
(Data Prediction)的參數化方案,往往比使用噪聲預測
(Noise Prediction) 的推理范式效果更好,這種現象尤其在較低步數下特別顯著。
值得關注的是,這一現象與 MIT 何愷明(Kaiming He)團隊最新發布的JiT架構 “Back to Basics: Let Denoising Generative Models Denoise” 中的核心洞察不謀而合! 何愷明團隊從「流形假設」的角度出發,指出自然數據位于低維流形上,而噪聲彌漫于整個高維空間,因此神經網絡直接預測干凈數據要比預測噪聲容易得多。
如果說Back to Basics是從直覺和實證角度呼吁回歸本源,那么EVODiff則是在數學層面為這一趨勢提供了堅實的理論支撐。
此前,這個現象只是被經驗地驗證。而在EVODiff這個研究中,論文首次給出了嚴格的數學證明。
根據信息論推導,EVODiff團隊發現:
- 噪聲預測路徑: 需要經過
的間接計算。這就像是讓你通過「猜測干擾項」來還原真相,中間的誤差會隨著噪聲預測的誤差而被放大。 - 數據預測路徑: 直接建立
的映射則從路徑上就極大地規避了誤差的伸縮和混合效應。
團隊數學證明了 「數據預測參數化」能更直接地最小化重建誤差,并能更有效地降低條件熵。
這一理論貢獻,不僅解釋了 EVODiff 的高效性,也從理論上側面印證了何愷明團隊 最新的JiT 架構,為未來擴散模型的設計提供了堅實且有原則的數學基礎,明確了關于參數化選擇的爭論。
尋找最優路徑
熵感知方差優化
既然目標是「降低熵」,那么更準確地熵減便能提高推理效率。同時既然預測數據在理論上更高效,那么在具體的迭代中該怎么更高效地降低數據預測的條件熵呢?
EVODiff首先回顧了擴散模型高斯建模中條件熵與條件方差(Conditional Variance)正相關的特點。
也就是說,只要在每一步推理中動態調整方差至最小,就能以最快的速度逼近真實圖像。
基于此,EVODiff構建了一個「無參考」的自適應優化框架。它無需任何昂貴的預計算「參考軌跡」,而是僅利用當前迭代步驟的狀態差異,通過一個計算開銷極低的閉式解(Closed-form Solution),就能動態且實時地計算出最優的方差控制參數。這確保了每一步都朝著最高效的收斂路徑。
EVODiff框架解析
更優、更快、更智能
EVODiff(Entropy-aware Variance Optimized Diffusion Inference)不僅僅是一個理論框架,更是一套可以直接落地的實時指導算法。
EVODiff框架的先進性在于,它首次展現出在無須參考軌跡優化的前提下,就能獲得比一些(如DPM-Solver-v3)基于參考軌跡優化的方法更高效、且更優的生成質量。
其核心特性可以概括為「三板斧」:
1. Reference-free(免參考)的極致輕量化
與需要預先計算高成本軌跡的EMS(經驗模型統計)類方法不同,EVODiff完全依靠在線(On-the-fly) 計算。它利用當前迭代步驟中的狀態差異,動態優化方差。這意味著它沒有任何額外的訓練成本或預處理開銷,做到了真正的「拿來即用」。
2. 閉式解(Closed-form Solution)的極速計算
許多優化算法需要復雜的迭代求解,會拖慢推理速度。但EVODiff團隊推導出了方差優化目標的閉式解。這意味著,獲得最優參數幾乎不需要消耗計算資源。實驗數據顯示,EVODiff在獲得SOTA畫質的同時,推理時間甚至略快于DPM-Solver++。
3. 普適性(Universality)
無論是像素空間的傳統擴散模型(如EDM),還是目前最火的隱空間擴散模型(如Stable Diffusion),亦或是不同的噪聲調度策略(LogSNR, EDM schedule),EVODiff都能無縫適配并帶來提升。
SOTA戰績
「免參考」全面超越「有參考」
EVODiff的「免參考」框架并非空洞理論。在NeurIPS 2025的評審中,實驗數據顯示,免參考路徑在質量和效率上均超越了依賴參考軌跡的方法(DPM-Solver-v3),并在8-10NFE左右就超過了依賴參考軌跡的LD3方法(ICLR 2025 Oral),給審稿人留下了深刻印象。
CIFAR-10 (EDM模型):刷新紀錄的低步數表現
在極低步數(NFE=10)的挑戰下,EVODiff的表現堪稱「降維打擊」:
- 基準(DPM-Solver++): FID 5.10
- EVODiff:FID 2.78
- 提升幅度: 錯誤率降低了驚人的 45.5%
ImageNet-256 (ADM模型):高分辨率下的穩健
在高分辨率圖像生成上,EVODiff同樣展現了統治力。為了達到相同的SOTA級畫質:
- 傳統方法需要:20 NFE
- EVODiff僅需:15 NFE
- 效率提升: 25%
LSUN-Bedrooms (隱空間擴散模型):工業級模型的完美適配
針對當前工業界主流的隱空間模型(Latent Diffusion Model),EVODiff在LSUN-Bedrooms數據集上:
- 相比UniPC,FID分數提升43.4%(在5 NFE下)。
- 生成速度提升5.3%。
這是一個非常關鍵的信號:EVODiff不僅適用于學術小模型,更能直接賦能Stable Diffusion等工業級大模型。



EVODiff與Reference-free方法在不同指標下的全面對比

EVODiff與Reference-free和Reference-based的方法的全面對比評估
視覺實測:告別「多手多腳」的偽影噩夢
除了冷冰冰的數據,EVODiff在視覺感官上的提升更為直觀。
在文本生成圖像(Text-to-Image) 任務中,低步數推理往往會導致圖像結構崩壞,比如生成出扭曲的肢體或模糊的背景。
論文展示了一個經典的測試案例:提示詞 "An astronaut riding a horse"(宇航員騎馬)。
- 競品方法(UniPC/DPM++): 在低步數下,馬匹經常會出現「五條腿」的解剖學錯誤,或者宇航員與馬的融合顯得極不自然。
- EVODiff: 生成的圖像結構嚴謹,馬匹四肢正常,光影過渡自然,展現了極高的語義對齊度和視覺連貫性。

EVODiff在高效文生圖上的表現

在文生圖上僅用簡單的Prompt,例如「Giant caterpillar riding a bicycle」和「a photograph of an astronaut riding a horse」,EVODiff能生成高保真、語義連貫且正確的圖像,而其他競爭方法則有嚴重偽影
德國AI公司Mindverse在其專題報道中特別指出了這一點:「EVODiff在文本生成圖像任務中展現了‘更自然、更一致、更少偽影’的優勢,即使在使用簡單的提示詞時也是如此。」
影響力與未來
從學術突破到工業落地
EVODiff的發表,不僅僅是多了一個SOTA算法框架,它標志著擴散模型推理的研究進入了理論驅動的新階段。
以往,我們為了加速,往往是在「盲改」求解器或者特定的優化和適當的蒸餾。而EVODiff告訴我們:只要你從熵感知信息流優化的角度去理解去噪過程,便能從原則上去設計一個既有效率提升又有生成質量提升的雙贏范式。
德國Mindverse的報道評價道:「EVODiff的引入代表著擴散推理優化向前邁出了一步……它系統地降低條件熵的能力,為更高效、更高質量的生成模型開辟了新的可能性。」






























