比自回歸更靈活、比離散擴散更通用,首個純Discrete Flow Matching多模態巨獸降臨
王勁,香港大學計算機系二年級博士生,導師為羅平老師。研究興趣包括多模態大模型訓練與評測、偽造檢測等,有多項工作發表于 ICML、CVPR、ICCV、ECCV 等國際學術會議。
近年來,大型語言模型(LLMs)在多模態任務中取得了顯著進展,在人工通用智能(AGI)的兩大核心支柱(即理解與生成)方面展現出強大潛力。然而,目前大多數多模態大模型仍采用自回歸(Autoregressive, AR)架構,通過從左到右逐步處理多模態 token 來完成任務,推理缺乏靈活性。
與此同時,基于掩碼的離散擴散模型憑借雙向建模能力也逐漸興起,該架構通過雙向信息建模顯著提升了模型的建模能力。例如,DeepMind 的 Gemini Diffusion 驗證了離散擴散在文本建模領域的潛力;在開源社區,LLaDA、Dream 等擴散式大語言模型(dLLM)也催生了如 MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模態模型。基于掩碼(mask)離散擴散為多模態任務提供了一種重要的建模范式。
然而,生成模型的實現方式并不局限于上述兩類架構,探索新的生成建模范式對于推動多模態模型的發展同樣具有重要意義。
基于這一理念,來自香港大學和華為諾亞方舟實驗室的研究團隊提出了 FUDOKI,一個基于全新非掩碼(mask-free)離散流匹配(Discrete Flow Matching)架構的通用多模態模型。
與傳統的自回歸方法不同,FUDOKI 通過并行去噪機制實現了高效的雙向信息整合,顯著提升了模型的復雜推理和生成能力。與離散擴散架構相比,FUDOKI 采用更加通用的概率路徑建模框架,從均勻分布出發,允許模型在推理過程中不斷更新和修正生成結果,為多模態模型打開了一條嶄新的技術路徑。

- 論文標題:FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
- 論文鏈接:https://arxiv.org/abs/2505.20147
- 項目主頁:https://fudoki-hku.github.io/
FUDOKI 的核心亮點包括如下:
- 統一架構:一套簡單直觀的框架搞定圖像生成與文本理解
- 徹底去掩碼:無需掩碼(mask)策略,與 mask-based discrete diffusion 相比更通用
- 支持動態修正:生成過程可實時調整,更接近人類推理方式
- 性能對標 / 超越同參數 AR 模型(在 GenEval & 多模態 QA 上有實測)
我們先來看以下兩個效果展示:

圖片生成

圖片理解
在社媒上,FUDOKI 獲得了Meta Research Scientist/ Discrete Flow Matching 系列作者推薦:

統一的多模態能力
FUDOKI 對文本模態和圖像模態均采用通過統一的離散流匹配框架,實現了理解與生成任務的統一建模。
- 圖像生成:文本到圖像生成任務上在 GenEval 基準上達到 0.76,超過現有同尺寸 AR 模型的性能,展現出色的生成質量和語義準確性

文生圖樣例

GenEval 基準評測結果

離散流生成過程
- 視覺理解:在多模理解任務上接近同參數量 AR 模型的性能水平,并允許模型在推理過程不斷修復回答。

視覺理解樣例

視覺理解基準評測

視覺理解案例的過程對比,FUDOKI 允許對已生成的回答進行修正
架構特色
FUDOKI 的核心創新在于將多模態建模統一到離散流匹配框架中。具體而言,FUDOKI 采用度量誘導的概率路徑(metric-induced probability paths)和動力學最優速度(kinetic optimal velocities),完成從源分布到目標分布的離散流匹配。
基于度量誘導的概率路徑
FUDOKI 的離散流采用基于度量誘導的概率路徑,定義了一種語義上更有意義的轉換過程。在前向過程中(t 從 1 減少到 0),FUDOKI 會對每個 token
的概率分布(即 0/1 分布)進行逐步擾動,直到趨近于均勻分布。值得注意的是,在擾動過程中,FUDOKI 的離散流會綜合考慮字典里每個 token 與真實數據 token
的語義距離
,并使用如下公式計算概率路徑,使得所有與
語義相似的 token 仍然具有較高的概率。

動力學最優速度
FUDOKI 的反向過程(t 從 0 增加到 1)通過并行去噪機制,將 t=0 的均勻分布逐步映射回 t=1 的目標分布(即 0/1 分布)。具體而言,在時刻 t,FUDOKI 會根據動力學最優速度 u 對第 t+h 時刻的 token 進行重采樣,計算方式如下:

這一機制具有兩個關鍵特性:首先,隨著 t 從 0 增加到 1,動力學最優速度 u 會提升與真實數據 token
語義相似的候選 token 的概率,使模型能夠在每個時間步采樣到語義相近的替代 token,從而有效擴展了采樣空間的多樣性。此外,該采樣策略還支持在反向過程中對已生成的 token 進行動態調整與修正,為生成過程提供了更大的靈活性。
模型結構與訓練損失
為降低大規模離散流匹配模型的訓練成本,FUDOKI 通過利用預訓練的自回歸(AR)模型進行初始化,最大化復用現有模型的知識,從而實現從 AR 范式到流匹配范式的平滑過渡。其訓練損失函數與離散擴散模型類似,目標是讓模型
預測出加噪樣本所對應的真實數據。具體而言,訓練過程中采用交叉熵損失函數,以優化模型在生成任務中的性能。

結語
FUDOKI 的提出不僅挑戰了現有自回歸和掩碼擴散范式,也為多模態生成與理解的統一架構帶來了新的思路。通過離散流匹配的方法,它為通用人工智能的發展提供了更加靈活和高效的技術基礎。我們期待未來會有更多的探索和進展。



























