重新定義跨模態生成的流匹配范式,VAFlow讓視頻「自己發聲」
本文第一作者是中國人民大學高瓴人工智能學院 2021 級博士生王希華(導師宋睿華),他的主要研究興趣方向是多模態生成。本文通訊作者是宋睿華長聘副教授,她的 AIMind 團隊主要研究方向是多模態感知、交互與生成。
背景:從「噪聲到聲音」到「視頻到聲音」
在多模態生成領域,由視頻生成音頻(Video-to-Audio,V2A)的任務要求模型理解視頻語義,還要在時間維度上精準對齊聲音與動態。早期的 V2A 方法采用自回歸(Auto-Regressive)的方式將視頻特征作為前綴來逐個生成音頻 token,或者以掩碼預測(Mask-Prediction)的方式并行地預測音頻 token,逐步生成完整音頻。
這兩種方法都依賴于音頻的離散化表示,而離散化處理往往由于信息損失會限制音質上限。
最近主流方法大多采用擴散模型或流匹配架構,通過「從噪聲生成音頻」的方式來實現視頻驅動的聲音合成。這種方式不依賴離散 token 表征,直接在連續的隱空間進行建模。通過采樣隨機噪聲,并將視頻信息作為條件,模型從噪聲中逐步去噪,最終生成音頻。但是這樣的范式仍然存在兩個天然瓶頸:
同一視頻條件下的多對一映射:在訓練階段,模型被訓練從不同的采樣噪聲中預測同一個音頻,多對一的映射關系增加了訓練難度;推理階段,由于不同噪聲樣本通過 ODE 求解得到的推理結果差異較大,生成的音頻質量難以保持一致,甚至出現「抽獎」現象。
不同視頻條件下的一對多映射:在訓練和推理階段,模型被要求從相同的采樣噪聲出發只根據不同視頻條件生成不同的音頻,這要求模型具備極強的條件處理能力。

主流擴散模型或流匹配架構的挑戰
因此,模型需要從隨機噪聲中逐步「聽懂」視頻,這一過程依賴復雜的條件機制,導致路徑復雜、訓練低效且生成結果不穩定。
在這一背景下,中國人民大學宋睿華帶領的 AIMind 團隊與值得買科技 AI 團隊提出了一個全新的框架 —— VAFlow。研究者提出:既然從噪聲到聲音依賴復雜的視頻條件機制并且有上述局限,為什么不直接從視頻出發生成聲音?
基于這一思路,團隊設計了一個直接建模「視頻→音頻」映射的跨模態流匹配框架 VAFlow。它擺脫了對高斯噪聲先驗的依賴,首次實現了從視頻分布直接生成音頻的范式轉變,并在生成質量、語義對齊與同步精度上取得了顯著突破。該研究已正式發表于 ICCV 2025。

不同生成范式對比

論文鏈接:https://openaccess.thecvf.com/content/ICCV2025/papers/Wang_VAFlow_Video-to-Audio_Generation_with_Cross-Modality_Flow_Matching_ICCV_2025_paper.pdf
主頁地址:https://vaflow.github.io/demo/
VAFlow:讓視頻直接「流」向聲音
流匹配(Flow Matching)作為多媒體領域主流的生成算法,它學習一條從起點分布到目標分布的最優傳輸線路,模型沿著路線一步步把原始分布映射到目標分布。主流的流匹配方法中,模型往往將隨機采樣的高斯噪聲作為起點,以視頻為條件輸入,逐步將噪聲映射到音頻分布,這種范式對模型的條件建模能力提出了很大的挑戰。而 VAFlow 的核心思想簡單又直觀:不再從噪聲出發,而是直接從視頻出發,首次實現了視頻分布到音頻分布的直接映射。
這意味著模型不再從噪聲中解讀視頻條件「猜測」聲音,而是順著視頻的信息流自然生成聲音,讓視覺與聽覺真正合而為一。

VAFlow 框架圖
VAFlow 的框架由兩個關鍵模塊組成:
跨模態對齊自編碼器(Alignment VAE):流匹配模型要求路徑兩端的分布形狀相同,而視頻和音頻之間的時序和特征維度都存在差異。因此 VAFlow 借助跨模態對齊的變分自編碼器調整視頻特征以匹配音頻特征,解決了視頻與音頻在時間長度和特征維度上的不匹配問題。
視頻驅動的流匹配生成器(Video-Conditioned Flow Matching Estimator):VAFlow 采用 Diffusion transformer (DiT) 架構,直接在視頻分布與音頻分布之間學習最優傳輸路徑,避免了傳統噪聲先驗帶來的不穩定效果。
除此之外,VAFlow 保留了 DiT 結構中的交叉注意力層,讓模型能夠在流匹配采樣過程中持續融合原始視頻特征,同時支持推理過程中的無分類器引導。
先驗分析:為什么「視頻先驗」(V-Prior)更優?
為了驗證「以視頻為先驗」的合理性,團隊對比分析了高斯先驗 (Gaussian Prior) 與視頻先驗 (V-Prior) 的表現,從統計特性、可視化結構和生成質量三方面展開實驗。
統計對齊性分析
研究者計算了先驗與音頻潛向量之間的 均方誤差(MSE) 和 中心核對齊度(CKA),并在有條件(Cond.)與無條件(Uncond.)兩種設置下訓練模型。結果如下表:

可以看出,V-Prior 與音頻潛空間的對齊度顯著更高(MSE 更低、CKA 更高),同時生成音質(FD)也更優。
這說明:視頻先驗本身攜帶了更貼近音頻的結構信息,能天然作為更合理的生成起點。
團隊進一步利用 t-SNE 將兩種先驗與目標音頻潛空間進行可視化。

不同先驗空間及生成過程可視化對比
結果顯示:
高斯先驗分布隨機且離散,其到音頻空間的映射路徑交叉密集;
視頻先驗分布則與音頻潛空間結構更一致,流動路徑平滑,語義結構更清晰。
這說明視頻先驗在空間結構上更貼合目標模態,能有效減少跨模態傳輸中的「彎路」,實現更穩定、更高效的生成。
性能對比:更快、更穩、更強、可規模化提升
Diffusion vs Flow vs VAFlow
作者在相同配置下(視覺特征、網絡結構、初始化與超參數完全一致)對比了三種不同的生成范式以探究它們的性能差異。分別為:擴散模型(標準 DDPM)、主流流匹配模型(高斯噪聲先驗)以及 VAFlow(以視頻特征為原始分布)。
結果表明:兩種流匹配模型在收斂速度與 FD 指標上均優于擴散模型,驗證了流匹配在訓練效率上的天然優勢;而 VAFlow 雖在早期收斂略慢,但最終經過聯合訓練階段取得了最低 FD。這種提升得益于它直接建模了更具結構性的視頻 - 音頻傳輸路徑,避免了高斯噪聲先驗下的模糊映射。

Scaling Analysis
本文作者發現,VAFlow 隨模型規模增大仍保持持續性能提升,這意味著 VAFlow 不僅在小模型上高效,參數量增加時同樣穩定可拓展,這為未來構建更強大的多模態生成模型奠定了基礎。

Benchmark 結果:超越現有 SOTA

研究團隊在 V2A 領域常用的數據集 VGGSound 上對 VAFlow 和其他基線模型進行了對比測試。
實驗結果顯示,VAFlow 在音頻生成質量(Quality)相關指標上全面超越了現有 SOTA,獲得了最佳分數。盡管沒有設計復雜的視頻條件模塊,在音視頻的時序同步(Sync)和語義相關性(Semantic)方面,也達到了與 SOTA 相當的效果。
值得一提的是,與經過文本 - 音頻數據增強的 V2A 模型(表格中的灰色行)相比,VAFlow 在沒有任何文本標注數據的前提下,語義相關性方面的表現仍能更優或相當。
真實效果


作者展示了一個沙灘場景視頻的例子,該視頻包括背景中的海浪聲和來自不同角色的聲音(人群的嘈雜聲、女人說話)。可視化結果對比了真值和不同方法生成的音頻的梅爾譜圖。從圖中可以觀察到,VAFlow 不僅能精準理解復雜場景并生成所有必要的聲音,而且還能與視覺時序保持同步。模型的其他生成結果可在主頁試聽。
總結與展望
VAFlow 為 V2A 開辟了一條從視頻直接映射到音頻的全新流匹配生成范式,也為構建通用跨模態生成基礎模型提供了新思路。未來,團隊將繼續探索 VAFlow 在語音、音樂等更廣泛音頻領域的應用。




























