AIGC 進入「長劇情」時代!復旦&微軟開源StableAvatar: 首個端到端無限時長音頻驅動人物視頻生成新框架! 精華
由復旦大學、微軟亞洲研究院、西安交通大學以及騰訊混元聯合提出的 StableAvatar 是首個端到端視頻擴散轉換器,它以參考圖像和音頻為條件,無需任何后處理即可合成無限長度的高質量音頻驅動的頭像視頻。

StableAvatar 生成的音頻驅動頭像視頻,展現了其合成無限長且身份保留視頻的強大能力。視頻時長超過 3 分鐘(FPS=30)。Frame-X 表示合成頭像視頻的第 X 幀。
效果展示
所有動畫均由 StableAvatar 直接合成,無需使用任何后處理工具,例如換臉工具 FaceFusion 或人臉修復模型(例如 GFP-GAN 和 CodeFormer)。



相關鏈接
- 論文:https://arxiv.org/abs/2508.08248
- 主頁:https://francis-rings.github.io/StableAvatar/
- 代碼:https://github.com/Francis-Rings/StableAvatar
- Demo: https://www.bilibili.com/video/BV1hUt9z4EoQ
論文介紹

目前,用于音頻驅動頭像視頻生成的擴散模型難以合成具有自然音頻同步和身份一致性的長視頻。本文介紹了 StableAvatar,這是首個端到端視頻擴散變換器,無需后期處理即可合成無限長的高質量視頻。StableAvatar 以參考圖像和音頻為條件,集成了定制的訓練和推理模塊,以實現無限長的視頻生成。我們觀察到,現有模型無法生成長視頻的主要原因在于其音頻建模。它們通常依賴第三方現成的提取器來獲取音頻嵌入,然后通過交叉注意力機制將其直接注入擴散模型。由于當前的擴散主干網絡缺乏任何與音頻相關的先驗知識,這種方法會導致視頻片段之間嚴重的潛在分布誤差累積,從而導致后續片段的潛在分布逐漸偏離最優分布。
為了解決這個問題,StableAvatar 引入了一種新穎的時間步長感知音頻適配器,通過時間步長感知調制來防止誤差累積。在推理過程中,提出了一種新穎的音頻原生引導機制,利用擴散層自身不斷演化的聯合音頻潛在預測作為動態引導信號,進一步增強音頻同步。為了增強無限長視頻的流暢度,引入了一種動態加權滑動窗口策略,該策略會隨時間推移融合潛在預測。基準測試中的實驗從定性和定量兩個方面證明了 StableAvatar 的有效性。
方法概述

StableAvatar 的架構。(a)表示音頻適配器的結構。圖像編碼器和文本編碼器的嵌入被注入到 DiT 的每個塊中。給定音頻利用 Wav2Vec 提取音頻嵌入。為了對聯合音頻潛在表示進行建模,音頻嵌入被輸入到音頻適配器中,并通過交叉注意力機制將其輸出注入 DiT。
實驗結果

與最先進方法的定性比較。




結論
StableAvatar 是一個視頻擴散變換器,它擁有專門的訓練和推理模塊,用于合成無限長的高質量頭像視頻。StableAvatar 首先利用現成的模型來獲取音頻嵌入。為了克服擴散主干網絡音頻先驗的匱乏,StableAvatar 引入了一個音頻適配器來優化音頻嵌入。在推理方面,為了進一步增強與音頻的唇音同步,StableAvatar 引入了一種音頻原生引導機制來取代傳統的 ClassifyFree-Guidance 機制。為了提高長視頻的流暢度,StableAvatar 進一步提出了一種動態加權滑動窗口策略。在各種數據集上的實驗結果證明了該模型在生成無限長的高質量頭像視頻方面的優勢。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















