快手可靈團隊提出MIDAS:壓縮比64倍、延遲低于500ms,多模態互動數字人框架實現交互生成新突破
數字人視頻生成技術正迅速成為增強人機交互體驗的核心手段之一。然而,現有方法在實現低延遲、多模態控制與長時序一致性方面仍存在顯著挑戰。大多數系統要么計算開銷巨大,無法實時響應,要么只能處理單一模態輸入,缺乏真正的交互能力。
為了解決這些問題,快手可靈團隊(Kling Team) 提出了一種名為 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通過自回歸視頻生成結合輕量化擴散去噪頭,實現了多模態條件下實時、流暢的數字人視頻合成。該系統具備三大核心優勢:
- 64× 高壓縮比自編碼器,將每幀壓縮至最多 60 個 token,大幅降低計算負荷;
- 低于 500ms 端到端生成延遲,支持實時流式交互;
- 4 步擴散去噪,在效率與視覺質量間取得最佳平衡。
該項研究已被廣泛實驗驗證,在多語言對話、歌唱合成甚至交互式世界建模等任務中表現出色,為數字人實時交互提供了全新解決方案。

- 論文標題:MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
- 論文地址:https://arxiv.org/pdf/2508.19320
- 主頁地址:https://chenmingthu.github.io/milm/
核心創新
1. 多模態指令控制機制
MIDAS 支持從音頻、姿態到文本等多種輸入信號。通過一個統一的多模態條件投影器,將不同模態編碼到共享潛在空間,形成全局指令令牌,構建 frame-by-frame 的 chunk 注入,引導自回歸模型生成語義和空間一致的數字人動作與表情。

2. 因果潛在預測 + 擴散渲染
模型可嵌套任意類似大語言模型的自回歸架構,逐幀預測潛在表示,再由一個輕量級擴散頭進行去噪和高清渲染。這種設計既保證了生成的連貫性,也大幅降低了計算延遲,適合實時流式生成。
3. 高壓縮率自編碼器(DC-AE)
為實現高效的自回歸建模,團隊設計了壓縮比高達 64 倍的 DC-AE,將每幀圖像表示為最多 60 個令牌,支持分辨率最高達 384×640 的圖像重建,并引入因果時序卷積與 RoPE 注意力機制保障時序一致性。

4. 大規模多模態對話數據集
為訓練模型,研究者構建了一個約 2 萬小時的大規模對話數據集,涵蓋單人、雙人對話場景,涵蓋多語言、多風格內容,為模型提供了豐富的語境與交互樣本。
方法概要
- 模型架構:采用 Qwen2.5-3B 作為自回歸主干網絡,擴散頭基于 PixArt-α /mlp 結構。
- 訓練策略:引入可控噪聲注入,通過 20 級噪聲桶和對應嵌入,緩解自回歸模型在推理階段的曝光偏差問題。
- 推理機制:支持分塊流式生成,每塊 6 幀,可實現 480ms 級別的低延遲響應。

效果展示
1. 雙人對話生成
系統可實時處理雙人對話音頻流,生成與語音同步的口型、表情和傾聽姿態,支持自然輪流對話:

雙工對話示例
2. 跨語言歌唱合成
在沒有顯式語言標識的情況下,模型精準實現中文、日文、英文歌曲的唇形同步,生成視頻可達 4 分鐘無顯著漂移:

多語言歌唱合成效果
3. 通用交互世界模型
通過在 Minecraft 數據集上訓練,MIDAS 可響應方向控制信號,展現出良好的場景一致性與記憶能力,驗證了其作為交互式世界模型的潛力:

Minecraft 環境下的交互生成示例
總結
MIDAS 在雙邊對話、多語言生成等任務中,MIDAS 均實現實時生成(<500ms 延遲), 并且擴散頭僅需 4 步去噪,在效率與質量間取得最佳平衡,支持長達幾分鐘的連續生成,且質量衰減顯著低于基線方法。
MIDAS 不僅為實時數字人生成提供了端到端的解決方案,更探索了多模態自回歸模型在交互式媒體生成中的潛力。其模塊化設計允許靈活擴展至更多模態與控制信號,為虛擬人直播、元宇宙交互、多模態 AI 智能體等應用奠定了技術基礎。
團隊表示,未來將進一步探索更高分辨率、更復雜交互邏輯下的生成能力,并推進系統在真實產品環境中的部署。




































