任意骨骼系統的模型都能驅動?AnimaX提出基于世界模型的3D動畫生成新范式
本文的主要作者來自北京航空航天大學、清華大學、香港大學和 VAST。本文的第一作者為北京航空航天大學碩士生黃澤桓。本文的通訊作者為北京航空航天大學盛律教授與 VAST 公司首席科學家曹炎培博士。
在游戲、影視制作、虛擬人和交互式內容創作等行業中,高質量的 3D 動畫是實現真實感與表現力的基礎。然而,傳統計算機圖形學中的動畫制作通常依賴于骨骼綁定與關鍵幀編輯,這一流程雖然能夠帶來高質量與精細控制,但需要經驗豐富的藝術家投入大量人力與時間,代價昂貴。
隨著生成模型的快速發展,自動化的角色動畫生成逐漸成為可能,為行業提供了新的解決思路。然而,現有方法存在顯著局限:
- 基于動作捕捉的擴散模型或自回歸模型只能在固定骨骼拓撲下工作,主要面向類人動作,難以推廣至更廣泛的角色類別;
- 基于視頻生成模型的工作雖然能夠生成多樣化的動態序列,卻往往依賴于高自由度的三維形變場優化,計算開銷大、結果不穩定,往往需要耗時的優化過程。
為解決這一難題,北京航空航天大學團隊提出了 AnimaX,一個高效的前饋式 3D 動畫生成框架,并且支持任意類別的骨骼拓撲結構。

論文題目:AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
論文鏈接:https://arxiv.org/abs/2506.19851
項目主頁:https://anima-x.github.io/
AnimaX 的核心思想是將視頻擴散模型的運動先驗與骨骼動畫的低自由度控制相結合。創新性地將 3D 動作表示為多視角、多幀的二維姿態圖,并設計了一種視頻-姿態聯合擴散模型,能夠同時生成 RGB 視頻與對應的姿態序列。
通過共享位置編碼與模態特定嵌入,該模型實現了跨模態的時空對齊,有效地將視頻中的豐富運動知識遷移到 3D 動畫生成中。最終,通過反投影與逆向運動學將生成的姿態轉化為 3D 動畫。
總結而言,AnimaX 的主要貢獻包括:
- 提出了 AnimaX,首個支持任意類別的骨骼拓撲結構,同時兼顧視頻先驗的多樣性與骨骼動畫的可控性的高效前饋式 3D 動畫框架。
- 設計視頻-姿態聯合擴散模型,通過共享位置編碼實現跨模態時空對齊,顯著提升運動表達能力。
- 構建了一個涵蓋約 16 萬條綁定骨骼的 3D 動畫數據集,包含人形、動物及其他多種類別,為訓練通用的動畫模型提供了重要資源。
效果展示:不限物體類別的 3D 骨骼動畫生成

AnimaX 能夠為多種類別的 3D 網格生成自然連貫的動畫視頻,不論是人形角色、動物還是家具與機械結構,都能實現時空一致的動作表現。不同于以往依賴高代價優化的方法,AnimaX 可以在幾分鐘內完成 3D 動畫序列生成,并在保持動作多樣性和真實性的同時展現出極強的泛化能力。
技術突破:基于視頻擴散模型的任意骨骼動畫生成
骨骼動畫的局限與挑戰
傳統 3D 動畫生成依賴骨骼綁定與關鍵幀設計,雖然能帶來高質量和可控性,但需要大量人工成本。近期基于動作捕捉的擴散模型和視頻生成模型提供了自動化可能性,但前者受限于固定骨骼拓撲,難以泛化至非人形角色;后者則依賴高自由度的形變場優化,計算昂貴、結果不穩定,甚至需要數十小時才能得到一條動畫。
新思路:聯合視頻-姿態擴散建模
AnimaX 打破了這一局限。團隊提出將 3D 動作重新表示為多視角、多幀的二維姿態圖,并訓練一個視頻-姿態聯合擴散模型,同時生成 RGB 視頻與姿態序列。通過共享位置編碼與模態嵌入,團隊首次在視頻和姿態之間實現了穩健的時空對齊,使視頻擴散模型中學到的運動先驗能夠無縫遷移到姿態序列生成。

團隊首先提出了一種姿態圖表示方式,將三維骨骼的關節位置投影到二維圖像平面,使模型能夠精確定位姿態結構,為后續的三維動作重建打下基礎。
在此基礎上,研究者構建了一個視頻-姿態聯合擴散模型。該模型在原有視頻擴散模型上引入了模態嵌入與共享位置編碼,前者用于區分 RGB 與姿態兩類信號,后者則確保兩種模態在空間位置上的對齊,使模型能夠同時學習 RGB 視頻與姿態序列的聯合分布。
通過這一機制,視頻和姿態序列的生成過程得以在同一框架下協同進行。之后,為了進一步發揮視頻擴散模型的時空建模能力,團隊設計了一種統一序列建模策略,即將輸入的模板圖像(包括 RGB 與姿態圖)與目標生成序列拼接在一起,再通過三維自注意力進行聯合推理。這種方式使預訓練模型的時空先驗能夠自然遷移,從而保證了輸出動畫的穩定性與連貫性。
最后,團隊采用 Plücker ray 來編碼相機參數,并在網絡中加入多視角注意力機制以解決多視角不一致的問題,使得不同視角下的視頻與姿態能夠直接建立空間對應關系。得益于這一設計,生成的動畫在不同相機角度下依然保持協調一致,避免了常見的視角漂移和形變不穩的問題。
3D 姿態重建與動畫生成
在生成多視角姿態序列后,團隊設計了一套高效的三維動作重建與動畫生成流程:先通過聚類提取二維關節位置,再利用多視角三角化與最小二乘優化恢復三維關節坐標,最終通過逆向運動學將其映射為骨骼旋轉驅動網格,從而生成自然流暢的三維動畫。不同于以往依賴長時間迭代優化的方法,AnimaX 僅需數分鐘即可得到結構合理、動作連貫的結果,并能夠泛化到人形、動物乃至家具、機械等多種類別。
卓越性能:泛化的動畫合成
團隊將 AnimaX 與眾多優秀的開源模型進行定性定量的對比??梢钥吹?AnimaX 的結果基本都優于現有方法,并在后續的人類偏好測試中取得了顯著優勢。
動畫生成

團隊對比了 AnimaX、MotionDreamer 和 Animate3D。
從結果中可以看出,AnimaX 通過聯合視頻-姿態建模,將視頻中的運動先驗有效遷移到骨骼驅動的動畫合成中,能夠高質量地生成各類物體 3D 運動動畫,并同時保持物體的一致性。
相比之下,MotionDreamer 依賴預訓練視頻擴散模型來監督模型形變,但由于形變場的自由度過高,約束能力有限,往往導致幾何不一致和時序不穩定;Animate3D 則通過微調多視圖視頻擴散模型提升跨視角一致性,雖然在一定程度上減少了偽影,但重建過程困難,常出現幾乎靜止的結果。

團隊從 VBench 中選取了四個指標進行評測,包括主體一致性(I2V Subject)、運動平滑度(Smooth)、動態程度(Dynamic Deg.)和外觀質量(Quality)。
結果顯示,AnimaX 在除運動豐富度外的所有指標上均顯著優于現有方法,尤其在外觀質量上表現突出。而對于運動豐富度指標,團隊通過進一步實驗發現由于其對部分樣本不夠魯棒,比如,在視頻中物體突然消失也會產生虛高分數,因此難以說明視頻的實際運動表現。

團隊還額外進行了用戶評測,以檢驗人類在實際使用中對不同方法的偏好。團隊共招募了 30 位參與者,使其對測試集中不同方法的生成結果從動作與文本的匹配度、三維形體的一致性以及整體運動質量三個方面分別選擇最佳結果。結果顯示,AnimaX 在所有指標上均獲得了最高偏好率,進一步說明了 AnimaX 將視頻擴散模型的運動先驗遷移到骨骼驅動的 3D 動畫的做法具有更強優勢。
消融實驗

團隊還進一步進行了消融實驗,對比了三種不同的設置:
- 在視頻擴散模型基礎上僅生成動作序列;
- 同時生成視頻與動作序列,但兩種模態不共享位置編碼;
- 完整的 AnimaX 模型,即聯合視頻-姿態生成并共享位置編碼。
實驗結果表明,方案 1 由于動作序列稀疏且與視頻模態差異較大,難以充分利用視頻先驗,往往生成畸變或近乎靜止的結果;方案 2 雖然一定程度緩解了問題,但視頻與動作之間缺乏空間對齊,仍存在不穩定現象。
相比之下,完整的 AnimaX 模型通過共享位置編碼實現了視頻與姿態的緊密對齊,更好地繼承了視頻擴散模型的運動先驗,在一致性與動作表現力上均顯著優于其他對比方案,進一步驗證了方法設計的有效性。
未來展望
AnimaX 研究團隊提出了一種新方法,將視頻擴散模型中可遷移的運動先驗與骨架動畫的結構化可控性相結合,實現對任意骨架結構的三維網格進行高效動畫生成,為更靈活的多視角三維動畫生成奠定了基礎。
同時,AnimaX 的設計思路也為多個方向提供了新的可能性。一方面,聯合視頻-姿態建模不僅適用于骨骼動畫,還可擴展到場景級動態建模,從而推動更廣泛的 4D 內容生成;另一方面,當前方法基于單次前饋生成,未來可嘗試結合長時序視頻生成,以提升長程動畫的連貫性與細節保真度,進而支持更復雜、更豐富的 3D 動畫生成。



































