ICCV 2025 | 小紅書AIGC團隊提出圖像和視頻可控人臉生成新算法DynamicFace

小紅書 AIGC 團隊發布了全新的可控人臉生成方法 DynamicFace,在圖像與視頻人臉交換任務中實現了卓越的質量與一致性。1) 精準控制:基于三維人臉先驗引入四種解耦的細粒度條件,實現獨立語義控制;2) 高保真:通過 Face Former 與 ReferenceNet 注入身份的高級語義與細節特征;3) 高一致性:引入 FusionTVO 增強視頻幀間與背景的穩定性。這些特性共同為定制化圖像和視頻生成提供了極佳的控制力和靈活性。
論文地址:
https://arxiv.org/abs/2501.08553
項目主頁:
https://dynamic-face.github.io/
小紅書 AIGC 團隊提出基于多條件解耦的視頻換臉方法 ,入選 ICCV 2025。
論文標題:
DynamicFace: High-Quality and Consistent Face Swapping for Image and Video using Composable 3D Facial Priors
01、背景
人臉是 AI 生成視頻中最困難也最關鍵的場景。因為人類對人臉的感知極為敏銳,每一張人臉,都同時承載著表情傳遞的情緒、姿態展現的動態、輪廓定義的身份、光影塑造的氛圍以及背景所處的環境,一個微小的表情變化就能決定情感傳達的成敗??煽?,才可用, 對于人臉生成這一高度敏感的領域,如果缺乏精準的可控性,AI 就無法成為創作者手中穩定可靠的工具,其價值也將大打折扣。
視頻人臉交換的核心難題在于,如何在保留源人臉全部身份特征的同時,精準復現目標視頻中的每一個細微表情與動態,確保情感表達的真實與連貫。盡管現有換臉方法已取得一定進展,但它們往往無法完美剝離參考人臉和目標人臉的特征,導致關鍵的表情細節失真或身份信息被“污染”,最終效果難以滿足創作者對真實感和情感傳遞的苛刻要求。這通常表現為以下三大挑戰:
1)空間與時間建模的內在矛盾:許多聚焦于身份一致性的圖像生成模型在空間特征提取方面已足夠優越,然而由于在注入運動信息時耦合了目標身份特征,進而導致運動信息不準確,一旦需要建模時間變化的視頻擴散模型時,單圖的不準確運動建模會被放大,最終陷入身份還原能力和運動一致難以兩全的問題。
2)身份一致性降低:在復雜或大幅度動作變化情況下,面部區域極易出現形變、失真,難以保證人物獨特的面貌特征能隨時保留。這種問題直接影響動畫人物的個體識別度和可信度,也是用戶接受數字人像動畫的首要阻礙。
3)整體視頻質量受損:當前最優秀的人像動畫生成模型雖然在動畫效果層面取得進展,但往往還需借助外部換臉后處理工具以改善關鍵幀細節??上?,這類后處理雖能暫時修復細節,卻往往損傷了整段視頻在視覺上的統一性和自然度,導致畫面出現割裂感和不連貫的現象。

02、方法
本研究提出了一種創新性的人臉置換方法 DynamicFace,針對圖像及視頻領域的人臉融合任務實現了高質量與高度一致性的置換效果。與傳統人臉置換方法相比,DynamicFace 獨創性地將擴散模型(Diffusion Model)與可組合的 3D 人臉先驗進行深度融合,針對人臉運動與身份信息進行了精細化解耦以生成更一致的人臉圖像和視頻。

- 可組合三維面部先驗的顯式條件解耦
針對現有方法在身份與運動表征中普遍存在的耦合冗余問題,Dynamicface 提出將人臉條件顯式分解為身份、姿態、表情、光照及背景五個獨立的表征,并基于 3DMM 重建模型獲取對應參數。
具體而言,利用源圖像提取身份形狀參數 α,目標視頻逐幀提取姿態 β 與表情 θ,隨后渲染生成形狀–姿態法線圖,減少目標人臉身份泄露,最大程度保留源身份;表情信息僅保留眉毛、眼球及口唇區域的運動先驗,避免引入目標身份特征;光照條件由 UV 紋理圖經模糊處理得到,僅保留低頻光照分量;背景條件采用遮擋感知掩碼與隨機位移策略,實現訓練–推理階段的目標臉型對齊。四條條件并行輸入 Mixture-of-Guiders,每組由3×3 卷積與零卷積末端構成,在注入網絡前經過 FusionNet 融合四條條件的特征后注入到擴散模型中,可在保持 Stable Diffusion 預訓練先驗的同時實現精準控制。
- 身份–細節雙流注入機制
為實現高保真身份保持,DynamicFace 設計了雙流并行注入架構。高層身份流由 Face Former 完成:首先利用 ArcFace 提取 512 維 ID Embedding,再通過可學習 Query Token 與 U-Net 各層 Cross-Attention 交互,確保全局身份一致性;細節紋理流由 ReferenceNet 實現,該網絡為 U-Net 的可訓練副本,將 512×512 源圖潛變量經 Spatial-Attention 注入主網絡,實現細粒度的紋理遷移。
- 即插即用時序一致性模塊
針對時序一致性問題,DynamicFace 會在訓練中插入時序注意力層來優化幀間穩定性,但時序層在處理長視頻生成時會出現幀間跳動的現象。為此,我們提出了 FusionTVO,將視頻序列劃分為若干段,并為每段設置融合權重,在相鄰段的重疊區域實行加權融合;并在潛變量空間引入總變差(Total Variation)約束,抑制幀與幀之間的不必要波動;對于人臉之外的背景區域,在每一步去噪迭代過程中采用目標圖像中的背景潛變量空間進行替換,維持了場景的高保真度。
03、實驗
為全面評估 DynamicFace 的性能,研究團隊在 FaceForensics++(FF++)和 FFHQ 數據集上進行系統性的定量實驗,并與當前最具代表性的 6 種換臉方法進行對比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。實驗遵循先前論文的參數設置:從每個測試視頻中隨機抽取 10 幀作為評估樣本,并另取連續 60 幀用于視頻級指標計算。所有方法均使用官方開源權重或公開推理腳本,在輸入分辨率(512×512)下復現結果。定量結果如表中所示:DynamicFace 同時在身份一致性(ID Retrieval)和運動一致性 (Mouth&Eye Consistency) 達到了最優的結果。整體而言,實驗結果充分證明了 DynamicFace 在身份保真與運動還原方面的綜合優勢,驗證了其在高質量人臉可控生成中的卓越性能。
3.1 圖像和視頻結果性能對比
從下面的圖像和視頻對比結果可以得出,DynamicFace 很好地保存了身份(例如,形狀和面部紋理信息)和動作(包括表情和姿勢等)信息,并且生成結果維持了更好的背景一致性。具體來說,基于 GAN 的方法往往會生成較為模糊、視覺上并不真實且身份一致性較差的結果,但可以維持不錯的運動一致性;其他基于擴散模型的方法能生成分辨率更高且更真實的結果,但運動一致性保持較差(如表情不一致,眼神朝向不同等)。DynamicFace 通過精細化解耦的條件注入可以保證更優的表情一致、眼神一致和姿勢一致性。



3.2 消融實驗
研究團隊還進行了充分的消融實驗,深入探究模型各個組成部分的具體作用。


為驗證 DynamicFace 中四種人臉條件的必要性與互補性,本文在 FF++ 測試集上執行了全面的消融實驗。具體設置如下:以完整模型為基線,依次去除背景、表情、光照、形狀-姿態法線圖四類條件中的某一類,并保持其余模塊與訓練策略完全一致。圖像級評價沿用 ID 檢索、姿態誤差、表情誤差、嘴部誤差、眼部誤差五項指標;主觀可視化結果如圖所示。綜合而言,四類條件各司其職:背景保證環境一致性,表情條件鎖定微動作,光照條件維持光影和諧,形狀-姿態法線圖確保幾何保真。任何一項缺失都會在對應指標或主觀質量上出現可觀測的退化,從而驗證了 DynamicFace 條件設計的完備性與必要性。

為驗證時序一致性模塊的必要性,本文在保持四類空間條件不變的前提下,探究了motion module和 FusionTVO 的必要性,可以從客觀指標得出,兩個模塊均對幀間一致性和視頻質量有明顯提升。

我們也對兩個人臉身份注入模塊進行了進一步的消融實驗,可以從表中看到在同時加入 FaceFormer 和 ReferencerNet 后可以顯著提升源參考人臉的身份注入性能。
3.3 更多生成結果展示
我們也展示了一些其他的應用示例,DynamicFace 可以對身份保持和人體驅動等生成結果進行后處理,顯著提升生成結果的人臉ID一致性和表情控制,更多效果展示可以在論文和項目主頁中(https://dynamic-face.github.io/ )進行查看。


04、結語
DynamicFace 提出一種基于擴散模型的視頻人臉交換框架,通過可組合 3D 面部先驗將身份、表情、姿態、光照與背景顯式解耦,利用輕量級 Mixture-of-Guiders 進行并行條件注入;同時設計身份-細節雙流注入模塊(Face Former + ReferenceNet)確保高保真身份保持,再輔以 FusionTVO 實現更好的幀間一致和背景一致性。在 FF++ 數據集的定量與消融實驗中,DynamicFace 在身份一致性和運動一致性及視頻一致性指標上均優于現有 SOTA,驗證了其高保真、強可控與易擴展的特性。期望這種精細化解耦條件注入的方法能為可控生成的后續工作提供新思路。
05、作者簡介
Core Contributors
王潤奇
小紅書 AIGC 團隊算法工程師,在 ICCV、ACM MM 等計算機視覺、多媒體頂會發表多篇論文,曾多次獲得天池、頂會 Challenge 冠亞季軍,主要研究方向為擴散模型、可控圖像生成和視頻生成等。
陳楊
小紅書 AIGC 團隊算法工程師,在圖像領域頂會 CVPR 上發表兩篇一作論文,現負責 AIGC 生成類算法的研究與落地,曾經負責站內主體分割模型的開發。
許思杰
小紅書 AIGC 團隊算法工程師,在 ACM MM、ICCV 等計算機視覺、多媒體頂會發表多篇論文。主要研究方向為視頻 AIGC 的可控生成&視頻風格化任務,近期研究領域為基于多模態大模型的智能剪輯。
朱威
小紅書 AIGC 團隊算法工程師,主攻圖像視頻AIGC可控生成和風格化,近期聚焦基于多模態大模型的長文和人像生成。
秦明
小紅書社區智創 AIGC 方向負責人。在計算機視覺領域頂會發表多篇論文,曾獲 ICCV VOT 世界冠軍,多次刷新 MOT 國際榜單世界記錄。在創作領域,專注于視頻自動化剪輯、圖像/視頻可控生成、個性化生成等方向的算法研究與落地工作。



































