UBCFashion和TikTok新SOTA!復旦和騰訊優圖發布端到端人像動畫生成器VividPose!

文章鏈接:https://arxiv.org/pdf/2405.18156
項目鏈接:https://kelu007.github.io/vivid-pose/
人像動畫涉及通過遵循指定的姿勢序列從靜態圖像生成視頻。目前的方法通常采用多階段pipeline,分別學習外觀和動作,這往往導致外觀退化和時間不一致。今天和大家分享一篇優化這些問題的工作————VividPose,這是一種基于Stable Video Diffusion (SVD)的創新端到端pipeline,確保了優越的時間穩定性。為了增強人類身份的保留,提出了一種身份感知外觀控制器,該控制器集成了額外的面部信息,同時不影響服裝紋理和背景等其他外觀細節。這種方法確保生成的視頻在各種姿勢下保持對人類主體身份的高度保真度,保留關鍵面部特征。
為了適應多樣的人體姿勢和手部動作,引入了一種幾何感知姿勢控制器,該控制器利用SMPL-X的密集渲染圖和稀疏骨架圖。這使得生成的視頻能夠準確對齊姿勢和形狀,提供了一個能夠處理廣泛的體型和動態手部動作的強大框架。在UBCFashion和TikTok基準上的大量定性和定量實驗表明,本文的方法實現了最先進的性能。此外,VividPose在提出的數據集上展示了出色的泛化能力。



本文的主要貢獻:
- 提出了VividPose,這是一種利用Stable Video Diffusion的創新端到端pipeline,顯著增強了人像動畫視頻的時間一致性和平滑度。
- 引入了一種身份感知外觀控制器,該控制器集成了額外的面部信息,同時保留了服裝紋理等其他外觀細節。該方法確保在不同姿勢下對人物身份的高度保真度。
- 提出了一種幾何感知姿勢控制器,該控制器利用密集渲染圖和稀疏骨架圖,確保了準確的體型生成,并有效適應各種體型和動態手部動作。
方法
概述
預備知識:Stable Video Diffusion (SVD)SVD 是一種最前沿的視頻生成模型,它通過將潛在擴散模型從2D圖像合成擴展到高分辨率、時間一致的視頻創建,接收文本和圖像作為輸入。從技術上講,SVD 引入了3D卷積和時間注意力層。這些時間層也集成到VAE解碼器中。SVD的一個主要改進是從DDPM 噪聲調度器轉換為EDM調度器,該調度器使用連續噪聲尺度σ進行更靈活和有效的采樣,取代了離散時間步長。這種端到端的訓練模式和pipeline在視頻生成中保持了強大的時間一致性,使其特別適合于人像動畫。
預備知識:SMPL-X SMPL-X是一種先進的3D參數化人體模型,通過結合詳細的面部、手部和身體特征增強了SMPL 模型的能力。它將人體表示為具有固定拓撲的網格,由形狀、姿勢和表情參數控制。形狀參數(β)捕捉身份特定的屬性,姿勢參數(θ)編碼關節旋轉,表情參數(ψ)模擬面部表情。為了從SMPL-X模型生成2D渲染圖,采用了可微渲染過程。使用相機投影函數(Π),渲染過程公式化為:


SMPL-X基礎姿勢序列在工作中,上述過程準確地將3D人體模型投影到2D圖像平面。對于人像動畫,從參考圖像中獲取形狀和表情參數(β和ψ),而姿勢參數(θ)則從驅動視頻中提取。生成的渲染圖作為姿勢條件,確保生成視頻的體型與參考圖像準確對齊,同時跟隨驅動視頻中的動態姿勢,從而生成逼真且連貫的動畫。


身份感知的外觀控制


其中,



其中



其中,

因此,解耦交叉注意力的最終公式定義如下:

額外的注意力,如方程式3所示,增強了面部身份,而不影響其他外觀信息,如服裝紋理和背景,從而確保將細粒度的面部特征有效地與UNet特征集成,而不干擾其他外觀特征。
幾何感知姿勢控制
人體圖像動畫pipeline以參考圖像和從任何駕駛視頻中提取的姿勢序列作為輸入。現有方法通常使用骨架圖或密集圖(均來自2D姿勢估計器)作為姿勢驅動信號。這經常導致形狀不對齊問題。具體而言,骨架圖僅捕獲姿勢信息,忽略了身體形狀的細節。而密集圖包含姿勢和形狀信息,但身體形狀來自駕駛視頻,無法修改以與參考圖像的身體形狀對齊。因此,這導致姿勢驅動信號的形狀與參考圖像中的形狀不對齊,從而在生成的視頻人體形狀中產生不準確性。
為了解決這個問題,將3D參數化人體模型SMPL-X的渲染圖納入姿勢驅動信號中。由于SMPL-X的參數化表示,可以建立重構的SMPL-X與從駕駛視頻中提取的基于SMPL-X的姿勢序列之間的幾何對應關系。這種對齊不僅確保了姿勢驅動信號的形狀與參考圖像的形狀匹配,而且從3D信息中提供了額外的幾何關系(例如,手交叉和身體遮擋)。通過分別從參考圖像和駕駛視頻中提取形狀和姿勢參數,可以創建渲染圖,確保生成的視頻人體形狀與參考圖像對齊,同時遵循駕駛視頻的姿勢。這種全面的表示對于實現逼真和連貫的動畫至關重要,捕捉手部動作中的微妙細微差別,并有效處理身體形狀的變化。


將添加到噪聲潛變量中,然后將其輸入到UNet中。
實驗
設置
數據集。在兩個常用的學術基準數據集上進行實驗,即UBC-Fashion和 TikTok 數據集。還精心收集和處理了來自互聯網的 3000 個視頻,以進一步驗證本文的方法在實際場景中的適用性。具體而言,UBC-Fashion 包括 500 個訓練視頻和 100 個測試視頻,每個視頻大約包含 350 幀。該數據集非常適用于與時尚相關的人體動畫任務。TikTok 包含 340 個單人舞蹈視頻,每個視頻持續 10-15 秒。大多數 TikTok 視頻側重于人物的上半身。遵循 DISCO 并使用相同的訓練和測試劃分。精心篩選的數據集包括來自嗶哩嗶哩的 2224 個舞蹈視頻和來自抖音的 776 個視頻。這些視頻涵蓋了各種外觀和姿勢變化,如室內外場景、不同的服裝紋理、不同年齡段和各種舞蹈風格。所有這些數據集的幀都根據原始視頻的幀速率提取,并分別應用于每幀的 DWPose和 SMPLer-X 來推斷骨架圖和渲染圖。
評估指標。評估單幀圖像質量和整體視頻保真度,以確保全面評估。對于單幀質量,使用 L1 誤差、SSIM 、LPIPS 、PSNR 和 FID 。視頻保真度通過 FID-VID 和 FVD進行評估。這些指標能夠嚴格衡量單個幀的視覺質量和生成視頻的時間連貫性,確保對方法的性能進行徹底評估。
實現細節。在訓練過程中,個別視頻幀被采樣、調整大小并居中裁剪到分辨率為 512×768。使用 SVD-img2vid 初始化去噪 UNet 來一次生成 14 幀,并使用 SD2.1 初始化 ReferenceNet。去噪 UNet、ReferenceNet、身份控制器和姿勢控制器都以端到端的方式進行訓練。所有實驗都在 8 個 NVIDIA 80GB H800 GPU 上進行,batch大小為 32。
比較方法。評估包括與人體圖像動畫領域一系列最先進方法的全面比較:(1) MRAA 是一種基于 GAN 的方法,利用來自駕駛序列的光流估計來扭曲源圖像。最近的基于擴散的方法,如 (2) MagicAnimate 和 (3) AnimateAnyone ,以其復雜的外觀和時序建模而聞名,表現出令人印象深刻的性能。為了進行定量比較,還與 (4) DreamPose 進行了比較,該方法設計了一個適配器,以整合人體圖像的特征。(5) DisCo也是一種先進的基于擴散的方法,它包含用于各種元素的不同條件模塊,例如姿勢、前景人物和背景。(6) BDMM 在時尚視頻生成方面表現良好。由于采用了相同的基準和數據分割,定量比較是基于直接引用原始論文的統計數據進行的。
比較
定性比較。從下圖3可以明顯看出,本文的方法在激烈運動過程中保持了更好的面部身份一致性,并成功實現了復雜的手勢。一個有趣的案例(第四行,最后一列)顯示,在劇烈運動后,本文的方法生成的角色佩戴的太陽鏡從頭上掉落,完美地落在了眼睛上。這表明本文的方法對物理世界有著更優秀的理解,進一步強調了它在創建逼真動畫方面的優勢。
總之,VividPose在幾個關鍵領域明顯優于最先進的方法。本文的方法在保留服裝紋理細節、保持高度的面部身份一致性以及準確捕捉身體姿勢變化方面表現出色。此外,VividPose有效地處理了涉及手部交叉和動態運動的復雜場景。這些優勢突顯了本文方法的穩健性和精確性,確保了超越現有技術性能的逼真連貫的人體圖像動畫。

定量比較。對TikTok和UBCFashion數據集進行了廣泛的定量比較,評估VividPose與幾種最先進方法(包括BDMM、DisCo、MagicAnimate、AnimateAnyone和DreamPose)的性能。在TikTok數據集上的結果(下表1)顯示,VividPose在多個指標上優于其他方法,實現了最低的FID得分、最高的SSIM和PSNR,以及最低的LPIPS得分之一。這些結果表明了出色的視覺質量、結構相似性和感知相似性。

在視頻保真度方面,VividPose以最低的FID-VID和FVD表現出色,顯示出優秀的時間一致性。當VividPose在精心篩選的數據集上進行訓練時,性能進一步提高。在UBCFashion數據集上的結果(下表2)突顯了VividPose的優勢,在保持圖像質量和感知相似性方面實現了最高的SSIM和PSNR,以及最低的LPIPS,表明了其在保留圖像質量和感知相似性方面的優越能力。此外,VividPose實現了最低的FVD,證實了其生成時間連貫視頻的能力。這些結果突顯了VividPose在保留細粒度外觀細節、保持面部身份和準確捕捉復雜身體姿勢和動作方面的優勢。VividPose在圖像質量和視頻保真度方面持續優于現有方法,使其成為人體圖像動畫的穩健可靠解決方案。

消融研究
ID控制器的有效性。在TikTok數據集上的定量和定性割舍研究,如下表3和圖5所示,強調了ID控制器的有效性。定量上,包含ID控制器改善了圖像質量指標:FID從33.58降至31.89,SSIM從0.731增至0.758,LPIPS從0.283降至0.261。定性上,ID控制器確保了更好的面部身份一致性,在不同的姿勢中保留了關鍵的面部特征。這對于保持被拍攝對象的識別度至關重要,特別是在動態場景中。ID控制器通過有效地編碼和保留特定于身份的特征,確保生成的視頻既視覺上吸引人,又在時間上連貫。


姿勢控制器的有效性。姿勢控制器利用骨架圖和渲染圖,對于保持運動連續性和處理復雜手勢至關重要。如表3和下圖6所示,啟用這兩個組件會導致更好的視頻質量指標。骨架圖為整體身體結構和運動提供了稀疏的框架,而渲染圖則補充了關于身體形狀和表面變形的詳細信息。這種雙重方法允許對動態姿勢和復雜手勢進行精確建模,這些通常很難復制。這些改進突顯了姿勢控制器在確保平滑連貫運動方面的有效性,特別是在涉及復雜手勢和動態姿勢的場景中。

結論
本文介紹了VividPose,一種基于Stable Video Diffusion(SVD)的人體圖像動畫的新型端到端pipeline。VividPose包括兩個主要模塊:(1)身份感知外觀控制器通過合并面部信息增強了人體身份的保留,而不影響其他外觀細節。
(2)幾何感知姿勢控制器使用來自SMPL-X的密集渲染圖和稀疏骨架圖,以適應多樣化的身體形狀和手勢效果。在UBCFashion和TikTok基準上的大量實驗表明,VividPose在時間一致性、視覺保真度和泛化能力方面取得了最先進的結果。它在數據集上也表現出色,展示了在實際場景中的穩健性。
本文轉自 AI生成未來,作者:Qilin Wang等

















