6秒音頻即可克隆AI語音!FLOAT數字人生成語音/口型/表情,情感同步超驚艷,文中附工作流 精華
今天給大家介紹的 FLOAT 是一種基于流匹配的音頻驅動的說話肖像視頻生成方法,可以增強語音驅動的情感運動。該方法唇形同步質量高,生成速度還很快。6秒音頻完美生成語音/口型/表情。



情緒轉移
由于 FLOAT 是基于語音驅動的情緒標簽進行訓練的,因此它可以在推理階段重新定向說話人像的情緒。具體來說,我們可以用一個簡單的獨熱情緒標簽來處理預測的語音驅動情緒標簽,然后通過無分類器的矢量場進一步細化該標簽。這使得用戶即使在駕駛語音傳達出模糊或混合情緒時也能細化情緒。


與最先進的方法的比較
與最先進的非擴散方法和基于擴散的方法進行了比較。對于非擴散方法,我們選擇了 SadTalker 和 EDTalk。對于基于擴散的方法,我們選擇了 AniTalker、Hallo 和 EchoMimic。

相關鏈接
- 項目:https://deepbrainai-research.github.io/float
- 地址:https://github.com/deepbrainai-research/float
- ComfyUI:https://github.com/yuvraj108c/ComfyUI-FLOAT
論文介紹

隨著基于擴散的生成模型的快速發展,人像動畫取得了顯著成果。然而,由于其迭代采樣的特性,它在時間一致性視頻生成和快速采樣方面仍然面臨挑戰。本文提出了一種基于流匹配生成模型的音頻驅動說話人像視頻生成方法 FLOAT。我們將生成模型從基于像素的潛在空間轉移到學習的運動潛在空間,從而能夠高效地設計時間一致性運動。為了實現這一點,我們引入了一個基于 Transformer 的矢量場預測器,它具有簡單而有效的逐幀調節機制。此外,我們的方法支持語音驅動的情感增強,從而能夠自然地融入富有表現力的動作。大量實驗表明,我們的方法在視覺質量、運動保真度和效率方面優于最先進的音頻驅動的說話人像方法。
方法概述

音頻驅動的說話肖像旨在使用單一源肖像圖像和驅動音頻合成說話肖像視頻。FLOAT 基于運動潛在自編碼器構建,該編碼器將給定的肖像圖像編碼為身份運動潛在表征。我們通過流匹配(采用最優傳輸軌跡)生成音頻調節的說話肖像運動潛在表征。為了增強生成的說話運動的自然度,我們加入了語音驅動的情緒標簽,從而提供了一種自然的情緒感知說話肖像運動生成方法。
實驗結果

與 HDTF / RAVDESS 上最新方法的定性比較結果。


FLOAT 的附加條件結果。3DPose、S2E 和 I2E 分別表示 3D 頭部姿勢參數、語音到情感和圖像到情感。

結論
論文提出了 FLOAT 模型,這是一個基于流匹配的音頻驅動說話肖像生成模型,該模型利用學習到的運動潛在空間。作者引入了一個基于 Transformer 的矢量場預測器,從而實現了時間一致性的運動生成。此外將語音驅動的情感標簽融入到運動采樣過程中,以提高音頻驅動說話運動的自然度。FLOAT 通過流匹配縮短采樣時間,同時保持卓越的樣本質量,解決了當前基于擴散的說話肖像視頻生成方法的核心局限性。大量實驗驗證了 FLOAT 在視覺質量、運動保真度和效率方面達到了最佳性能。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















