精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!

發(fā)布于 2025-5-9 08:41
瀏覽
0收藏

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.04512 
項目鏈接:https://hunyuancustom.github.io/ 

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

亮點(diǎn)直擊

  • 多模態(tài)條件融合: 首次實(shí)現(xiàn)圖像、音頻、視頻、文本四模態(tài)聯(lián)合驅(qū)動的定制視頻生成,突破傳統(tǒng)單模態(tài)(如圖像)限制。
  • 身份一致性強(qiáng)化: 通過時序拼接和跨幀特征增強(qiáng),顯著提升生成視頻中主題的ID一致性,優(yōu)于開源和商業(yè)模型。
  • 模塊化條件注入: 提出AudioNet和視頻Patchify對齊等獨(dú)立模塊,實(shí)現(xiàn)多模態(tài)條件的高效解耦與融合,兼顧靈活性與性能。

效果速覽

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 身份一致性不足:現(xiàn)有視頻生成方法在生成特定主題視頻時難以保持身份(ID)一致性。
  • 輸入模態(tài)單一:多數(shù)方法僅支持圖像驅(qū)動,缺乏對多模態(tài)(如音頻、視頻、文本)條件的靈活支持。
  • 可控性受限:現(xiàn)有模型在細(xì)粒度定制(如多主題生成、多模態(tài)對齊)上表現(xiàn)不佳,限制了實(shí)際應(yīng)用。

提出的方案

基于HunyuanVideo的多模態(tài)定制視頻生成框架,支持圖像、音頻、視頻和文本條件輸入。

  • 文本-圖像融合模塊:基于LLaVA實(shí)現(xiàn)多模態(tài)理解,增強(qiáng)文本與圖像的交互。
  • 圖像ID增強(qiáng)模塊:通過時序拼接強(qiáng)化跨幀身份特征。
  • 多模態(tài)條件注入機(jī)制
  • AudioNet:通過空間交叉注意力實(shí)現(xiàn)分層音頻-視頻對齊。
  • 視頻驅(qū)動模塊:通過隱空間壓縮和特征對齊網(wǎng)絡(luò)整合條件視頻。

應(yīng)用的技術(shù)

  • 多模態(tài)理解:LLaVA-based文本-圖像融合模塊。
  • 時序建模:圖像ID增強(qiáng)模塊利用視頻模型的時間序列信息傳輸能力。
  • 跨模態(tài)對齊
  • 音頻-視頻:AudioNet的層級特征對齊。
  • 視頻-隱空間:基于VAE的壓縮和Patchify特征對齊網(wǎng)絡(luò)。

達(dá)到的效果

  • 身份一致性:在單主題和多主題場景中均顯著優(yōu)于現(xiàn)有方法(如ConsisID、VACE等)。
  • 多模態(tài)支持:支持圖像、音頻、視頻、文本的靈活組合輸入,生成高質(zhì)量視頻。
  • 下游任務(wù)魯棒性:在音頻驅(qū)動、視頻驅(qū)動等任務(wù)中表現(xiàn)優(yōu)異,適用于廣告、虛擬試穿等實(shí)際場景。

方法

概述

HunyuanCustom是一個以主體一致性為核心的多模態(tài)定制生成模型,基于Hunyuan視頻生成框架構(gòu)建。如下圖2所示,它能夠根據(jù)文本、圖像、音頻和視頻輸入生成主體一致的視頻。具體而言,HunyuanCustom引入了基于LLaVA的圖像-文本融合模塊,促進(jìn)圖像與文本的交互,使圖像中的身份信息能有效融入文本描述。此外,還提出了身份增強(qiáng)模塊,該模塊沿時間軸拼接圖像信息,并利用視頻模型的高效時序建模能力來增強(qiáng)視頻中的主體身份。為支持音頻和視頻的條件注入,HunyuanCustom為每種模態(tài)設(shè)計了獨(dú)立的注入機(jī)制,這些機(jī)制與圖像級身份條件模塊有效解耦。最終,HunyuanCustom實(shí)現(xiàn)了對圖像、音頻和視頻條件的解耦控制,在面向主體的多模態(tài)視頻定制中展現(xiàn)出巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多模態(tài)任務(wù)

HunyuanCustom支持來自文本、圖像、音頻和視頻的條件輸入。所有任務(wù)均建立在生成ID一致性視頻的能力基礎(chǔ)上。任務(wù)可分為以下4類:

  • 文本驅(qū)動視頻生成:文本到視頻的生成能力源自基礎(chǔ)模型HunyuanVideo,支持生成與給定文本提示對齊的視頻;
  • 圖像驅(qū)動視頻定制:HunyuanCustom的核心能力是接收輸入圖像、提取身份信息,并在文本描述引導(dǎo)下生成與該身份對應(yīng)的視頻,從而實(shí)現(xiàn)定制化視頻生成。HunyuanCustom同時支持人類和非人類身份,并進(jìn)一步允許多身份輸入,實(shí)現(xiàn)多主體交互生成;
  • 音頻驅(qū)動視頻定制:在主體定制基礎(chǔ)上,HunyuanCustom將音頻作為附加模態(tài)。給定人類身份、文本提示和對應(yīng)音頻,系統(tǒng)可使主體在文本描述的上下文中執(zhí)行與音頻同步的動作(如說話、演奏、唱歌)。這通過允許指定身份在任意場景和動作中自由表現(xiàn),顯著增強(qiáng)了可控性,擴(kuò)展了傳統(tǒng)音頻驅(qū)動的人體動畫;
  • 視頻驅(qū)動視頻定制:HunyuanCustom還支持視頻到視頻生成,通過基于身份定制的對象替換或插入實(shí)現(xiàn)。給定源視頻和指定目標(biāo)身份的圖像,系統(tǒng)可將視頻中的對象替換為指定身份。此外,它還能根據(jù)文本引導(dǎo)將身份插入背景視頻,實(shí)現(xiàn)靈活的對象添加。

多模態(tài)數(shù)據(jù)構(gòu)建

本文的數(shù)據(jù)經(jīng)過嚴(yán)格的處理流程,以確保高質(zhì)量的輸入從而提升模型性能。實(shí)驗(yàn)結(jié)果表明,高質(zhì)量數(shù)據(jù)在主體一致性、視頻編輯和音頻驅(qū)動視頻生成等任務(wù)中起著關(guān)鍵作用。雖然不同任務(wù)可能遵循各自特定的數(shù)據(jù)處理步驟,但初始處理階段是共通的,關(guān)鍵差異在于后續(xù)步驟。鑒于此,本節(jié)將深入探討視頻數(shù)據(jù)準(zhǔn)備的詳細(xì)方法,重點(diǎn)關(guān)注共享的預(yù)處理技術(shù)以及為不同任務(wù)設(shè)計的特定后處理方案。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

本文的數(shù)據(jù)來源多樣,為確保嚴(yán)格遵守《通用數(shù)據(jù)保護(hù)條例》(GDPR)框架的原則,我們采用數(shù)據(jù)合成和隱私保護(hù)計算技術(shù)來規(guī)范數(shù)據(jù)收集過程。原始數(shù)據(jù)涵蓋廣泛領(lǐng)域,主要包括八大類別:人類、動物、植物、景觀、車輛、物體、建筑和動漫。除自行收集的數(shù)據(jù)外,我們還嚴(yán)格篩選并處理了開源數(shù)據(jù)集(如OpenHumanvid),顯著擴(kuò)展了數(shù)據(jù)分布的多樣性并提升了模型性能。實(shí)驗(yàn)結(jié)果證實(shí),引入高標(biāo)準(zhǔn)數(shù)據(jù)對實(shí)現(xiàn)模型性能的顯著提升至關(guān)重要。


數(shù)據(jù)過濾與預(yù)處理。由于我們的數(shù)據(jù)集分布廣泛且包含開源數(shù)據(jù),視頻的時長、分辨率和質(zhì)量存在顯著差異。為解決這些問題,本文實(shí)施了一系列預(yù)處理技術(shù)。首先,為避免訓(xùn)練數(shù)據(jù)中的轉(zhuǎn)場,使用PySceneDetect將原始視頻分割為單鏡頭片段。針對視頻中的文本區(qū)域,采用textbpn-plus-plus過濾掉文本過多的片段,并裁剪包含字幕、水印和標(biāo)識的視頻。由于視頻尺寸和時長分布不均,進(jìn)行了裁剪和對齊,將短邊標(biāo)準(zhǔn)化為512或720像素,并將視頻長度限制為5秒(129幀)。最后,考慮到PySceneDetect無法檢測漸變轉(zhuǎn)場且textbpn-plus-plus對小文本檢測能力有限,同時為確保美學(xué)質(zhì)量、運(yùn)動幅度和場景亮度,使用koala-36M模型進(jìn)一步優(yōu)化。然而,由于koala-36M的訓(xùn)練數(shù)據(jù)與我們的數(shù)據(jù)集存在差異,且其缺乏對美學(xué)質(zhì)量和運(yùn)動幅度的細(xì)粒度評估,我們建立了自己的評估標(biāo)準(zhǔn),針對數(shù)據(jù)集設(shè)定0.06的koala閾值以進(jìn)行精細(xì)過濾。實(shí)驗(yàn)結(jié)果證實(shí)了我們的數(shù)據(jù)選擇和處理方法對提升模型性能的重要性。

主體提取
單主體提取:為從視頻中提取主要主體,首先使用Qwen7B模型標(biāo)注每幀中的所有主體并提取其ID。隨后,采用聚類算法(如并查集)計算每個ID在幀中的出現(xiàn)頻率,選擇出現(xiàn)次數(shù)最多的ID作為目標(biāo)主體。必要時可選擇多個ID;但如果所有ID的出現(xiàn)次數(shù)均低于預(yù)設(shè)閾值(如50幀),則丟棄該視頻。接著,我們使用YOLO11X進(jìn)行人體分割以獲取邊界框,并利用InsightFace檢測人臉位置并生成人臉邊界框。若人臉邊界框在人體邊界框中的占比小于0.5,則認(rèn)為YOLO11X的檢測結(jié)果有誤,并丟棄相應(yīng)邊界框。


非人類主體提取:對于非人類主體,使用QwenVL從視頻中提取主體關(guān)鍵詞,并采用GroundingSAM2基于這些關(guān)鍵詞生成掩碼和邊界框。若邊界框尺寸小于源視頻尺寸的0.3倍,則將其丟棄。為確保訓(xùn)練數(shù)據(jù)的類別分布均衡,我們使用QwenVL將主體分類為八大預(yù)定義類別之一:動物、植物、景觀、車輛、物體、建筑和動漫,隨后對這些類別進(jìn)行平衡采樣以實(shí)現(xiàn)公平分布。


多主體提取:針對多主體場景,使用QwenVL從單人數(shù)據(jù)集中篩選涉及人與物體交互的視頻。由于需要將視頻描述中的主體關(guān)鍵詞與圖像中的關(guān)鍵詞對齊,直接使用QwenVL重新提取主體關(guān)鍵詞可能導(dǎo)致與視頻提示中的關(guān)鍵詞錯位。因此,采用Florence2提取視頻描述中所有提及主體的邊界框,隨后使用GroundingSAM2對這些邊界框區(qū)域進(jìn)行主體提取。接著應(yīng)用聚類算法移除不包含所有主體的幀。為解決硬拷貝問題,使用視頻前5秒進(jìn)行模型訓(xùn)練,后續(xù)15秒用于主體分割。


視頻分辨率標(biāo)準(zhǔn)化。首先基于所有主體邊界框計算聯(lián)合邊界框,并確保裁剪區(qū)域至少包含聯(lián)合邊界框面積的70%。為使模型支持多分辨率輸出,本文定義了多種寬高比,包括1:1、3:4和9:16。


視頻標(biāo)注。本文采用HunYuan團(tuán)隊開發(fā)的結(jié)構(gòu)化視頻標(biāo)注模型對視頻進(jìn)行標(biāo)注。該模型提供詳細(xì)的描述信息,包括視頻的長描述、短描述、背景風(fēng)格和鏡頭運(yùn)動描述。在訓(xùn)練過程中,這些結(jié)構(gòu)化標(biāo)注用于增強(qiáng)視頻描述,從而提升模型的魯棒性和性能。


掩碼數(shù)據(jù)增強(qiáng)。在視頻編輯中,直接使用提取的主體掩碼進(jìn)行訓(xùn)練可能導(dǎo)致對不同類型或形狀的物體替換過擬合。例如,將無耳朵的玩偶替換為有耳朵的玩偶時,生成的視頻可能仍顯示無耳朵的玩偶,這與預(yù)期結(jié)果不符。因此,在訓(xùn)練過程中,我們采用掩碼膨脹或?qū)⒀诖a轉(zhuǎn)換為邊界框等技術(shù)以軟化掩碼邊界。這些方法有助于在最終視頻中實(shí)現(xiàn)更真實(shí)且符合預(yù)期的編輯效果。通過此類增強(qiáng)策略,我們旨在緩解過擬合問題,并確保編輯后的視頻更貼近預(yù)期。這一方法提升了模型在不同物體類型和形狀上的靈活性與適用性。


音頻數(shù)據(jù)處理。首先,利用LatentSync評估片段中音頻與視頻的同步性。丟棄同步置信度分?jǐn)?shù)低于3的視頻,并將音視頻偏移調(diào)整為零。同時,計算hyperIQA質(zhì)量分?jǐn)?shù),并移除分?jǐn)?shù)低于40的視頻以確保數(shù)據(jù)高質(zhì)量。最后,使用Whisper提取音頻特征,這些特征將作為后續(xù)模型訓(xùn)練的輸入。

圖像驅(qū)動的視頻定制

HunyuanCustom的核心任務(wù)是基于輸入圖像I(代表特定身份)和文本描述T生成視頻。關(guān)鍵挑戰(zhàn)在于使模型有效理解圖像中嵌入的身份信息,并將其與文本上下文結(jié)合以實(shí)現(xiàn)交互式理解。為此,HunyuanCustom引入了基于LLaVA的文本-圖像交互模塊,促進(jìn)視覺與文本輸入的聯(lián)合建模,從而增強(qiáng)模型對身份及伴隨描述的理解。此外,還引入了身份增強(qiáng)模塊,將圖像衍生的特征沿視頻序列傳播,利用視頻模型的時序建模能力強(qiáng)化生成視頻中的身份一致性。


基于LLaVA的文本-圖像交互。在視頻定制任務(wù)中,有效整合圖像-文本信息是此前定制方法的關(guān)鍵難點(diǎn)。這些方法要么缺乏對圖像與文本交互理解的設(shè)計,要么依賴額外訓(xùn)練的分支網(wǎng)絡(luò)實(shí)現(xiàn)交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空間中訓(xùn)練的文本理解能力,結(jié)合LLaVA固有的多模態(tài)交互理解能力,通過將HunyuanVideo的原始文本輸入擴(kuò)展為圖像與文本雙輸入,基于LLaVA出色的多模態(tài)理解能力實(shí)現(xiàn)有效的圖文交互理解。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)


身份增強(qiáng)。LLaVA模型作為多模態(tài)理解框架,旨在捕捉文本與圖像的相關(guān)性,主要提取類別、顏色、形狀等高層次語義信息,但常忽略文本、紋理等細(xì)節(jié)。然而在視頻定制中,身份高度依賴這些圖像細(xì)節(jié),僅靠LLaVA分支難以保持身份一致性。為此,我們提出身份增強(qiáng)模塊:通過在時間軸上拼接視頻隱變量與目標(biāo)圖像,并利用視頻模型在時間維度的高效信息傳遞能力,有效增強(qiáng)視頻身份一致性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

模型能力擴(kuò)展

為使模型具備更廣泛的表征能力并學(xué)習(xí)更復(fù)雜的模式,我們對預(yù)訓(xùn)練視頻生成模型和LLaVA模型的權(quán)重進(jìn)行全參數(shù)微調(diào),充分釋放其潛力以提供更優(yōu)的視頻定制效果。

多模態(tài)主體中心視頻生成

現(xiàn)有視頻定制方法主要聚焦主體身份保持,缺乏對主體驅(qū)動生成的深入探索。我們進(jìn)一步研究以多模態(tài)音視頻信息為條件、圍繞主體身份實(shí)現(xiàn)圖像-音頻-視頻聯(lián)合驅(qū)動的特定主體生成。

音頻驅(qū)動視頻定制

音頻是視頻生成不可或缺的組成部分。現(xiàn)有音頻驅(qū)動人體動畫模型通常以人物圖像和音頻為輸入,使圖像人物說出對應(yīng)語音。但這種圖像-視頻范式導(dǎo)致生成視頻中人物的姿勢、服飾和場景與輸入圖像完全一致。借助HunyuanCustom對角色身份信息的有效捕獲與保持,我們整合音頻輸入實(shí)現(xiàn)文本描述場景中角色說話的視頻生成,稱為音頻驅(qū)動視頻定制。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制

實(shí)際視頻創(chuàng)作中,編輯常涉及修改視頻主體的外觀與運(yùn)動,這與HunyuanCustom的主體生成能力天然契合。視頻蘊(yùn)含豐富的時空信息,對內(nèi)容提取與生成模型集成提出雙重挑戰(zhàn)。現(xiàn)有方法如VACE通過適配器模塊注入視頻條件,導(dǎo)致計算成本翻倍;而[Bai et al., 2025a]將條件視頻與生成片段隱變量沿時間軸拼接,引發(fā)序列長度倍增與注意力計算平方增長。HunyuanCustom采用更高效的視頻條件注入策略:先通過預(yù)訓(xùn)練因果3D-VAE壓縮條件視頻,經(jīng)特征對齊后直接加至噪聲視頻隱變量,實(shí)現(xiàn)高效視頻條件融合。

視頻隱變量特征對齊

條件視頻作為無噪聲輸入,其特征通過預(yù)訓(xùn)練因果3D-VAE編碼器提取,經(jīng)HunyuanVideo視頻分詞器壓縮序列化后,由四層全連接網(wǎng)絡(luò)映射至隱空間,與噪聲視頻隱變量對齊。

身份解耦視頻條件注入

我們探索兩種注入策略:(1) 沿token維度拼接條件視頻特征與視頻隱變量后降維;(2) 沿時間軸逐幀直接相加。實(shí)驗(yàn)表明加法策略能更有效保留內(nèi)容信息。得益于特征對齊預(yù)處理,條件視頻特征與視頻隱變量高度匹配,支持輕量化高效注入。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

評估指標(biāo)

  • 身份一致性:使用Arcface計算參考人臉與生成視頻各幀嵌入的平均余弦相似度
  • 主體相似度:通過YOLOv11檢測人體區(qū)域,計算DINO-v2特征相似度
  • 文本-視頻對齊:采用CLIP-B評估文本提示與生成視頻的匹配度
  • 時序一致性:基于VBench,用CLIP-B計算幀間相似度
  • 動態(tài)程度:參照VBench計算物體運(yùn)動量

單主體視頻定制對比實(shí)驗(yàn)

基線方法

與當(dāng)前最優(yōu)視頻定制方法對比,包括商業(yè)產(chǎn)品(Vidu 2.0、Keling 1.6、Pika、Hailuo)和開源方法(Skyreels-A2、VACE)。每組生成100個人類身份視頻和100個非人類身份視頻以全面評估方法通用性。

定性對比

下圖4-5顯示:Vidu、Skyreels A2與我們的方法在提示對齊和主體一致性上表現(xiàn)較好,但得益于基礎(chǔ)模型Hunyuanvideo-13B的優(yōu)異生成能力,我們的視頻質(zhì)量更優(yōu)。商業(yè)產(chǎn)品中,Keling存在首幀復(fù)制粘貼(圖4第2行)和主體移動模糊問題(圖5第2行);Pika一致性差且易出現(xiàn)字幕異常;Hailuo僅能保持面部ID一致性。開源方法VACE無法保持ID一致性(圖4第7行)。HunyuanCustom在保持身份一致性的同時兼具高質(zhì)量與多樣性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

定量對比

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多主體視頻定制實(shí)驗(yàn)與應(yīng)用

定性對比

下圖6顯示:Pika存在主體消失(男子)或動作失敗(女子開門)問題;Vidu 與VACE丟失非人類物體細(xì)節(jié);SkyReels A2幀不穩(wěn)定且出現(xiàn)芯片變形。HunyuanCustom能同時保持人類與非人類主體身份,生成符合提示的高質(zhì)量穩(wěn)定視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

虛擬人廣告應(yīng)用

虛擬人體廣告。利用我們的多主題定制能力,混元定制技術(shù)實(shí)現(xiàn)了以前方法無法實(shí)現(xiàn)的應(yīng)用。一個重要的應(yīng)用是虛擬人體廣告,混元定制技術(shù)將人體圖像和產(chǎn)品圖像作為輸入,生成相應(yīng)的廣告視頻。結(jié)果如下圖 7 所示,表明混元定制技術(shù)有效地保持了人體的身份,同時保留了目標(biāo)產(chǎn)品的細(xì)節(jié),包括其上的文字。此外,人與產(chǎn)品之間的互動看起來很自然,視頻緊密地遵循給定的提示,突出了混元定制技術(shù)在生成廣告視頻方面的巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動視頻定制化實(shí)驗(yàn)

音頻驅(qū)動的單主體定制。現(xiàn)有音頻驅(qū)動人體動畫方法需輸入人物圖像和音頻,生成視頻中人物的姿態(tài)、服飾及環(huán)境均與輸入圖像保持一致,無法生成其他姿態(tài)和場景的視頻,限制了應(yīng)用范圍。相比之下,我們的HunyuanCustom支持音頻驅(qū)動的人物定制,能夠根據(jù)文本描述的場景和姿態(tài)生成人物口型與輸入音頻同步的視頻,實(shí)現(xiàn)更靈活可控的音頻驅(qū)動人體動畫。如下圖8所示,HunyuanCustom生成的視頻既嚴(yán)格遵循文本提示,又完美保持人物身份特征。該系統(tǒng)可有效實(shí)現(xiàn)與其他物體(第3-4行)或人類(第5-6行)的交互,這一特性將顯著提升其在直播和廣告領(lǐng)域的應(yīng)用價值。此外,模型能生成多樣化場景和姿態(tài)的視頻:例如明朝背景場景(第7行)中人物自動穿著符合時代特征的服飾而無需顯式提示,第8行則展示了與輸入圖像神態(tài)迥異但生動逼真的女性表情。這證明了HunyuanCustom強(qiáng)大的世界建模和泛化能力。綜上,音頻驅(qū)動HunyuanCustom可在保持身份特征的前提下,根據(jù)文本提示生成涵蓋多樣場景和姿態(tài)的高差異化視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動虛擬試穿。基于其多主體定制能力,HunyuanCustom還支持音頻驅(qū)動的多主體視頻定制,具有廣泛的應(yīng)用前景。本文進(jìn)一步探索其在文本和音頻雙驅(qū)動下的虛擬試穿生成能力。下圖9結(jié)果顯示,該系統(tǒng)成功將虛擬試穿與音頻驅(qū)動視頻生成相結(jié)合,在自然呈現(xiàn)指定服飾的同時完美保持目標(biāo)人物身份特征,并與給定音頻實(shí)現(xiàn)生動口型同步,彰顯了其多模態(tài)視頻定制能力的優(yōu)越性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制化實(shí)驗(yàn)

視頻主體替換。依托強(qiáng)大的主體一致性保持能力,HunyuanCustom還支持視頻驅(qū)動的視頻編輯,可應(yīng)用于多種場景。我們在視頻主體替換任務(wù)上對比了HunyuanCustom與VACE和Keling的性能,該任務(wù)需要輸入源視頻、指定替換區(qū)域的物體掩碼以及目標(biāo)主體圖像。如下圖10所示,VACE因嚴(yán)格遵循輸入掩碼導(dǎo)致邊界偽影,使得主體形狀不自然且運(yùn)動連續(xù)性斷裂;Keling則呈現(xiàn)"復(fù)制-粘貼"效應(yīng),主體直接疊加在視頻上導(dǎo)致背景融合生硬。相較之下,HunyuanCustom有效避免了邊界偽影,實(shí)現(xiàn)與視頻背景的無縫融合,并保持優(yōu)異的主體身份特征——這證明了其在視頻編輯任務(wù)中的卓越性能。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

消融實(shí)驗(yàn)

本文在主體定制任務(wù)上進(jìn)行了消融研究,對比三個變體模型:(1)去除LLaVA的模型;(2)去除身份增強(qiáng)模塊的模型;(3)采用通道級拼接而非時序拼接進(jìn)行身份增強(qiáng)的模型。下圖11結(jié)果顯示,去除LLaVA的模型身份保持能力顯著下降,表明LLaVA不僅傳遞提示信息,更能提取關(guān)鍵身份特征——該變體完全未能捕獲目標(biāo)圖像的重要細(xì)節(jié)。保留LLaVA但去除身份增強(qiáng)的模型雖能捕捉全局身份信息,卻丟失細(xì)節(jié)特征,印證了身份增強(qiáng)模塊對細(xì)節(jié)優(yōu)化的有效性。最后,采用通道拼接替代時序拼接的模型生成質(zhì)量較差:雖能保持身份特征,但初始幀存在嚴(yán)重模糊效應(yīng)(與Vidu的結(jié)果類似),這說明時序拼接能通過強(qiáng)時序建模先驗(yàn)有效捕獲目標(biāo)信息,同時最小化對生成質(zhì)量的影響。綜上,我們的模型在確保高生成質(zhì)量的同時,成功捕獲全局和局部身份細(xì)節(jié),充分驗(yàn)證了設(shè)計有效性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

結(jié)論

本研究提出HunyuanCustom——一種新型多模態(tài)定制視頻生成模型,攻克了主體一致性視頻生成的關(guān)鍵技術(shù)難題,實(shí)現(xiàn)了以身份特征為核心的多模態(tài)視頻定制。通過將圖像、音頻和視頻模態(tài)與文本驅(qū)動條件機(jī)制相結(jié)合,HunyuanCustom構(gòu)建了一個可生成高保真身份特征視頻的魯棒框架。該模型整合了文本-圖像融合模塊、圖像身份增強(qiáng)模塊以及高效的音視頻特征注入流程,確保生成視頻既嚴(yán)格遵循用戶需求,又兼具高度真實(shí)性與靈活性。


大量實(shí)驗(yàn)表明,HunyuanCustom在單主體/多主體生成、音頻驅(qū)動/視頻驅(qū)動視頻定制等任務(wù)中均超越現(xiàn)有方法。其在身份一致性、真實(shí)度及視頻-文本對齊等方面的卓越表現(xiàn),確立了其作為可控視頻定制領(lǐng)域領(lǐng)先解決方案的地位。本工作為可控視頻生成的后續(xù)研究開辟了新路徑,進(jìn)一步拓展了人工智能生成內(nèi)容(AIGC)在創(chuàng)意產(chǎn)業(yè)等領(lǐng)域的應(yīng)用潛力。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/fLhq8CetSDiG25kmj8vdow??

標(biāo)簽
已于2025-5-9 08:43:06修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
69p69国产精品| 亚洲你懂的在线视频| 日韩av电影中文字幕| 亚洲精品91在线| 亚洲伊人伊成久久人综合网| 亚洲一区二区综合| 欧美二级三级| ,亚洲人成毛片在线播放| 日本视频在线播放| 国产精品一区二区三区乱码 | 91在线视频一区| 日韩xxxxxxxxx| 欧美大人香蕉在线| 日韩大陆毛片av| 午夜av中文字幕| 中文字幕21页在线看| 最新国产成人在线观看| 久久久久久久久久久久久久一区 | 蜜臀av性久久久久蜜臀aⅴ| 久久躁日日躁aaaaxxxx| 中国极品少妇videossexhd| 成人精品高清在线视频| 婷婷一区二区三区| 日本黄色播放器| 精品亚洲综合| 成人精品国产福利| 91在线视频导航| 亚洲熟妇av乱码在线观看| 亚洲先锋成人| 久久视频在线看| 午夜影院黄色片| 欧美有码在线| 亚洲а∨天堂久久精品喷水| 久热在线视频观看| 蜜桃视频成人m3u8| 色偷偷一区二区三区| 免费毛片网站在线观看| 黄色网页网址在线免费| 国产精品污网站| 欧美一进一出视频| 网站黄在线观看| 成人综合在线观看| 51午夜精品| 国产成人毛毛毛片| 韩国av一区二区三区在线观看| 国产精品久久久久不卡| 中文字幕国产在线观看| 性8sex亚洲区入口| 欧美一区二粉嫩精品国产一线天| 国产一级特黄视频| 国语精品一区| 久久久久久伊人| 国产精品30p| 91久久中文| 91国自产精品中文字幕亚洲| yjizz视频| av成人资源网| 精品国产伦理网| 四虎精品一区二区| 美女视频免费精品| 日韩成人性视频| 国产精品1000部啪视频| 51一区二区三区| 在线视频中文字幕一区二区| 亚洲色图38p| 国产激情久久| 欧美老肥妇做.爰bbww| 亚洲图色中文字幕| 精品一区二区三区免费看| 欧美一区二区三区白人| 黄色片免费网址| 日韩欧美一级| 亚洲国产精品悠悠久久琪琪 | 欧美一区二区三区红桃小说| 精品香蕉一区二区三区| 精品成人无码一区二区三区| 成人影院天天5g天天爽无毒影院| 色久欧美在线视频观看| 91高清免费观看| 国产精品a久久久久| 午夜剧场成人观在线视频免费观看 | 亚欧日韩另类中文欧美| 亚洲最新av网址| 熟女av一区二区| 国一区二区在线观看| 日本成人精品在线| 国产精品无码在线播放| 成人高清在线视频| 日韩国产欧美一区| 欧美a免费在线| 亚洲午夜电影在线观看| 久久久精品在线视频| 国产一区高清| 亚洲成年人影院在线| 精品人妻中文无码av在线| 久久久久免费av| 18久久久久久| 一级片一区二区三区| 国产一区二区三区久久久 | 国产成人激情视频| 国产日韩精品suv| 久久综合九色综合久久久精品综合 | 亚洲一区二区三区在线| 国产一区二区视频免费在线观看| 国产精品成人3p一区二区三区| 亚洲精品wwwww| 国产精品精品软件男同| 亚洲欧美日韩国产一区二区| 91欧美精品午夜性色福利在线 | 久久综合色鬼综合色| 9999在线观看| 欧美成人资源| 精品卡一卡二卡三卡四在线| 一本在线免费视频| 一本久道久久综合狠狠爱| 成人日韩av在线| 搞黄视频免费在线观看| 红桃av永久久久| www.久久com| 久久人体视频| 日韩av片永久免费网站| 日本久久一级片| 亚洲女厕所小便bbb| 国产一伦一伦一伦| 狠狠操综合网| 欧美在线视频免费| 日本黄色不卡视频| 夜夜揉揉日日人人青青一国产精品 | 日韩影院一区二区| 美女视频黄 久久| 欧美日韩精品久久久免费观看| 丰满大乳少妇在线观看网站| 欧美一区二区三区婷婷月色| www.99re6| 久久人人超碰| 日韩高清在线播放| 欧美大片免费高清观看| 亚洲乱码一区av黑人高潮| 日韩aaaaaa| 成人爱爱电影网址| 女人被男人躁得好爽免费视频| 国产精品一区二区三区av| 日日噜噜噜夜夜爽亚洲精品 | 国产精品一二三区| 一区二区三区四区免费视频| 成人毛片免费| 国产一区二区久久精品| 国产成人精品一区二区色戒| 久久精品欧美一区二区三区不卡| 日本免费一级视频| 国产精品一在线观看| 国产精欧美一区二区三区| 高清在线观看av| 欧美日韩你懂的| 亚洲欧美精品久久| 国产乱人伦精品一区二区在线观看| 手机福利在线视频| 精品久久国产一区| 欧美激情第一页xxx| 国精产品一品二品国精品69xx| 亚洲最新视频在线播放| 国产精品一区二区无码对白| 亚洲少妇诱惑| 亚洲a∨一区二区三区| 日韩一区二区三免费高清在线观看| xxx一区二区| 成人激情四射网| 红桃视频成人在线观看| 人妻视频一区二区| 韩国三级中文字幕hd久久精品| 黄色a级在线观看| 成人av激情人伦小说| 97视频在线看| 成人77777| 欧美一级日韩免费不卡| 青青草av在线播放| 久久婷婷国产综合精品青草| 亚洲精品性视频| 在线观看的日韩av| 日韩av一区二区三区在线观看| 久久91视频| 久久青草福利网站| 久久精品国产亚洲a∨麻豆| 欧美欧美欧美欧美首页| 久久久久无码国产精品不卡| 久久久久久久久久久久久夜| 一区二区三区四区毛片| 亚洲国产精品第一区二区三区| 欧美日韩国产综合在线| 美女精品久久| 日本精品在线视频| 岛国成人毛片| 亚洲伦理中文字幕| 国产成年妇视频| 色狠狠色噜噜噜综合网| 欧美国产精品一二三| 久久婷婷久久一区二区三区| 少妇性l交大片7724com| 久久久久久久欧美精品| 黑人巨茎大战欧美白妇| 在线看的毛片| 色婷婷久久av| 视频午夜在线| 午夜精品一区二区三区三上悠亚| 成人在线一级片| 国产宾馆实践打屁股91| 亚洲色图38p| 99精品视频网| japanese在线播放| 欧美色蜜桃97| 欧美极品日韩| 国产精品对白久久久久粗| 国产欧美精品在线播放| 亚洲人成在线网站| 欧美—级高清免费播放| 黄色动漫在线| 在线性视频日韩欧美| 日韩欧美亚洲系列| 亚洲第一男人av| 国产xxxx在线观看| 欧美剧情片在线观看| 成年人晚上看的视频| 精品日韩视频在线观看| 免费视频网站www| 中文字幕综合网| 四虎地址8848| 中文字幕精品—区二区四季| 青青草福利视频| 91丨九色porny丨蝌蚪| 国产高潮失禁喷水爽到抽搐 | 欧美日韩国产一区精品一区| 亚洲国产欧洲综合997久久| 亚洲宅男一区| 免费精品视频一区二区三区| 精品国产一区二区三区不卡蜜臂| 亚洲在线www| 福利一区三区| 成人国产精品一区二区| 国产亚洲人成a在线v网站| 国产精品香蕉在线观看| 91九色综合| 国产精品美女久久久久久免费| 欧美性猛交xxx高清大费中文| 91爱视频在线| 性欧美xxx69hd高清| 欧美一级大片在线观看| 51漫画成人app入口| 国内精品久久久久影院 日本资源| 欧美人体视频xxxxx| 色综合久久久久久中文网| 三级福利片在线观看| 久久久久久久久爱| 美女高潮在线观看| 日本成人在线视频网址| 日本精品不卡| 国产精品偷伦免费视频观看的| 国产精品xxx| 成人免费视频网址| 亚洲国产精品免费视频| 成人av蜜桃| 成人线上视频| 日韩女在线观看| 久久99久久久精品欧美| 亚洲一区二区三区乱码aⅴ| 97久久超碰| 麻豆精品视频| 久久中文字幕av| 国产精品自拍合集| 国产精品免费看| 91香蕉视频污版| 国精品**一区二区三区在线蜜桃| 香蕉视频xxxx| 91视频观看视频| 国产精品久久久久久久av| ●精品国产综合乱码久久久久| 日韩高清dvd碟片| 亚洲高清三级视频| 精人妻无码一区二区三区| 欧美二区在线观看| av免费观看在线| 日韩精品视频免费| 日韩av中文| 97精品视频在线| 国产成人a视频高清在线观看| 亚洲xxxx视频| 国产亚洲电影| 91精品国产毛片武则天| 丝袜国产日韩另类美女| 污视频在线观看免费网站| eeuss国产一区二区三区| 国产一二三四区在线| 亚洲一二三专区| 中文字幕日本人妻久久久免费 | 欧美特级特黄aaaaaa在线看| 亚洲人成网站在线播| 中文字幕有码在线视频| 国产97色在线| 7m精品国产导航在线| 亚洲欧美丝袜| 亚洲综合电影一区二区三区| 久久久久xxxx| 久久久亚洲精品石原莉奈| 国产免费无码一区二区视频| 色婷婷亚洲精品| 亚洲成人黄色片| 日韩中文视频免费在线观看| 国产高潮在线| 91九色露脸| 日韩dvd碟片| 99久久久无码国产精品6| 国产激情一区二区三区| 你懂得视频在线观看| 五月激情六月综合| www国产一区| 日韩性生活视频| 黄色aa久久| 99在线视频免费观看| 欧美大人香蕉在线| 污污视频网站免费观看| 91视频国产资源| 免费毛片一区二区三区| 日韩午夜精品视频| 免费看a在线观看| 国产精品美女免费看| 亚洲香蕉视频| 成人综合视频在线| 成人黄色一级视频| 久久精品视频久久| 欧美成人vps| 性国产高清在线观看| 成人欧美一区二区三区黑人孕妇| 日韩夫妻性生活xx| 国产xxxxx视频| 久久久久久免费网| 欧美性猛交bbbbb精品| 亚洲精品第一国产综合精品| 精品精品导航| 国产精品久久久对白| 国产精品v欧美精品v日本精品动漫| www.国产福利| 亚洲欧美成aⅴ人在线观看| 夜夜狠狠擅视频| 俺也去精品视频在线观看| 亚洲毛片在线免费| 干日本少妇视频| 国产一区二区导航在线播放| 黑人巨大精品一区二区在线| 日韩欧美资源站| 金瓶狂野欧美性猛交xxxx| 国产精品视频一区二区三区经| 国产精品黄色| 日韩少妇一区二区| 狠狠色狠狠色综合日日五| 日本福利片高清在线观看| 热久久视久久精品18亚洲精品| 久久成人av| 日本特黄a级片| 亚洲毛片av在线| 成人毛片在线免费观看| 97视频在线看| 精品视频亚洲| 在线观看免费不卡av| 亚洲人成精品久久久久| 丰满肉肉bbwwbbww| 98视频在线噜噜噜国产| 国产精品一在线观看| 九九热免费在线观看| 亚洲精品国久久99热| 天天操天天操天天操| 欧美在线免费观看| 日本在线电影一区二区三区| 男人午夜视频在线观看| 五月婷婷久久丁香| 国产黄色在线播放| 亚洲a∨日韩av高清在线观看| 亚洲天堂男人| 国产伦理片在线观看| 91精品国产乱| 一二三四视频在线中文| 亚洲精品第一区二区三区| 国产精品香蕉一区二区三区| 91看片在线播放| 在线播放国产一区二区三区| 欧美电影院免费观看| 亚洲欧洲日产国码无码久久99| 国产精品久久久久婷婷二区次| 高h震动喷水双性1v1| 国产精品久久久久久一区二区| 欧美一区在线看| 中文字幕免费视频| 日韩午夜三级在线| 欧洲一级精品| 国产精品av免费观看| 国产日韩欧美高清| www.色呦呦| 国产精品偷伦视频免费观看国产 | 91成人免费| 亚洲黄色在线网站| 日韩亚洲欧美中文三级| 日韩在线短视频|