精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)

發(fā)布于 2024-4-25 09:54
瀏覽
0收藏

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

鏈接地址:https://arxiv.org/pdf/2404.14381
代碼鏈接:https://github.com/OpenNLPLab/TAVGBench


文本到可聽視頻生成(TAVG)任務(wù)涉及根據(jù)文本描述生成帶有配套音頻的視頻。要實(shí)現(xiàn)這一目標(biāo),需要巧妙地對齊音頻和視頻元素。為了支持這一領(lǐng)域的研究,本文開發(fā)了一個(gè)全面的文本到可聽視頻生成基準(zhǔn)(TAVGBench),其中包含超過170萬個(gè)片段,總時(shí)長為11800小時(shí)。


本文提出了一個(gè)自動(dòng)標(biāo)注pipeline,以確保每個(gè)可聽視頻都有關(guān)于其音頻和視頻內(nèi)容的詳細(xì)描述。還引入了音頻-視覺和諧分?jǐn)?shù)(AVHScore),以提供生成的音頻和視頻模態(tài)之間對齊的定量度量。


此外,本文提出了一個(gè)名為TAVDiffusion的TAVG基線模型,該模型使用雙流潛在擴(kuò)散模型為這一領(lǐng)域的進(jìn)一步研究提供了一個(gè)基本起點(diǎn)。通過采用交叉注意力和對比學(xué)習(xí)來實(shí)現(xiàn)音頻和視頻的對齊。通過在TAVGBench上進(jìn)行廣泛的實(shí)驗(yàn)和評估,展示了提出的模型在傳統(tǒng)指標(biāo)和提出的指標(biāo)下的有效性。

介紹

文本到視頻生成任務(wù)通過整合計(jì)算機(jī)視覺和自然語言處理得到了提升。這一任務(wù)將文本描述轉(zhuǎn)化為視覺表現(xiàn)形式,豐富了多媒體體驗(yàn),并提高了視覺障礙人士的可訪問性。然而,雖然現(xiàn)有方法在將文本描述轉(zhuǎn)化為視覺內(nèi)容方面表現(xiàn)出色,但將同步音頻整合到這些視頻中的努力仍然大部分未被探索。這一差距突顯了在多模態(tài)生成領(lǐng)域中的一個(gè)基本必要性——即通過文本描述單獨(dú)引導(dǎo)生成帶有聽覺組件的視頻內(nèi)容。


在本文中,考慮到當(dāng)前研究存在明顯差距,引入了一個(gè)新任務(wù):文本到可聽視頻生成(TAVG)。這一任務(wù)標(biāo)志著一個(gè)重大變革,要求模型不僅要生成視覺內(nèi)容,還要同時(shí)創(chuàng)建音頻。與典型的文本到視頻任務(wù)只關(guān)注單模態(tài)視頻生成不同,TAVG要求同時(shí)生成音頻和視頻,由書面描述引導(dǎo)。通過承擔(dān)這一任務(wù),推動(dòng)多模態(tài)生成的邊界,使得僅使用文本提示就能夠創(chuàng)建沉浸式的視聽體驗(yàn)成為可能。任務(wù)定義如下圖1所示。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

要成功實(shí)現(xiàn)TAVG,一個(gè)包含良好對齊的音頻和視頻組件的全面數(shù)據(jù)集至關(guān)重要。然而,發(fā)現(xiàn)目前沒有成熟的基準(zhǔn)可用于支持訓(xùn)練和測試,主要是因?yàn)槿狈@樣一個(gè)大規(guī)模的數(shù)據(jù)集。


在TAVG的基礎(chǔ)上提出建立一個(gè)文本到可聽視頻生成基準(zhǔn)(TAVGBench),允許以監(jiān)督方式訓(xùn)練模型。TAVGBench的核心是一個(gè)精心選擇的數(shù)據(jù)集,包括多樣化的文本描述及其對應(yīng)的音頻-視覺對。這個(gè)數(shù)據(jù)集有助于全面評估和比較各種方法。數(shù)據(jù)集包含超過170萬個(gè)來源于YouTube視頻的音頻-視覺對。


作者設(shè)計(jì)了一個(gè)粗到細(xì)的pipeline來自動(dòng)實(shí)現(xiàn)數(shù)據(jù)集中的音頻-視覺對的文本標(biāo)注。具體來說,分別利用BLIP2WavCaps來描述視頻和音頻組件。此外,還利用ChatGPT來重新表述和整合來自兩個(gè)模態(tài)的標(biāo)注,從而使得標(biāo)注pipeline在理解上下文和生成類似人類的文本描述方面表現(xiàn)出色。為了評估生成的音頻和視頻之間的對齊程度,引入了一個(gè)新的度量標(biāo)準(zhǔn),用于衡量生成結(jié)果的和諧程度,稱為音頻-視覺和諧分?jǐn)?shù)(AVHScore)。這個(gè)度量標(biāo)準(zhǔn)在多模態(tài)、高維語義空間中量化了視頻和音頻之間的對齊程度。


基于本文提出的TAVGBench,提出了一個(gè)名為文本到可聽視頻擴(kuò)散(TAVDiffusion)的基線方法。這個(gè)方法基于潛在擴(kuò)散模型,代表了從文本生成音頻和視頻的初步嘗試。鑒于多模態(tài)對齊的要求,提出了兩種策略來實(shí)現(xiàn)來自特征交互和特征約束的多模態(tài)潛在變量的對齊。通過使用傳統(tǒng)指標(biāo)和本文提出的指標(biāo)對基線模型進(jìn)行了廣泛的評估,并展示了本文的方法在TAVG任務(wù)中的有效性。


總的來說,主要貢獻(xiàn)包括:

  • 引入了TAVG任務(wù),通過將同步音頻與視覺內(nèi)容整合,擴(kuò)展了多模態(tài)生成,解決了一個(gè)關(guān)鍵的研究空白。
  • 提出了TAVGBench,這是一個(gè)大規(guī)模基準(zhǔn)數(shù)據(jù)集,具有自動(dòng)文本描述標(biāo)注pipeline和新穎的音頻-視覺和諧分?jǐn)?shù)(AVHScore),極大地促進(jìn)了TAVG任務(wù)。
  • 提出了文本到可聽視頻擴(kuò)散(TAVDiffusion)模型作為基線方法,基于潛在擴(kuò)散模型構(gòu)建。

相關(guān)工作

文本到視頻生成任務(wù)是一個(gè)具有挑戰(zhàn)性且被廣泛研究的任務(wù)。先前的研究利用了各種生成模型,如GANs和自回歸模型。近年來,擴(kuò)散模型在內(nèi)容生成(即文本到圖像生成)領(lǐng)域的出現(xiàn),催生了文本到視頻生成研究的重大進(jìn)展。Imagen-Video、Make-A-Video和show-1提出了深層級時(shí)空上采樣器的深層級串聯(lián),用于視頻生成,同時(shí)在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練模型。


隨后大部分工作基于潛在擴(kuò)散模型,利用預(yù)訓(xùn)練的2D圖像的UNet權(quán)重。VideoLDM采用潛在擴(kuò)散模型,通過微調(diào)預(yù)訓(xùn)練的潛在圖像生成器和解碼器來確保生成視頻的時(shí)間連貫性。LAVIE將旋轉(zhuǎn)位置編碼(RoPE)整合到網(wǎng)絡(luò)中,捕獲視頻幀之間的時(shí)間關(guān)系。


AnimateDiff采用一種策略,凍結(jié)預(yù)訓(xùn)練的潛在圖像生成器,同時(shí)專門訓(xùn)練新插入的運(yùn)動(dòng)建模模塊。SimDA提出了一種高效的時(shí)間適配器,幫助訓(xùn)練好的2D擴(kuò)散模型提取時(shí)間信息。這些進(jìn)展為高效的多模態(tài)擴(kuò)散pipeline奠定了基礎(chǔ)。


文本到音頻生成任務(wù)類似于視頻生成任務(wù),也是從GANs和自回歸模型到擴(kuò)散模型的演變。DiffSound提出了一個(gè)VQVAE模型和一種基于掩碼的文本生成策略,以解決音頻-文本配對數(shù)據(jù)稀缺的問題,盡管由于缺乏詳細(xì)的文本信息可能會限制其性能。AudioGen采用自回歸框架,利用基于Transformer的解碼器直接從波形中生成token。它應(yīng)用數(shù)據(jù)增強(qiáng),并將語言描述簡化為標(biāo)簽,犧牲了詳細(xì)的時(shí)間和空間信息。AudioLDM將潛在擴(kuò)散模型從視覺生成領(lǐng)域轉(zhuǎn)移到了文本到音頻生成領(lǐng)域。它通過CLAP嵌入來編碼文本信息以實(shí)現(xiàn)引導(dǎo)。Tango遵循LDM流程,將CLAP替換為T5以獲得更富表現(xiàn)力的文本embedding。


除了文本引導(dǎo)的內(nèi)容生成之外,近年來,音頻和視頻的相互或聯(lián)合生成逐漸成為研究的焦點(diǎn)。典型地,音頻和視頻模態(tài)作為彼此的條件信號,以實(shí)現(xiàn)相互生成,即從視頻生成音頻或從音頻生成視頻。在前者方面,SpecVQGAN、CondFoleyGen和Diff-Foley分別利用VQGAN、自回歸Transformer和擴(kuò)散模型實(shí)現(xiàn)了從視頻生成音頻。關(guān)于后者,soundini利用音頻作為控制信號來指導(dǎo)視頻擴(kuò)散模型進(jìn)行視頻編輯。Sung等人利用對比學(xué)習(xí)將從音頻生成的視頻內(nèi)容約束為更接近原始音頻的生成視頻內(nèi)容。TempoTokens引入了一個(gè)AudioMapper,它使用由預(yù)訓(xùn)練音頻編碼器編碼的token作為條件,以在擴(kuò)散框架內(nèi)實(shí)現(xiàn)從音頻到視頻的生成。


基于兩種模態(tài)的相互生成,一些研究探索了可聽視頻內(nèi)容的聯(lián)合生成。MM-diffusion采用了一個(gè)擴(kuò)散UNet,同時(shí)接收來自兩種模態(tài)的輸入和輸出,首次實(shí)現(xiàn)了兩種模態(tài)的聯(lián)合生成。朱等人采用視頻擴(kuò)散架構(gòu)生成視頻,然后檢索音頻,提出了一種替代的聯(lián)合生成方法。興等人提出在推理過程中通過優(yōu)化操作來增強(qiáng)現(xiàn)有擴(kuò)散模型,以實(shí)現(xiàn)音頻視頻的生成并保持對齊。


我們基準(zhǔn)的獨(dú)特之處在于,盡管對多模態(tài)生成任務(wù)進(jìn)行了廣泛探索,但目前還缺乏專門用于文本到可聽視頻生成任務(wù)的綜合基準(zhǔn)和大規(guī)模數(shù)據(jù)集。針對這一差距,我們的解決方案提供了用于訓(xùn)練和評估的數(shù)據(jù)集,以及用于評估多模態(tài)對齊的指標(biāo)。此外,我們還提供了一個(gè)簡單的基線方法。

TAVGBENCH

數(shù)據(jù)集統(tǒng)計(jì)

TAVG任務(wù)涉及根據(jù)輸入文本提示生成可聽視頻。為了支持這一任務(wù),我們引入了一個(gè)名為TAVGBench的基準(zhǔn)。我們的數(shù)據(jù)集來自AudioSet,包括來自YouTube的200萬對齊的音頻-視頻對。在排除無效視頻后,我們獲得了170萬條原始數(shù)據(jù)。每個(gè)視頻樣本的持續(xù)時(shí)間為10秒,貢獻(xiàn)了數(shù)據(jù)集中總共11800小時(shí)的視頻時(shí)長。為了全面了解我們數(shù)據(jù)集的規(guī)模和特征,我們將其與其他相關(guān)任務(wù)的數(shù)據(jù)集進(jìn)行了比較。表1對TAVGBench與這些數(shù)據(jù)集進(jìn)行了大小、來源和其他相關(guān)屬性的比較分析。


從下表1中可以看出,AudioCaps、MSR-VTT和WebVid只描述了單模態(tài)的內(nèi)容(僅音頻或視頻模態(tài))。雖然FAVDBench描述了兩種模態(tài),但數(shù)據(jù)集的規(guī)模有限。我們提出的TAVGBench考慮了音頻和視頻兩種模態(tài)的描述,同時(shí)確保了足夠大的數(shù)據(jù)集規(guī)模。此外,WebVid中的視頻帶有水印,這在實(shí)際場景中大大限制了它們的應(yīng)用。這種比較突顯了TAVGBench數(shù)據(jù)集的規(guī)模和獨(dú)特特性,強(qiáng)調(diào)了它在推動(dòng)可聽視頻生成研究方面的潛力。此外,TAVGBench表現(xiàn)出文本描述的平衡分布,每個(gè)視頻標(biāo)注平均有2.32個(gè)句子和49.98個(gè)單詞,為每個(gè)片段提供了豐富的上下文信息。這些比較統(tǒng)計(jì)突顯了TAVGBench數(shù)據(jù)集的廣泛規(guī)模、多模態(tài)特性和語言豐富性,使其成為推動(dòng)我們TAVG任務(wù)研究的寶貴資源。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

標(biāo)注細(xì)節(jié)

鑒于AudioSet對其視頻和音頻內(nèi)容均缺乏詳細(xì)的文本標(biāo)注,我們實(shí)施了一個(gè)由粗到細(xì)的pipeline來自動(dòng)生成文本描述。完整的pipeline如下圖2所示。首先,我們分別使用兩種先進(jìn)的方法,即BLIP2用于視頻描述和WavCaps用于音頻描述,對視頻和音頻組件進(jìn)行標(biāo)注。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

然而,盡管這些方法在捕捉視頻和音頻內(nèi)容的精髓方面很有效,但生成的標(biāo)注通常缺乏連貫性和上下文。為了解決這一限制并提高標(biāo)注的整體質(zhì)量,我們引入了一個(gè)通過ChatGPT進(jìn)行精煉的步驟,ChatGPT是一個(gè)功能強(qiáng)大的語言模型,能夠重新表述和豐富文本輸入。

在精煉階段,利用ChatGPT重新表述和增強(qiáng)BLIP2和WavCaps生成的標(biāo)注。通過將初始標(biāo)注輸入ChatGPT模型,我們獲得了修訂后的標(biāo)注,這些標(biāo)注具有增強(qiáng)的連貫性、上下文相關(guān)性和語言精煉度。最初,我們分別重新表述視頻和音頻描述,以糾正語法錯(cuò)誤并增強(qiáng)描述性內(nèi)容。隨后,我們利用ChatGPT將兩種模態(tài)的描述合并成一個(gè)統(tǒng)一、連貫的句子。這個(gè)迭代過程不僅增強(qiáng)了標(biāo)注的可讀性,還確保了整個(gè)標(biāo)注語料庫的一致性和準(zhǔn)確性。


將ChatGPT納入我們的pipeline顯著增強(qiáng)了檢測視頻和音頻內(nèi)容中微妙細(xì)微之處和語義復(fù)雜性的能力。因此,我們的標(biāo)注pipeline在理解上下文和生成類似人類的文本描述方面表現(xiàn)出色,從而促進(jìn)了更精確地捕捉底層內(nèi)容精髓的標(biāo)注的創(chuàng)建。

評估指標(biāo)

現(xiàn)有的視頻(FVD、KVD)和音頻(FAD)生成的指標(biāo)主要側(cè)重于分別評估每種模態(tài)的質(zhì)量。然而,對于TAVG任務(wù),我們不僅需要生成高質(zhì)量的音頻和視頻,還需要確保這兩種模態(tài)的準(zhǔn)確同步。為了解決評估生成的音頻和視頻之間的對齊程度的必要性,我們提出了一種稱為音頻-視覺和諧分?jǐn)?shù)(AVHScore)的新指標(biāo)。該指標(biāo)通過計(jì)算提取的音頻-視頻特征的乘積來量化音頻-視頻對的對齊程度。我們使用了一個(gè)強(qiáng)大的特征提取器(ImageBind)將視頻幀和音頻投影到一個(gè)統(tǒng)一的特征空間中。形式上,我們定義AVHScore ??AVH 如下:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

其中,cos表示余弦相似度。Ev和Ea 分別代表ImageBind模型中的視覺編碼器和音頻編碼器。?? 表示視頻幀的數(shù)量,我們計(jì)算每個(gè)視頻幀與相應(yīng)音頻輸入之間的相似度,并對所有幀的結(jié)果進(jìn)行平均。

一個(gè)基準(zhǔn)方法

我們提出了一種新的文本到可聽視頻生成(TAVG)任務(wù)的基準(zhǔn)方法,如圖4所示,名為TAVDiffusion。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)基于潛在擴(kuò)散模型。

初步:潛在擴(kuò)散模型

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

當(dāng)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

這里

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

訓(xùn)練通過最小化對負(fù)對數(shù)似然的變分界限來進(jìn)行。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

因此,?? 的最終訓(xùn)練目標(biāo)是一個(gè)噪聲估計(jì)損失,帶有條件變量 c,可以表述為:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVDiffusion

根據(jù)前面定義的潛在擴(kuò)散模型的正向和反向過程,進(jìn)一步提出了基準(zhǔn)的雙流擴(kuò)散pipeline,用于聯(lián)合文本到可聽視頻的擴(kuò)散。


多模態(tài)潛在編碼器。使用兩個(gè)獨(dú)立的潛在自動(dòng)編碼器來處理我們的多模態(tài)輸入,進(jìn)行潛在空間的編碼和解碼。這個(gè)過程可以表述為:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)


多模態(tài)擴(kuò)散過程。對于音頻和視頻模態(tài)的輸入,我們使用兩個(gè)流結(jié)構(gòu)來對潛在變量Za和Zv執(zhí)行正向和反向擴(kuò)散過程,如下圖4所示。與普通的擴(kuò)散不同,普通擴(kuò)散是生成單一模態(tài),我們的目標(biāo)是在單一擴(kuò)散過程中同時(shí)恢復(fù)兩種一致的模態(tài)(即音頻和視頻)。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

我們認(rèn)為每種模態(tài)的反向和正向過程是獨(dú)立的,因?yàn)樗鼈兙哂胁煌姆植肌R砸纛l潛在變量  為例,其在時(shí)間步 ?? 的反向過程定義為:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

時(shí)間步 ?? 的正向過程定義如下:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

總結(jié)上述公式,多模態(tài)擴(kuò)散損失的最終定義是:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

任務(wù)中,條件變量 c 表示輸入的文本embeddings,使用CLIP文本編碼器及其分詞器來獲取文本嵌入。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

多模態(tài)交互

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

多模態(tài)對齊

特征交互機(jī)制并沒有顯式地強(qiáng)制執(zhí)行多模態(tài)特征的對齊。因此,集成一個(gè)能夠保證音頻和視覺模態(tài)特征表示對齊的損失函數(shù)至關(guān)重要。為了解決這個(gè)問題,我們提出了一種基于對比學(xué)習(xí)的顯式音頻-視覺對齊策略(EAS)。


TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)


對比學(xué)習(xí)的瓶頸在于設(shè)計(jì)具有有效相似度度量的正/負(fù)樣本對,即我們情況下的 s(·,·)。使用具有 softmax 激活的線性投影 ???? (·) 來根據(jù)特定模態(tài)的輸入計(jì)算相似度權(quán)重,不同信息包含在不同的tokens中。給定兩種模態(tài) (??,??),加權(quán)相似度函數(shù) s(·,·) 為:

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

目標(biāo)函數(shù)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

其中,?? 表示訓(xùn)練過程中的平衡權(quán)重。根據(jù)經(jīng)驗(yàn),損失權(quán)重被設(shè)置為 ?? =0.1。

實(shí)驗(yàn)結(jié)果

實(shí)現(xiàn)細(xì)節(jié)

數(shù)據(jù)集。在TAVGBench 數(shù)據(jù)集上訓(xùn)練模型。在評估階段,我們從 TAVGBench 的評估子集中選擇了 3,000 個(gè)樣本。此外,還評估了我們模型在 FAVDBench的測試子集上的性能,該子集包含 1,000 個(gè)樣本。FAVDBench 提供了更細(xì)粒度的可聽視頻描述,能夠生成更詳細(xì)的視頻。重要的是,由于 FAVDBench 的數(shù)據(jù)在訓(xùn)練階段未被使用,我們可以根據(jù)模型在 FAVDBench 上的性能評估其零樣本能力。


TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)


評估指標(biāo)。 首先分別測量生成的音頻和視頻的質(zhì)量。為了評估視頻,采用 Frechet Video Distance (FVD)、Kernel Video Distance (KVD)和 CLIPSIM指標(biāo)。FVD 和 KVD 使用在 Kinetics-400 數(shù)據(jù)集上預(yù)訓(xùn)練的 I3D分類器。對于音頻評估,采用 FAD 來衡量生成音頻與參考音頻之間的距離。還使用我們提出的 AVHScore 來衡量生成結(jié)果的對齊程度。對于所有評估,我們?yōu)槊總€(gè)文本生成一個(gè)隨機(jī)樣本,沒有任何自動(dòng)排序。

主要結(jié)果

比較方法設(shè)置。據(jù)我們所知,目前沒有現(xiàn)有的可用方法直接與我們提出的任務(wù)相關(guān),供比較。因此,我們結(jié)合現(xiàn)有的相關(guān)模型,設(shè)計(jì)了兩階段方法進(jìn)行比較。


  • (1) AnimateDiff + AudioLDM: 輸入文本,并利用這兩個(gè)模型分別生成音頻和視頻。
  • (2) AnimateDiff + Diff-Foley: 輸入文本,使用 AnimateDiff 生成視頻,然后利用 Diff-Foley 根據(jù)視頻生成音頻。
  • (3) AudioLDM + TempoToken: 輸入文本,使用 AudioLDM 生成音頻,然后利用 TempoToken 根據(jù)音頻生成視頻。

?

定量比較。在下表 2 中將本文的方法與 TAVGBench 和 FAVDBench 數(shù)據(jù)集的比較方法進(jìn)行了定量結(jié)果展示。結(jié)果表明,TAVDiffusion 模型在視頻和音頻質(zhì)量指標(biāo)方面優(yōu)于所有比較方法。具體來說,F(xiàn)VD 和 KVD 的得分分別為 776.25 和 65.53,而 FAD 的得分為 1.46。這表明我們生成的可聽視頻與原始內(nèi)容之間存在顯著的一致性,質(zhì)量更高。這些結(jié)果突出顯示了我們的模型生成的視頻與原始內(nèi)容之間的顯著一致性,表明了其優(yōu)越的質(zhì)量。此外,我們的模型達(dá)到了顯著的 CLIPSIM 分?jǐn)?shù) (24.18),加強(qiáng)了生成視頻與相關(guān)提示之間的語義連貫性。值得注意的是,我們的模型和比較模型在訓(xùn)練階段都沒有接觸過 FAVDBench 數(shù)據(jù),因此在該數(shù)據(jù)集上的結(jié)果進(jìn)一步強(qiáng)調(diào)了我們的零樣本能力。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

定性比較。在下圖 5 中,展示了本文的方法與其他生成器的定性結(jié)果比較。該圖表明,在視覺保真度和文本、視頻和音頻的對齊方面,TAVDiffusion 優(yōu)于比較模型。在第一個(gè)示例中,TAVDiffusion 生成的“表演者”顯示出顯著增強(qiáng)的逼真度,特別是在面部表情和手部動(dòng)作方面。生成的音頻也遵循提示中的“吉他聲”和“歌聲”兩個(gè)元素。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

在第二個(gè)示例中,TAVDiffusion 展示了其產(chǎn)生復(fù)雜真實(shí)場景的能力,保持了關(guān)鍵對象的精確形狀。它巧妙地處理了前景對象(如汽車)與背景場景之間的動(dòng)態(tài),輔以逼真的音頻。還展示了我們模型在兩種不同場景下的性能:存在顯著背景噪聲和顯著較安靜的環(huán)境。對于前者,我們的模型根據(jù)提示生成各種類型的音頻,如音樂和人類歡呼聲。對于后者,我們的模型獨(dú)特而準(zhǔn)確地產(chǎn)生了“鳥叫聲”。這種比較顯示了該模型的多功能性,展示了其在廣泛的音頻-視頻場景中的有效性。通過在這些對比設(shè)置中評估模型,我們突出了其在處理多樣化的聽覺和視覺輸入方面的普遍適用性和穩(wěn)健性。誠摯地希望讀者在補(bǔ)充材料中找到更多的可聽視頻示例。

消融研究

為了展示我們提出的模塊的有效性,進(jìn)行了消融研究,從定量指標(biāo)(見下表 3)和定性可視化(見下圖 6)兩個(gè)方面進(jìn)行。從表 3 中可以看出,我們提出的兩種策略,即多模態(tài)交叉注意力和多模態(tài)對齊,提高了視頻和音頻生成的質(zhì)量以及對齊分?jǐn)?shù)。在圖6中,可以觀察到,我們最終模型產(chǎn)生的“狼”比其他比較更加逼真,其口部動(dòng)作準(zhǔn)確地反映了“不停吠叫”的提示和生成的音頻。請參閱補(bǔ)充材料獲取更多示例。

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

TAVGBench: 文本生成語音-視頻最新基準(zhǔn)-AI.x社區(qū)

潛在應(yīng)用

TAVGBench 數(shù)據(jù)集和基準(zhǔn)模型 TAVDiffusion 在多媒體應(yīng)用領(lǐng)域具有廣泛的潛力。數(shù)據(jù)集包含大量的視頻、音頻和相應(yīng)的文本描述,非常適合各種多模態(tài)任務(wù)。它允許同時(shí)使用文本和音頻作為提示來生成視頻。此外,TAVGBench 還可以用于訓(xùn)練可聽視頻字幕模型,顯著降低了數(shù)據(jù)不足的音頻-視頻-文本數(shù)據(jù)對模型訓(xùn)練的影響,正如 [38] 中所提到的。

結(jié)論

本文探索了根據(jù)文本描述創(chuàng)建具有匹配音頻的視頻的挑戰(zhàn),這一任務(wù)被稱為文本到可聽視頻生成(TAVG)。為了幫助這項(xiàng)研究,引入了一個(gè)名為 TAVGBench 的新基準(zhǔn),其中包含超過 170 萬個(gè)視頻剪輯。這個(gè)資源旨在幫助改進(jìn)和評估 TAVG 模型。開發(fā)了一種方法,自動(dòng)描述每個(gè)音頻-視覺元素,確保為研究人員提供詳細(xì)且有用的標(biāo)注。設(shè)計(jì)了一個(gè)新的度量標(biāo)準(zhǔn),稱為音頻-視覺和諧分?jǐn)?shù)(AVH-Score),用于評估生成的可聽視頻的對齊情況。引入了 TAVDiffusion,這是一個(gè)利用潛在擴(kuò)散的基線模型。該模型結(jié)合了交叉注意力和對比學(xué)習(xí)機(jī)制,在擴(kuò)散 UNet 框架內(nèi)實(shí)現(xiàn)了音頻-視頻對齊。廣泛的實(shí)驗(yàn)結(jié)果驗(yàn)證了提出的框架的有效性,為多媒體內(nèi)容創(chuàng)作開辟了新的途徑。在未來,我們的目標(biāo)是探索一種多模態(tài)擴(kuò)散Transformer,通過統(tǒng)一的架構(gòu)促進(jìn)可聽視頻的生成。


本文轉(zhuǎn)自 AI生成未來 ,作者:Yuxin Mao等


原文鏈接:??https://mp.weixin.qq.com/s/2WTnji-LNkBh_PAHLgA-GA??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
精品淫伦v久久水蜜桃| 特级毛片在线| 美女视频黄a大片欧美| 久久综合亚洲社区| 91丝袜在线观看| av成人免费看| 亚洲成人自拍偷拍| 亚洲精品一区二区三区av| 精品黑人一区二区三区在线观看 | 91小视频免费观看| 国产精品333| 免费在线观看黄视频| 亚洲精华一区二区三区| 7777精品伊人久久久大香线蕉| 999久久欧美人妻一区二区| 天天躁日日躁狠狠躁喷水| 日韩成人免费电影| 九九热精品视频国产| 人妻少妇一区二区| 影音先锋欧美激情| 欧美性色aⅴ视频一区日韩精品| 日韩不卡视频一区二区| 丁香在线视频| 91一区在线观看| 91免费在线观看网站| 中文字幕人妻丝袜乱一区三区| 精品91在线| 久久精品99无色码中文字幕 | 青青青国产在线| 欧美日韩四区| 精品国模在线视频| 亚洲精品国产精品国自产网站| 国产三级精品三级在线观看国产| 欧美精品一二三| 黄色国产小视频| 理论不卡电影大全神| 一区二区三区在线看| 亚洲免费久久| 成人激情电影在线看| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产精品手机视频| hs视频在线观看| 国内成人自拍视频| 国产欧美日韩中文| 91麻豆精品在线| 三级一区在线视频先锋| 欧洲精品久久久| 日韩精品一卡二卡| 亚洲精品男同| 韩国三级电影久久久久久| 久久久久久久久97| 好看的av在线不卡观看| 欧美日韩成人在线播放| 欧美爱爱小视频| 欧美日韩精品一本二本三本 | 日韩欧美电影一区二区| 国产精品无码2021在线观看| 国产目拍亚洲精品99久久精品| 欧美日韩免费观看一区| 欧美另类自拍| 久久精品免视看| 日韩影院一区| 日韩毛片在线看| a毛片毛片av永久免费| 久久av影视| 亚洲一二三在线| 69精品无码成人久久久久久| 久久精品高清| 欧美精品做受xxx性少妇| 亚洲色婷婷一区二区三区| 午夜视频精品| 国内精品美女av在线播放| 日韩精品一区二区不卡| 先锋影音久久久| 国产成人一区二区三区| 亚洲天堂aaa| 国产精品中文欧美| 极品日韩久久| www黄在线观看| 亚洲人成7777| av7777777| 草莓视频成人appios| 欧美精三区欧美精三区| 亚洲成人激情小说| 亚洲警察之高压线| 日韩中文有码在线视频| 免费一级肉体全黄毛片| 久久精品伊人| 国产视频999| 日本高清视频在线| 欧美激情一区二区三区在线| 亚洲国产一二三精品无码| 免费看男女www网站入口在线| 欧美综合一区二区| av在线天堂网| 欧美日韩国产一区二区三区不卡| 久久久精品在线| 日韩精品在线免费视频| 国产尤物一区二区| 久久综合九色综合网站| 国产高清一区二区三区视频| 午夜精品久久久久久| 污色网站在线观看| 国产乱人伦丫前精品视频| 国产一区二区精品丝袜| 美女视频黄免费| 日本不卡中文字幕| 国产一区二区免费在线观看| 在线观看免费高清完整| 天天影视网天天综合色在线播放| 黄大色黄女片18第一次| 色天天色综合| 欧美二区在线播放| 中文字幕在线观看免费| 97精品国产露脸对白| 浴室偷拍美女洗澡456在线| 欧美理论影院| 精品国产乱码久久久久久图片| avhd101老司机| 国产一级一区二区| 91手机在线播放| 日本视频不卡| 色噜噜久久综合| 成人在线视频免费播放| 你懂的国产精品永久在线| 国产精品久久久久av免费| 五月婷婷深深爱| 亚洲一区二区三区四区的| 中文字幕成人在线视频| 国产亚洲一区| 欧洲亚洲在线视频| 天堂成人在线观看| 亚洲一区二区av电影| 女王人厕视频2ⅴk| 亚洲九九视频| 91精品视频专区| av在线中文| 欧美性猛片xxxx免费看久爱| 自拍偷拍亚洲天堂| 亚洲欧美卡通另类91av| 激情小说综合网| 三妻四妾的电影电视剧在线观看 | 国产精品永久免费观看| 青青色在线视频| 午夜伦欧美伦电影理论片| 精品国产免费久久久久久婷婷| 一区二区三区在线电影| 91视频九色网站| 国产黄大片在线观看画质优化| 欧美嫩在线观看| 内射一区二区三区| 国内一区二区在线| 特级黄色录像片| 国产在线视频欧美一区| 久久艹在线视频| www.天堂av.com| 亚洲线精品一区二区三区| 极品白嫩的小少妇| 在线日韩av| 久久久综合亚洲91久久98| 波多野结衣久久精品| 亚洲性无码av在线| 91禁在线观看| 一区二区三区日本| 日韩Av无码精品| 国产麻豆综合| 亚洲成人18| 亚洲伦理一区二区| 欧美激情视频在线观看| 天天干天天舔天天射| 色狠狠色噜噜噜综合网| 天天爽天天爽天天爽| 国内精品久久久久影院一蜜桃| 人妻激情另类乱人伦人妻| 日韩欧美国产大片| 国产精品久久久久久av福利| 粗大黑人巨茎大战欧美成人| 亚洲成人精品av| 日韩精品在线一区二区三区| 中文字幕亚洲综合久久菠萝蜜| 国产男女无遮挡猛进猛出| 亚洲精选成人| 视频一区免费观看| 试看120秒一区二区三区| 97av在线播放| 老司机av在线免费看| 亚洲精品在线观| 日韩乱码一区二区三区| 一区二区三区在线视频免费| 中文字幕一二三四区| 国产自产视频一区二区三区| 东北少妇不带套对白| 日韩精品看片| 国产伦精品一区二区三区免费视频 | 精品国产1区| 亚洲free性xxxx护士白浆| 松下纱荣子在线观看| 精品久久久av| 国产一区电影| 亚洲精品一区二区三区精华液| 中文字幕天堂在线| 亚洲一卡二卡三卡四卡| 国产亚洲精品精品精品| 丁香婷婷综合色啪| www.这里只有精品| 午夜在线一区二区| 大胆欧美熟妇xx| 色男人天堂综合再现| 久久久久se| 在线精品国产亚洲| 国产在线视频91| 向日葵视频成人app网址| 久久久中精品2020中文| 成人短视频在线| 一区二区三区国产视频| 天天综合网在线| 精品国产乱码久久久久久1区2区 | 密臀av在线播放| 九九热最新视频//这里只有精品 | 中文乱码免费一区二区| 亚洲の无码国产の无码步美| 国产一区二区在线看| 天天干天天操天天玩| 久久精品日韩欧美| 欧美国产亚洲一区| 一区二区三区导航| 人人妻人人做人人爽| 综合av在线| 国产盗摄视频在线观看| 日韩欧美网站| 亚洲国产精品久久久久婷婷老年| 偷拍亚洲色图| 九色91在线视频| 精品国产一区二区三区不卡蜜臂| 91文字幕巨乱亚洲香蕉| 久久久久久久久久久久电影| 成人h视频在线观看播放| 成人av集中营| 国产精品尤物福利片在线观看| 高清不卡av| 日韩女优人人人人射在线视频| 色戒汤唯在线| 97成人在线视频| 日韩欧美一中文字暮专区| 欧美亚洲国产精品| 在线女人免费视频| 欧美孕妇与黑人孕交| 日韩精品美女| 国产成人精品一区二区| 久久99久久99精品免观看软件| 热门国产精品亚洲第一区在线| 伊人久久国产| 日韩美女福利视频| 日本一区二区电影| 国产一区视频在线播放| 精品国产一区二| 99久热re在线精品996热视频| 草莓视频一区二区三区| 精品国产综合久久| 久久99性xxx老妇胖精品| 视频在线观看成人| 亚洲天堂免费| 国产aaa免费视频| 香蕉国产精品偷在线观看不卡| 自慰无码一区二区三区| 秋霞午夜av一区二区三区| 一道本视频在线观看| 精品一区二区在线视频| 又黄又色的网站| 久久色成人在线| 中文字幕91视频| 一区二区三区中文字幕精品精品| 国产无遮挡免费视频| 日韩欧美国产一区二区| 自拍偷拍福利视频| 日韩午夜激情电影| 无套内谢的新婚少妇国语播放| 亚洲情综合五月天| 欧美一区二区三区在线观看免费| 久久99久久99精品免观看粉嫩 | 国产精品手机在线观看| 久久久99精品久久| 日韩在线中文字幕视频| 五月天欧美精品| 自拍偷拍精品视频| 欧美成人猛片aaaaaaa| 四虎影视精品成人| 日韩有码视频在线| 日本蜜桃在线观看视频| 成人a级免费视频| 天堂俺去俺来也www久久婷婷 | 91九色视频在线观看| 亚洲国产合集| 女人床在线观看| 日韩成人av影视| 91九色蝌蚪porny| 中文字幕+乱码+中文字幕一区| 久久亚洲国产成人精品性色| 色婷婷综合久久久久中文一区二区| 国产精品一级二级| 亚洲欧美精品一区二区| 污视频在线免费观看网站| 国产精品麻豆va在线播放| 国产精品一线| 青青草影院在线观看| 日韩精品一区第一页| 中文字幕乱视频| 中文字幕字幕中文在线中不卡视频| 国产成人无码精品| 精品久久久久久久久久久久包黑料| 第一福利在线| 国产91精品久久久| 亚洲精品福利| 日本福利视频导航| 天堂av在线一区| 欧美大片免费播放器| 亚洲激情校园春色| 一区二区三区精彩视频| 国产亚洲精品成人av久久ww| 国产调教在线| 国产成人免费电影| 中文字幕亚洲综合久久五月天色无吗''| 男人的天堂99| 99精品久久只有精品| 国产一级大片在线观看| 91精品国产色综合久久不卡电影| 国产免费a∨片在线观看不卡| 97视频在线观看视频免费视频 | 国产福利精品一区| 四虎884aa成人精品| 欧美日韩国产系列| av资源网在线观看| 国产精品久久久久久av下载红粉| 亚洲成人一品| 又色又爽又高潮免费视频国产| 99久久亚洲一区二区三区青草 | 99国产精品| 国产真实乱人偷精品| 亚瑟在线精品视频| 天天舔天天干天天操| 国产91成人video| 亚洲免费毛片| 亚洲精品乱码久久久久久自慰| 久久免费的精品国产v∧| 中文字幕在线播| 一本大道亚洲视频| av亚洲一区| 一区二区视频在线播放| 精品一区二区三区视频在线观看| 九九热久久免费视频| 欧美久久高跟鞋激| 18加网站在线| 国产精品一区二区免费看| 日韩一级免费| www.自拍偷拍| 欧美性感一区二区三区| 黄色网址在线免费播放| **亚洲第一综合导航网站| 国内精品久久久久久久97牛牛 | 一区二区三区韩国| 国产精品久久久久久久久久免费看| 亚洲一区中文字幕永久在线| 久久色免费在线视频| eeuss鲁片一区二区三区| 日本欧美黄色片| 久久久久九九视频| 伊人久久成人网| 欧美成人中文字幕| 国偷自产视频一区二区久| 国产精品wwwww| 成人免费在线播放视频| 好吊色一区二区三区| 欧美最猛性xxxxx亚洲精品| 日韩精品第一区| 亚洲视频天天射| 日本韩国精品在线| 韩国av网站在线| 精品乱色一区二区中文字幕| 日韩主播视频在线| 久久久久亚洲av无码专区体验| 亚洲精品不卡在线| 久久青草免费| www.亚洲视频.com| 国产欧美一区二区精品忘忧草 | 国产99久久久国产精品| 男人午夜免费视频| 日韩亚洲综合在线| 黄色免费大全亚洲| 亚洲午夜精品一区| 欧美日韩国产精品| 99精品老司机免费视频| 高清不卡日本v二区在线| 日本午夜一本久久久综合| 青青草原在线免费观看| 一个色综合导航| 精品国内亚洲2022精品成人| 污网站免费在线| 精品免费在线视频| 91国内在线| 婷婷四房综合激情五月|