精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴散模型與文生視頻

人工智能
隨著人工智能技術的快速進步,特別是在視頻和圖像生成領域,新技術的出現(xiàn)正在不斷地推動行業(yè)的發(fā)展邊界。本次討論聚焦于 Sora 技術以及其在視頻生成中的應用,探討了文生視頻中我們會面臨的難點,以及騰訊在這些方面的努力與解決思路。

一、快速發(fā)展的文生視頻

在當前的人工智能領域,文生視頻技術有著引人注目的進展。該技術的核心任務非常明確,就是利用文本指令來控制視頻內(nèi)容的生成。具體而言,用戶可以輸入特定文本,系統(tǒng)則根據(jù)這段文本生成相應的視覺畫面。這一過程并不局限于單一的輸出,相同的文本可能會引導生成多種不同的視覺場景,顯示出該技術的靈活性和多樣性。

圖片

基于擴散模型模式的視頻生成技術,是從 2022 年上半年才開始出現(xiàn)的。在兩年的時間里,這一技術取得了顯著的進步。由上圖中可以看到,從 Google 在2022 年 4 月發(fā)布的文章所展示的效果,到騰訊在 2023 年 12 月發(fā)布的 hunyuan 的效果,無論在畫質(zhì)、光影的重建,還是整個畫面的連續(xù)性上,都實現(xiàn)了顯著的提升。

在過去兩年間,這一領域吸引了眾多參與者,包括各大公司和研究機構,比如上海人工智能研究院,以及一些高校。在這個賽道中,誕生了許多引人注目的成果。從最初的 VDM 模型,到我們常聽到的老玩家 Runway Gen1 和 Gen2 的工作,以及去年備受關注的 PikaLab。PikaLab 由兩位華人女性科學家創(chuàng)立,它的上市甚至引發(fā)了中國 A 股市場上某些股票的劇烈波動。此外,還有騰訊之前的 VideoCrafter 系列,以及阿里的 ModelScope 系列等。

當然,最讓人印象深刻的是在今年 2 月 15 日,OpenAI 發(fā)布了頗具影響力的 Sora 模型。這款 Sora 模型的出現(xiàn),使得其它模型相比之下顯得普通了許多。我們當時還在糾結(jié)于生成 4 秒到 8 秒的視頻,而 Sora 模型直接將視頻生成的時長擴展到了 1 分鐘。這一突破顯著提升了視頻生成技術的能力。

圖片

在視頻生成領域,我們主要依賴于 diffusion model。為什么這種模型能夠相對于之前的 GAN 生成或者 VAE 生成技術實現(xiàn)顯著的效果提升呢?關鍵的區(qū)別在于,以往的模型通常采用單步生成或稱為 decoder 的方法,直接從隱空間一步生成最終的數(shù)據(jù) x。這種單步從隱空間映射到數(shù)據(jù)空間的生成過程,建模非常復雜,過去的模型往往難以實現(xiàn)有效的建模。

然而,diffusion model 的獨特之處在于它采用多步驟過程。為什么稱之為“diffusion”呢?“擴散”的概念類似于一滴墨水滴入水杯中,墨水緩緩擴散開來,最終均勻分布,使我們難以區(qū)分它與其他水的不同。這種自然界中廣泛存在的擴散過程被用來模擬數(shù)據(jù)生成:假設一個人臉圖像或任何信號,通過 n 步加噪聲的迭代,最終變?yōu)榧冊肼暋_@就是 diffusion 的過程,它極大地增強了模型處理復雜數(shù)據(jù)的能力。

與 diffusion 相對應的,在 diffusion model 中核心學習的任務是 denoising,通過逐步去除噪聲最終生成我們所需的圖像信號。從無序的噪聲中重建有序的信號,這個過程被稱為 denoising。

具體來說,diffusion model 主要包括兩個過程:一個是加噪過程,稱為 diffusion;另一個是降噪過程,稱為 denoising。在加噪的過程中,通過每一步的計算添加高斯噪聲,從而實現(xiàn)加噪。相比之下,denoising 過程更為復雜,也就是模型訓練去擬合的過程,旨在使模型學會在每一個單步上,即從 t 步到 t-1 中的噪聲預測。

因此,在每一步的噪聲預測中,生成的模型會生成高斯噪聲,并將整個預測的域限定在高斯分布上,這樣可以使整個 diffusion model 更有效地學習這個過程。相對于以前的 VAE 的 encoder-decoder 架構,或者是基于 GAN 的通過discriminator 去修正 generator 生成的模式,diffusion model 能夠?qū)崿F(xiàn)更優(yōu)的生成效果。

Diffusion 模型最初主要應用于圖像生成,原因在于圖像數(shù)據(jù)更容易收集,而且相對于視頻,圖像生成所需注入的信息量較少。在眾多突出的研究中,stable diffusion 是最著名的一項工作。這個框架的設計主要基于三個模塊:encoder和 decoder 模塊、unet 模塊以及 condition 模塊。使用 encoder 和 decoder 模塊的原因在于,這種設計復用了之前 VAE 模型的架構。這樣做的好處是能夠?qū)⒄鎸崍D像映射到隱空間,實現(xiàn)圖像的下采樣和數(shù)據(jù)壓縮,從而在后續(xù)過程中減少所需的計算量。此外,在隱空間中,像 VAE 模型那樣對 z 的約束形成高斯分布,使得 latent space 的分布較為標準。這種設置使得在隱空間中進行 denoising 學習變得相對容易。這就是第一個主要模塊,即 VAE 模塊。

第二個介紹的是 condition 模塊,它在生成過程中起著至關重要的作用。例如,在文生視頻的應用中,我們通常提到的是從文本到視頻的轉(zhuǎn)換,這里的 condition 即為文本,也就是對畫面的描述性文本提示(prompt)。除此之外,condition 模塊還可以包含其他多種形式的條件輸入,如圖像本身、代表特定特征的向量,以及如語義分割圖這類的圖像等。這些條件的引入,允許模型根據(jù)不同的輸入信息產(chǎn)生定制化的輸出,從而增強生成內(nèi)容的相關性和準確性。

中間核心部分是 unet 模塊,這是實際進行 denoising 預測的模塊。上圖中展示的流程是從第 t 步到第 t-1 步的過程。整個生成流程是通過迭代 T 步迭代到第 0 步,但每個模塊的構成是一致的。在 unet 模塊中,通過 down sampling 和 up sampling 恢復到與輸入相同的尺寸,核心包含一個 convolutional layer,其后加入了 transformer layer,通過 attention 機制將 condition 的 embedding 注入進來。例如,文本通過一個 text encoder 轉(zhuǎn)換成text embedding,然后以 KV 形式與 latent space 進行 cross attention 計算,以實現(xiàn)條件的注入。

經(jīng)過這樣的模型設計,就可以預測出一步的 epsilon(噪聲),下一個 ZT-1 就是 Z減去預測出的噪聲。基于這樣的邏輯,通過 t 步的迭代 denoising 最終會生成一個與目標 x 相關的 z,通過 decoder 就可以還原出最終的圖像。

這就是 text to image 的框架。與圖像相比,視頻數(shù)據(jù)更難收集,視頻中的時間信息和動態(tài)信息建模難度更大,數(shù)據(jù)標注的成本也非常高。因此,現(xiàn)在基于text video 的模型多是在 text image 模型基礎上,進行時空建模的設計來實現(xiàn)視頻生成。即在原有的 spatial layer 上加入 motion layer,通過這種結(jié)合實現(xiàn)生成視頻的模型。其中兩個較為著名的方法包括 AnimateDiff,由上海人工智能實驗室提出,在時間軸上使用 self-attention,以及 ModelScope 系列,使用基于 3D convolution layer 的 temporal 建模。

這種框架實際上保留了模型由文本生成靜態(tài)圖像的能力,并且通過引入 motion layer,實現(xiàn)了在時間軸上的平滑過渡。這相當于在每一幀圖片生成的基礎上,通過將這些幀相互連接生成一個連續(xù)動態(tài)的視頻。這種方法可以有效地將單幀的靜態(tài)圖像轉(zhuǎn)變?yōu)檎宫F(xiàn)動態(tài)序列的視頻,使得生成的內(nèi)容不僅限于靜態(tài)畫面,而是展現(xiàn)出時間維度上的連貫動態(tài)。

二、視頻生成的主要難點

下面介紹開發(fā)過程中的主要難點,以及我們?yōu)閮?yōu)化模型生成圖像的效率和最終性能所設計的解決方案。

圖片

1. 難點 1:動作建模合理

我們發(fā)現(xiàn)在一些模型中會出現(xiàn)問題,例如在模擬鼓掌動作的圖像中,手部可能會融合在一起,或者大臂與小臂的比例和運動不符合機械原理,導致動作看起來不自然。此外,由于每一幀的時空建模是獨立進行的,若沒有通過 motion layer 有效地串聯(lián)這些幀,就可能出現(xiàn)動作不連貫的現(xiàn)象。例如,一幀中狗可能朝左,而下一幀突然朝右,造成觀感上的劇烈變化。這些問題都需要在模型的動作建模方面進行優(yōu)化,以確保生成的視頻動作連貫且自然。

2. 難點 2:語義對齊準確

當我們的 condition 僅有文字時,在實際工業(yè)應用中,需要模型對這些文字描述有更好的響應能力。例如,控制生成的數(shù)量,比如是四只還是五只,以及對特定局部區(qū)域的空間控制。用戶可能希望生成的背景是黃色或白色,或者想要白色的潛艇、白色的狗等特定對象。因此,對語義的準確理解和響應在整個生成框架中是影響生成效果的一個關鍵點,對提高模型的實用性和用戶滿意度至關重要。

3. 難點 3:畫質(zhì)細節(jié)精美

第三個難點是對畫質(zhì)的進一步雕琢。考慮到當前互聯(lián)網(wǎng)統(tǒng)計數(shù)據(jù)顯示,大約七八十甚至九十以上的網(wǎng)絡流量來自視頻,因此用戶對視頻的畫質(zhì)、分辨率以及幀率有著更高的期望。在生成模型中,我們面臨的挑戰(zhàn)是如何在生成速度和畫質(zhì)之間找到平衡。因此,我們必須對模型進行優(yōu)化,以確保在滿足實時生成的同時,也能夠提供高質(zhì)量的視頻輸出。

針對這些難點,我們設計了一些解決方案。

4. 方案 1:運動質(zhì)量提升

圖片

為了提升運動質(zhì)量,我們設計了一個整體的模型框架,在 text condition 的基礎上,注入 image condition。這種 image condition 為模型提供了一個生成時的基準,可以理解為一個錨點(anchor)。通常這個錨點是視頻的第一幀,基于這一幀,模型會在后續(xù)幀的生成中保持人物和背景的基本分布,以及大致的運動空間。這樣的設計使得訓練過程中視頻的生成結(jié)構更穩(wěn)定,運動更加合理。這樣相當于降低了模型在訓練時對整個視頻畫面的理解難度,從而優(yōu)化了生成過程的效率和質(zhì)量。這種方法不僅提升了視頻的視覺連貫性,還確保了生成內(nèi)容的動態(tài)自然性和逼真度。

為了訓練這種模型,我們在數(shù)據(jù)集的增廣方面進行了一些探索。圖片數(shù)據(jù)遠多于視頻數(shù)據(jù),一般來說,訓練一個圖像模型可能會使用到 10 億條數(shù)據(jù),而視頻數(shù)據(jù)可能只有千萬到億級別。

為了彌補這種差距,第一,我們通過對圖片進行增廣處理,比如縮放、左移、右移、上移、下移等操作,使圖片模擬簡單的運動視頻,從而擴大訓練集。第二,我們在多分辨率的環(huán)境下設計了一種訓練框架,可以同時處理不同幀率、幀數(shù)和視頻分辨率的數(shù)據(jù),這樣可以實現(xiàn)更豐富的數(shù)據(jù)樣態(tài),提高模型的效果。第三,我們在圖像和文本的控制(condition)上進行了有條件的融合,通過數(shù)據(jù)學習擬合條件的權重和參數(shù)。另外,還借鑒了南洋理工大學 ziwei liu 教授的研究,采用多輪生成的方法構建模型,利用上一輪生成的低頻信號信息指導下一輪的生成。我們可以將低頻信號理解為在運動中相對保持固定的一些特征,例如一個人跑步時背景相對固定,而跑步動作則是有節(jié)奏的規(guī)律運動。基于這樣的低頻信號指導,最終生成的視頻信號將更加穩(wěn)定。

5. 方案 2:語義對齊準確

圖片

關于語義對齊,我們發(fā)現(xiàn)開源的數(shù)據(jù)集通常比較簡單,對畫面的描述僅是一個籠統(tǒng)的概念,例如“女孩在家中學習”。然而,在生成模型的預訓練中,我們需要精確地對齊畫面中的各種元素。例如,不僅要描述“女孩在家中學習”,還要包括更具體的場景和元素,如“她在廚房里用 iPad 學習,穿著牛仔襯衫,她是一位黑人女孩”。

為了提高對這種復雜場景的理解,我們嘗試使用過去的視頻理解專家模型和現(xiàn)在較多使用的視頻基礎模型(video foundation model),來實現(xiàn)對視頻的多維度描述生成。最后,再通過大型語言模型進行融合。在這個大模型的時代,研究方向的一個新范式是需要團隊合作。因此,我們使用騰訊內(nèi)部的多模態(tài)包括語言文本模型的資源進行組合,最終生成了一個對畫面更優(yōu)質(zhì)的理解。通過這種深入的理解,就能夠訓練出更好的生成模型。這也是對“更好的理解帶來更好的生成”這一理念的實踐。未來,我們可能還會探索基于知識圖譜的畫面描述,以通過知識圖譜的結(jié)構更好地生成最終的視頻效果。

在模型中對文本的理解至關重要。我們之前通常使用的開源模型是 CLIP 的 text encoder。CLIP 主要學習文本與圖像數(shù)據(jù)之間的關聯(lián),它本質(zhì)上是一個二分類模型。這樣的關聯(lián)可能導致對細節(jié)和不同區(qū)域下的表征不充分。因此會出現(xiàn)一些問題,例如,當我們輸入描述為“四只貓”的時候,結(jié)果可能只顯示三只貓的情況,或者在需要生成鏡頭運動的場景時,模型表現(xiàn)不佳。

因此,我們發(fā)現(xiàn)對于文本的響應,CLIP 的 text encoder 是不夠的。一個直觀的方法是替換掉對文本的 encoder 模型。我們嘗試使用 T5 模型進行簡單的 projection,并在 unet 上訓練。但由于 unet 本身基于 CLIP 訓練得非常充分,整個分布依賴于 CLIP 的 text encoder,直接加入 T5 可能反而會對整個系統(tǒng)產(chǎn)生一定的影響。

最近,騰訊進行了一個嘗試,使用類似多模態(tài)模型中的 q-former 形式,通過cross attention 的方式將 T5 的 text embedding 注入到網(wǎng)絡中。我們最終注入網(wǎng)絡的長度是固定的。這樣可以有效地將 T5 或其他大型語言模型如 LLAMA 的 embedding 提取出來,與 unet 中的 Query 進行匹配并注入。通過這種形式,可以對具體細節(jié)的文本描述響應更加充分,從而提高模型對文本的理解和生成的質(zhì)量。

6. 方案 3:畫質(zhì)提升

圖片

在畫質(zhì)提升方面,看起來類似于傳統(tǒng)的畫質(zhì)提升任務,但在生成模型中的應用實際上有所不同。在生成模型中的畫質(zhì)提升,包括超分辨率(super resolution)或超幀率(frame interpolation)提升,不僅僅是對原視頻的簡單修正,更多地是具有修復功能,需要模型具備重新生成的能力。在生成模型的第一階段,視頻的生成可能主要集中在畫面的布局,決定視頻主體的位置和大致的動作形式。而在第二階段,則需要對一些具體的區(qū)域進行修復和生成。

我們借鑒了基于圖片 condition 的模型,設計了基于視頻的 condition 模型。通過類似于 control net 的方式將條件注入到原先的 unet 中。這樣,基于第一階段生成的視頻,進行有條件的、可控的生成,最終實現(xiàn)二階段的超分辨率后的視頻模型。通過這種方法,我們不僅簡單地提高了分辨率,而且通過有目的的修復和精細化生成,提升了整個視頻的視覺質(zhì)量,使得最終輸出的視頻更加清晰且細節(jié)更加豐富。

在基于人臉的生成中,用戶對人臉的瑕疵更加敏感,特別是當人臉在畫面中占比較小時,很容易出現(xiàn)生成效果的崩壞。我們分析原因,可能是由于 VAE 的 encoder 在較小區(qū)域進行了 8 倍的下采樣,導致響應極小。這種情況下,decoder 在處理特別是人臉這種復雜 pattern 的小區(qū)域時,其內(nèi)容表達和恢復能力不足。

為了優(yōu)化這一問題,我們發(fā)現(xiàn)在生成后對人臉區(qū)域單獨進行放大和重繪可以顯著優(yōu)化人臉的生成效果,然后通過高斯模糊的方式將其無縫融合回原圖,即可實現(xiàn)人臉的有效修復。

此外,關于提升分辨率和處理長視頻,我們也借鑒了學術界的一些方法,通過對噪聲的控制實現(xiàn)快速的多階段生成,同時確保生成內(nèi)容之間的連續(xù)性。上圖中展示了超分前后的畫質(zhì)對比以及人臉的修復效果。在騰訊內(nèi)部進行的人工主觀評測中,這種人臉修復方法可以解決 90% 以上的人臉問題,顯著提高了人臉生成的質(zhì)量和實用性。

圖片

這里展示的是截至 2023 年年底的一些效果。上半部分是基于文生視頻的示例,由文字描述控制視頻內(nèi)容的生成。下半部分是基于單張圖片控制的“圖生視頻”,不再需要文本控制,可以直接從一張靜態(tài)圖片生成動態(tài)的視頻。

三、視頻生成的應用實踐

接下來將分享我們在工業(yè)界應用方面的一些實踐。

1. 視頻風格化轉(zhuǎn)換

圖片

視頻風格化是將真實視頻或動畫視頻轉(zhuǎn)化成其他風格視頻的過程。這里展示的示例包括將真實視頻轉(zhuǎn)化成日本動漫風格,以及將真實視頻轉(zhuǎn)化成 3D 動畫風格。這種轉(zhuǎn)化不僅可以應用于模特拍攝的視頻生成對應的動畫畫面,還可以用于風景視頻的風格遷移。例如,我們曾與人民日報合作制作了一系列名為“江山如此多嬌”的短片,其中包括對風景進行風格化處理,效果非常引人注目,大家可以在微信視頻號中搜索觀看。

具體的實現(xiàn)方法包括將視頻作為 condition 輸入,這里的 condition 不僅包括常規(guī)的 RGB 信號,還包括 Canny 邊緣檢測信號、深度信息和人物骨架控制等信號序列。這些信號通過 ControlNet 的形式注入到 unet 中,從而生成相應的風格化視頻。之所以能夠生成特定風格的視頻,是因為我們對 unet 進行了針對該獨立風格的微調(diào),使其成為一個只能生成動漫風格視頻的網(wǎng)絡。因此,基于原始視頻的控制信號,加上專門生成動漫風格的模型,我們可以生成與原視頻內(nèi)容對齊的動漫風格視頻。這種技術不僅提升了視頻的視覺效果,也增加了內(nèi)容的多樣性和趣味性。

2. 人體姿態(tài)控制

圖片

這里的輸入是單獨的人物圖片,可以是真人也可以是動漫形象。接著,我們將使用人體動作骨架的控制序列,包括人的手、腿、頭部等關鍵點的骨架圖。有了這些骨架圖之后,我們設計了一個 condition 融合模塊,將之前提到的 noise 與 condition 融合后,注入到 unet 網(wǎng)絡中。這樣就可以生成動態(tài)的人物圖像,讓參考圖像中的人物動起來。

這項技術的應用非常廣泛,一方面可以用于創(chuàng)造有趣的互動體驗,例如讓圖中的人物跳舞;另一方面,它也可以用于從單一動漫圖像直接生成動作視頻,極大提高了動漫制作和短視頻制作的效率。盡管這個模型未在動物數(shù)據(jù)上進行訓練,但它展示了一定的泛化能力,甚至能使圖中的小貓?zhí)瑁鎏砹艘环萑の缎浴?/span>

3. 視頻運動筆刷

圖片

視頻運動筆刷可以讓視頻中的局部區(qū)域動起來,這對于工業(yè)應用中提高效率非常有用。具體操作是,通過用戶的控制讓畫面中某個局部區(qū)域進行動態(tài)表現(xiàn),控制方式包括選擇特定區(qū)域以及輸入相關文本。例如,用戶可以點擊圖中某個區(qū)域,如讓畫中的女神開始哭泣,或讓皮卡丘顯得更加開心而笑起來。

在技術實現(xiàn)上,我們在輸入的 condition 中加入了一些特定功能來實現(xiàn)這樣的效果。首先,用戶的點擊會觸發(fā)對該區(qū)塊的實例分割,產(chǎn)生一個 mask。這個 mask 隨后會被用于 cross attention 過程中,與輸出即 denoise 的輸入一起工作。在 attention 過程中,加入的 mask 將增強被選區(qū)域的動態(tài)效果,同時抑制 mask 之外的區(qū)域動作,從而使得指定區(qū)域的運動更加豐富和明顯。這種技術不僅增加了視頻內(nèi)容的互動性和動態(tài)表現(xiàn),還提高了制作過程的靈活性和效率。

四、一些不太長遠的展望

圖片

Sora 的出現(xiàn)無疑極大地推動了文生視頻技術的推廣,引起了廣泛關注。當行業(yè)內(nèi)還在討論如何處理 4 秒或 8 秒的視頻時,Sora 已經(jīng)能夠生成長達 1 分鐘的視頻,這無疑震驚到了整個行業(yè)的從業(yè)人員。Sora 的出現(xiàn)將視頻生成技術分成了兩個陣營:“Sora”與“其他”。這種劃分突顯了 Sora 與現(xiàn)有技術之間的根本區(qū)別。

首先要講的一個區(qū)別是關于 scaling up 的概念,OpenAI 非常推崇這一策略,他們堅信通過增大數(shù)據(jù)量和模型規(guī)模可以解決各種問題。同時,他們設計的 Sara 模型也是為了模擬物理世界,所有動機和設計都基于 scaling up 的理念。為了實現(xiàn)模型規(guī)模的擴大,他們將unet 中的 CNN 替換為了 Transformer,因為相比于 CNN,Transformer 更易于進行模型的并行優(yōu)化。此外,他們還利用了之前大型語言模型(LLM)的工程技術。

關于如何做出更長的視頻,他們首先在 encoder 的 VAE 階段對視頻進行了壓縮。這種壓縮不僅僅發(fā)生在單幀的分辨率空間,還包括在時間軸上的大幅壓縮。這樣做使得在一個較小的 latent 空間中進行 denoise 成為可能,同時也能通過這個 denoise 過程或 latent 生成相對較長的視頻。

這里有三個例子展示了 Sora 模型的效果,這些例子來自 Sora 的官方網(wǎng)站。第一個例子是基于 0-scale 的模型效果,第二個是 8 倍 scale 的效果,最后一個是 32 倍 scale 的效果。可以明顯看到,隨著模型規(guī)模的增加,生成的視頻效果有了顯著提升。

同時,我也推薦大家關注中國的兩個開源 Sora 項目。一個是潞晨科技的項目,另一個是北京大學袁粒老師領導的團隊開發(fā)的 Open Sora Plan。這些團隊對開源社區(qū)的貢獻值得敬佩,他們投入了大量精力。

騰訊也在積極進行類似的工作,我們正在探索基于 Transformer 架構的技術。希望在不久的將來,我們能夠展示更好的效果,并預計會有一個重要的版本更新。歡迎大家積極體驗這一新技術。

五、問答環(huán)節(jié)

Q1:文生圖或視頻過程中的語義保真如何理解?如何衡量生成的質(zhì)量?

A1:這是一個很好的問題。首先,我們可以從兩個方面來衡量:主觀的和客觀的。從客觀角度來說,我們會使用一些模型來評估,比如對于語義保真度,我們常用 CLIP 的相關性作為一個重要的衡量標準。另外,我們騰訊的某些系列產(chǎn)品也通過語義相關性、運動感、畫質(zhì)、清晰度以及內(nèi)容的豐富度等方面,使用專家模型來評估生成內(nèi)容的綜合效果。

從主觀角度來看,我們通過人來評估。我們內(nèi)部有一個專門的評測團隊,超過 1000 人,他們通過對比兩個模型的輸出來評估效果優(yōu)劣。評估形式通常是進行模型對比,例如將混元和 Pika 的結(jié)果相比較,評估團隊會判斷哪一個更好,或者兩者是否相當。評估人員都經(jīng)過專業(yè)訓練,在多個維度上進行評估,并進行加權判斷。

Q2:Sora 背后到底有沒有它的護城河,到底在哪里?是數(shù)據(jù)量,技術框架,還是都有?

A2:我覺得顯然是兩者都有。在技術框架方面,網(wǎng)絡模型的護城河可能相對較低。但是在大規(guī)模訓練的基建方面,我認為有相當大的護城河。OpenAI 在千卡甚至萬卡級的 GPU 聯(lián)合訓練上有非常深厚的積累,這在其他公司,尤其是國內(nèi)的一些公司中可能相對欠缺。另外,正如我之前提到的,團隊協(xié)作方面,OpenAI 的 LLM 和其 GP4-V 等多模態(tài)模型也表現(xiàn)出顯著的優(yōu)勢,這些模型對于理解產(chǎn)生的數(shù)據(jù)極為關鍵,對生成模型的訓練也會有很大影響。

我們在數(shù)據(jù)構建方面落后于他們,在訓練的最終結(jié)果上也有較大的差距。,所以這構成了一個非常深的護城河,我們需要在各個方面實現(xiàn)追趕和超越。

Q3:您剛剛提到數(shù)據(jù)層面,只是原始收集的數(shù)據(jù)量比我們大,還是他借助的這些工具做得更好、質(zhì)量更好呢?

A3:我之前聽說過 OpenAI 在下載全互聯(lián)網(wǎng)的視頻數(shù)據(jù),具體數(shù)據(jù)量他們沒有公開,我也不好猜測。另外,也有分析指出他們使用了 UE 引擎來造數(shù)據(jù)。考慮到他們對 Scaling Up 的崇拜,我覺得他們的數(shù)據(jù)量應該是非常巨大的,可能超出我們的想象。

在數(shù)據(jù)質(zhì)量上,如我之前所述,對視頻的描述能力會產(chǎn)生很大的影響。即使我們擁有相同的數(shù)據(jù),如果我們對其描述存在缺陷或差距,那么訓練出來的生成模型也會有顯著的性能差異。所以,不僅是數(shù)據(jù)的數(shù)量,其質(zhì)量和處理方式同樣關鍵。

Q4:您認為 Sora 這種機制,或者這種數(shù)據(jù)驅(qū)動的方式,是否真的能夠理解這個物理世界?因為關于這個的爭論很多,到底能不能真正地實現(xiàn)所謂的世界模型呢?

A4:我個人覺得這還是比較困難的。我認為我們現(xiàn)有的數(shù)據(jù)可能還不夠。在這種擴大模型和訓練的方式下,對于算力來說,數(shù)據(jù)的利用率是非常低的。例如,一個人不需要看幾十億、上百億的數(shù)據(jù)視頻就能理解影子是由物體遮擋光線產(chǎn)生的,但是 AI 模型可能就需要極大量的數(shù)據(jù)才能學會這一點。當然,如果有足夠多的數(shù)據(jù),也許 AI 真的能夠?qū)W會,但是暫時來看,我們可能在有生之年都達不到這樣的數(shù)據(jù)規(guī)模,所以我認為實現(xiàn)真正的物理世界理解是非常難的。

同時,也有人討論說生成模型是否一定需要對物理有強制性約束,因為我們實際上看到的世界有時也會因為我們自己的視覺系統(tǒng)產(chǎn)生誤判。比如,兩個相同大小和顏色的正方形放在不同的背景下,我們也可能會判斷它們的亮度不同。所以,最終如果 AI 模型能夠符合我們?nèi)祟惖囊曈X偏好,也是可以接受的。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-03-05 00:00:55

2022-05-25 10:28:35

模型AI

2024-10-23 14:04:24

2025-05-16 13:18:37

2023-12-29 13:18:23

模型NeRFTICD

2025-06-03 08:40:00

2025-01-03 15:39:02

2023-08-28 13:06:47

2023-10-11 12:32:26

模型訓練

2023-11-27 13:48:00

模型數(shù)據(jù)

2024-02-19 07:58:01

OpenAI模型GPT

2024-01-16 17:17:30

模型訓練

2024-03-11 09:37:01

模型圖片編輯

2024-01-02 13:18:00

數(shù)據(jù)視頻

2025-07-21 09:03:00

模型AI訓練

2022-10-19 14:17:32

圖像模型

2024-08-26 09:35:00

模型文生圖

2023-12-13 13:49:00

模型訓練

2024-07-08 08:47:00

點贊
收藏

51CTO技術棧公眾號

亚洲精品中文字幕在线播放| 97精品国产97久久久久久粉红| 国产农村妇女aaaaa视频| 在线日韩一区| 欧美老女人在线| 天堂8在线天堂资源bt| 视频三区在线观看| 免费成人小视频| 久久久久女教师免费一区| 蜜桃av乱码一区二区三区| 日本精品在线播放| 在线精品亚洲一区二区不卡| 嫩草影院中文字幕| 草碰在线视频| av高清久久久| 91欧美视频网站| 久久久黄色大片| 午夜精品影院| 中文字幕日韩精品在线观看| 国产在线观看免费播放| 91大神在线观看线路一区| 亚洲成人在线观看视频| 在线播放 亚洲| 欧美香蕉爽爽人人爽| 国产成人精品在线看| 国产精品户外野外| 好吊操这里只有精品| 999精品一区| 国产亚洲精品久久久久久777| 免费黄色av网址| 欧美系列精品| 欧美午夜精品一区| 青青在线视频免费| 国产乱码精品一区二三赶尸艳谈| 亚洲免费成人av| 亚洲人久久久| 成人在线免费观看| 久久天天做天天爱综合色| 国产精品一国产精品最新章节| 国产九色91回来了| 久久亚洲不卡| 青青草一区二区| 国产成人无码精品久久久久| 狠色狠色综合久久| 欧美精品免费在线观看| 夫妻性生活毛片| 波多野结衣在线观看一区二区三区 | 牛夜精品久久久久久久| caoporn视频在线| 亚洲综合在线观看视频| 一二三四中文字幕| 北岛玲日韩精品一区二区三区| 91丨国产丨九色丨pron| 久久精品人成| 四虎影视在线播放| 久久综合色之久久综合| 蜜桃臀一区二区三区| 天堂在线中文资源| 久久综合色天天久久综合图片| 极品日韩久久| 日本大臀精品| 国产情人综合久久777777| 欧美一区二区三区四区五区六区 | 欧美国产精品久久| 色综合久久88色综合天天提莫| 日本一二三区在线视频| 久久久综合九色合综国产精品| 久热国产精品视频一区二区三区| 午夜福利一区二区三区| 2023国产精品自拍| 日韩精品不卡| 黄色网址在线免费| 一区二区三区欧美日| 男人添女荫道口图片| 日本不卡1234视频| 欧美在线综合视频| 午夜免费视频网站| 林ゆな中文字幕一区二区| 精品无人国产偷自产在线| jizz中文字幕| 亚洲精品一二三区区别| 久久人人97超碰精品888| av黄色在线播放| 激情综合网天天干| 国产精品亚洲不卡a| 黄色av网站在线看| 亚洲欧美成人一区二区三区| 国产在线播放观看| 国产私拍福利精品视频二区| 日韩亚洲国产中文字幕欧美| 特级西西人体wwwww| 第一sis亚洲原创| 久久6免费高清热精品| 91美女免费看| 经典三级在线一区| 久久国产精品-国产精品| 91青青在线视频| 亚洲国产日日夜夜| 午夜精品中文字幕| 日本国产精品| 久久亚洲精品一区| 日本视频网站在线观看| 国产伦理精品不卡| 日韩不卡av| 国产丝袜在线观看视频| 欧美视频在线一区二区三区| 精品少妇人妻av一区二区三区| 欧美日韩国产高清电影| 高清欧美性猛交xxxx| 亚洲av人无码激艳猛片服务器| 国产精品亚洲综合一区在线观看| 欧美精品一区二区三区在线看午夜| 色老头视频在线观看| 欧美日韩免费看| 少妇欧美激情一区二区三区| 大片网站久久| 国产97色在线| 亚洲色图欧美视频| 亚洲美女视频在线| 伊人国产在线视频| 精品在线手机视频| 久久久亚洲天堂| 国产免费福利视频| 国产精品毛片a∨一区二区三区| 玩弄中年熟妇正在播放| 日韩一区二区三区精品| 久久久999国产精品| 国产精品午夜一区二区| 91影院在线观看| www.好吊操| 中文一区二区三区四区| 久久天天躁狠狠躁夜夜av| 青青草视频在线观看免费| 成人高清在线视频| 嫩草影院中文字幕| jazzjazz国产精品麻豆| 九色91av视频| 国产夫妻在线观看| 亚洲日本在线看| 手机在线国产视频| 欧美电影《睫毛膏》| 国产精品三级网站| 成年人视频在线免费观看| 色综合天天综合狠狠| 三级电影在线看| 国产精品永久| 麻豆91av| 羞羞影院欧美| 亚洲日本欧美中文幕| jizz国产在线观看| 国产日韩欧美一区二区三区乱码| 蜜臀av午夜一区二区三区| 欧美一级全黄| 国产99久久精品一区二区永久免费 | 美女露出粉嫩尿囗让男人桶| 久久国产中文字幕| 国产在线久久久| 毛片激情在线观看| 欧美亚洲动漫制服丝袜| 91无套直看片红桃在线观看| 蜜桃av一区二区在线观看 | 中文字幕在线免费| 欧美日韩国产123区| 欧美一级特黄高清视频| 国产综合成人久久大片91| 国产一区一区三区| 成人动漫视频| 欧美一二三视频| 高清毛片在线看| 欧美日韩视频在线第一区| 天海翼在线视频| 国产成人精品影院| aa免费在线观看| 波多野结衣在线观看一区二区三区| 成人福利免费观看| av资源一区| 亚洲午夜未满十八勿入免费观看全集| 一区二区乱子伦在线播放| 亚洲桃色在线一区| av免费观看不卡| 丝袜美腿一区二区三区| 在线观看亚洲视频啊啊啊啊| 精品久久亚洲| 欧洲中文字幕国产精品| 午夜视频在线看| 精品国产a毛片| 奴色虐av一区二区三区| 亚洲精品成人a在线观看| 男男做爰猛烈叫床爽爽小说 | 成人妇女免费播放久久久| 美足av综合网| 最新国产精品亚洲| 亚洲毛片欧洲毛片国产一品色| 欧美日韩中文字幕日韩欧美| 亚洲国产精品一区二区久久hs| 国产成人免费高清| 国产97色在线 | 日韩| 欧美搞黄网站| 亚洲人体一区| 婷婷精品在线观看| 亚洲综合社区网| 外国成人直播| 九九精品在线观看| 福利在线观看| 欧美精品一区二区三区蜜臀| 在线免费av片| 性做久久久久久免费观看| 激情高潮到大叫狂喷水| 97久久超碰国产精品电影| 日本精品一区在线| 老牛嫩草一区二区三区日本| 国产真实老熟女无套内射| 久久美女精品| 茄子视频成人在线观看| 成人18夜夜网深夜福利网| 成人观看高清在线观看免费| 桃花岛tv亚洲品质| 久久久久久久久久久人体 | 亚洲人吸女人奶水| 蜜臀久久99精品久久久久久| av在线不卡免费看| 中文字幕 欧美 日韩| 久久99热国产| 最近中文字幕一区二区| 久久精品亚洲| 男人操女人逼免费视频| 国产一区日韩一区| 日本三日本三级少妇三级66| 98精品久久久久久久| 亚洲成人第一| 国产欧美日韩精品一区二区三区 | 亚洲精品视频大全| 大白屁股一区二区视频| 亚洲第一成肉网| 蜜桃视频在线观看一区| 午夜在线观看av| 日韩av不卡在线观看| 草草草在线视频| 蜜乳av另类精品一区二区| 久久精品免费一区二区| 性欧美长视频| 99色精品视频| 天堂精品中文字幕在线| 免费男同深夜夜行网站| 丝袜亚洲另类欧美综合| 妓院一钑片免看黄大片| 日韩不卡一区二区| 一区二区三区入口| 另类的小说在线视频另类成人小视频在线 | 999久久久亚洲| 亚洲一区尤物| 亚洲精品成人| www.日本在线视频| 狠狠爱www人成狠狠爱综合网| 91精品一区二区三区四区| 欧美黄在线观看| 人妻少妇精品久久| 亚洲每日更新| 日韩免费毛片视频| 麻豆精品新av中文字幕| 波多野结衣免费观看| 国产宾馆实践打屁股91| 亚洲天堂av网站| 久久久三级国产网站| 天堂av免费在线| 亚洲色图制服丝袜| 久草视频在线资源| 岛国av一区二区| 真实的国产乱xxxx在线91| 欧美绝品在线观看成人午夜影视| www.97超碰| 亚洲第一页中文字幕| 国产中文字幕在线观看| 久久九九精品99国产精品| 蜜臀av在线| 国产精品com| 国产一区二区三区亚洲综合| 国产精品二区三区四区| 国产成人精品三级高清久久91| 在线视频不卡一区二区| 欧美a级片网站| 国产美女无遮挡网站| 麻豆精品视频在线观看| 扒开伸进免费视频| 国产欧美一区二区精品久导航| 在线观看美女av| 精品人伦一区二区三区蜜桃网站| 久久久久久亚洲av无码专区| 欧美一区二区三区在线| 五月激情丁香婷婷| 色777狠狠综合秋免鲁丝| 性欧美ⅴideo另类hd| 国产91免费看片| 日韩一区网站| 日韩中文字幕av在线| 亚洲视频观看| 免费看污污网站| av在线不卡电影| 91麻豆免费视频网站| 一本大道av伊人久久综合| a级片在线视频| 国产亚洲精品综合一区91| 人人澡人人添人人爽一区二区| 国产精品福利在线观看| 哺乳挤奶一区二区三区免费看| 欧美成人综合一区| 红桃视频亚洲| 欧洲美女亚洲激情| 国产欧美中文在线| 91精品国产乱码久久久张津瑜| 欧美一区午夜视频在线观看| 国产毛片av在线| 2019亚洲男人天堂| 日韩精品一区二区三区中文字幕| 亚洲乱码一区二区三区三上悠亚| 在线亚洲激情| jjzz黄色片| 亚洲精品乱码久久久久久日本蜜臀| 高潮无码精品色欲av午夜福利| 亚洲韩国青草视频| 久草在线资源站资源站| 91久久国产婷婷一区二区| 日韩欧美精品一区| 成人性做爰aaa片免费看不忠| 国产不卡视频一区二区三区| 91视频青青草| 欧美丰满美乳xxx高潮www| yw193.com尤物在线| 日韩美女在线观看| 亚洲影院天堂中文av色| 青娱乐自拍偷拍| 成人av午夜电影| 国产一级片久久| 精品福利在线导航| 青春草视频在线| 97超级碰碰| 欧美激情亚洲| 手机在线观看日韩av| 亚洲人成网站色在线观看| 88av在线视频| 久久网福利资源网站| 成人在线视频国产| 日韩视频在线观看视频| 精品一区二区在线免费观看| 乱老熟女一区二区三区| 51午夜精品国产| 91麻豆免费在线视频| 99久久精品久久久久久ai换脸| 欧美成人一区二免费视频软件| 亚洲一区二区图片| 亚洲一区在线播放| 全国男人的天堂网| 69久久夜色精品国产69| 欧美美乳视频| 亚洲欧美视频二区| 亚洲欧美一区二区久久| 性一交一乱一乱一视频| 久久久久久国产精品美女| 欧美国产不卡| 国产成人av影视| 亚洲人午夜精品天堂一二香蕉| 成人av免费播放| 2019中文字幕在线观看| 欧美色就是色| 日韩欧美中文视频| 亚洲mv在线观看| 国产在线观看免费| 亚洲www永久成人夜色| 精品不卡视频| 爱爱免费小视频| 欧美精品久久久久久久久老牛影院| 中文字幕免费高清电视剧网站在线观看| 高清不卡日本v二区在线| 亚洲在线观看| 黑人と日本人の交わりビデオ| 日韩精品中文字幕在线不卡尤物| 僵尸再翻生在线观看| 亚洲狠狠婷婷综合久久久| 国产一区免费电影| 国产乱国产乱老熟| 丝袜一区二区三区| 国产调教精品| 久久久精品麻豆| 亚洲一区二区综合| 国产一级免费在线观看| 99三级在线| 日本大胆欧美人术艺术动态| 黑人巨大精品一区二区在线| 国产手机视频精品| 免费精品一区| 国产天堂在线播放| 一区二区三区久久| 国产区av在线| 国产欧美日本在线| 久久69国产一区二区蜜臀| 日本少妇激情舌吻| 久久久999精品视频| 在线视频亚洲专区| 欧洲成人午夜精品无码区久久| 日本韩国欧美国产|