精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

World Model立大功的背后還有哪些改進(jìn)方向?深度解析!

人工智能 新聞
最近wayve提出的生成式世界模型GAIA_1大放異彩,生成的自動(dòng)駕駛數(shù)據(jù)太逼真了!今天汽車人就和大家一起聊聊GAIA_1的背后還有哪些值得思考和改進(jìn)的方向!

筆者的個(gè)人思考

  1. 為什么不直接用DINO, 而是用2D-UNet先做了一次蒸餾, 直接用DINO會(huì)有什么問(wèn)題呢?
  2. 中間world model部分是transformer based的, 能否直接復(fù)用現(xiàn)有的LLM+adapter的方式;
  3. 這種方法理論上能否開(kāi)車, 文章里只有一個(gè)video decoder輸出video,文章中說(shuō)現(xiàn)在還沒(méi)有實(shí)時(shí)運(yùn)行, 但是如果不考慮實(shí)時(shí)性, 加一個(gè)action decoder來(lái)輸出自車動(dòng)作,理論上應(yīng)該能夠開(kāi)車,但這樣自回歸的輸出也應(yīng)該有action部分;
  4. world model部分編碼的是2d的信息, 如果把3d的信息也加上是不是會(huì)更通用一些;
  5. 看文章發(fā)現(xiàn)是有好幾個(gè)訓(xùn)練步驟的, 比如先訓(xùn)練 Image Tokenizer, 再訓(xùn)練World Model, 最后再訓(xùn)練Video Decoder部分,整個(gè)過(guò)程不能夠端到端的一起訓(xùn)練么, 應(yīng)該是可以的, 估計(jì)訓(xùn)起來(lái)比較費(fèi)勁,可能不收斂。
  6. 假設(shè)輸入不止有前視, 還有左前和右前, 如何做到不同相機(jī)視角下生成的視頻具有一致性。

出發(fā)點(diǎn)是什么

自動(dòng)駕駛有望給交通帶來(lái)革命性的改善,但是 構(gòu)建能夠安全地應(yīng)對(duì)非結(jié)構(gòu)化復(fù)雜性的現(xiàn)實(shí)世界的場(chǎng)景的系統(tǒng) 仍然充滿挑戰(zhàn)。一個(gè)關(guān)鍵問(wèn)題在于有效地 預(yù)測(cè)各種可能出現(xiàn)的潛在情況以及 車輛隨著周圍世界的演化而采取的動(dòng)作。為了應(yīng)對(duì)這一挑戰(zhàn),作者引入了 GAIA-1, 一個(gè)生成式的世界模型,它能夠同時(shí)輸入視頻、文本和動(dòng)作來(lái)生成 真實(shí)的駕駛場(chǎng)景,并且同時(shí)能夠提供對(duì)自車行為和場(chǎng)景特征的細(xì)粒度控制。該方法將世界建模視為序列建模問(wèn)題,通過(guò)把輸入轉(zhuǎn)化為離散的tokens, 預(yù)測(cè)序列中的下一個(gè)token。該模型有很多新興特性, 包括學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài)、情境意識(shí)、 概括和理解幾何信息。GAIA-1 學(xué)習(xí)到的表征的強(qiáng)大能力可以捕獲對(duì)未來(lái)事件的期望,再加上生成真實(shí)樣本的能力,為自動(dòng)駕駛領(lǐng)域的創(chuàng)新提供了新的可能性。

GAIA_1簡(jiǎn)介

預(yù)測(cè)未來(lái)事件對(duì)自動(dòng)駕駛系統(tǒng)來(lái)說(shuō)基本且重要。精準(zhǔn)地預(yù)測(cè)未來(lái)使自動(dòng)駕駛車輛能夠預(yù)測(cè)和規(guī)劃其動(dòng)作,從而增強(qiáng)安全性和效率。為了實(shí)現(xiàn)這一目標(biāo),開(kāi)發(fā)一個(gè)強(qiáng)大的世界模型勢(shì)在必行。已經(jīng)有工作在這方面做了很大努力, 比如. 然而,當(dāng)前的方法有很大的局限性。世界模型已成功 應(yīng)用于仿真環(huán)境下的控制任務(wù)和現(xiàn)實(shí)世界的機(jī)器人任務(wù)。這些方法一方面需要大規(guī)模的標(biāo)注數(shù)據(jù), 另一方面模型 對(duì)仿真數(shù)據(jù)的研究無(wú)法完全捕捉現(xiàn)實(shí)場(chǎng)景的復(fù)雜性。此外, 由于其低維表示,這些模型難以生成高度真實(shí)的 未來(lái)事件的樣例, 而這些能力對(duì)于真實(shí)世界中的自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō)非常重要。

與此同時(shí),圖像生成和視頻生成領(lǐng)域也取得了重大進(jìn)步,主要是利用自監(jiān)督學(xué)習(xí)從大量現(xiàn)實(shí)世界數(shù)據(jù)中學(xué)習(xí)生成非常真實(shí)的數(shù)據(jù) 視頻樣本。然而,這一領(lǐng)域仍然存在一個(gè)重大挑戰(zhàn):學(xué)習(xí)捕獲預(yù)期未來(lái)事件的表示。雖然這樣的生成模型 擅長(zhǎng)生成視覺(jué)上令人信服的內(nèi)容,但在學(xué)習(xí)動(dòng)態(tài)世界的演化表示方面效果不太好,而這對(duì)于準(zhǔn)確的預(yù)測(cè)未來(lái)和穩(wěn)健的決策至關(guān)重要。

這項(xiàng)工作提出了 GAIA-1,它同時(shí)保持了世界模型和視頻生成的優(yōu)勢(shì). 它結(jié)合了視頻生成的可擴(kuò)展性和現(xiàn)實(shí)性以及世界模型的學(xué)習(xí)世界演變的能力。

GAIA-1 的工作原理如下。首先,模型分為兩部分:世界模型和video diffusion decoder。世界模型負(fù)責(zé)理解場(chǎng)景中的high-level的部分及場(chǎng)景的動(dòng)態(tài)演化信息, 而video diffusion decoder 則負(fù)責(zé) 將潛在表征轉(zhuǎn)化回具有真實(shí)細(xì)節(jié)的高質(zhì)量視頻。

整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如下

圖片

對(duì)于世界模型,使用視頻幀的矢量化表示來(lái)離散化每一幀 ,將它們轉(zhuǎn)換為token序列。基于此就把預(yù)測(cè)未來(lái)轉(zhuǎn)化為預(yù)測(cè)序列中的下一個(gè)token。這種方法已被廣泛應(yīng)用于訓(xùn)練LLM,并且得到了認(rèn)可, 這種方法主要是通過(guò)擴(kuò)展模型大小和數(shù)據(jù)來(lái)有效提高模型性能。它可以通過(guò)自回歸的方式在世界模型的latent space內(nèi)生成樣本。

第二個(gè)部分是一個(gè)多任務(wù)video diffusion decoder,它能夠執(zhí)行高分辨率視頻渲染以及時(shí)間上采樣, 根據(jù)world model自回歸產(chǎn)生的信息生成平滑的視頻。類似于LLM,video diffusion model表明訓(xùn)練規(guī)模(模型大小和數(shù)據(jù)量)和整體表現(xiàn)之間存在明顯的相關(guān)性,這使得 GAIA-1 的兩個(gè)組件都適合有效的Scaling。

GAIA-1 是一個(gè)多模態(tài)的模型,允許使用視頻、文本和動(dòng)作作為提示來(lái)生成多樣化且真實(shí)的駕駛場(chǎng)景,如下圖 1 所示:

通過(guò)在大量真實(shí)的城市駕駛數(shù)據(jù)上訓(xùn)練, GAIA-1 學(xué)習(xí)了理解和區(qū)分一些重要概念,例如靜態(tài)和動(dòng)態(tài)元素,包括汽車、公共汽車、行人、騎自行車的人、道路布局、建筑物,甚至交通燈。此外,它還可以通過(guò)輸入動(dòng)作或者文本提示來(lái)細(xì)粒度地控制自車行為及場(chǎng)景特征。

GAIA-1展示了體現(xiàn)現(xiàn)實(shí)世界生成規(guī)則的能力。還有諸如學(xué)習(xí)高級(jí)結(jié)構(gòu)、概括、創(chuàng)造力和情境意識(shí)等新興的特性。這些表明該模型能夠理解并再現(xiàn)世界的規(guī)則和行為。而且,GAIA-1 展示了對(duì) 3D 幾何的理解,例如,通過(guò)有效地捕捉 由減速帶等道路不平整引起的俯仰和側(cè)傾間的相互作用。預(yù)測(cè)的視頻也展示了其他智能體的行為, 這表明模型有能力理解道路使用者的決策。令人驚訝的是,它還能夠產(chǎn)生訓(xùn)練集之外的數(shù)據(jù)的能力。例如,在道路邊界之外行駛。

GAIA-1 學(xué)習(xí)到的表征預(yù)測(cè)未來(lái)事件的能力,以及對(duì)自車行為和場(chǎng)景元素兩者的控制是一項(xiàng)令人興奮的進(jìn)步,一方面為進(jìn)一步提升智能化效果鋪平了道路, 另一方面也可以為加速訓(xùn)練和驗(yàn)證提供合成的數(shù)據(jù)。世界 像GAIA-1 之類的世界模型是預(yù)測(cè)接下來(lái)可能發(fā)生的事情的能力的基礎(chǔ),這對(duì)于自動(dòng)駕駛的決策至關(guān)重要。

GAIA_1的模型設(shè)計(jì)

GAIA-1 可訓(xùn)練組件的模型架構(gòu)。總體架構(gòu)如上面圖2所示。

編碼視頻、文本和動(dòng)作

GAIA-1 可以輸入三種不同的模式的內(nèi)容(視頻、文本、動(dòng)作),這些輸入信息被編碼到共享的 d 維空間,這個(gè)空間是world model的輸入空間, 注意不是輸出空間, world model的輸出空間的維度和下面的  的維度是一樣的。

Image tokens

視頻中的每楨圖像都可以表示為離散tokens。比如可以使用一個(gè)pre-trained image tokenizer,這個(gè)模型記為. 輸入 T楨圖像序列  ,通過(guò) 將其離散化為 n = 576 個(gè)離散tokens, 即,其中每個(gè)  ,這里的  和圖像離散化的方式有關(guān)系,  對(duì)應(yīng)于 , H和W表示輸入圖像的高度和寬度,而D表示下采樣因子。然后通過(guò) 一個(gè) embedding layer 將映射到為  維空間中。

Text tokens

在每個(gè)時(shí)間 t,文本輸入使用 pre-trained 的 T5-large 模型進(jìn)行編碼,得到每個(gè)  個(gè)文本tokens。再通過(guò)一個(gè)線性層同樣映射到  維空間, 產(chǎn)生文本的表示。

action tokens

對(duì)于動(dòng)作, 這里考慮    標(biāo)量值(表示速度和曲率), 這里的曲率指的應(yīng)該是方向盤的轉(zhuǎn)角, 即 steering的意思。和之前類似, 每個(gè)scalar也通過(guò)線性層分別映射到  維空間,得到動(dòng)作表示,

對(duì)于時(shí)間t,輸入tokens按:文本 - 圖像 - 動(dòng)作 的順序進(jìn)行交錯(cuò)排列。因此,世界模型的最終輸入是 。對(duì)于位置編碼, 這里采用了,  個(gè)可學(xué)習(xí)的 temporal embedding, 以及  個(gè) spatial embeddings,   embeddings 的維度都是 

Image Tokenizer

即上面提到的 。當(dāng)使用序列模型對(duì)離散輸入數(shù)據(jù)進(jìn)行建模時(shí),需要權(quán)衡序列長(zhǎng)度和詞匯量。序列長(zhǎng)度是指離散tokens的數(shù)量, 詞匯量大小代表每個(gè)token有多少種可能性。對(duì)于語(yǔ)言有兩種明顯的選擇:字符和 單詞。當(dāng)使用字符級(jí)標(biāo)記時(shí),輸入數(shù)據(jù)具有較長(zhǎng)的序列長(zhǎng)度,并且單個(gè)token所含詞匯表較少,但傳達(dá)的含義很少。使用單詞級(jí)的 token時(shí),輸入數(shù)據(jù)的序列長(zhǎng)度較短,每個(gè)token包含很多語(yǔ)義,但是 詞匯量非常大。大多數(shù)語(yǔ)言模型 使用字節(jié)對(duì)編碼 (或等效)作為字符級(jí)和單詞級(jí)標(biāo)記化之間的權(quán)衡。

對(duì)于視頻,我們希望減少輸入的序列長(zhǎng)度,同時(shí)可能使 詞匯量更大,但同時(shí)希望tokens 比原始像素在語(yǔ)義上更有意義。這里是用離散圖像自動(dòng)編碼器來(lái)做的。在此過(guò)程中實(shí)現(xiàn)兩個(gè)目標(biāo),

  1. 壓縮原始像素的信息,使序列建模問(wèn)題易于處理。因?yàn)閳D像包含大量冗余和噪聲信息。我們希望減少 描述輸入數(shù)據(jù)所需的序列長(zhǎng)度。
  2. 引導(dǎo)壓縮后的信息具有有意義的表示, 比如語(yǔ)義信息, 而不是大量沒(méi)有用的信號(hào), 這些信號(hào)會(huì)降慢世界模型的學(xué)習(xí)過(guò)程。
目標(biāo)1的實(shí)現(xiàn)

下采樣因子用 。每個(gè)大小為 的圖像  由描述, 詞匯量大小為 

目標(biāo)2的實(shí)現(xiàn)

本文用預(yù)訓(xùn)練的DINO 模型  抽取的特征來(lái)作為回歸的target, 相當(dāng)于是用DINO作為蒸餾的teacher,DINO是一個(gè)自監(jiān)督的模型,它包含有豐富的語(yǔ)義信息, 如圖3所示 DINO-distilled 得到的tokens看起來(lái)語(yǔ)義信息比較豐富.

蒸餾的student即離散的 autoencoder部分用的是全卷積的2D U-Net. 編碼器通過(guò)在可學(xué)習(xí)嵌入表中查找最近鄰對(duì)圖像feature進(jìn)行量化,產(chǎn)生圖像tokens  。離散編碼器  最終 GAIA-1 模型的一部分, 需要訓(xùn)練, 而Decoder是僅用來(lái)訓(xùn)練 的。需要注意的是Decoder是基于單楨圖像進(jìn)行訓(xùn)練的, 因此它不具有時(shí)間一致性, 出于這個(gè)原因, 也會(huì)訓(xùn)練一個(gè)video decoder, 這部分在后面介紹.

Image autoencoder的訓(xùn)練loss如下:

  • 圖像重建損失。圖像重建損失有兩部分, 分別是 感知損失  和 GAN 損失 
  • 量化損失。為了更新嵌入向量,我們使用嵌入損失和 文獻(xiàn)中的commitment loss, 并且對(duì) embedding 做了 linear projection 以及 l2 normalization, 實(shí)驗(yàn)表明這些有助于增加詞匯量的使用。
  • Inductive bias loss。autoencoder量化的圖像特征與DINO提取的圖像特征用cosine similarity loss 度量來(lái)監(jiān)督, 這種方法在特征監(jiān)督中常用.

世界模型

世界模型的輸入是序列 ,是transformer based自回歸網(wǎng)絡(luò)結(jié)構(gòu)。訓(xùn)練的目標(biāo)是基于過(guò)去的所有tokens(圖像, 文本, 動(dòng)作)預(yù)測(cè)接下來(lái)的 image token.

loss 函數(shù)為

為了在推理的時(shí)候, 能夠同時(shí)輸入文本或動(dòng)作作為提示, 在訓(xùn)練的時(shí)候會(huì)隨機(jī)把輸入的文本或者動(dòng)作tokens給dropout掉.

為了進(jìn)一步減少世界模型輸入的序列長(zhǎng)度,對(duì)輸入的視頻作了進(jìn)一步采樣, 從原來(lái)的25HZ變?yōu)?.25HZ。這能讓世界模型能夠在更長(zhǎng)的時(shí)間內(nèi)進(jìn)行推理。為了以全幀速率恢復(fù)視頻預(yù)測(cè),在video decoder部分用了temporal super-resolution。

視頻解碼器

隨著圖像生成和視頻生成的最新進(jìn)展,在GAIA-1的decoder部分, 使用了 denoising video diffusion models。一個(gè)自然的想法是把每一楨的 frame tokens 解碼到像素空間, 但是這樣得到的不同楨對(duì)應(yīng)的pixel, 在時(shí)間上不具有一致性。這里的處理方法是, 把問(wèn)題建模為 在擴(kuò)散過(guò)程中對(duì)一系列幀進(jìn)行去噪,模型可以訪問(wèn)到整個(gè)時(shí)間段內(nèi)的信息,這樣做明顯提高了輸出視頻的時(shí)間一致性。

這里用的是3D U-Net網(wǎng)絡(luò)結(jié)構(gòu),  它里面包括分解空間層和時(shí)間注意力層。這里要注意訓(xùn)練和推理時(shí)的輸入不一樣, 訓(xùn)練時(shí)的輸入是 用 pre-trained image tokenizer  得到的image tokens; 推理的時(shí)候因?yàn)闆](méi)有觀測(cè), 輸入的是由 World Model 預(yù)測(cè)的 image tokens.

我們?cè)趫D像和視頻生成任務(wù)上聯(lián)合訓(xùn)練單個(gè)模型。用視頻訓(xùn)練 會(huì)讓解碼器學(xué)習(xí)在時(shí)間上保持一致,用圖像訓(xùn)練對(duì)于單楨圖像質(zhì)量至關(guān)重要,因?yàn)樗鼘W(xué)習(xí)的是從從圖像tokens中提取信息。要注意在圖像訓(xùn)練時(shí)沒(méi)有用時(shí)間層。

為了訓(xùn)練視頻擴(kuò)散解碼器執(zhí)行多個(gè)推理任務(wù),可以通過(guò)masking 掉某些frames 或者是 某些 image tokens。這里針對(duì)所有的任務(wù), 訓(xùn)練了單個(gè)視頻擴(kuò)散模型, 任務(wù)包括圖像生成、視頻生成、 自回歸解碼和視頻插值, 每個(gè)任務(wù)均等采樣。例如, 在自回歸生成任務(wù)中,用之前生成的過(guò)去幀作為輸入 用要預(yù)測(cè)的幀的圖像tokens作為target。自回歸的任務(wù)中包含正向和反向, 有關(guān)每個(gè)任務(wù)的示例,請(qǐng)參見(jiàn)下圖 4。

并且在訓(xùn)練的時(shí)候以概率 p = 0.15 隨機(jī)mask掉輸入的image token, 以擺脫對(duì)于觀測(cè)image token的依賴進(jìn)而提升泛化能力和時(shí)間一致性。

video decoder是根據(jù) noise prediction objective 進(jìn)行訓(xùn)練。更具體地說(shuō),采用v-parameterization的方法,因?yàn)樗苊饬瞬蛔匀坏?color shifts 并保持 長(zhǎng)期一致性。

loss 函數(shù)為

訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)集包含在倫敦收集的 4,700 小時(shí)、25Hz 的駕駛數(shù)據(jù),數(shù)據(jù)集中的時(shí)間跨度為2019 年至 2023 年。大約 4.2 億張圖像。不同經(jīng)緯度及不同天氣下的數(shù)據(jù)比例分布如下

圖片

訓(xùn)練過(guò)程

Image Tokenizer

參數(shù)量有0.3B, 輸入圖像的大小為 , 下采樣因子 , 因此每個(gè)圖像被encoded成為  個(gè)tokens, 詞匯量size為 。離散自動(dòng)編碼器使用 AdamW進(jìn)行優(yōu)化,模型用32個(gè)80G的A100訓(xùn)練 4 天,總計(jì)20w steps, batch-size 大小為160.

世界模型

世界模型參數(shù)量為6.5B , 在長(zhǎng)度為 T = 26、頻率為 6.25 Hz 的視頻序列上進(jìn)行訓(xùn)練,對(duì)應(yīng)4秒長(zhǎng)的視頻。文本被編碼為 m = 32 個(gè)文本tokens,并且 動(dòng)作為   tokens。因此,世界模型的總序列長(zhǎng)度為

訓(xùn)練樣本有三種:只用圖像, 用圖像及action, 用圖像及文本數(shù)據(jù). 該模型用64個(gè)80G的A100要訓(xùn)練15天, 總計(jì)10w steps, batch-size為128。這里使用了 FlashAttention v2 實(shí)現(xiàn) transformer模塊,因?yàn)樗趦?nèi)存利用率和 推理速度上面有很大提升。為了優(yōu)化分布式訓(xùn)練,使用了 Deepspeed ZeRO-2 訓(xùn)練策略。

Video Decoder

視頻解碼器的參數(shù)量有2.6B,  在 長(zhǎng)度T ′ = 7 , 分辨率為  的圖像序列上進(jìn)行訓(xùn)練, 但是采樣頻率有三種:  6.25 Hz、12.5 Hz 或 25 Hz 。各個(gè)訓(xùn)練任務(wù)(上面的圖4)以等概率進(jìn)行采樣。該模型用32個(gè)80G的A100訓(xùn)練了 15, 總計(jì)30w steps , batch-size大小為 64。訓(xùn)練策略也是 Deepspeed ZeRO-2。

模型推理

World Model

采樣

世界模型基于之前的圖像token, 文本token和 動(dòng)作 token 自回歸預(yù)測(cè)下一個(gè)圖像token。因?yàn)橐粋€(gè)圖像中有  個(gè)token, 所以要預(yù)測(cè)一個(gè)新的image frame, 需要n個(gè)forward, 在每一步中,必須從預(yù)測(cè)的 logits 中采樣一個(gè) token 以選擇下一個(gè) 預(yù)測(cè)的token。選token的方法有多種, 這里觀察到如果用argmax的話會(huì)生成陷入重復(fù)循環(huán)的 future,類似于語(yǔ)言模型 [44]。但是,如果簡(jiǎn)單地從 logits 中采樣,則所選token可能來(lái)自不可靠的尾部概率分布(即分?jǐn)?shù)低的那些),這會(huì)使模型脫離分布。如下圖6所示

為了多樣性和真實(shí)性,這里采用的是 top-k 采樣來(lái)采樣下一個(gè)圖像token。最終得到的世界模型可以在給定起始背景下,也可以不需要任何上文從頭推理出可能的未來(lái)。

對(duì)于長(zhǎng)視頻生成,如果視頻的長(zhǎng)度 超過(guò)世界模型的上下文長(zhǎng)度,可以采用滑動(dòng)窗口的方式。

Text-conditioning

可以用文本來(lái)提示并指導(dǎo)視頻預(yù)測(cè)。訓(xùn)練時(shí),可以將在線的旁白描述或者是離線的文本和視頻一起輸入。由于這些文本源有noise,為了提高生成的futures與文本prompt之間的對(duì)齊效果,在推理時(shí)采用classifier-free guidance的方式.Classifier-free guidance 的效果是通過(guò)減少可能的多樣性來(lái)增強(qiáng)文本圖像對(duì)齊效果 。更準(zhǔn)確地說(shuō),對(duì)于每個(gè)要預(yù)測(cè)的下一個(gè)token,

同時(shí)計(jì)算有文本作為prompt時(shí)的logits, 和無(wú)文本作為prompt時(shí)的logits, 然后用系數(shù) 來(lái)控制兩個(gè)logits占的比例, 如下公式

通過(guò)將無(wú)提示的 logits 替換為以另一個(gè)文本提示得到的 logits,可以 進(jìn)行Negative提示。并且把negative prompt 與 positive prompt 推遠(yuǎn), 可以使得future tokens 更多地包括 positive prompt features.

用于 guidance 的scale 系數(shù)非常重要, 如下圖, 文本prompt是 "場(chǎng)景中包含一量紅色的公交車",

可以看到, SCALE=1的時(shí)候, 就沒(méi)有紅色的公并車, SCALE=20的時(shí)候,恰好有一輛, SCALE=20的時(shí)候, 不止有一輛紅色公交車, 而且還有一輛白色公交車.

Video Decoder

為了解碼從世界模型生成的token序列,具體的方法如下:

  1. 以對(duì)應(yīng)的 T' image tokens,解碼前 T ′ = 7 幀;如下圖所示

  1. 使用過(guò)去的 2 個(gè)重疊幀作為圖像context, 以及接下來(lái)的T ′ -2 圖像tokens自回歸解碼接下來(lái)的 T ′ -2 幀。如下圖所示

  1. 重復(fù)自回歸過(guò)程,直到以 6.25 Hz 生成 N 幀。
  2. 將 N 幀從 6.25 Hz 做Temporally上采樣得到 12.5 Hz
  3. 將 2N- 1 幀從 12.5 Hz Temporally上采樣到 25.0 Hz

在自回歸decoding過(guò)程中, 需要同時(shí)考慮生成的圖片質(zhì)量以及時(shí)間一致性, 因此這里做了一個(gè)加權(quán),

其中等式右邊第一項(xiàng)將每個(gè)幀分別作為圖像進(jìn)行去噪, 等式右邊第二項(xiàng)將幀序列聯(lián)合降噪為視頻。在實(shí)際應(yīng)用中,只需打開(kāi)或者關(guān)閉時(shí)間層。這里對(duì)每個(gè)diffusion step 用的概率用這個(gè)加權(quán)平均, 并且采取的.

在探索視頻解碼的不同推理方法時(shí),發(fā)現(xiàn)解碼視頻 從序列末尾開(kāi)始自回歸地向后會(huì)導(dǎo)致更穩(wěn)定的物體, 并且地面上的閃爍也更少。因此在整個(gè)視頻解碼方法中,先解碼最后的 T ′ 幀, 之后從后往前解碼剩余的楨。

Scaling

GAIA-1 中世界建模任務(wù)的方法經(jīng)常在大型語(yǔ)言模型(LLM)中使用, 類似于GPT。在這兩種情況下,任務(wù)都被簡(jiǎn)化為預(yù)測(cè)下一個(gè)token。盡管GAIA-1中的世界模型建模的任務(wù)和LLM中的任務(wù)不同, 但是與LLM中類似, Scaling laws同樣對(duì)于GAIA-1適用.這說(shuō)明Scaling laws對(duì)于很多領(lǐng)域都是適用的, 包括自動(dòng)駕駛。

為了探索 GAIA-1 的Scaling Laws,我們使用以下方法預(yù)測(cè)了世界模型的最終性能 使用小于 20 倍計(jì)算量訓(xùn)練的模型。對(duì)比的標(biāo)準(zhǔn)是看cross-entropy, 并且采用下面的函數(shù)來(lái)擬合  數(shù)據(jù)點(diǎn)。在圖8a中,可以看到GAIA-1的最終交叉熵預(yù)測(cè)精度很高。

如圖 8b 所示, 可以看出, 隨著模型變大, 訓(xùn)練時(shí)候的cross-entropy 會(huì)收斂地越來(lái)越低,上面說(shuō)明可以通過(guò)擴(kuò)展數(shù)據(jù)和計(jì)算資源來(lái)進(jìn)一步提升模型的性能。

Capabilities and Emerging Properties (能力和新興特性)

這一節(jié)主要是效果展示的例子。這里有個(gè)youtube的連接: https://www.youtube.com/playlist?list=PL5ksjZd5b6SI-6MQi6ghoD-GilTPmsQIf

下面圖9顯示了GAIA-1可以生成各種場(chǎng)景。

下面是GAIA-1通過(guò)一些新興特性展示了對(duì)世界的生成規(guī)則的一定程度的理解和總結(jié):

  1. 學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài):它生成與連貫的場(chǎng)景 并且物體放置在合理的位置上, 并展示真實(shí)的物體之間的交互,例如交通 燈光、道路規(guī)則、讓路等。這表明該模型不僅僅是記憶 統(tǒng)計(jì)模式,而是理解了我們生活的世界中關(guān)于物體的底層規(guī)則, 比如物體是如何擺放, 有何行為。
  2. 泛化性和創(chuàng)造性:可以生成不在訓(xùn)練集里的新穎多樣的視頻 。它可以產(chǎn)生物體、動(dòng)作的獨(dú)特組合, 以及訓(xùn)練數(shù)據(jù)中未明確出現(xiàn)的場(chǎng)景,這表現(xiàn)出它有顯著的泛化能力,并且表現(xiàn)出了一定程度的概括性和創(chuàng)造性, 這表明GAIA-1對(duì)視頻序列的生成規(guī)則有較好的理解.
  3. 情境感知:GAIA-1 可以捕獲情境信息并生成視頻 來(lái)體現(xiàn)這種理解。例如,它可以基于初始條件或提供的上下文 產(chǎn)生連貫的動(dòng)作和響應(yīng)。此外,GAIA-1 還展示了對(duì) 3D 幾何的理解,有效捕獲到由于道路不平整(例如減速帶)引起的側(cè)傾。這種情境意識(shí)表明這些模型不僅能常握訓(xùn)練集中數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,而且還積極地處理和總結(jié)給定的信息以生成適當(dāng)?shù)囊曨l序列。

長(zhǎng)時(shí)間駕駛場(chǎng)景的生成

GAIA-1 可以完全憑想象生成穩(wěn)定的長(zhǎng)視頻, 如下圖所示表現(xiàn)了40s的生成數(shù)據(jù):

這主要是該模型利用其學(xué)習(xí)到的世界隱式先驗(yàn)分布來(lái)生成完全 想象的真實(shí)駕駛場(chǎng)景。這里應(yīng)該采用了類似于MILE里的先驗(yàn)分布做法。生成的駕駛場(chǎng)景中具有復(fù)雜的道路布局、建筑物、汽車、行人等。這證明 GAIA-1 理解了支撐我們所居住的世界的規(guī)則及其結(jié)構(gòu)和動(dòng)力學(xué)。

多個(gè)合理未來(lái)的生成

GAIA-1 能夠根據(jù)單個(gè)初始提示生成各種不同的未來(lái)場(chǎng)景。當(dāng)以簡(jiǎn)短的視頻作為輸入時(shí), 它可以通過(guò)不斷地sampling產(chǎn)生大量合理且多樣化的內(nèi)容。GAIA-1 針對(duì)視頻提示能夠準(zhǔn)確模擬多種潛在的未來(lái)場(chǎng)景,同時(shí)與在初始視頻中觀察到的條件保持一致。

如下圖所示, 世界模型可以推理 (i) 道路使用者(例如讓路或不讓路)

圖片

上面兩個(gè)分別對(duì)應(yīng)著, 他車不讓路, 和他車讓路的情況。(ii)多種自車行為(例如直行或右轉(zhuǎn))

圖片

(iii) 多種動(dòng)態(tài)場(chǎng)景(例如可變的交通密度和類型)

圖片

自車行為和駕駛場(chǎng)景的細(xì)粒度控制

GAIA-1可以僅根據(jù)文字提示生成視頻,完全想象場(chǎng)景。我們展示了如何根據(jù)文本提示模型生成駕駛場(chǎng)景, 如下所示展示的是對(duì)天氣和光照的細(xì)粒度控制.

圖片圖片

下面是個(gè)令人信服的示例,其中模型展示了對(duì)車輛的細(xì)粒度控制。通過(guò)利用此控制,我們可以提示模型生成視頻描述訓(xùn)練數(shù)據(jù)范圍之外的場(chǎng)景。這表明 GAIA-1 能夠?qū)⒆攒嚨膭?dòng)態(tài)與周圍環(huán)境分開(kāi)并有效地應(yīng)用于 不熟悉的場(chǎng)景。這表明它能夠來(lái)推理我們的行為對(duì)世界的影響,它可以更豐富地理解動(dòng)態(tài)場(chǎng)景,解鎖 基于模型的Policy learning(在world model中做planning),它可以實(shí)現(xiàn)閉環(huán)仿真探索(通過(guò)將世界模型視為模擬器)。為了展示這一點(diǎn),這里展示了 GAIA-1 生成 未來(lái),自車向左或向右轉(zhuǎn)向,偏離車道等場(chǎng)景, 如下圖所示:

圖片

GAIA-1 在訓(xùn)練數(shù)據(jù)集中從未見(jiàn)過(guò)這些不正確的行為,這表明 它可以推斷出之前在訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的駕駛概念。我們也看到了現(xiàn)實(shí) 其他智能體對(duì)自車受控行為的反應(yīng)。最后,這個(gè)例子展示了 GAIA-1 利用文本和動(dòng)作來(lái)充分想象 駕駛場(chǎng)景。在這種特殊情況下,我們提示模型自車要超車公交車。

圖片

GAIA_1的總結(jié)和未來(lái)方向

GAIA-1 是自動(dòng)駕駛領(lǐng)域的生成式世界模型。世界模型使用矢量量化 將未來(lái)預(yù)測(cè)任務(wù)轉(zhuǎn)變?yōu)橄乱粋€(gè)token的預(yù)測(cè)任務(wù),該技術(shù) 已成功應(yīng)用于大型語(yǔ)言模型。GAIA-1 已展示其具有 全面了解環(huán)境,區(qū)分各種概念 例如汽車、卡車、公共汽車、行人、騎自行車的人、道路布局、建筑物和交通燈的能力, 這些全是通過(guò)自監(jiān)督的方式學(xué)到的。此外,GAIA-1 利用視頻擴(kuò)散模型的功能 生成真實(shí)的駕駛場(chǎng)景,從而可以作為先進(jìn)的模擬器使用。GAIA-1 是 一種多模態(tài)的方法,通過(guò)文本和動(dòng)作指令相結(jié)合可以控制自車的動(dòng)作和其他場(chǎng)景屬性。雖然該方法展示了有潛力的結(jié)果,有可能突破自動(dòng)駕駛的界限,但是重要的是也要承認(rèn)當(dāng)前的局限性。例如,自回歸的生成過(guò)程雖然非常有效,但尚未實(shí)時(shí)運(yùn)行。盡管如此,這個(gè)過(guò)程非常適合并行化,允許并發(fā)生成多個(gè)樣本。GAIA-1 的重要性超出了其生成能力。世界模型代表了向 實(shí)現(xiàn)能夠理解、預(yù)測(cè)和適應(yīng)復(fù)雜環(huán)境的自動(dòng)駕駛系統(tǒng)邁出的關(guān)鍵一步。此外,通過(guò)將世界模型融入駕駛模型中, 我們可以讓他們更好地理解自車的決策,并最終推廣到更多 現(xiàn)實(shí)世界的情況。最后,GAIA-1 還可以作為一個(gè)有價(jià)值的模擬器,允許 生成無(wú)限數(shù)據(jù),包括corner-case和反例,用于訓(xùn)練和驗(yàn)證自動(dòng)駕駛系統(tǒng)。

文章鏈接:  https://browse.arxiv.org/pdf/2309.17080.pdf

官方博客1: https://wayve.ai/thinking/introducing-gaia1/

官方博客2: https://wayve.ai/thinking/scaling-gaia-1/

原文鏈接:https://mp.weixin.qq.com/s/dPfqukDLUvhrfZ0a0b6X6A

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-03-22 13:36:51

英偉達(dá)微服務(wù)

2015-08-05 11:13:29

Windows 10小娜Cortana

2015-08-24 10:16:53

Google雷擊技術(shù)架構(gòu) 分布式UPS

2012-08-27 10:56:41

2018-11-27 16:11:01

阿里云Redis數(shù)據(jù)庫(kù)

2024-02-22 14:06:39

C++指針開(kāi)發(fā)

2012-07-13 09:52:31

Mac OS X

2025-06-27 09:24:38

MCP服務(wù)器系統(tǒng)

2024-07-29 14:22:13

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2023-10-09 09:35:34

自動(dòng)駕駛模型

2025-01-09 14:34:50

2018-05-02 17:18:25

魅族

2016-09-21 12:56:31

JavascriptWeb前端

2012-03-13 10:05:54

Google算法

2024-02-22 10:17:39

AI模型

2013-01-31 14:34:48

SolidWorks用戶需求功能

2024-05-23 16:56:58

2010-03-19 09:34:42

Cisco 2600模

2025-10-31 01:33:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

色婷婷综合久久| 国产成人免费视频网站 | 国产黄色特级片| 国产精品ⅴa有声小说| 国产在线视频精品一区| 91精品国产91久久久久福利| 国产成人免费观看网站| 亚洲国产欧美在线观看| 一本一道久久a久久精品| 潘金莲一级淫片aaaaa免费看| 欧美天堂在线视频| 老牛影视一区二区三区| 久久99久久亚洲国产| 自拍偷拍中文字幕| 亚洲欧洲国产精品一区| 91极品美女在线| 无码粉嫩虎白一线天在线观看| 国产在线视频网址| 国产91丝袜在线18| 国产原创欧美精品| 日本久久综合网| 狠狠色综合网| 色老头一区二区三区在线观看| 捆绑凌虐一区二区三区| 国产精品亚洲综合在线观看| 在线欧美一区二区| 欧美日韩在线中文| 91高清视频在线观看| 中文字幕佐山爱一区二区免费| 美女主播视频一区| 日本美女一级片| 国产盗摄女厕一区二区三区| 国产一区二区在线播放| 亚洲中文字幕无码爆乳av| 亚洲人www| 欧美成人免费视频| 国产性生活大片| 日韩精品电影| 伊人久久综合97精品| 国产jk精品白丝av在线观看| 免费看成人人体视频| 日韩三级av在线播放| 特级西西444www| 亚洲精品一区二区在线播放∴| 色婷婷综合激情| 99久久激情视频| 中国色在线日|韩| 午夜精品久久久久影视| 国产原创中文在线观看| av免费在线视| 黄色成人在线免费| 欧美 日韩 激情| 乡村艳史在线观看| 日韩欧美在线中文字幕| 久久久久人妻精品一区三寸| 欧亚av在线| 欧美日韩在线视频首页| 男人和女人啪啪网站| heyzo在线| 欧美日韩精品在线| caopor在线视频| av成人亚洲| 欧美人狂配大交3d怪物一区 | 国产一区高清在线| 亚洲综合一区二区不卡| 亚洲福利在线观看视频| 成人国产精品免费| 久久国产主播精品| 免费理论片在线观看播放老| 中文字幕精品一区二区精品绿巨人| 午夜一区二区三区| www.在线视频| 亚洲国产成人av网| 黄色一级二级三级| 欧美一区二区三区婷婷| 日韩三级在线免费观看| 久久久久久久久免费看无码 | 国模私拍一区二区| 久久99国产精品麻豆| 99在线免费观看视频| 深夜福利视频网站| 国产亚洲精品免费| 亚洲黄色网址在线观看| 理论片午夜视频在线观看| 色哟哟一区二区三区| 九色porny自拍| 国产精品男女| 色综合影院在线| 国产精品18p| 免费久久99精品国产| 99热在线国产| 久香视频在线观看| 亚洲男人天堂av网| 亚洲爆乳无码专区| 国产精品日本一区二区三区在线| 亚洲成人动漫在线播放| 538精品视频| 狠狠入ady亚洲精品| 国产精品久久不能| 色噜噜一区二区三区| 国产欧美一区二区三区沐欲| 无码人妻精品一区二区蜜桃百度| 欧美性xxx| 精品免费99久久| www.4hu95.com四虎| 亚洲东热激情| 国产免费一区二区三区在线观看 | 成人性生交大片免费看96| 亚洲天堂av网| 免费看日韩毛片| 国产乱码精品一区二区三区忘忧草 | 久久久久久久久国产一区| 8090成年在线看片午夜| 国产精品怡红院| 国产欧美一区二区精品秋霞影院 | 日韩高清在线不卡| 国产视频一区二区三区四区| 免费网站看v片在线a| 欧美午夜精品在线| 极品白嫩的小少妇| 亚洲欧美网站在线观看| 国产精品美女www| 深夜福利视频在线观看| 亚洲国产cao| 在线播放国产视频| 亚洲精品成人影院| 成人精品久久av网站| 97超碰人人在线| 色老综合老女人久久久| 一本加勒比北条麻妃| 亚洲精品综合| 好看的日韩精品| 日本大胆在线观看| 日韩欧美国产1| 91狠狠综合久久久| 麻豆免费看一区二区三区| 色之综合天天综合色天天棕色| 九色porny丨首页入口在线| 精品国产麻豆免费人成网站| 麻豆chinese极品少妇| 国产精品资源在线观看| 欧美h视频在线观看| 久久爱.com| 日韩视频在线免费观看| 亚洲视频在线免费播放| 中文字幕不卡在线| 午夜国产福利在线观看| 91免费精品| 成人性生交xxxxx网站| 黄色动漫在线观看| 日韩视频在线你懂得| 欧美成人黄色网| 成人午夜伦理影院| 欧美不卡在线播放| 天堂av一区二区三区在线播放| 97视频在线观看播放| 91精品国产综合久久精品app| 欧美色视频一区二区三区在线观看| 久久草av在线| 亚洲国产一二三精品无码 | 欧美精品一区男女天堂| 亚洲精品www久久久久久| 99久久99久久综合| 免费av网址在线| 清纯唯美综合亚洲| 亚洲综合在线中文字幕| 丁香花在线电影| 亚洲免费视频网站| 中文字幕 国产| 亚洲乱码国产乱码精品精的特点| 日本一级大毛片a一| 亚洲欧美高清| 亚洲成人在线视频网站| 久久在线观看| 97在线看免费观看视频在线观看| 日本免费一区二区三区最新| 欧美三级视频在线| 国产精品.www| 欧美国产日韩一二三区| 一区二区三区国产好的精华液| 欧美高清日韩| 欧美综合77777色婷婷| 亚洲日本免费电影| 91国产视频在线播放| 自拍视频在线网| 精品国产乱码久久久久久免费| 日韩在线视频不卡| 亚洲免费在线播放| 欧洲女同同性吃奶| 国产一区二区三区精品欧美日韩一区二区三区| 欧美一二三不卡| 久久99国产精一区二区三区| 国产精品99久久久久| 日韩av电影免费观看高清| av男人的天堂在线| 精品福利在线导航| 最近中文字幕在线观看| 亚洲国产一区二区a毛片| 免费视频91蜜桃| 成人免费视频一区二区| 中文字幕永久视频| 亚洲二区精品| 日韩video| 精品国产一区二区三区久久久蜜臀 | 欧美91看片特黄aaaa| 久热精品视频在线观看一区| 男人天堂网在线| 日韩女优av电影在线观看| 波多野结衣电影在线播放| 亚洲综合视频在线| 国产精品视频一区二区在线观看| 91在线精品一区二区| 久久精品无码一区二区三区毛片| 日韩一区精品视频| 亚洲人精品午夜射精日韩| 欧美3p在线观看| 日本成人看片网址| 中文字幕一区二区三区四区久久| 国产精品无av码在线观看| 欧美7777| 欧亚精品中文字幕| 国产精品蜜芽在线观看| 欧美成人免费在线视频| 拍真实国产伦偷精品| 亚洲视频在线看| 久久久久久久久亚洲精品| 亚洲国产成人av在线| 亚洲黄色一级大片| 日韩手机在线导航| 国产xxxx孕妇| 日韩欧美黄色影院| 国产欧美久久久精品免费| 欧美日韩国产一级片| 中文人妻熟女乱又乱精品| 在线观看中文字幕不卡| 高清乱码免费看污| 欧美日韩在线视频观看| 婷婷激情五月网| 精品久久久视频| 特级西西444www大精品视频免费看| 婷婷一区二区三区| 黄网在线观看视频| 五月天国产精品| 99视频在线看| 丰满岳妇乱一区二区三区| 日本一区二区欧美| 亚洲va天堂va国产va久| 日韩成人免费观看| 色综合天天综合色综合av| 国产99免费视频| 欧美日韩一级黄| 国产情侣在线播放| 日韩欧美国产综合| 神马久久久久久久久久| 亚洲精品国精品久久99热一| 日本私人网站在线观看| 一本色道久久88综合日韩精品| 成人高潮成人免费观看| 日韩一区视频在线| 亚洲色图美国十次| 午夜美女久久久久爽久久| 电影一区二区三区| 国产精品麻豆va在线播放| 精品国产麻豆| 国产日本一区二区三区| 亚洲伊人春色| 亚洲欧美成人一区| 国产精品www.| 91视频最新入口| 久久se精品一区精品二区| 中文字幕第三区| 99久久精品免费看| 亚洲国产日韩一区无码精品久久久| 国产精品女同一区二区三区| 91视频综合网| 欧美午夜电影在线| 在线视频你懂得| 亚洲国产精品va在线看黑人| 国产h视频在线观看| 欧美精品亚州精品| 性孕妇free特大另类| 国产主播在线一区| 神马香蕉久久| 亚洲一区二区三区色| 好吊日精品视频| xxxx一级片| 成人免费av在线| 亚洲天堂av中文字幕| 亚洲ww精品| 久久久久久亚洲精品不卡| 你懂得影院夜精品a| av一区观看| 日韩精品一区二区三区免费观看| 欧美日韩午夜爽爽| 日韩中文字幕不卡| 少妇极品熟妇人妻无码| 中文在线免费一区三区高中清不卡| 亚洲国产精品免费在线观看| 色综合天天综合狠狠| 精品人妻少妇AV无码专区| 国产午夜精品免费一区二区三区| 日韩专区av| 成人h猎奇视频网站| 亚洲va久久| 欧美大黑帍在线播放| 麻豆国产欧美一区二区三区| av2014天堂网| 亚洲欧美色综合| 中文在线字幕免费观| 精品亚洲一区二区| 久久国产精品黑丝| 91啪国产在线| 波多野结衣在线观看一区二区| 国产日韩欧美精品在线观看| 国产精品伊人色| 日韩av网站在线播放| 色欧美日韩亚洲| 日韩在线视频免费| 久久6免费高清热精品| 日韩三级一区| 色就是色欧美| 香蕉亚洲视频| 久久久久成人精品无码中文字幕| 一区二区三区精品在线| 国产精品九九九九| 中文字幕日韩欧美| 日韩欧美一区二区三区免费观看| 精品一区国产| 最新日韩av| 亚洲一级Av无码毛片久久精品| 亚洲天堂2014| 国产乱淫a∨片免费视频| 精品国产区一区二区三区在线观看| 欧美精选视频一区二区| 欧美一区二区视频17c| 国产欧美在线| 在线免费观看a级片| 午夜精品视频在线观看| 午夜视频www| 98精品在线视频| 日韩伦理一区二区三区| 欧美色图色综合| 91影院在线免费观看| 天天操夜夜操视频| 国产视频精品在线| 成人天堂yy6080亚洲高清| 欧美一区二区在线| 青青草伊人久久| 黄色精品视频在线观看| 日韩欧美中文字幕一区| 91九色在线看| 久久精品国产美女| 六月天综合网| 公肉吊粗大爽色翁浪妇视频| 欧美私模裸体表演在线观看| 欧美96在线| 99影视tv| 中日韩男男gay无套| 中文人妻一区二区三区| 91久久久免费一区二区| 粉嫩av在线播放| 91麻豆国产精品| 欧美日本久久| 亚洲精品女人久久久| 91九色最新地址| 黄色av电影在线播放| 成人激情直播| 亚洲欧美久久久| 亚洲色图日韩精品| 日韩一区二区三区电影在线观看| 日本色护士高潮视频在线观看| 激情视频在线观看一区二区三区| 裸体一区二区| 国产又黄又粗又猛又爽的| 日韩三级高清在线| 欧美18—19sex性hd| 熟女视频一区二区三区| 成人av动漫在线| 无码人妻一区二区三区免费| 久久久精品一区二区| 久久资源综合| 91插插插插插插插插| 亚洲国产成人va在线观看天堂| 毛片在线能看| 99re视频在线播放| 久久精品五月| 青青草原免费观看| 亚洲区中文字幕| 国产 日韩 欧美| 欧美牲交a欧美牲交aⅴ免费下载| 国产精品久久久久婷婷二区次| 欧美 日韩 国产 在线| 日韩av三级在线观看| 欧美永久精品| 国产精品无码久久久久一区二区| 91精品国产日韩91久久久久久| 日本免费一区二区三区四区| 福利视频免费在线观看| 国产精品天天摸av网| 日韩性xxxx|