World Model立大功的背后還有哪些改進(jìn)方向？深度解析！

作者：汽車人 2023-10-19 09:59:23

最近wayve提出的生成式世界模型GAIA_1大放異彩，生成的自動(dòng)駕駛數(shù)據(jù)太逼真了！今天汽車人就和大家一起聊聊GAIA_1的背后還有哪些值得思考和改進(jìn)的方向！

筆者的個(gè)人思考

為什么不直接用DINO, 而是用2D-UNet先做了一次蒸餾, 直接用DINO會(huì)有什么問(wèn)題呢？
中間world model部分是transformer based的, 能否直接復(fù)用現(xiàn)有的LLM+adapter的方式;
這種方法理論上能否開(kāi)車, 文章里只有一個(gè)video decoder輸出video,文章中說(shuō)現(xiàn)在還沒(méi)有實(shí)時(shí)運(yùn)行, 但是如果不考慮實(shí)時(shí)性, 加一個(gè)action decoder來(lái)輸出自車動(dòng)作，理論上應(yīng)該能夠開(kāi)車，但這樣自回歸的輸出也應(yīng)該有action部分;
world model部分編碼的是2d的信息, 如果把3d的信息也加上是不是會(huì)更通用一些;
看文章發(fā)現(xiàn)是有好幾個(gè)訓(xùn)練步驟的, 比如先訓(xùn)練 Image Tokenizer, 再訓(xùn)練World Model, 最后再訓(xùn)練Video Decoder部分,整個(gè)過(guò)程不能夠端到端的一起訓(xùn)練么，應(yīng)該是可以的, 估計(jì)訓(xùn)起來(lái)比較費(fèi)勁，可能不收斂。
假設(shè)輸入不止有前視, 還有左前和右前, 如何做到不同相機(jī)視角下生成的視頻具有一致性。

出發(fā)點(diǎn)是什么

自動(dòng)駕駛有望給交通帶來(lái)革命性的改善，但是構(gòu)建能夠安全地應(yīng)對(duì)非結(jié)構(gòu)化復(fù)雜性的現(xiàn)實(shí)世界的場(chǎng)景的系統(tǒng) 仍然充滿挑戰(zhàn)。一個(gè)關(guān)鍵問(wèn)題在于有效地預(yù)測(cè)各種可能出現(xiàn)的潛在情況以及車輛隨著周圍世界的演化而采取的動(dòng)作。為了應(yīng)對(duì)這一挑戰(zhàn)，作者引入了 GAIA-1, 一個(gè)生成式的世界模型，它能夠同時(shí)輸入視頻、文本和動(dòng)作來(lái)生成真實(shí)的駕駛場(chǎng)景，并且同時(shí)能夠提供對(duì)自車行為和場(chǎng)景特征的細(xì)粒度控制。該方法將世界建模視為序列建模問(wèn)題，通過(guò)把輸入轉(zhuǎn)化為離散的tokens, 預(yù)測(cè)序列中的下一個(gè)token。該模型有很多新興特性, 包括學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài)、情境意識(shí)、概括和理解幾何信息。GAIA-1 學(xué)習(xí)到的表征的強(qiáng)大能力可以捕獲對(duì)未來(lái)事件的期望，再加上生成真實(shí)樣本的能力，為自動(dòng)駕駛領(lǐng)域的創(chuàng)新提供了新的可能性。

GAIA_1簡(jiǎn)介

預(yù)測(cè)未來(lái)事件對(duì)自動(dòng)駕駛系統(tǒng)來(lái)說(shuō)基本且重要。精準(zhǔn)地預(yù)測(cè)未來(lái)使自動(dòng)駕駛車輛能夠預(yù)測(cè)和規(guī)劃其動(dòng)作，從而增強(qiáng)安全性和效率。為了實(shí)現(xiàn)這一目標(biāo)，開(kāi)發(fā)一個(gè)強(qiáng)大的世界模型勢(shì)在必行。已經(jīng)有工作在這方面做了很大努力, 比如. 然而，當(dāng)前的方法有很大的局限性。世界模型已成功應(yīng)用于仿真環(huán)境下的控制任務(wù)和現(xiàn)實(shí)世界的機(jī)器人任務(wù)。這些方法一方面需要大規(guī)模的標(biāo)注數(shù)據(jù)，另一方面模型對(duì)仿真數(shù)據(jù)的研究無(wú)法完全捕捉現(xiàn)實(shí)場(chǎng)景的復(fù)雜性。此外，由于其低維表示，這些模型難以生成高度真實(shí)的未來(lái)事件的樣例，而這些能力對(duì)于真實(shí)世界中的自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō)非常重要。

與此同時(shí)，圖像生成和視頻生成領(lǐng)域也取得了重大進(jìn)步，主要是利用自監(jiān)督學(xué)習(xí)從大量現(xiàn)實(shí)世界數(shù)據(jù)中學(xué)習(xí)生成非常真實(shí)的數(shù)據(jù) 視頻樣本。然而，這一領(lǐng)域仍然存在一個(gè)重大挑戰(zhàn)：學(xué)習(xí)捕獲預(yù)期未來(lái)事件的表示。雖然這樣的生成模型擅長(zhǎng)生成視覺(jué)上令人信服的內(nèi)容，但在學(xué)習(xí)動(dòng)態(tài)世界的演化表示方面效果不太好,而這對(duì)于準(zhǔn)確的預(yù)測(cè)未來(lái)和穩(wěn)健的決策至關(guān)重要。

這項(xiàng)工作提出了 GAIA-1，它同時(shí)保持了世界模型和視頻生成的優(yōu)勢(shì). 它結(jié)合了視頻生成的可擴(kuò)展性和現(xiàn)實(shí)性以及世界模型的學(xué)習(xí)世界演變的能力。

GAIA-1 的工作原理如下。首先，模型分為兩部分：世界模型和video diffusion decoder。世界模型負(fù)責(zé)理解場(chǎng)景中的high-level的部分及場(chǎng)景的動(dòng)態(tài)演化信息, 而video diffusion decoder 則負(fù)責(zé) 將潛在表征轉(zhuǎn)化回具有真實(shí)細(xì)節(jié)的高質(zhì)量視頻。

整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如下

對(duì)于世界模型，使用視頻幀的矢量化表示來(lái)離散化每一幀，將它們轉(zhuǎn)換為token序列。基于此就把預(yù)測(cè)未來(lái)轉(zhuǎn)化為預(yù)測(cè)序列中的下一個(gè)token。這種方法已被廣泛應(yīng)用于訓(xùn)練LLM，并且得到了認(rèn)可, 這種方法主要是通過(guò)擴(kuò)展模型大小和數(shù)據(jù)來(lái)有效提高模型性能。它可以通過(guò)自回歸的方式在世界模型的latent space內(nèi)生成樣本。

第二個(gè)部分是一個(gè)多任務(wù)video diffusion decoder，它能夠執(zhí)行高分辨率視頻渲染以及時(shí)間上采樣, 根據(jù)world model自回歸產(chǎn)生的信息生成平滑的視頻。類似于LLM，video diffusion model表明訓(xùn)練規(guī)模(模型大小和數(shù)據(jù)量)和整體表現(xiàn)之間存在明顯的相關(guān)性，這使得 GAIA-1 的兩個(gè)組件都適合有效的Scaling。

GAIA-1 是一個(gè)多模態(tài)的模型，允許使用視頻、文本和動(dòng)作作為提示來(lái)生成多樣化且真實(shí)的駕駛場(chǎng)景，如下圖 1 所示：

通過(guò)在大量真實(shí)的城市駕駛數(shù)據(jù)上訓(xùn)練, GAIA-1 學(xué)習(xí)了理解和區(qū)分一些重要概念，例如靜態(tài)和動(dòng)態(tài)元素，包括汽車、公共汽車、行人、騎自行車的人、道路布局、建筑物，甚至交通燈。此外，它還可以通過(guò)輸入動(dòng)作或者文本提示來(lái)細(xì)粒度地控制自車行為及場(chǎng)景特征。

GAIA-1展示了體現(xiàn)現(xiàn)實(shí)世界生成規(guī)則的能力。還有諸如學(xué)習(xí)高級(jí)結(jié)構(gòu)、概括、創(chuàng)造力和情境意識(shí)等新興的特性。這些表明該模型能夠理解并再現(xiàn)世界的規(guī)則和行為。而且，GAIA-1 展示了對(duì) 3D 幾何的理解，例如，通過(guò)有效地捕捉由減速帶等道路不平整引起的俯仰和側(cè)傾間的相互作用。預(yù)測(cè)的視頻也展示了其他智能體的行為, 這表明模型有能力理解道路使用者的決策。令人驚訝的是，它還能夠產(chǎn)生訓(xùn)練集之外的數(shù)據(jù)的能力。例如，在道路邊界之外行駛。

GAIA-1 學(xué)習(xí)到的表征預(yù)測(cè)未來(lái)事件的能力，以及對(duì)自車行為和場(chǎng)景元素兩者的控制是一項(xiàng)令人興奮的進(jìn)步，一方面為進(jìn)一步提升智能化效果鋪平了道路, 另一方面也可以為加速訓(xùn)練和驗(yàn)證提供合成的數(shù)據(jù)。世界像GAIA-1 之類的世界模型是預(yù)測(cè)接下來(lái)可能發(fā)生的事情的能力的基礎(chǔ)，這對(duì)于自動(dòng)駕駛的決策至關(guān)重要。

GAIA_1的模型設(shè)計(jì)

GAIA-1 可訓(xùn)練組件的模型架構(gòu)。總體架構(gòu)如上面圖2所示。

編碼視頻、文本和動(dòng)作

GAIA-1 可以輸入三種不同的模式的內(nèi)容（視頻、文本、動(dòng)作），這些輸入信息被編碼到共享的 d 維空間，這個(gè)空間是world model的輸入空間，注意不是輸出空間, world model的輸出空間的維度和下面的的維度是一樣的。

Image tokens

視頻中的每楨圖像都可以表示為離散tokens。比如可以使用一個(gè)pre-trained image tokenizer,這個(gè)模型記為. 輸入 T楨圖像序列，通過(guò) 將其離散化為 n = 576 個(gè)離散tokens，即，其中每個(gè) ，這里的和圖像離散化的方式有關(guān)系, 對(duì)應(yīng)于 , H和W表示輸入圖像的高度和寬度，而D表示下采樣因子。然后通過(guò) 一個(gè) embedding layer 將映射到為維空間中。

Text tokens

在每個(gè)時(shí)間 t，文本輸入使用 pre-trained 的 T5-large 模型進(jìn)行編碼，得到每個(gè) 個(gè)文本tokens。再通過(guò)一個(gè)線性層同樣映射到維空間, 產(chǎn)生文本的表示。

action tokens

對(duì)于動(dòng)作, 這里考慮標(biāo)量值（表示速度和曲率), 這里的曲率指的應(yīng)該是方向盤的轉(zhuǎn)角, 即 steering的意思。和之前類似, 每個(gè)scalar也通過(guò)線性層分別映射到維空間，得到動(dòng)作表示,

對(duì)于時(shí)間t，輸入tokens按：文本 - 圖像 - 動(dòng)作的順序進(jìn)行交錯(cuò)排列。因此，世界模型的最終輸入是。對(duì)于位置編碼, 這里采用了, 個(gè)可學(xué)習(xí)的 temporal embedding, 以及個(gè) spatial embeddings, embeddings 的維度都是。

Image Tokenizer

即上面提到的。當(dāng)使用序列模型對(duì)離散輸入數(shù)據(jù)進(jìn)行建模時(shí)，需要權(quán)衡序列長(zhǎng)度和詞匯量。序列長(zhǎng)度是指離散tokens的數(shù)量, 詞匯量大小代表每個(gè)token有多少種可能性。對(duì)于語(yǔ)言有兩種明顯的選擇：字符和單詞。當(dāng)使用字符級(jí)標(biāo)記時(shí)，輸入數(shù)據(jù)具有較長(zhǎng)的序列長(zhǎng)度，并且單個(gè)token所含詞匯表較少，但傳達(dá)的含義很少。使用單詞級(jí)的 token時(shí)，輸入數(shù)據(jù)的序列長(zhǎng)度較短，每個(gè)token包含很多語(yǔ)義，但是詞匯量非常大。大多數(shù)語(yǔ)言模型使用字節(jié)對(duì)編碼（或等效）作為字符級(jí)和單詞級(jí)標(biāo)記化之間的權(quán)衡。

對(duì)于視頻，我們希望減少輸入的序列長(zhǎng)度，同時(shí)可能使詞匯量更大，但同時(shí)希望tokens 比原始像素在語(yǔ)義上更有意義。這里是用離散圖像自動(dòng)編碼器來(lái)做的。在此過(guò)程中實(shí)現(xiàn)兩個(gè)目標(biāo),

壓縮原始像素的信息，使序列建模問(wèn)題易于處理。因?yàn)閳D像包含大量冗余和噪聲信息。我們希望減少描述輸入數(shù)據(jù)所需的序列長(zhǎng)度。
引導(dǎo)壓縮后的信息具有有意義的表示, 比如語(yǔ)義信息, 而不是大量沒(méi)有用的信號(hào), 這些信號(hào)會(huì)降慢世界模型的學(xué)習(xí)過(guò)程。

目標(biāo)1的實(shí)現(xiàn)

下采樣因子用。每個(gè)大小為的圖像由描述, 詞匯量大小為。

目標(biāo)2的實(shí)現(xiàn)

本文用預(yù)訓(xùn)練的DINO 模型抽取的特征來(lái)作為回歸的target, 相當(dāng)于是用DINO作為蒸餾的teacher，DINO是一個(gè)自監(jiān)督的模型,它包含有豐富的語(yǔ)義信息, 如圖3所示 DINO-distilled 得到的tokens看起來(lái)語(yǔ)義信息比較豐富.

蒸餾的student即離散的 autoencoder部分用的是全卷積的2D U-Net. 編碼器通過(guò)在可學(xué)習(xí)嵌入表中查找最近鄰對(duì)圖像feature進(jìn)行量化，產(chǎn)生圖像tokens 。離散編碼器最終 GAIA-1 模型的一部分, 需要訓(xùn)練, 而Decoder是僅用來(lái)訓(xùn)練的。需要注意的是Decoder是基于單楨圖像進(jìn)行訓(xùn)練的, 因此它不具有時(shí)間一致性, 出于這個(gè)原因, 也會(huì)訓(xùn)練一個(gè)video decoder, 這部分在后面介紹.

Image autoencoder的訓(xùn)練loss如下：

圖像重建損失。圖像重建損失有兩部分, 分別是感知損失和 GAN 損失。
量化損失。為了更新嵌入向量，我們使用嵌入損失和文獻(xiàn)中的commitment loss, 并且對(duì) embedding 做了 linear projection 以及 l2 normalization, 實(shí)驗(yàn)表明這些有助于增加詞匯量的使用。
Inductive bias loss。autoencoder量化的圖像特征與DINO提取的圖像特征用cosine similarity loss 度量來(lái)監(jiān)督, 這種方法在特征監(jiān)督中常用.

世界模型

世界模型的輸入是序列，是transformer based自回歸網(wǎng)絡(luò)結(jié)構(gòu)。訓(xùn)練的目標(biāo)是基于過(guò)去的所有tokens(圖像, 文本, 動(dòng)作)預(yù)測(cè)接下來(lái)的 image token.

loss 函數(shù)為

為了在推理的時(shí)候, 能夠同時(shí)輸入文本或動(dòng)作作為提示, 在訓(xùn)練的時(shí)候會(huì)隨機(jī)把輸入的文本或者動(dòng)作tokens給dropout掉.

為了進(jìn)一步減少世界模型輸入的序列長(zhǎng)度，對(duì)輸入的視頻作了進(jìn)一步采樣, 從原來(lái)的25HZ變?yōu)?.25HZ。這能讓世界模型能夠在更長(zhǎng)的時(shí)間內(nèi)進(jìn)行推理。為了以全幀速率恢復(fù)視頻預(yù)測(cè)，在video decoder部分用了temporal super-resolution。

視頻解碼器

隨著圖像生成和視頻生成的最新進(jìn)展，在GAIA-1的decoder部分, 使用了 denoising video diffusion models。一個(gè)自然的想法是把每一楨的 frame tokens 解碼到像素空間, 但是這樣得到的不同楨對(duì)應(yīng)的pixel, 在時(shí)間上不具有一致性。這里的處理方法是, 把問(wèn)題建模為在擴(kuò)散過(guò)程中對(duì)一系列幀進(jìn)行去噪，模型可以訪問(wèn)到整個(gè)時(shí)間段內(nèi)的信息，這樣做明顯提高了輸出視頻的時(shí)間一致性。

這里用的是3D U-Net網(wǎng)絡(luò)結(jié)構(gòu), 它里面包括分解空間層和時(shí)間注意力層。這里要注意訓(xùn)練和推理時(shí)的輸入不一樣, 訓(xùn)練時(shí)的輸入是用 pre-trained image tokenizer 得到的image tokens; 推理的時(shí)候因?yàn)闆](méi)有觀測(cè), 輸入的是由 World Model 預(yù)測(cè)的 image tokens.

我們?cè)趫D像和視頻生成任務(wù)上聯(lián)合訓(xùn)練單個(gè)模型。用視頻訓(xùn)練會(huì)讓解碼器學(xué)習(xí)在時(shí)間上保持一致，用圖像訓(xùn)練對(duì)于單楨圖像質(zhì)量至關(guān)重要，因?yàn)樗鼘W(xué)習(xí)的是從從圖像tokens中提取信息。要注意在圖像訓(xùn)練時(shí)沒(méi)有用時(shí)間層。

為了訓(xùn)練視頻擴(kuò)散解碼器執(zhí)行多個(gè)推理任務(wù)，可以通過(guò)masking 掉某些frames 或者是某些 image tokens。這里針對(duì)所有的任務(wù), 訓(xùn)練了單個(gè)視頻擴(kuò)散模型, 任務(wù)包括圖像生成、視頻生成、自回歸解碼和視頻插值, 每個(gè)任務(wù)均等采樣。例如，在自回歸生成任務(wù)中，用之前生成的過(guò)去幀作為輸入用要預(yù)測(cè)的幀的圖像tokens作為target。自回歸的任務(wù)中包含正向和反向, 有關(guān)每個(gè)任務(wù)的示例，請(qǐng)參見(jiàn)下圖 4。

并且在訓(xùn)練的時(shí)候以概率 p = 0.15 隨機(jī)mask掉輸入的image token, 以擺脫對(duì)于觀測(cè)image token的依賴進(jìn)而提升泛化能力和時(shí)間一致性。

video decoder是根據(jù) noise prediction objective 進(jìn)行訓(xùn)練。更具體地說(shuō)，采用v-parameterization的方法，因?yàn)樗苊饬瞬蛔匀坏?color shifts 并保持長(zhǎng)期一致性。

loss 函數(shù)為

訓(xùn)練數(shù)據(jù)

訓(xùn)練數(shù)據(jù)集包含在倫敦收集的 4,700 小時(shí)、25Hz 的駕駛數(shù)據(jù)，數(shù)據(jù)集中的時(shí)間跨度為2019 年至 2023 年。大約 4.2 億張圖像。不同經(jīng)緯度及不同天氣下的數(shù)據(jù)比例分布如下

訓(xùn)練過(guò)程

Image Tokenizer

參數(shù)量有0.3B, 輸入圖像的大小為 , 下采樣因子 , 因此每個(gè)圖像被encoded成為個(gè)tokens, 詞匯量size為。離散自動(dòng)編碼器使用 AdamW進(jìn)行優(yōu)化，模型用32個(gè)80G的A100訓(xùn)練 4 天,總計(jì)20w steps, batch-size 大小為160.

世界模型

世界模型參數(shù)量為6.5B , 在長(zhǎng)度為 T = 26、頻率為 6.25 Hz 的視頻序列上進(jìn)行訓(xùn)練，對(duì)應(yīng)4秒長(zhǎng)的視頻。文本被編碼為 m = 32 個(gè)文本tokens，并且動(dòng)作為 tokens。因此，世界模型的總序列長(zhǎng)度為

訓(xùn)練樣本有三種:只用圖像, 用圖像及action, 用圖像及文本數(shù)據(jù). 該模型用64個(gè)80G的A100要訓(xùn)練15天, 總計(jì)10w steps, batch-size為128。這里使用了 FlashAttention v2 實(shí)現(xiàn) transformer模塊，因?yàn)樗趦?nèi)存利用率和推理速度上面有很大提升。為了優(yōu)化分布式訓(xùn)練，使用了 Deepspeed ZeRO-2 訓(xùn)練策略。

Video Decoder

視頻解碼器的參數(shù)量有2.6B, 在長(zhǎng)度T ′ = 7 , 分辨率為的圖像序列上進(jìn)行訓(xùn)練, 但是采樣頻率有三種: 6.25 Hz、12.5 Hz 或 25 Hz 。各個(gè)訓(xùn)練任務(wù)(上面的圖4)以等概率進(jìn)行采樣。該模型用32個(gè)80G的A100訓(xùn)練了 15, 總計(jì)30w steps , batch-size大小為 64。訓(xùn)練策略也是 Deepspeed ZeRO-2。

模型推理

World Model

采樣

世界模型基于之前的圖像token, 文本token和動(dòng)作 token 自回歸預(yù)測(cè)下一個(gè)圖像token。因?yàn)橐粋€(gè)圖像中有個(gè)token, 所以要預(yù)測(cè)一個(gè)新的image frame, 需要n個(gè)forward, 在每一步中，必須從預(yù)測(cè)的 logits 中采樣一個(gè) token 以選擇下一個(gè) 預(yù)測(cè)的token。選token的方法有多種, 這里觀察到如果用argmax的話會(huì)生成陷入重復(fù)循環(huán)的 future，類似于語(yǔ)言模型 [44]。但是，如果簡(jiǎn)單地從 logits 中采樣，則所選token可能來(lái)自不可靠的尾部概率分布(即分?jǐn)?shù)低的那些)，這會(huì)使模型脫離分布。如下圖6所示

為了多樣性和真實(shí)性，這里采用的是 top-k 采樣來(lái)采樣下一個(gè)圖像token。最終得到的世界模型可以在給定起始背景下，也可以不需要任何上文從頭推理出可能的未來(lái)。

對(duì)于長(zhǎng)視頻生成，如果視頻的長(zhǎng)度超過(guò)世界模型的上下文長(zhǎng)度，可以采用滑動(dòng)窗口的方式。

Text-conditioning

可以用文本來(lái)提示并指導(dǎo)視頻預(yù)測(cè)。訓(xùn)練時(shí)，可以將在線的旁白描述或者是離線的文本和視頻一起輸入。由于這些文本源有noise，為了提高生成的futures與文本prompt之間的對(duì)齊效果，在推理時(shí)采用classifier-free guidance的方式.Classifier-free guidance 的效果是通過(guò)減少可能的多樣性來(lái)增強(qiáng)文本圖像對(duì)齊效果。更準(zhǔn)確地說(shuō)，對(duì)于每個(gè)要預(yù)測(cè)的下一個(gè)token，

同時(shí)計(jì)算有文本作為prompt時(shí)的logits, 和無(wú)文本作為prompt時(shí)的logits, 然后用系數(shù) 來(lái)控制兩個(gè)logits占的比例, 如下公式

通過(guò)將無(wú)提示的 logits 替換為以另一個(gè)文本提示得到的 logits，可以進(jìn)行Negative提示。并且把negative prompt 與 positive prompt 推遠(yuǎn), 可以使得future tokens 更多地包括 positive prompt features.

用于 guidance 的scale 系數(shù)非常重要, 如下圖, 文本prompt是 "場(chǎng)景中包含一量紅色的公交車",

可以看到, SCALE=1的時(shí)候, 就沒(méi)有紅色的公并車, SCALE=20的時(shí)候，恰好有一輛, SCALE=20的時(shí)候, 不止有一輛紅色公交車, 而且還有一輛白色公交車.

Video Decoder

為了解碼從世界模型生成的token序列，具體的方法如下：

以對(duì)應(yīng)的 T' image tokens，解碼前 T ′ = 7 幀；如下圖所示

使用過(guò)去的 2 個(gè)重疊幀作為圖像context, 以及接下來(lái)的T ′ -2 圖像tokens自回歸解碼接下來(lái)的 T ′ -2 幀。如下圖所示

重復(fù)自回歸過(guò)程，直到以 6.25 Hz 生成 N 幀。
將 N 幀從 6.25 Hz 做Temporally上采樣得到 12.5 Hz
將 2N- 1 幀從 12.5 Hz Temporally上采樣到 25.0 Hz

在自回歸decoding過(guò)程中, 需要同時(shí)考慮生成的圖片質(zhì)量以及時(shí)間一致性, 因此這里做了一個(gè)加權(quán),

其中等式右邊第一項(xiàng)將每個(gè)幀分別作為圖像進(jìn)行去噪, 等式右邊第二項(xiàng)將幀序列聯(lián)合降噪為視頻。在實(shí)際應(yīng)用中，只需打開(kāi)或者關(guān)閉時(shí)間層。這里對(duì)每個(gè)diffusion step 用的概率用這個(gè)加權(quán)平均, 并且采取的.

在探索視頻解碼的不同推理方法時(shí)，發(fā)現(xiàn)解碼視頻從序列末尾開(kāi)始自回歸地向后會(huì)導(dǎo)致更穩(wěn)定的物體, 并且地面上的閃爍也更少。因此在整個(gè)視頻解碼方法中，先解碼最后的 T ′ 幀, 之后從后往前解碼剩余的楨。

Scaling

GAIA-1 中世界建模任務(wù)的方法經(jīng)常在大型語(yǔ)言模型（LLM）中使用, 類似于GPT。在這兩種情況下，任務(wù)都被簡(jiǎn)化為預(yù)測(cè)下一個(gè)token。盡管GAIA-1中的世界模型建模的任務(wù)和LLM中的任務(wù)不同, 但是與LLM中類似, Scaling laws同樣對(duì)于GAIA-1適用.這說(shuō)明Scaling laws對(duì)于很多領(lǐng)域都是適用的, 包括自動(dòng)駕駛。

為了探索 GAIA-1 的Scaling Laws，我們使用以下方法預(yù)測(cè)了世界模型的最終性能使用小于 20 倍計(jì)算量訓(xùn)練的模型。對(duì)比的標(biāo)準(zhǔn)是看cross-entropy, 并且采用下面的函數(shù)來(lái)擬合數(shù)據(jù)點(diǎn)。在圖8a中,可以看到GAIA-1的最終交叉熵預(yù)測(cè)精度很高。

如圖 8b 所示, 可以看出, 隨著模型變大, 訓(xùn)練時(shí)候的cross-entropy 會(huì)收斂地越來(lái)越低,上面說(shuō)明可以通過(guò)擴(kuò)展數(shù)據(jù)和計(jì)算資源來(lái)進(jìn)一步提升模型的性能。

Capabilities and Emerging Properties (能力和新興特性)

這一節(jié)主要是效果展示的例子。這里有個(gè)youtube的連接: https://www.youtube.com/playlist?list=PL5ksjZd5b6SI-6MQi6ghoD-GilTPmsQIf

下面圖9顯示了GAIA-1可以生成各種場(chǎng)景。

下面是GAIA-1通過(guò)一些新興特性展示了對(duì)世界的生成規(guī)則的一定程度的理解和總結(jié)：

學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài)：它生成與連貫的場(chǎng)景并且物體放置在合理的位置上, 并展示真實(shí)的物體之間的交互，例如交通燈光、道路規(guī)則、讓路等。這表明該模型不僅僅是記憶統(tǒng)計(jì)模式，而是理解了我們生活的世界中關(guān)于物體的底層規(guī)則, 比如物體是如何擺放, 有何行為。
泛化性和創(chuàng)造性：可以生成不在訓(xùn)練集里的新穎多樣的視頻。它可以產(chǎn)生物體、動(dòng)作的獨(dú)特組合，以及訓(xùn)練數(shù)據(jù)中未明確出現(xiàn)的場(chǎng)景，這表現(xiàn)出它有顯著的泛化能力，并且表現(xiàn)出了一定程度的概括性和創(chuàng)造性，這表明GAIA-1對(duì)視頻序列的生成規(guī)則有較好的理解.
情境感知：GAIA-1 可以捕獲情境信息并生成視頻來(lái)體現(xiàn)這種理解。例如，它可以基于初始條件或提供的上下文產(chǎn)生連貫的動(dòng)作和響應(yīng)。此外，GAIA-1 還展示了對(duì) 3D 幾何的理解，有效捕獲到由于道路不平整（例如減速帶）引起的側(cè)傾。這種情境意識(shí)表明這些模型不僅能常握訓(xùn)練集中數(shù)據(jù)的統(tǒng)計(jì)規(guī)律，而且還積極地處理和總結(jié)給定的信息以生成適當(dāng)?shù)囊曨l序列。

長(zhǎng)時(shí)間駕駛場(chǎng)景的生成

GAIA-1 可以完全憑想象生成穩(wěn)定的長(zhǎng)視頻, 如下圖所示表現(xiàn)了40s的生成數(shù)據(jù):

這主要是該模型利用其學(xué)習(xí)到的世界隱式先驗(yàn)分布來(lái)生成完全想象的真實(shí)駕駛場(chǎng)景。這里應(yīng)該采用了類似于MILE里的先驗(yàn)分布做法。生成的駕駛場(chǎng)景中具有復(fù)雜的道路布局、建筑物、汽車、行人等。這證明 GAIA-1 理解了支撐我們所居住的世界的規(guī)則及其結(jié)構(gòu)和動(dòng)力學(xué)。

多個(gè)合理未來(lái)的生成

GAIA-1 能夠根據(jù)單個(gè)初始提示生成各種不同的未來(lái)場(chǎng)景。當(dāng)以簡(jiǎn)短的視頻作為輸入時(shí), 它可以通過(guò)不斷地sampling產(chǎn)生大量合理且多樣化的內(nèi)容。GAIA-1 針對(duì)視頻提示能夠準(zhǔn)確模擬多種潛在的未來(lái)場(chǎng)景，同時(shí)與在初始視頻中觀察到的條件保持一致。

如下圖所示, 世界模型可以推理 (i) 道路使用者（例如讓路或不讓路）

上面兩個(gè)分別對(duì)應(yīng)著, 他車不讓路, 和他車讓路的情況。（ii）多種自車行為（例如直行或右轉(zhuǎn))

(iii) 多種動(dòng)態(tài)場(chǎng)景（例如可變的交通密度和類型）

自車行為和駕駛場(chǎng)景的細(xì)粒度控制

GAIA-1可以僅根據(jù)文字提示生成視頻，完全想象場(chǎng)景。我們展示了如何根據(jù)文本提示模型生成駕駛場(chǎng)景, 如下所示展示的是對(duì)天氣和光照的細(xì)粒度控制.

下面是個(gè)令人信服的示例，其中模型展示了對(duì)車輛的細(xì)粒度控制。通過(guò)利用此控制，我們可以提示模型生成視頻描述訓(xùn)練數(shù)據(jù)范圍之外的場(chǎng)景。這表明 GAIA-1 能夠?qū)⒆攒嚨膭?dòng)態(tài)與周圍環(huán)境分開(kāi)并有效地應(yīng)用于不熟悉的場(chǎng)景。這表明它能夠來(lái)推理我們的行為對(duì)世界的影響，它可以更豐富地理解動(dòng)態(tài)場(chǎng)景，解鎖基于模型的Policy learning（在world model中做planning），它可以實(shí)現(xiàn)閉環(huán)仿真探索（通過(guò)將世界模型視為模擬器）。為了展示這一點(diǎn)，這里展示了 GAIA-1 生成未來(lái)，自車向左或向右轉(zhuǎn)向，偏離車道等場(chǎng)景, 如下圖所示:

GAIA-1 在訓(xùn)練數(shù)據(jù)集中從未見(jiàn)過(guò)這些不正確的行為，這表明它可以推斷出之前在訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的駕駛概念。我們也看到了現(xiàn)實(shí) 其他智能體對(duì)自車受控行為的反應(yīng)。最后，這個(gè)例子展示了 GAIA-1 利用文本和動(dòng)作來(lái)充分想象駕駛場(chǎng)景。在這種特殊情況下，我們提示模型自車要超車公交車。

GAIA_1的總結(jié)和未來(lái)方向

GAIA-1 是自動(dòng)駕駛領(lǐng)域的生成式世界模型。世界模型使用矢量量化將未來(lái)預(yù)測(cè)任務(wù)轉(zhuǎn)變?yōu)橄乱粋€(gè)token的預(yù)測(cè)任務(wù)，該技術(shù) 已成功應(yīng)用于大型語(yǔ)言模型。GAIA-1 已展示其具有全面了解環(huán)境，區(qū)分各種概念例如汽車、卡車、公共汽車、行人、騎自行車的人、道路布局、建筑物和交通燈的能力, 這些全是通過(guò)自監(jiān)督的方式學(xué)到的。此外，GAIA-1 利用視頻擴(kuò)散模型的功能生成真實(shí)的駕駛場(chǎng)景，從而可以作為先進(jìn)的模擬器使用。GAIA-1 是一種多模態(tài)的方法，通過(guò)文本和動(dòng)作指令相結(jié)合可以控制自車的動(dòng)作和其他場(chǎng)景屬性。雖然該方法展示了有潛力的結(jié)果，有可能突破自動(dòng)駕駛的界限，但是重要的是也要承認(rèn)當(dāng)前的局限性。例如，自回歸的生成過(guò)程雖然非常有效，但尚未實(shí)時(shí)運(yùn)行。盡管如此，這個(gè)過(guò)程非常適合并行化，允許并發(fā)生成多個(gè)樣本。GAIA-1 的重要性超出了其生成能力。世界模型代表了向實(shí)現(xiàn)能夠理解、預(yù)測(cè)和適應(yīng)復(fù)雜環(huán)境的自動(dòng)駕駛系統(tǒng)邁出的關(guān)鍵一步。此外，通過(guò)將世界模型融入駕駛模型中，我們可以讓他們更好地理解自車的決策，并最終推廣到更多現(xiàn)實(shí)世界的情況。最后，GAIA-1 還可以作為一個(gè)有價(jià)值的模擬器，允許生成無(wú)限數(shù)據(jù)，包括corner-case和反例，用于訓(xùn)練和驗(yàn)證自動(dòng)駕駛系統(tǒng)。

文章鏈接: https://browse.arxiv.org/pdf/2309.17080.pdf

官方博客1: https://wayve.ai/thinking/introducing-gaia1/

官方博客2: https://wayve.ai/thinking/scaling-gaia-1/