谷歌深夜放出「創(chuàng)世引擎」Genie 3!一句話秒生宇宙,終極模擬器覺醒
全球最強(qiáng)「世界AI模擬器」今夜誕生!
剛剛,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模擬出史無前例的豐富交互環(huán)境。

一句話,Genie 3即可生成一個(gè)動(dòng)態(tài)世界。
令人驚艷的是,它能以每秒20-24幀速度,實(shí)時(shí)生成720p畫面,還能持續(xù)數(shù)分鐘一致性。

相比于前代,Genie 3在生成時(shí)長(zhǎng)方面也得到了史詩級(jí)的加強(qiáng)——一口氣能搞定長(zhǎng)達(dá)數(shù)分鐘,且內(nèi)容連貫的可交互世界。
英偉達(dá)Jim Fan高度評(píng)價(jià),「這就是游戲引擎2.0時(shí)代」!
總有一天,UE5所有復(fù)雜功能,都能被一個(gè)數(shù)據(jù)驅(qū)動(dòng)的「注意力權(quán)重」吸納。
未來,只需要將手柄指令作為輸入,即可渲染一段時(shí)空中的像素畫面。

如今,Genie 3的問世,標(biāo)志著世界模擬AI邁向了全新高度,加速了人類通向AGI/ASI的終極目標(biāo)。

AI實(shí)時(shí)交互模擬,真·矩陣世界
一直以來,「世界模型」被業(yè)界看作是通往AGI道路上的關(guān)鍵基石。
因?yàn)椋茏孉I智能體在無限豐富的模擬環(huán)境中接受訓(xùn)練。

十多年來,谷歌DeepMind一直在模擬環(huán)境領(lǐng)域引領(lǐng)前沿研究,從訓(xùn)練AI智能體玩轉(zhuǎn)即時(shí)戰(zhàn)略游戲,到為開放式學(xué)習(xí)和機(jī)器人技術(shù)開發(fā)模擬環(huán)境。
正是在這些研究的推動(dòng)下,他們開發(fā)出了「世界模型」。
它能夠利用其對(duì)世界的理解,來模擬世界的方方面面,從而讓AI智能體可以預(yù)測(cè)環(huán)境如何演變,以及自身行為帶來的影響。
去年,谷歌DeepMind首次放出世界模型——Genie 1和Genie 2,它們能為AI智能體生成全新的環(huán)境。
此外,Veo 2、Veo 3模型相繼迭代,也在不斷突破視頻生成的技術(shù)前沿,能夠深刻理解物理世界的規(guī)律。
每一款模型,都標(biāo)志著世界模擬在不同能力維度上的進(jìn)步。

而Genie 3,是谷歌DeepMind首個(gè)支持「實(shí)時(shí)交互」的世界模型。
相較于Genie 2,一致性和真實(shí)感均有提升。

谷歌DeepMind研究員Ali Eslami驚嘆道,Genie 3絕對(duì)是自ChatGPT以來最令人印象深刻的演示。
2016年,他曾研究「神經(jīng)表示與渲染」隱約看到通往這一目標(biāo)路徑,但沒想到這一天來得這么快。


Hassabis同樣感慨道,上世紀(jì)90年代,當(dāng)自己設(shè)計(jì)模擬游戲時(shí),曾夢(mèng)想有一天實(shí)現(xiàn)這一技術(shù)。如今,愿望終于達(dá)成。

接下來,具體看看Genie 3具備哪些強(qiáng)大能力?
· 模擬物理世界
理解物理世界,是任何一個(gè)世界模型必備能力。
Genie 3不僅可以生成水流、光照等自然現(xiàn)象,還能與復(fù)雜環(huán)境進(jìn)行交互。





· 模擬自然世界
Genie 3還可以生成充滿生命力的自然系統(tǒng),不論是錯(cuò)綜復(fù)雜的森林、花草等植物,還是各種生物,都能讓人仿佛置身于真實(shí)生態(tài)之中。




· 創(chuàng)建動(dòng)畫奇幻世界
不僅如此,Genie 3的想象力也沒有邊界。
它能創(chuàng)造出奇幻場(chǎng)景,以及富有表現(xiàn)力的動(dòng)畫角色,比如彩虹橋上的卡通狐貍、森林中的螢火蟲等等。




· 探索地點(diǎn)與歷史場(chǎng)景
更令人想不到的是,Genie 3還能玩穿越。
不論是重現(xiàn)古代文明的輝煌,還是探索不同的地方,它都能帶你跨越時(shí)空,體驗(yàn)景點(diǎn)的獨(dú)特魅力。




不得不說,Genie 3的實(shí)時(shí)交互能力,令人嘆為觀止。
那么,谷歌DeepMind是如何具體實(shí)現(xiàn)的呢?
一分鐘視覺記憶,Genie 3涌現(xiàn)了
要實(shí)現(xiàn)Genie 3的實(shí)時(shí)交互與長(zhǎng)時(shí)程一致性,技術(shù)團(tuán)隊(duì)攻克了諸多難題。
在自回歸地生成每一幀畫面的過程中,模型必須考慮到隨時(shí)間推移而不斷延長(zhǎng)的先前軌跡。
舉個(gè)栗子,當(dāng)玩家在一分鐘后重訪某個(gè)地點(diǎn)時(shí),模型必須調(diào)取一分鐘前的相關(guān)信息。
為了實(shí)現(xiàn)實(shí)時(shí)交互,這種計(jì)算必須在新用戶輸入抵達(dá)時(shí)每秒執(zhí)行多次,以做出即時(shí)響應(yīng)。

此外,要讓AI生成的世界富有沉浸感,就必須在很長(zhǎng)的時(shí)間跨度內(nèi)保持物理上的一致性。
然而,自回歸地生成一個(gè)環(huán)境,通常比一次性生成整個(gè)視頻的技術(shù)難度更大,因?yàn)槲⑿≌`差會(huì)隨時(shí)間累積。
盡管面臨這一挑戰(zhàn),Genie 3生成的環(huán)境仍能在數(shù)分鐘內(nèi)基本保持一致,其視覺記憶最遠(yuǎn)可追溯到一分鐘前。





如下圖可見,建筑左側(cè)的樹木在交互過程中始終如一,即使時(shí)隱時(shí)現(xiàn)也保持穩(wěn)定。


Genie 3的一致性是一種涌現(xiàn)能力。
NeRFs和高斯濺射(Gaussian Splatting)雖然也能實(shí)現(xiàn)一致的可導(dǎo)航3D環(huán)境,但它們依賴于提供顯式的3D表征。
相比之下,Genie 3 生成的世界則遠(yuǎn)為動(dòng)態(tài)和豐富,因?yàn)樗鼈兪悄P透鶕?jù)世界描述和用戶行為逐幀創(chuàng)造出來的。
一句話,一個(gè)世界
除了導(dǎo)航輸入,Genie 3還支持一種更具表現(xiàn)力的文本交互形式,團(tuán)隊(duì)稱之為「由提示詞驅(qū)動(dòng)的世界事件」。
直白講,一句話生成世界。
不論是改變天氣,還是引入新物體或角色,這種能力大幅提升了沉浸感。
與此同時(shí),它也拓展了反事實(shí)(即what if)場(chǎng)景的廣度,可供 AI 智能體在經(jīng)驗(yàn)學(xué)習(xí)中用于處理各種意外情況。
比如,在北美大草原上,你可以讓Genie 3即時(shí)生成一輛綠色拖拉機(jī)、一位騎馬的人;在滑雪場(chǎng)景中,生成一個(gè)衣服上印有「Genie 3」的人,或是一個(gè)香蕉滑翔傘;在倫敦街景中,還可以空降Dragon。



智能體「試煉場(chǎng)」
為了驗(yàn)證Genie 3所創(chuàng)世界,對(duì)未來AI智能體訓(xùn)練的兼容性,團(tuán)隊(duì)為新版SIMA智能體生成了多個(gè)世界。
在每個(gè)世界中,都指示該智能體去達(dá)成一系列特定目標(biāo)。
它會(huì)通過向Genie 3發(fā)送導(dǎo)航指令,來嘗試完成任務(wù)。假設(shè)讓它走向和面機(jī)和面包架,Genie 3都能指示智能體去完成目標(biāo)。




與所有其他環(huán)境一樣,Genie 3并不知道智能體的目標(biāo),它只是根據(jù)智能體的行為來模擬世界的未來走向。
由于Genie 3能夠保持一致性的能力,現(xiàn)在可以執(zhí)行更長(zhǎng)的動(dòng)作序列,以實(shí)現(xiàn)更復(fù)雜的目標(biāo)。



局限性
盡管Genie 3拓展了世界模型的能力邊界,但也存在一定的局限性,具體包含以下5點(diǎn):
- 有限的動(dòng)作空間
雖然由「提示詞驅(qū)動(dòng)的世界事件」允許廣泛的環(huán)境干預(yù),但這些干預(yù)不一定由AI智能體自身執(zhí)行。AI智能體目前能直接執(zhí)行的動(dòng)作范圍仍然有限。
- 與其他智能體的交互和模擬
在共享環(huán)境中精確模擬多個(gè)獨(dú)立智能體之間的復(fù)雜互動(dòng),仍是研究領(lǐng)域的一大挑戰(zhàn)。
- 真實(shí)世界位置的準(zhǔn)確表征
Genie 3 目前還無法以完美的地理精度模擬真實(shí)世界的地點(diǎn)。
- 文本渲染
通常只有在輸入的世界描述中提供了文本信息時(shí),模型才能生成清晰易讀的文字。
- 有限的交互時(shí)長(zhǎng)
模型目前可支持?jǐn)?shù)分鐘的連續(xù)交互,而非長(zhǎng)達(dá)數(shù)小時(shí)的持續(xù)互動(dòng)。
世界模型,分水嶺已至
盡管如此,Genie 3是世界模型發(fā)展的一個(gè)重要里程碑。
它能為教育和培訓(xùn)創(chuàng)造新機(jī)遇,幫助學(xué)生學(xué)習(xí)、助力專家積累經(jīng)驗(yàn)。
它不僅能為機(jī)器人和自主系統(tǒng)等 AI 智能體提供廣闊的訓(xùn)練空間,還能用于評(píng)估智能體的性能并探究其弱點(diǎn)。
在邁向AGI征途中,Genie 3描繪了一個(gè)由AI加持,充滿交互與創(chuàng)意的世界,一個(gè)世界模型全新的未來。

再次狙擊Genie 3之后,OpenAI團(tuán)隊(duì)Steven Heidel獻(xiàn)上彩虹屁,「真是一個(gè)見證AGI時(shí)刻」。

神仙打架的好戲,正式開演。




























