24 幀·720p·無限交互!谷歌 Genie 3 開啟“造夢引擎 2.0”
昨天,Google Deepmind推出新一代AI系統Genie 3,能夠根據簡單文本生成實時互動的3D虛擬世界。這一模型不僅能構建世界,還能讓用戶以每秒24幀、720p分辨率的畫質在其中自由探索。

與傳統視頻生成不同,Genie 3采用自回歸方式逐幀生成畫面,每一幀都會參考多達一分鐘內的環境細節。
這種方法顯著提升了視覺連續性,生成的世界在交互過程中能夠在數分鐘內保持物理和視覺一致性。
Deepmind表示,這是首個同時實現實時交互與物理連續性的AI世界模型,為發展通用人工智能(AGI)打下了基礎。
Genie 3是繼Genie 1、Genie 2,以及視頻生成器Veo系列之后的又一重要進展。
Deepmind希望將其發展為“基礎世界模型”(Foundation World Model),為更高級的智能體系統提供訓練平臺。
1.AI世界的可塑性與開放性
用戶僅需輸入文字提示,就能在Genie 3中生成如“火山噴發”“飛行島嶼”或“史前遺跡”等復雜場景。
這些提示不僅能改變場景天氣、召喚新物體,還能制造各種“反事實情境”,測試AI智能體在突發情況下的反應。

在一個演示中,鏡頭從多個角度移動,畫面左側的樹木在0:00、0:20和0:40秒的時間節點始終如一,清晰展現出環境的穩定性。
Genie 3的獨特之處在于,它無需任何預設3D模型或數據,只需文字描述即可構建出穩定世界。
這與NeRF或Gaussian Splatting等依賴已有數據的技術不同,意味著它可以構建更開放、動態的訓練環境。
Deepmind的SIM智能體(SIMA)已經在這些虛擬世界中進行測試,系統對智能體的目標一無所知,僅對其動作做出反應。
這種設置讓研究人員能夠更真實地模擬AI執行復雜任務的過程,并探索其潛在弱點。
2.從AI研究到游戲引擎的未來
Deepmind稱Genie 3目前處于有限研究預覽階段,僅向部分研究人員和創作者開放。
這一做法旨在提前識別風險,為后續發展提供參考。
盡管Genie 3還有一些技術限制,例如交互時長有限、多智能體互動尚不成熟、現實地理位置無法定位等,但它已展示出巨大的潛力。
未來,這一模型可用于教育、模擬訓練、專家決策支持等領域,尤其適合復雜情境下的預演和演練。
Deepmind CEO Demis Hassabis曾表示,世界模型是實現AGI的關鍵,因為它們能讓AI在無限多樣的模擬環境中自主學習。
這一理念也得到AI研究者Richard Sutton和David Silver的支持,他們認為AI的未來應從靜態數據轉向基于自身經驗的學習過程。
而Genie 3,正是這一理念的具象體現。

NVIDIA AI總監Jim Fan認為,Genie 3代表著“游戲引擎2.0”的雛形。
他預測,未來的游戲開發將不再依賴復雜的3D素材與場景圖,而由數據驅動的AI模型直接生成可交互空間。
開發者只需通過提示語進行操作,無需理解圖形學、著色器或場景管理等技術細節。
“這將是游戲開發的終局(The End Game),”Jim Fan寫道,“全部由提示工程驅動,一切由數據決定,復雜性交由AI處理。”
正如語言模型改變了寫作方式,Genie 3有望改變游戲的開發方式,乃至整個虛擬世界的創造范式。
Genie 3不僅是一個AI模型,它是Deepmind對未來世界的實驗室。
通過它,我們看見了一種可能:人類以語言建造世界,AI在世界中學習行為。























