24 幀·720p·無限交互！谷歌 Genie 3 開啟“造夢引擎 2.0”

2025-08-07 16:25:28

用戶僅需輸入文字提示，就能在Genie 3中生成如“火山噴發”“飛行島嶼”或“史前遺跡”等復雜場景。這些提示不僅能改變場景天氣、召喚新物體，還能制造各種“反事實情境”，測試AI智能體在突發情況下的反應。

昨天，Google Deepmind推出新一代AI系統Genie 3，能夠根據簡單文本生成實時互動的3D虛擬世界。這一模型不僅能構建世界，還能讓用戶以每秒24幀、720p分辨率的畫質在其中自由探索。

與傳統視頻生成不同，Genie 3采用自回歸方式逐幀生成畫面，每一幀都會參考多達一分鐘內的環境細節。

這種方法顯著提升了視覺連續性，生成的世界在交互過程中能夠在數分鐘內保持物理和視覺一致性。

Deepmind表示，這是首個同時實現實時交互與物理連續性的AI世界模型，為發展通用人工智能（AGI）打下了基礎。

Genie 3是繼Genie 1、Genie 2，以及視頻生成器Veo系列之后的又一重要進展。

Deepmind希望將其發展為“基礎世界模型”（Foundation World Model），為更高級的智能體系統提供訓練平臺。

用戶僅需輸入文字提示，就能在Genie 3中生成如“火山噴發”“飛行島嶼”或“史前遺跡”等復雜場景。

這些提示不僅能改變場景天氣、召喚新物體，還能制造各種“反事實情境”，測試AI智能體在突發情況下的反應。

在一個演示中，鏡頭從多個角度移動，畫面左側的樹木在0:00、0:20和0:40秒的時間節點始終如一，清晰展現出環境的穩定性。

Genie 3的獨特之處在于，它無需任何預設3D模型或數據，只需文字描述即可構建出穩定世界。

這與NeRF或Gaussian Splatting等依賴已有數據的技術不同，意味著它可以構建更開放、動態的訓練環境。

Deepmind的SIM智能體（SIMA）已經在這些虛擬世界中進行測試，系統對智能體的目標一無所知，僅對其動作做出反應。

這種設置讓研究人員能夠更真實地模擬AI執行復雜任務的過程，并探索其潛在弱點。

Deepmind稱Genie 3目前處于有限研究預覽階段，僅向部分研究人員和創作者開放。

這一做法旨在提前識別風險，為后續發展提供參考。

盡管Genie 3還有一些技術限制，例如交互時長有限、多智能體互動尚不成熟、現實地理位置無法定位等，但它已展示出巨大的潛力。

未來，這一模型可用于教育、模擬訓練、專家決策支持等領域，尤其適合復雜情境下的預演和演練。

Deepmind CEO Demis Hassabis曾表示，世界模型是實現AGI的關鍵，因為它們能讓AI在無限多樣的模擬環境中自主學習。

這一理念也得到AI研究者Richard Sutton和David Silver的支持，他們認為AI的未來應從靜態數據轉向基于自身經驗的學習過程。

而Genie 3，正是這一理念的具象體現。

NVIDIA AI總監Jim Fan認為，Genie 3代表著“游戲引擎2.0”的雛形。

他預測，未來的游戲開發將不再依賴復雜的3D素材與場景圖，而由數據驅動的AI模型直接生成可交互空間。

開發者只需通過提示語進行操作，無需理解圖形學、著色器或場景管理等技術細節。

“這將是游戲開發的終局（The End Game），”Jim Fan寫道，“全部由提示工程驅動，一切由數據決定，復雜性交由AI處理。”

正如語言模型改變了寫作方式，Genie 3有望改變游戲的開發方式，乃至整個虛擬世界的創造范式。

Genie 3不僅是一個AI模型，它是Deepmind對未來世界的實驗室。

通過它，我們看見了一種可能：人類以語言建造世界，AI在世界中學習行為。

責任編輯：武曉燕來源：大數據文摘