打擊李飛飛空間智能，DeepMind 造出“無限世界”Genie 2：AGI 訓練場

作者：AI寒武紀 2024-12-05 09:53:18

DeepMind 認為 Genie 2 是解決 Embodied 智能體(具身智能體)訓練難題的關鍵，它提供了一個安全且無限豐富的訓練環境，有助于推動 Embodied AI 和 AGI 的發展。

DeepMind 今天發布了 Genie 2，一個超強的基礎世界模型，可以生成各種 3D 環境，用來訓練和評估具身AI 智能體。Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升級版，在 3D 世界生成方面取得了顯著的進步。 只需一張提示圖片，就能生成一個可互動的 3D 世界，不管是人還是 AI，都能用鍵盤鼠標在里面玩耍！像是一個無限可能的“終極沙盒”！

相比李飛飛世界實驗室發布的圖片生成3D可交互的物理世界的世界模型，個人感覺谷歌的Genie 2要強很多，李飛飛世界模型文章李飛飛「世界實驗室」重磅推出 AI“造物主”：一張圖片生成 3D 世界“任意門”

DeepMind 認為 Genie 2 是解決 Embodied 智能體(具身智能體)訓練難題的關鍵，它提供了一個安全且無限豐富的訓練環境，有助于推動 Embodied AI 和 AGI 的發展

游戲，AI 進步的“催化劑”：

DeepMind 從創立之初就非常重視游戲在 AI 研究中的作用，從早期的 Atari 游戲到 AlphaGo、AlphaStar，再到現在的通用智能體，游戲一直是 DeepMind 研究的核心。但是，訓練更通用的 Embodied 智能體，一直受限于訓練環境的豐富性和多樣性。現在，Genie 2 的出現，就是要解決這個問題！

Genie 2 有哪些神奇之處？

Genie 2 是一個世界模型，可以模擬虛擬世界，包括各種動作（例如跳躍、游泳等）的后果。它基于大規模視頻數據集訓練，并展現出各種涌現能力，例如物體交互、復雜角色動畫、物理效果等。這些能力并非通過顯式編程實現，而是在大規模訓練中自發涌現的。 Genie 2 還擁有其他“超能力”：

1.物體的承受能力和相互作用： Genie 2可以模擬各種對象交互，例如氣球爆裂、門打開和發射炸藥桶

2.NPCs NPC： Genie 2 對其他智能體甚至與它們的復雜交互進行建模

3.智能響應玩家操作： 它能識別角色并正確移動，還能根據玩家采取的不同動作，生成不同的“反事實體驗”，這意味著可以從同一初始幀生成不同的軌跡，這對于訓練智能體非常有價值

4.超強記憶力： 即使場景不在視野中，它也能記住，并在再次出現時準確渲染

5.持續生成新內容： 它可以不斷生成新的內容，并保持世界的一致性，最長可達一分鐘

6.多樣化的環境： 第一人稱視角、等距視角、第三人稱駕駛視角，想怎么玩就怎么玩

7.各種物理效果： 水、煙、重力、光照、反射，應有盡有

8.真實世界圖像作為提示： Genie 2 的生成能力不僅僅局限于文字描述（text prompts），還可以通過輸入真實的圖片作為“提示”來生成對應的虛擬環境。這種功能擴展了模型的適配能力，讓它可以直接從現實世界的圖像中獲取靈感，創造出動態、逼真的虛擬世界，例如模擬風中吹動的草或河流中流動的水

快速原型設計利器

Genie 2 還能快速創建各種交互式體驗原型，方便研究人員快速實驗新的環境，訓練和測試 embodied AI 智能體。藝術家和設計師也可以用它快速創建原型，加速環境設計過程

AI 智能體在 Genie 2 中盡情玩耍

研究人員可以用 Genie 2 創建各種環境，讓 AI 智能體在其中執行任務，評估它們的學習能力。DeepMind 展示了一個名為 SIMA 的智能體，它是 DeepMind 與游戲開發者合作開發的， 它可以在 Genie 2 生成的陌生環境中聽從指令完成任務，這也有助于評估 Genie 2 生成環境的一致性

SIMA 代理旨在通過遵循自然語言指令來完成一系列 3D 游戲世界中的任務。在這里，我們使用 Genie 2 生成一個有兩扇門（一扇藍色門和一扇紅色門）的 3D 環境，并向 SIMA 代理提供打開每扇門的指令。在此示例中，SIMA 通過鍵盤和鼠標輸入控制虛擬人物，而 Genie 2 生成游戲幀

技術

Genie 2 是一個自回歸的潛在擴散模型，基于大規模視頻數據集訓練。它采用類似大型語言模型的因果掩碼，可以逐幀地自回歸采樣。 DeepMind 還開發了一個蒸餾版本的 Genie 2，可以在實時運行，但輸出質量會有所降低

責任編輯：張燕妮來源： AI寒武紀

智能體 AI