Meta再推WorldGen,簡單一句話,竟「蓋」出50×50米一座城
谷歌、OpenAI 那邊一個接一個上新,整個 AI 圈都卷得飛起。
與此同時,Meta 也沒閑著,先是 SAM 3、接著 SAM 3D,現在干脆直接把生成式 AI 的玩法往前踹了一大步:不光是畫張圖、生成一段視頻,而是一句話就能生成一個能走進去的 3D 世界。
不是簡簡單單的場景截圖,而是真?可漫游、可互動、能四處亂逛的那種。

你只需輸入一句簡單的提示詞,比如「卡通風格的中世紀村莊」或「火星上的科幻基地站」,幾分鐘內就能生成一個可交互的 3D 世界。這個世界在風格和主題上是完全一致的,你的火星基地里不會出現中世紀現代建筑,你的中世紀村莊里也不會突然冒出維多利亞風格的家具。

中世紀村莊

賽博朋克貧民窟
同時,生成的 3D 世界還是結構合理的:不同區域之間會以可通行的方式連接,讓角色可以在世界中自由漫步,而不會走著走著被卡住。


中世紀城鎮廣場,有石板路、木屋、鐘樓和中央教堂。
這就是 Meta 最新公布的一項突破性研究 WorldGen:只需一段文本提示就能生成真正可導航、可交互、可以走進去探索的完整 3D 世界。
幾年前,這聽上去可能像是科幻小說,但隨著生成式 AI 技術的快速發展,人們已經可以根據一句文本或一張圖片生成令人驚嘆的短片。
WorldGen 是一個先進的端到端系統,基于程序化推理、擴散模型 3D 生成技術,以及面向對象的場景分解組合而成。生成的結果是幾何結構一致、視覺效果豐富、同時渲染高效的 3D 世界,可用于游戲、仿真和沉浸式社交環境。


一座沙漠小鎮,擁有砂巖建筑、遮蔭的市場遮陽篷和狹窄的小路。
方法介紹
現階段,我們已經看到生成式 AI 在根據文本或圖像提示生成高質量 3D 資產方面取得了巨大進展。WorldGen 將多項已有的 2D 與 3D 生成技術進行融合并創新:它首先生成 3D 場景的圖像,然后再進行圖像到 3D 的重建,主要包含以下階段:
- 規劃:程序化 blockout 生成、導航網格提取、參考圖像生成;
- 重建:圖像到 3D 的基礎模型、基于導航網格的場景生成、初始場景紋理生成;
- 分解:使用加速版 AutoPartGen 進行場景部件提取、場景分解數據整理;
- 精修:圖像增強、網格 - 精修模型、紋理生成模型。
其他已有的方法雖然也能從圖像或文本提示生成可交互的三維世界,但它們通常從單一指定的視角出發向外擴展,而不是基于全局參考圖像或完整布局進行生成。
這樣的方式意味著:在中心視角附近,幾何結構和紋理質量尚可,但一旦你向外移動 3 到 5 米,質量就會迅速下降。
相比之下,WorldGen 能夠生成覆蓋 50 x 50 米的完整紋理化場景,并在整個區域中保持風格與幾何的一致性。
未來,Meta 還計劃支持更大規模的世界生成。

古代寺廟群,以紅塔式建筑為特色,有層疊的屋頂、石階和庭院。
Meta 表示,這項工作目前仍處于研究階段,尚未對開發者開放,但 WorldGen 生成的內容已經可以直接兼容 Unity、Unreal 等主流游戲引擎,無需額外的轉換流程或渲染流程。
不過,Meta 也強調,盡管 WorldGen 在生成多樣化、可交互、可導航的世界方面取得了重要進展,但當前模型仍存在一些改進的地方。例如,未來版本將支持更大空間規模,并降低生成延遲。
在傳統工作流中,三維內容的制作往往既復雜又耗時,對許多人來說甚至難以踏入。WorldGen 的出現讓情況開始發生變化,它展示了跨行業節省時間和成本的巨大潛力,并讓普通人也有機會參與到 3D 世界構建中來,推動內容創作真正走向大眾化。這也呼應了 Meta 在 Connect 大會上描繪的愿景:未來,每個人都能在無需編寫任何代碼的情況下,從一個簡單的文字提示開始,創造出屬于自己的完整虛擬世界。

一個以萬圣節為主題的村莊,有歪斜的黑色屋頂房屋、發光的窗戶、南瓜和扭曲的樹。
與此同時,Meta 還放出了相關論文,感興趣的讀者可以閱讀論文,了解更多內容:

- 論文標題:WorldGen: From Text to Traversable and Interactive 3D Worlds
- 論文地址:https://scontent-sea1-1.xx.fbcdn.net/v/t39.2365-6/586830145_834419405978070_3937417229378696315_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=d65b48&_nc_ohc=KjIRxfgDxfAQ7kNvwEUbcRV&_nc_oc=AdkyeBfeCoX5Y2sIxaeN_wzTJOo3BvhPhYFDsCuN2XdGW60PPHW5-cPauGTZ7kjcmN6LymJ7ZXAcfyjoy5mlGra1&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=3tX278lz5_LpF7k9qDsxvQ&oh=00_Afjv87PRMbBTzjkRBOHUekl_YD8a0iIEvaJu8RrnvKr7vg&oe=6926DA80
與其他新興技術的對比:WorldGen 的優勢
前段時間,斯坦福大學教授李飛飛的創業公司 World Labs 推出了 Marble ,該系統使用的是 Gaussian Splatting 技術,能實現高度寫實的視覺效果。雖然畫面非常逼真,但這類基于 splat 的場景存在一個明顯短板:一旦攝像機從中心視角稍微移動,僅僅 3 到 5 米,圖像質量就會迅速下降。
相比之下,Meta 選擇以網格(mesh)為基礎輸出幾何結構,使 WorldGen 成為一個真正面向功能開發的工具,而不僅是用于渲染視覺內容。這種結構原生支持物理模擬、碰撞檢測和導航,對于任何交互式軟件而言,這些功能都是不可或缺的。也因此,WorldGen 能生成面積達到 50×50 米的完整場景,并且在整個區域內保持幾何的一致性與完整性。
對技術或創意領域的從業者來說,WorldGen 的出現意味著 3D 工作流程將迎來新的可能性。
與此同時,技術美術和關卡設計師的工作方式也將發生轉變,從手動擺放每一個頂點,轉向使用提示詞驅動 AI 并對其輸出進行篩選與編輯。
當然,盡管 WorldGen 輸出的場景可以無縫接入現有游戲引擎(如 Unity 和 Unreal),但生成過程本身對算力的需求依然很高。因此,開發者也需評估本地渲染和云端渲染的能力,以決定最合適的部署方式。


























