工業級3D世界構建提速90倍！全新框架LatticeWorld讓虛擬世界「一句話成真」

2025-09-22 09:09:00

研究團隊提出了一個高效的多模態 3D 世界生成框架 LatticeWorld。該框架巧妙地將輕量級大語言模型（LLaMA-2-7B）與工業級渲染引擎（如 UE5）相結合，支持文本描述和視覺指令的多模態輸入，能夠生成具備高動態環境、真實物理仿真和實時渲染的大規模交互式 3D 世界，并高效支持多智能體交互。

本文的作者來自網易、香港城市大學、北京航空航天大學和清華大學等機構。本文的共同第一作者為網易互娛段穎琳、北京航空航天大學鄒征夏、網易互娛谷統偉。本文的通訊作者為香港城市大學邱爽、網易互娛陳康。

論文題目：LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
文章鏈接：https://arxiv.org/pdf/2509.05263

構建一個工業級高仿真 3D 虛擬世界，需要投入多少時間與人力？如果僅需一段描述、一張草圖，AI 便可快速自動生成 —— 你相信嗎？

這并非科幻！最新論文提出的 LatticeWorld 框架讓「指令直達場景」。該方法將大語言模型與工業級 3D 渲染引擎虛幻引擎 5（Unreal Engine 5，UE5）無縫融合，打通工業級程序化內容生成（PCG）管線，實現讓虛擬世界「一句話成真」。創作效率提升 90 倍，為 3D 世界構建帶來了革命性的突破。

在具身智能、自動駕駛、游戲開發和影視制作等領域，高質量的 3D 世界構建具有重大意義。

在具身智能和自動駕駛中，高質量的 3D 虛擬世界可作為仿真與算法訓練的關鍵基礎設施；在游戲與影視領域，高質量 3D 世界可支撐逼真與沉浸體驗。然而，傳統的 3D 場景制作主要依賴藝術家手工建模，不僅成本高昂、耗時巨大，還難以快速響應多樣化的創作需求。

隨著生成式 AI 的快速發展，自動化的 3D 世界生成逐漸成為可能，為行業提供了新的解決思路。然而，現有方法存在顯著局限：基于神經渲染的方法缺乏交互能力，限制了實際應用；基于擴散模型的視覺生成方案雖能創建內容，但依賴大量視頻訓練數據，在復雜物理仿真與多智能體交互場景中仍有待進一步發展。

對此，另一類研究嘗試將生成式模型與 3D 建模平臺相集成，其中以 Blender 平臺尤為常見。不過，Blender 在實時交互的支持和高保真的物理仿真方面原生能力依然有限，不能很好的滿足工業級 3D 世界建模的現實需求。

為解決上述難題，研究團隊提出了一個高效的多模態 3D 世界生成框架 LatticeWorld。該框架巧妙地將輕量級大語言模型（LLaMA-2-7B）與工業級渲染引擎（如 UE5）相結合，支持文本描述和視覺指令的多模態輸入，能夠生成具備高動態環境、真實物理仿真和實時渲染的大規模交互式 3D 世界，并高效支持多智能體交互。相比傳統手工化的工業流程，LatticeWorld 在保持高創作質量的同時，創作效率提升超過 90 倍，為 3D 世界構建帶來了革命性的突破。

LatticeWorld 框架介紹

LatticeWorld 框架的核心思想是采用大語言模型處理場景布局和環境配置的生成，并構建多模態輸入融合機制，可同時接收文本描述和視覺條件（如高度圖或對應的草圖）作為模型輸入生成結構化的中間結果 (包括場景布局和 JSON 格式的場景與智能體參數)，進一步通過定制的解碼和轉譯流程中間結果映射為渲染引擎可理解的輸入形式，最終由渲染引擎生成為可交互、可定制化的 3D 虛擬世界。

具體而言，本研究提出的 LatticeWorld 框架通過三個核心組件模塊實現從自然語言描述與草圖到完整 3D 場景的端到端生成：場景布局生成模塊、環境配置生成模塊、程序化渲染管線模塊。

1. 場景布局生成

LatticeWorld 將場景布局生成問題建模為

其中為布局生成大語言模型，代表布局描述文本輸入，表示視覺輸入信息，如本文中的地形高度圖等，為視覺到語言的映射，而為本論文中創新性提出的符號序列場景布局表示。其中，中還包含了特定的系統提示詞，描述符號化布局中不同符號的含義。此外，值得注意的是，借助已有方法，地形高度圖可通過簡單的手繪草圖直接生成，顯著降低視覺輸入的復雜度并提升框架的可用性。

符號序列場景布局表示：本文創新性地設計了一種場景布局中間表示方案。首先將復雜的空間場景布局轉換為(文中設為 32) 的符號矩陣：每個符號精確代表特定的資產類型，例如 F 表示森林區域，W 表示水體，B 表示建筑物，R 表示道路網絡等。隨后，這種符號化矩陣被序列化為大語言模型可直接處理的字符串格式：

其中代表符號矩陣的第 i 行第 j 列個元素，而 \n 代表換行符。這種方式有效保持了空間關系的完整性，同時又可使純文本基礎模型能夠理解和生成復雜的二維空間布局。

多模態視覺融合機制：針對具有高度變化的復雜地形場景，本文訓練了視覺指令集成模塊。該框架利用預訓練的 CLIP 視覺編碼器提取高維視覺特征表示，隨后通過專門設計的多層 CNN 投影網絡 Proj 將這些特征映射到的詞嵌入空間：

論文采用精心設計的三階段訓練范式：(1) CLIP 微調階段。專門針對地形理解任務對進行微調；(2) 持續預訓練階段。在保持和 CLIP 權重凍結的條件下進行 Proj 的訓練；(3) 端到端微調階段。構建相應的多模態數據集，每個樣本包含視覺信息（高度圖）、布局文本描述與符號化場景布局。在此基礎上，采用交叉熵損失，聯合優化 Proj 模塊和，其中使用輕量級大語言模型 LLaMA-2-7B。

2. 環境配置生成

基于已生成的場景布局，視覺輸入信息，以及環境配置的文本描述，該方法進一步構建了環境配置生成模型，并生成環境配置參數：

該模型能夠生成關于場景內容的兩方面配置：（1）場景屬性，（2）智能體參數，該兩方面配置則以 JSON 數據格式的來表達。針對的訓練，該方法構建相應數據集，每個數據樣本包含視覺信息（高度圖）、環境配置文本描述、場景布局以及對應的環境配置，并在此基礎上使用交叉熵損失函數對輕量級大語言模型 LLaMA-2-7B 進行微調，最終得到。

層次化場景屬性框架：該方法建立了雙層場景屬性的層次化結構來精確建模場景特征。其中，粗粒度屬性層控制全局環境特征，包括地形類型、季節變化、天氣狀況、時間設定和藝術風格等宏觀參數。細粒度屬性層則涵蓋多種細節參數，如資產的材質、密度、位置、朝向等。這些細粒度參數的具體表現又會受到粗粒度屬性的約束和影響，確保場景的語義一致性并有效減少復雜環境中的參數沖突。

智能體參數生成：該框架能夠生成動態智能體配置信息，包括智能體類別分類 (人形機器人、機器狗、動物等)、數量、行為狀態 (靜止、移動等) 和空間位置等。這些參數生成受到場景屬性約束和視覺條件限制，確保智能體的正確布置，例如水生動物僅出現在水體區域。

3. 程序化渲染管線

在生成得到符號化場景布局和環境配置后，該方法通過特定的渲染過程

來最終得到虛擬的 3D 世界。其中，Render 為特定的 3D 渲染引擎，本文采用工業級渲染引擎 UE5。和分別作為場景布局的解碼器和環境配置的轉譯系統，將符號化場景布局和 JSON 格式的環境配置轉換為 3D 渲染引擎的輸入。

場景布局解碼器：實現對生成的符號化場景布局進行精確處理：(1) 將符號化場景布局轉換為各場景類型的降采樣二值掩碼圖片；(2) 調整掩碼圖像以達到特定的場景大小并通過邊緣平滑技術形成不同類型場景內容的自然過渡區域；(3) 輸出渲染引擎直接可讀的對應多場景類型的多通道灰度圖像。

環境配置轉譯系統：負責將 JSON 格式的環境配置參數轉譯為特定渲染引擎的原生屬性格式，精確控制物體和智能體的類型、狀態、空間分布等詳細參數。通過編寫轉換腳本或借助以 Houdini 等軟件為基礎開發的專業插件來實現轉譯流程的自動化。

4. 數據集構建

論文中構建了兩個高質量的數據集來進行模型訓練：（1）LoveDA，包含 8,236 個精心標注的郊區場景實例，通過對開源數據集 LoveDA 進行處理和增強后得到。該數據集的場景設定為固定高度。（2）Wild，包含 24,380 個多樣化的荒野地形實例，通過采集衛星地圖數據進行處理并增強后得到。該數據集的場景設定為可變高度，因此包含高度圖和對應的草圖。

在以上兩個數據集中，首先分別構建每個衛星圖片樣本的場景布局和對應的符號化場景布局，同時生成相應的高度圖和草圖。隨后進行數據增強，包括對每個樣本中的圖片和對應的符號化場景布局進行多次旋轉等，以提升訓練所得模型的魯棒性。進一步，通過 GPT-4o 對布局圖片進行文字標注，結合精心設計提示詞工程，GPT?4o 能夠提供場景和資產的有效的空間關系與分布描述。對于高度圖，同樣利用 GPT?4o 生成關于地形起伏變化及其方向的描述。最終得到了對應的場景布局數據集用以訓練和。

進一步，構造環境配置數據集以訓練。本文對應的提出一種分層框架，構造 LoveDA 和 Wild 環境配置樣本。首先用 GPT?4o 為布局圖與高度圖生成文字描述。然后采用部分隨機采樣（針對某些場景無關的配置）與結構化提示詞工程相結合的方式生成 JSON 格式的環境配置（含場景屬性與智能體參數）。最后，采用基于特定規則的提示詞，將環境配置與場景布局以及高度圖的描述融合，指導 GPT?4o 生成完整的環境配置文本描述。

實驗對比

1. 基于多模態指令的場景布局生成

文中將 LatticeWorld 與 GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1 和 Qwen2-VL-Max 等模型進行對比，在固定高度條件（僅文本描述）和可變高度條件（草圖所對應轉化成的高度圖的視覺信號）下測試文本到布局的生成能力。結果顯示 LatticeWorld 在生成準確布局方面表現更優。