世界模型的架構總結原創

shizhi02

發布于 2025-8-19 09:35

瀏覽

0收藏

在開始前我們先來分析一下當下的AI技術發展路線：

1. 目前來看LLM/MLLM等類似GPT的decoder架構仍是主流，各家更新一代比一代快；

2. 由sora帶火的diffusion model類生成式模型還處于是否是“world simulator”的爭議中悄悄發育；

3. Deepmind、Meta、Nvidia等幾家在“孤獨地”推進世界模型，還沒有真正進入大眾視野應用。

上述的路線中哪一條可能是真正可以在未來通往AGI的路呢？

目前業內主要的觀點還是第三種。

Meta首席AI科學家_Yann LeCun_甚至預測“再過五年可能沒有人會再使用目前這種（通過在離散的詞元（token）空間中進行預測）的純LLM范式”；

近日Google的開發負責人和Deepmind CEO在談論Genie3的訪談中也提到了一個更大的視角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。

世界模型的架構總結-AI.x社區

Genie3的效果不知道大家看沒有，確實有些震撼：720p的清晰度、24FPS的實時生成速率，以及提示式世界事件（Promptable world Events），這意味著可以支持第一人稱視角導航和實時互動，完全在虛擬世界中生活了。

這背后“世界模型”是主要的技術支撐，那么本文就來總結世界模型的架構，下面是一個快捷目錄。

一、什么是世界模型？

二、世界模型跟傳統AI的區別

三、為什么世界模型難訓練？與LLM / MLLM的區別

四、世界模型的核心架構

五、目前各家世界模型的架構介紹

六、總結，世界模型到底是在訓練什么？

一、什么是世界模型？

1. 世界模型的概念

世界模型的概念源于認知科學和機器人學，它強調AI系統需要具備對物理世界的直觀理解，而不僅僅是處理離散的符號或數據。

世界模型主要分為理解世界和預測未來兩大視角——即構建內部表示以理解世界機制，預測未來狀態以模擬和指導決策。這個視角可以輔助大家去理解很多世界模型的架構。

世界模型的架構總結-AI.x社區

2. 權威定義解析

1）David Ha和Jürgen Schmidhuber：生成式神經網絡模型

他們在2018年開創性論文《Recurrent World Models Facilitate Policy Evolution》中將世界模型定義為一個生成式模型，該模型能夠理解和模擬環境，學習行為策略，并將學到的知識遷移到新的情境中。

他們的模型由兩個核心部分組成：一個變分自編碼器（VAE）和一個循環神經網絡RNN：

VAE負責理解世界，捕捉環境的關鍵特征，將高維的感官輸入（如圖像）壓縮成一個低維的潛在向量（latent vector）；
RNN負責預測未來，學習這些潛在向量在時間序列上的動態變化，即預測在給定當前狀態和動作的情況下，下一個狀態會是什么。

2）Yann LeCun：基于編碼器與預測器的系統

Yann LeCun定義的核心在于，世界模型不僅僅是一個生成模型，更是一個包含了感知、記憶、預測和規劃等多個模塊的完整認知架構。

模型由兩個核心部分組成：編碼器（Encoder）和預測器（Predictor）：

編碼器（Encoder）負責理解世界，將高維的觀測數據（如圖像）轉換成一個低維的、抽象的表示h(t)。這個表示捕捉了環境的關鍵信息，同時過濾掉了不相關的細節；
預測器（Predictor）負責預測未來，接收當前的表示、之前的世界狀態估計、一個預設的行動以及一個潛在變量，然后預測下一個世界的狀態。

二、世界模型跟傳統AI的區別

1. 世界模型的能力

世界模型的核心思想在于賦予人工智能系統一種類似人類的“想象力”和“規劃”能力。

具體來說，世界模型允許智能體在“心智”中模擬未來可能發生的情景，評估不同行動方案的潛在結果，并選擇最優的策略來實現其目標。這種在模擬環境中進行“思想實驗”的能力，極大地提高了學習效率和決策的魯棒性。

2. 跟傳統基于實際環境的強化學習的具體區別

這里有可能提起強化學習會引起一些argue，強化學習雖然也與環境的動態變化有關，但其學習方式通常是“試錯”。

智能體在環境中通過不斷嘗試不同的行動，并根據獲得的獎勵或懲罰來調整其策略。這種方式在簡單環境中可能有效，但在復雜、高維度的現實世界環境中，試錯學習的成本極高，甚至可能帶來災難性的后果。

世界模型則提供了一種更高效的學習方式。它通過觀察和學習環境的動態規律，在內部構建一個模擬器。智能體可以在這個模擬器中進行大量的“想象”和“規劃”，從而找到最優的行動序列，而無需在真實環境中進行大量的試錯。

下面舉個自動駕駛中具體的例子作為說明，

VLM / VLA 相當于背熟了一本《汽車駕駛全書》，知道“遇到濕滑路面需要提前剎車”這條規則，當從輸入語義或圖像的token中獲取到“濕滑路面”時會提前進行剎車制動；

而一個具備世界模型的自動駕駛系統，可以在遇到濕滑路面時，預判到如果車速過快可能會導致剎車距離延長，從而提前減速，避免危險；世界模型的決策需要源于AI內部對物理規律（如摩擦力、慣性）的模擬，而不是簡單地記憶“濕滑路面要減速”這條規則。

三、為什么世界模型難訓練？與LLM / MLLM的區別

上面說了很多，感覺世界模型真的很重要，那么為啥只有幾家大廠在“孤獨地”推進呢？

夕小瑤的這篇文章???從Genie 3看懂“世界模型”：為什么說它比語言模型更接近AGI?? 解釋得非常透徹，推薦大家去看看。

這里做個簡單的總結，world model通過視頻訓練——>理解世界，需要學習視頻中的物理規律，空間動態以及因果。跟LLM / MLLM 相比難訓練的主要原因包括三方面：訓練成本，算法以及架構。

1. 訓練成本

這個應該是最根源的問題。

LLM / MLLM ：現存互聯網數據多易爬取，成本低，主要是一維序列與NTP任務。

World model：訓練數據要求較高，除視頻數據本身外還需要包括圖像注釋，動作軌跡、物理動態、空間結構、因果鏈條等方面的標注；標注需要涉及時序、空間一致性、以及角色之間的交互與反饋，需要把世界一幀一幀講清楚。

此外處理數據的過程也非常繁復，包括拆分—>去噪—>注釋—>去重—>分詞—>空間結構—>跨模態對齊—>token壓縮等。

2. 算法復雜度

LLM / MLLM ：通過NTP任務生成合理的句子，可能出現幻覺，但如果能自圓其說結果也能看。

World model ：生成的視頻需要滿足因果成立、物理合理、空間連續且維持世界的邏輯閉環，內部需要有完整模擬器能預測結果、想象未來、評估路徑、對未知場景做出合理回應。

3. 架構

LLM / MLLM ：基于Transformer 架構和算力穩健發展，上下文窗口越來越大，模型越來越深。

World model ：Transformer 的堆砌難以解決更復雜的問題：

既要看圖像，又要預測運動
既要記住過去，還要能推演未來
既要生成細節，又要邏輯連貫
還得考慮“動作—反饋—后果”的因果鏈條

四、世界模型的核心架構

1. 視覺模型（Vision Model, V）：感知與表征

1）功能

視覺模型是世界模型架構中的第一個關鍵組件，其核心功能是處理來自外部世界的高維度感官輸入，并將其壓縮成一個低維度的潛在向量latent vector表示。

視覺模型的首要任務就是對原始感官數據（攝像頭、激光雷達等傳感器接收到的數據）進行“降維”和“提純”，提取出其中最關鍵、最本質的特征，形成一個緊湊而富有信息量的潛在表示。

這部分需要捕捉環境中物體的位置、形狀、運動狀態等關鍵信息，同時忽略了那些不重要的細節，將關鍵信息編碼到潛在向量中，為后續模塊提供一個清晰、簡潔的世界表征，使得整個系統能夠更高效地進行學習和決策。

這個壓縮過程不僅減少計算負擔，更重要的是，它幫助智能體抓住了世界的本質規律，從而能夠更好地進行泛化，應對那些從未見過的場景。

2）實現

通常這部分使用變分自編碼器（VAE）來實現，VAE包括編碼器和解碼器：

編碼器負責將輸入數據（如圖像，點云等數據）映射到一個潛在空間中的概率分布（通常是一個高斯分布），而不是一個確定的點。這個概率分布的均值和方差構成了潛在向量；
解碼器則負責從這個潛在向量中重建出原始的輸入數據。

2. 記憶模型（Memory Model, M）：學習與預測

1）功能

記憶模型主要功能是學習環境在時間維度上的動態變化規律，并基于當前的狀態和行動來預測未來的狀態。

如果說視覺模型負責理解“世界是什么樣”，那么記憶模型則負責理解“世界將如何變化”。

記憶模型起到了一個“承上啟下”的作用，通過接收來自視覺模型的潛在表示（即對當前世界狀態的壓縮描述）以及控制器發出的行動指令，來學習這兩者與未來世界狀態之間的因果關系。

當智能體需要完成一個復雜任務時，它可以利用記憶模型來“想象”出執行不同行動序列后可能導致的未來場景，從而選擇出最有可能成功的行動方案。

舉個例子就是，在自動駕駛場景中，記憶模型需要學習“當車輛以某個速度行駛，并且方向盤轉動某個角度時，車輛在下一秒的位置和朝向將會如何變化”。通過不斷地學習和積累這些動態知識，記憶模型就能夠在智能體的“腦海”中構建起一個關于世界如何運作的預測模型。

2）實現

RNN / LSTM / GRU與混合密度網絡（MDN）：

RNN / LSTM / GRU負責建模時間序列上的依賴關系；
混合密度網絡（Mixture Density Network, MDN）通過學習多個高斯分布的混合來近似任意復雜的概率分布，通過從這個概率分布中進行采樣，智能體就可以生成多個可能的未來場景，從而更好地應對不確定性。

3. 控制器（Controller, C）：決策與規劃

1）功能

基于視覺模型根據提供的當前世界表征和記憶模型預測的未來狀態，來做出最優的決策和規劃。控制器并不直接與原始的外部世界交互，而是在一個由視覺模型和記憶模型共同構建的內部模擬世界中進行“思考”和“規劃”。

這種在內部世界中進行決策的方式，是世界模型架構相比于傳統AI方法的一大優勢。而控制器則可以在一個安全、高效的模擬環境中進行仿真訓練，極大縮小了成本。

它可以通過向記憶模型提出各種“假設性問題”（例如，“如果我向左轉，會發生什么？”），來評估不同行動可能帶來的結果，并選擇那個最有可能導向成功的行動。這個過程可以反復迭代，使得控制器能夠規劃出復雜的、多步的行動序列，以完成長期目標。

2）實現

輕量級策略網絡，即一個小型的FFN，輸入是當前的潛在狀態（來自視覺模型）和記憶模型的隱藏狀態（包含了對未來的預測信息），輸出是一個行動指令（例如，機器人的關節角度、自動駕駛汽車的方向盤轉角和油門）。

控制器的訓練通常采用強化學習的方法。但與傳統的強化學習不同，控制器是在世界模型構建的模擬環境中進行訓練的。

訓練過程如下：控制器從某個初始狀態開始，根據當前的世界表征選擇一個行動；這個行動被輸入到記憶模型中，記憶模型預測出下一個世界的狀態；然后，根據這個新的狀態，環境會給出一個獎勵（或懲罰）；控制器根據這個獎勵來更新其策略，以便在未來能夠獲得更高的累積獎勵。

整個過程都在模擬環境中進行，因此可以快速地執行數百萬次的迭代，從而高效地學習到最優策略。一旦控制器在模擬環境中訓練完成，它就可以被部署到真實世界中，與真實的環境進行交互。

目前各大OEM也普遍在推車端VLA，云端world model的智駕方案，可以看出world model確實是有很大的發展潛力。

五、目前各家世界模型的架構介紹

1. DeepMind 的 DreamerV3

DreamerV3 不使用transformer，用的是循環狀態空間模型（RSSM），與RNN單一的確定性隱藏狀態 h_t 相比，RSSM將確定性狀態 h_t 與隨機潛在狀態 z_t 分離，通過 z_t 的概率分布顯式建模。

世界模型的架構總結-AI.x社區

2. NVIDIA 的 Cosmos-Reason1

Cosmos-Reason1使用Mamba + MLP + Transformer混合體：

世界模型的架構總結-AI.x社區

Mamba負責捕捉長距離依賴，提高效率；
Transformer負責對短距離依賴和高層次抽象進行注意力機制捕獲；
MLP在Mamba層和Transformer層之間提供非線性變換。

3. Meta 的 NWM

Meta 的 NWM使用CDiT，一種能減少 FLOPs 的條件擴散網絡：

世界模型的架構總結-AI.x社區

CDiT基于擴散的學習過程，使用交叉注意力而非所有標記使用自注意力的，降低注意力復雜度，擴展到更長的上下文窗口和更大的模型。

六、總結，世界模型到底是在訓練什么？

LeCun 提出的 JEPA（Joint Embedding Predictive Architecture）從像素層面的建模，轉向預測隱藏狀態的抽象表示，強調的是“預測未來潛在表征”的能力，而非逐像素生成。這種思路與人類認知極為相似——我們并不是逐幀還原畫面，而是基于抽象模型推測世界會如何演化。

AGI的目標是創造出能夠像人類一樣思考、學習和解決各種問題的智能系統。而人類智能的一個核心特征，就是具備一個關于世界的豐富而深刻的內部模型。世界模型可以理解周圍的環境，預測未來的事件，并進行復雜的規劃和推理。

本篇簡單總結了世界模型的架構，這里再給一些個人的理解，世界模型其實本質更像是在訓練人的元認知抽象能力，因此未來為一些針對COT的強化學習（類似于騰訊提出的RLVMR框架）研究很有潛力；后續大家也可以多多關注這塊。

參考文獻

[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)

[2] 從Genie 3看懂“世界模型”：為什么說它比語言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)

[3] 【世界模型】一文讀懂世界模型：從核心原理到前沿爭議 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)

本文轉載自????瓦力算法學研所????，作者：喜歡瓦力的卷卷

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

世界模型

LLM

MLLM

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂

世界模型的架構總結原創