世界模型的架構總結 原創
在開始前我們先來分析一下當下的AI技術發展路線:
1. 目前來看LLM/MLLM等類似GPT的decoder架構仍是主流,各家更新一代比一代快;
2. 由sora帶火的diffusion model類生成式模型還處于是否是“world simulator”的爭議中悄悄發育;
3. Deepmind、Meta、Nvidia等幾家在“孤獨地”推進世界模型,還沒有真正進入大眾視野應用。
上述的路線中哪一條可能是真正可以在未來通往AGI的路呢?
目前業內主要的觀點還是第三種。
Meta首席AI科學家_Yann LeCun_甚至預測“再過五年可能沒有人會再使用目前這種(通過在離散的詞元(token)空間中進行預測)的純LLM范式”;
近日Google的開發負責人和Deepmind CEO在談論Genie3的訪談中也提到了一個更大的視角 : “World models aren't just about physical simulation. Every creative domain has its own physics”。

Genie3的效果不知道大家看沒有,確實有些震撼:720p的清晰度、24FPS的實時生成速率,以及提示式世界事件(Promptable world Events),這意味著可以支持第一人稱視角導航和實時互動,完全在虛擬世界中生活了。
這背后“世界模型”是主要的技術支撐,那么本文就來總結世界模型的架構,下面是一個快捷目錄。
一、什么是世界模型?
二、世界模型跟傳統AI的區別
三、為什么世界模型難訓練?與LLM / MLLM的區別
四、世界模型的核心架構
五、目前各家世界模型的架構介紹
六、總結,世界模型到底是在訓練什么?
一、什么是世界模型?
1. 世界模型的概念
世界模型的概念源于認知科學和機器人學,它強調AI系統需要具備對物理世界的直觀理解,而不僅僅是處理離散的符號或數據 。
世界模型主要分為理解世界和預測未來兩大視角——即構建內部表示以理解世界機制,預測未來狀態以模擬和指導決策。這個視角可以輔助大家去理解很多世界模型的架構。

2. 權威定義解析
1)David Ha和Jürgen Schmidhuber:生成式神經網絡模型
他們在2018年開創性論文《Recurrent World Models Facilitate Policy Evolution》中將世界模型定義為一個生成式模型,該模型能夠理解和模擬環境,學習行為策略,并將學到的知識遷移到新的情境中。
他們的模型由兩個核心部分組成:一個變分自編碼器(VAE)和一個循環神經網絡RNN:
- VAE負責理解世界,捕捉環境的關鍵特征,將高維的感官輸入(如圖像)壓縮成一個低維的潛在向量(latent vector);
- RNN負責預測未來,學習這些潛在向量在時間序列上的動態變化,即預測在給定當前狀態和動作的情況下,下一個狀態會是什么。
2)Yann LeCun:基于編碼器與預測器的系統
Yann LeCun定義的核心在于,世界模型不僅僅是一個生成模型,更是一個包含了感知、記憶、預測和規劃等多個模塊的完整認知架構。
模型由兩個核心部分組成:編碼器(Encoder)和預測器(Predictor):
- 編碼器(Encoder)負責理解世界 ,將高維的觀測數據(如圖像)轉換成一個低維的、抽象的表示h(t)。這個表示捕捉了環境的關鍵信息,同時過濾掉了不相關的細節;
- 預測器(Predictor)負責預測未來,接收當前的表示、之前的世界狀態估計、一個預設的行動以及一個潛在變量,然后預測下一個世界的狀態。
二、世界模型跟傳統AI的區別
1. 世界模型的能力
世界模型的核心思想在于賦予人工智能系統一種類似人類的“想象力”和“規劃”能力。
具體來說,世界模型允許智能體在“心智”中模擬未來可能發生的情景,評估不同行動方案的潛在結果,并選擇最優的策略來實現其目標。這種在模擬環境中進行“思想實驗”的能力,極大地提高了學習效率和決策的魯棒性。
2. 跟傳統基于實際環境的強化學習的具體區別
這里有可能提起強化學習會引起一些argue,強化學習雖然也與環境的動態變化有關,但其學習方式通常是“試錯”。
智能體在環境中通過不斷嘗試不同的行動,并根據獲得的獎勵或懲罰來調整其策略。這種方式在簡單環境中可能有效,但在復雜、高維度的現實世界環境中,試錯學習的成本極高,甚至可能帶來災難性的后果。
世界模型則提供了一種更高效的學習方式。它通過觀察和學習環境的動態規律,在內部構建一個模擬器。智能體可以在這個模擬器中進行大量的“想象”和“規劃”,從而找到最優的行動序列,而無需在真實環境中進行大量的試錯 。
下面舉個自動駕駛中具體的例子作為說明,
VLM / VLA 相當于背熟了一本《汽車駕駛全書》,知道“遇到濕滑路面需要提前剎車”這條規則,當從輸入語義或圖像的token中獲取到“濕滑路面”時會提前進行剎車制動;
而一個具備世界模型的自動駕駛系統,可以在遇到濕滑路面時,預判到如果車速過快可能會導致剎車距離延長,從而提前減速,避免危險;世界模型的決策需要源于AI內部對物理規律(如摩擦力、慣性)的模擬,而不是簡單地記憶“濕滑路面要減速”這條規則。
三、為什么世界模型難訓練?與LLM / MLLM的區別
上面說了很多,感覺世界模型真的很重要,那么為啥只有幾家大廠在“孤獨地”推進呢?
夕小瑤的這篇文章???從Genie 3看懂“世界模型”:為什么說它比語言模型更接近AGI?? 解釋得非常透徹,推薦大家去看看。
這里做個簡單的總結,world model通過視頻訓練——>理解世界,需要學習視頻中的物理規律,空間動態以及因果。跟LLM / MLLM 相比難訓練的主要原因包括三方面:訓練成本,算法以及架構。
1. 訓練成本
這個應該是最根源的問題。
LLM / MLLM :現存互聯網數據多易爬取,成本低,主要是一維序列與NTP任務。
World model:訓練數據要求較高,除視頻數據本身外還需要包括圖像注釋,動作軌跡、物理動態、空間結構、因果鏈條等方面的標注;標注需要涉及時序、空間一致性、以及角色之間的交互與反饋,需要把世界一幀一幀講清楚。
此外處理數據的過程也非常繁復,包括拆分—>去噪—>注釋—>去重—>分詞—>空間結構—>跨模態對齊—>token壓縮等。
2. 算法復雜度
LLM / MLLM :通過NTP任務生成合理的句子,可能出現幻覺,但如果能自圓其說結果也能看。
World model :生成的視頻需要滿足因果成立、物理合理、空間連續且維持世界的邏輯閉環,內部需要有完整模擬器能預測結果、想象未來、評估路徑、對未知場景做出合理回應。
3. 架構
LLM / MLLM :基于Transformer 架構和算力穩健發展,上下文窗口越來越大,模型越來越深。
World model :Transformer 的堆砌難以解決更復雜的問題:
- 既要看圖像,又要預測運動
- 既要記住過去,還要能推演未來
- 既要生成細節,又要邏輯連貫
- 還得考慮“動作—反饋—后果”的因果鏈條
四、 世界模型的核心架構
1. 視覺模型(Vision Model, V):感知與表征
1) 功能
視覺模型是世界模型架構中的第一個關鍵組件,其核心功能是處理來自外部世界的高維度感官輸入,并將其壓縮成一個低維度的潛在向量latent vector表示 。
視覺模型的首要任務就是對原始感官數據(攝像頭、激光雷達等傳感器接收到的數據)進行“降維”和“提純”,提取出其中最關鍵、最本質的特征,形成一個緊湊而富有信息量的潛在表示。
這部分需要捕捉環境中物體的位置、形狀、運動狀態等關鍵信息,同時忽略了那些不重要的細節,將關鍵信息編碼到潛在向量中,為后續模塊提供一個清晰、簡潔的世界表征,使得整個系統能夠更高效地進行學習和決策。
這個壓縮過程不僅減少計算負擔,更重要的是,它幫助智能體抓住了世界的本質規律,從而能夠更好地進行泛化,應對那些從未見過的場景。
2)實現
通常這部分使用變分自編碼器(VAE)來實現,VAE包括編碼器和解碼器:
- 編碼器負責將輸入數據(如圖像,點云等數據)映射到一個潛在空間中的概率分布(通常是一個高斯分布),而不是一個確定的點。這個概率分布的均值和方差構成了潛在向量;
- 解碼器則負責從這個潛在向量中重建出原始的輸入數據。
2. 記憶模型(Memory Model, M):學習與預測
1) 功能
記憶模型主要功能是學習環境在時間維度上的動態變化規律,并基于當前的狀態和行動來預測未來的狀態 。
如果說視覺模型負責理解“世界是什么樣”,那么記憶模型則負責理解“世界將如何變化”。
記憶模型起到了一個“承上啟下”的作用,通過接收來自視覺模型的潛在表示(即對當前世界狀態的壓縮描述)以及控制器發出的行動指令,來學習這兩者與未來世界狀態之間的因果關系。
當智能體需要完成一個復雜任務時,它可以利用記憶模型來“想象”出執行不同行動序列后可能導致的未來場景,從而選擇出最有可能成功的行動方案。
舉個例子就是,在自動駕駛場景中,記憶模型需要學習“當車輛以某個速度行駛,并且方向盤轉動某個角度時,車輛在下一秒的位置和朝向將會如何變化”。通過不斷地學習和積累這些動態知識,記憶模型就能夠在智能體的“腦海”中構建起一個關于世界如何運作的預測模型。
2)實現
RNN / LSTM / GRU與混合密度網絡(MDN):
- RNN / LSTM / GRU負責建模時間序列上的依賴關系;
- 混合密度網絡(Mixture Density Network, MDN)通過學習多個高斯分布的混合來近似任意復雜的概率分布,通過從這個概率分布中進行采樣,智能體就可以生成多個可能的未來場景,從而更好地應對不確定性。
3. 控制器(Controller, C):決策與規劃
1)功能
基于視覺模型根據提供的當前世界表征和記憶模型預測的未來狀態,來做出最優的決策和規劃 。控制器并不直接與原始的外部世界交互,而是在一個由視覺模型和記憶模型共同構建的內部模擬世界中進行“思考”和“規劃”。
這種在內部世界中進行決策的方式,是世界模型架構相比于傳統AI方法的一大優勢。而控制器則可以在一個安全、高效的模擬環境中進行仿真訓練,極大縮小了成本。
它可以通過向記憶模型提出各種“假設性問題”(例如,“如果我向左轉,會發生什么?”),來評估不同行動可能帶來的結果,并選擇那個最有可能導向成功的行動。這個過程可以反復迭代,使得控制器能夠規劃出復雜的、多步的行動序列,以完成長期目標。
2)實現
輕量級策略網絡,即一個小型的FFN,輸入是當前的潛在狀態(來自視覺模型)和記憶模型的隱藏狀態(包含了對未來的預測信息),輸出是一個行動指令(例如,機器人的關節角度、自動駕駛汽車的方向盤轉角和油門)。
控制器的訓練通常采用強化學習的方法。但與傳統的強化學習不同,控制器是在世界模型構建的模擬環境中進行訓練的。
訓練過程如下:控制器從某個初始狀態開始,根據當前的世界表征選擇一個行動;這個行動被輸入到記憶模型中,記憶模型預測出下一個世界的狀態;然后,根據這個新的狀態,環境會給出一個獎勵(或懲罰);控制器根據這個獎勵來更新其策略,以便在未來能夠獲得更高的累積獎勵。
整個過程都在模擬環境中進行,因此可以快速地執行數百萬次的迭代,從而高效地學習到最優策略。一旦控制器在模擬環境中訓練完成,它就可以被部署到真實世界中,與真實的環境進行交互。
目前各大OEM也普遍在推車端VLA,云端world model的智駕方案,可以看出world model確實是有很大的發展潛力。
五、目前各家世界模型的架構介紹
1. DeepMind 的 DreamerV3
DreamerV3 不使用transformer,用的是循環狀態空間模型(RSSM), 與RNN單一的確定性隱藏狀態 h_t 相比,RSSM將確定性狀態 h_t 與隨機潛在狀態 z_t 分離,通過 z_t 的概率分布顯式建模。

2. NVIDIA 的 Cosmos-Reason1
Cosmos-Reason1使用Mamba + MLP + Transformer混合體:

- Mamba負責捕捉長距離依賴,提高效率;
- Transformer負責對短距離依賴和高層次抽象進行注意力機制捕獲;
- MLP在Mamba層和Transformer層之間提供非線性變換。
3. Meta 的 NWM
Meta 的 NWM使用CDiT,一種能減少 FLOPs 的條件擴散網絡:

CDiT基于擴散的學習過程,使用交叉注意力而非所有標記使用自注意力的,降低注意力復雜度,擴展到更長的上下文窗口和更大的模型。
六、總結,世界模型到底是在訓練什么?
LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)從像素層面的建模,轉向預測隱藏狀態的抽象表示,強調的是“預測未來潛在表征”的能力,而非逐像素生成。這種思路與人類認知極為相似——我們并不是逐幀還原畫面,而是基于抽象模型推測世界會如何演化。
AGI的目標是創造出能夠像人類一樣思考、學習和解決各種問題的智能系統。而人類智能的一個核心特征,就是具備一個關于世界的豐富而深刻的內部模型。世界模型可以理解周圍的環境,預測未來的事件,并進行復雜的規劃和推理。
本篇簡單總結了世界模型的架構,這里再給一些個人的理解,世界模型其實本質更像是在訓練人的元認知抽象能力,因此未來為一些針對COT的強化學習(類似于騰訊提出的RLVMR框架)研究很有潛力;后續大家也可以多多關注這塊。
參考文獻
[1] Understanding World or Predicting Future? A Comprehensive Survey of World Models - ( https://arxiv.org/pdf/2411.14499)
[2] 從Genie 3看懂“世界模型”:為什么說它比語言模型更接近AGI - (https://mp.weixin.qq.com/s/u1AGgjTj3ARWacVyTwGJ6Q)
[3] 【世界模型】一文讀懂世界模型:從核心原理到前沿爭議 - 知乎 - (https://zhuanlan.zhihu.com/p/1934608134745338050)
本文轉載自????瓦力算法學研所????,作者:喜歡瓦力的卷卷

















