LeCun出手,造出視頻世界模型,挑戰英偉達COSMOS
2018 年,LSTM 之父 Jürgen Schmidhuber 在論文中( Recurrent world models facilitate policy evolution )推廣了世界模型(world model)的概念,這是一種神經網絡,它能夠根據智能體過去的觀察與動作,預測環境的未來狀態。
近年來,世界模型逐漸受到大家的關注,當然也包括深度學習三巨頭之一的 Yann LeCun,他將世界模型視為通向人類智能的核心路徑。
然而,訓練出有效的世界模型仍面臨諸多挑戰。
首先是數據問題:大規模、高質量的視頻數據集獲取成本高昂,尤其是在包含動作標注的情況下。目前世界模型的成功應用仍然局限于特定領域,如自動駕駛或電子游戲等。
其次,任務本身也非常困難:在無約束、部分可觀測的環境中,準確建模物理規律與行為仍是一個尚未解決的問題,即使只考慮短時間尺度也是如此。目前最先進的基于像素的生成模型對計算資源的消耗極其龐大,例如 COSMOS 的訓練耗時高達 2200 萬 GPU 小時。
更令人擔憂的是,這種算力可能被浪費在無關緊要的細節上。比如,在自動駕駛系統中,為了預測未來場景而去建模每一片樹葉在風中的精確運動,并無必要。因此,以合適的抽象層級建模環境,對于提升世界模型的效率與效果至關重要。
最后,如何評估預訓練的視頻世界模型本身也是一大難題。
為了解決上述問題,來自 Meta 的研究者提出了一個強大的通用視頻世界模型 DINO-world,用于預測未來幀。在實現方法上,DINO-world 在凍結的視覺編碼器(如 DINOv2 )潛在空間中預訓練視頻世界模型,隨后再通過動作數據進行后訓練,以實現規劃與控制。

- 論文地址:https://arxiv.org/pdf/2507.19468v1
- 論文標題: Back to the Features: DINO as a Foundation for Video World Models
這一方法具有多個優勢:
- 將視頻預訓練與基于動作 - 條件的微調解耦,可以利用大量未標注的視頻學習通用知識,從而顯著降低對標注數據的需求;
- 訓練潛在世界模型,避開了像素級建模帶來的挑戰,而像素級建模對大多數下游任務來說并非必要;
- 凍結的編碼器 DINO 能直接提供強大的語義和幾何理解能力,加速了學習過程,并避免了同時訓練編碼器與預測器所帶來的技術復雜性。
此外,該研究還引入了一種更高效的世界模型架構,相比當前最先進的模型,在訓練與推理階段都顯著減少了資源消耗。
在一個包含約 6000 萬條未經清洗的網絡視頻的大規模數據集上訓練預測器,使其能夠獲得可以良好遷移到不同領域的通用特征。
在 VSPW 分割預測任務中,當預測未來 0.5 秒發生什么時,模型的 mIoU 提高了 6.3%,顯著優于第二佳模型。在對動作數據進行后訓練并在規劃任務上進行評估時,實驗結果進一步驗證了大規模無監督預訓練的優勢。
方法介紹
圖 1 概述了 DINO-world 主要組件,包括幀編碼器(frame encoder)和未來預測器(future predictor)。

幀編碼器
當今幾乎所有世界模型都不再直接建模像素,而是基于視頻塊(video patches)的潛在表示進行建模。以 V-JEPA 為例,它包含一個編碼器和一個預測器,這兩個組件是聯合優化的。
與此不同,本文選擇使用專為表征學習而設計、并通過自監督訓練的基礎模型 DINOv2 對視頻幀進行編碼。
在這種潛在空間中進行建模顯著降低了訓練預測器所需的計算成本。實際上,本文成功實現了參數量少于 10 億的世界模型的有效訓練,而當前最先進的生成式模型(如 COSMOS)的參數規模可高達 120 億。
預測器架構和訓練
架構。本文將預測任務建模為一個解碼問題,并將預測器設計為由 N 個殘差預歸一化交叉注意力塊堆疊而成的結構。
為了預測在坐標
上的未來狀態,本文從一個可學習的嵌入中初始化一個查詢 token
。在每個模塊中,查詢 token 會對所有歷史 patch token 構成的鍵值對執行交叉注意力操作,之后再接入一個 MLP 模塊。

在最后一個模塊之后,通過一個線性映射將查詢 token q 投影為預測的 patch token。
位置編碼。在上述建模形式中,查詢向量 q 和上下文特征 x 并不攜帶關于其在視頻中位置的信息。為了使模型能夠理解 token 之間的時空關系,本文在多頭注意力機制中引入了旋轉位置編碼(RoPE)。
具體而言,本文將注意力頭的維度 D? 分成三部分,分別對每個 token 的時間坐標、水平坐標和垂直坐標進行編碼。
對于空間坐標 (i, j),采用定義在 [?1, +1]2 網格上的相對位置表示,從而確保輸入分辨率的變化不會影響 patch 之間的相對距離。
而對于時間坐標 τ,采用以秒為單位的絕對時間戳,使得模型能夠區分高幀率與低幀率的序列,并具備對更長視頻進行外推的能力。
訓練目標。為了便于并行化,本文采用「下一幀預測」作為訓練目標,即令 t′ = t + 1,并使用 teacher forcing 策略。在給定 T 幀的序列下,關于第 t+1 幀的查詢只能訪問到第 t 幀及之前的 patch token。對于參數為 θ 的預測器,其訓練目標如下:

相比之下,掩碼重建類的損失(如 V-JEPA 或 DINO-Foresight)僅對掩碼位置的 token 計算損失,這些 token 只占處理總量的一小部分。
可變幀率(Variable FPS)。對于每段視頻,本文從預設范圍 [Δτ_min, Δτ_max] 中均勻采樣 T?1 個時間間隔,并通過累加這些間隔以及一個隨機起始點來生成 T 個時間戳。
這樣一來,解碼出最接近的幀及其實際時間戳用于訓練。該方法確保了模型在訓練時能夠接觸到均勻分布的時間間隔,從而具備更強的時間泛化能力。
動作條件微調
本文提出的視頻世界模型可以通過自監督的方式,在大規模無標注視頻數據集上進行訓練。然而,許多下游應用往往涉及某種條件信號,例如智能體的動作或語言指令,而這類數據通常較為有限。
本文關注的是以觀測 - 動作對 (v_t, a_t) 表示的智能體軌跡。
在預訓練的視頻世界模型基礎上,本文提出了一種簡單的適配方法,用于將預測第 t+1 幀的過程與當前動作 a_t 相結合。
具體而言,他們加入了一個動作模塊,利用對應的動作更新查詢向量,其更新方式為:
。這些動作模塊可以初始化為恒等映射(identity),并在一個小規模的動作條件軌跡數據集上進行訓練??蛇x地,視頻世界模型本身可以保持凍結,僅訓練動作模塊,以緩解過擬合風險,并實現基礎模型在不同任務中的泛化。
實驗結果
密集預測任務
本文在 Cityscapes、VSPW 和 KITTI 數據集上進行了評估。
評估類型包括:短期預測,即預測約 200 毫秒后的幀;以及中期預測,目標時間點為 0.5 秒后。
表 1 結果表明,DINO-world 世界模型優于像 V-JEPA 這樣的聯合預測架構,也優于像 COSMOS 這樣的生成模型。DINO-Foresight 在 Cityscapes 和 KITTI 上略微占優,這歸因于其在駕駛視頻上的領域特定訓練。
然而,DINO-world 在多個評測基準上表現穩健,驗證了這一范式的有效性:在凍結的自監督學習編碼器基礎上訓練潛在空間的世界模型。事實上,相較于 V-JEPA,本文預測的特征質量更高;相較于 COSMOS,本文對視頻動態的建模也更為準確。

表 1:密集預測。當前表現與預測表現之間的差距越小,說明世界模型越強。
直覺物理(Intuitive physics)
本文采用了三個直覺物理測試基準:IntPhys 、GRASP 和 InfLevel 。并基于模型的預測定義了一個驚訝分數(surprise score),用于衡量模型輸出與預期物理行為的偏差。
從表 2 的結果可以看出,所有在大規模數據集上訓練的世界模型均表現出一定程度的物理理解能力。DINO-world 的表現與使用更大編碼器的 V-JEPA ViT-H 相當。DINO-Foresight 在 IntPhys 和 GRASP 上的相對劣勢,可歸因于其訓練域未包含合成視頻。COSMOS 在相對簡單的 IntPhys 任務中表現幾乎完美,但在另外兩個任務上明顯不足。

表 2:直覺物理測試基準,報告了所有視頻類別的平均相對準確率。
實驗表明,潛在空間世界模型在性能上具有顯著優勢,同時也凸顯了大規模預訓練的重要性。
動作條件微調與規劃評估
本文以預訓練的基礎模型為起點,在每個環境的離線軌跡上對動作條件模型訓練 25 個 epoch,使用幀數 T = 4、分辨率為 224 像素的視頻片段。
作為對比,本文還訓練了兩個模型:一個是僅訓練動作模塊、凍結其他所有參數的模型,另一個則是從頭開始訓練的模型。
表 4 報告了每個環境下、512 個測試回合中的成功率。主要發現是,與從零訓練相比,大規模預訓練顯著提升了模型性能。作者預計,在更復雜、與預訓練數據分布更接近的環境中,這一性能提升將更加明顯。

表 4:規劃評估。規劃器在動作條件世界模型的潛在空間中展開候選軌跡并進行優化,其成功率如表所示。
更多實驗細節、消融實驗,請參閱原論文。




































