ICCV 2025 | Meta LeCun 團隊發布DINO-World:基于隱空間僅 1/12 參數量實現SOTA視頻預測
視頻世界模型(Video World Models)旨在通過預測環境未來狀態,實現智能體的規劃與控制。然而,傳統方法面臨兩大挑戰:
- 數據依賴:大規模標注視頻數據獲取成本高,且需包含動作信息。
- 任務依賴:動作空間與任務強相關,泛化能力受限。
核心貢獻:
DINO-World 是一種基于 DINOv2 隱空間 的視頻世界模型,通過“預訓練+微調”兩階段框架,實現:
- 高效預訓練:在未標注視頻數據上學習通用時空動態。
- 動作條件微調:少量標注數據即可適配具體任務(如機器人控制)。
- 強物理理解:在直覺物理基準測試中表現優異,驗證對現實世界的深刻建模能力。
相關鏈接
- 論文:https://arxiv.org/pdf/2507.19468v1
論文介紹

DINO-world 是一個強大的通用視頻世界模型,經過訓練后可在 DINOv2 的潛在空間中預測未來幀。通過利用預訓練的圖像編碼器,并在大規模非精選視頻數據集上訓練未來預測器,DINO-world 可以學習從駕駛場景、室內場景到模擬環境等各種場景的時間動態。論文證明了 DINO-world 在各種視頻預測基準測試(例如分割和深度預測)上的表現均優于先前的模型,并展現了對直覺物理學的強大理解力。此外還證明了可以根據觀察動作軌跡對預測器進行微調。由此產生的動作條件世界模型可以通過模擬潛在空間中的候選軌跡進行規劃。
方法概述

潛在視頻世界模型架構。凍結的 DINOv2 編碼器將視頻幀映射到潛在空間中的塊標記。預測器是一堆交叉注意力模塊,經過訓練后,可以根據所有過去的標記 x1:t,·,· 和時間戳 T1:t 預測未來時間戳 τt+1 處的塊標記 x?t+1,i′,j′ 及其位置 (i′, j′)。時空坐標通過三軸 RoPE 注入到每個標記中。塊三角注意力掩碼允許并行訓練所有幀的所有塊,并尊重時間因果關系。為了進行條件微調,我們添加了零初始化的動作模塊,用相應的動作更新每個查詢。 DINO-World 由三大模塊組成:
- 視頻編碼器:采用 DINOv2-ViT 將每幀圖像編碼為特征圖(尺寸為 H×W×D),保留語義信息(如物體類別、空間關系)。 優勢:避免像素級重建,聚焦高層次特征,計算效率顯著提升。
- 預測器:基于交叉注意力 Transformer,堆疊 N=40 層殘差塊,預測未來幀的隱空間特征。
關鍵設計:
- 動態時間采樣:隨機選擇時間間隔 Δτ 訓練,支持任意時長預測。
- 位置編碼:通過 RoPE(Rotary Position Embedding) 注入時空坐標,增強時序與空間關系建模。
- 動作適配器(可選):在微調階段引入,將動作信號(如機器人關節扭矩)嵌入預測流程。
- 設計:輕量級 MLP 模塊,僅更新查詢向量(Query),避免破壞預訓練特征。
實驗結果




實驗結果總結:DINO-World在多項基準測試中展現了卓越性能:在Cityscapes、VSPW和KITTI數據集的密集預測任務中,其短期(0.2秒)和中期(0.5秒)語義分割與深度估計準確率顯著超越DINO-Foresight、COSMOS等基線模型,尤其在中期預測中通過自回歸機制保持結構一致性,而像素級生成模型(如COSMOS)因誤差累積導致模糊;在IntPhys、GRASP和InfLevel直覺物理基準測試中,DINO-World對物體永存性、重力等規律的平均理解準確率達91.3%,遠超V-JEPA和COSMOS;在機器人控制任務(PushT、Wall、PointMaze)中,經動作條件微調的模型成功率較從頭訓練提升12.5%-26.9%,驗證了其快速適配新任務的能力,同時微調階段僅需更新少量參數,顯著降低數據需求。
結論
為了最大限度地利用預測器學習時間動態的能力,該方法利用了具有強語義特征的凍結視覺編碼器,即 DINOv2。根據設計,該預測器不受特定分辨率、幀率或上下文長度的限制,并且可以輕松適應動作條件的后訓練。此外論文進行了廣泛的評估,整合并比較了幾種世界建模方法。密集預測和直覺物理學的結果證明了潛在空間世界模型的優勢,以及大規模預訓練的重要性。未來的方向包括改進長期預測,例如通過對其中一種可能的未來進行采樣,探索數據管理策略,在現實環境中驗證訓練后和規劃,并結合語言作為條件信號。

















