單目視頻→4D場景僅需1秒!顛覆性框架MoVieS實現動態三體統一建模 | 北大&字節等

文章鏈接:https://arxiv.org/pdf/2507.10065
項目鏈接:https://chenguolin.github.io/projects/MoVieS/
Git鏈接:??https://github.com/chenguolin/MoVieS??

亮點直擊
- MoVieS,首個前饋式框架,可從單目視頻聯合建模外觀、幾何和運動,實現4D 場景感知。
- 動態濺射像素(dynamic splatter pixels),將動態 3D 場景表示為可渲染、可形變的 3D 粒子,橋接新視角合成與動態幾何重建。
- MoVieS在4D 重建任務中實現了強勁性能,并帶來數個數量級的加速,同時能以零樣本方式支持多種應用。
總結速覽
解決的問題
- 動態場景建模:現有方法主要針對靜態場景,難以處理真實世界中的動態、多樣化環境。
- 任務孤立性:傳統方法將3D任務(如深度估計、新視角合成、點跟蹤等)分開處理,缺乏統一框架。
- 計算效率低:現有動態場景重建方法依賴昂貴的逐場景優化,無法高效學習先驗知識。
提出的方案
- MoVieS 模型:一種前饋式(feed-forward)動態新視角合成模型,可在1秒內從單目視頻合成4D動態新視角。
- 動態3D表示:使用像素對齊的高斯基元網格(pixel-aligned grids of Gaussian primitives),顯式監督其時變運動。
- 統一建模:聯合建模外觀(appearance)、幾何(geometry)和運動(motion),支持新視角合成、重建和3D點跟蹤。
應用的技術
- 動態高斯渲染:基于可微分的3D高斯渲染框架(differentiable 3D Gaussian rendering),將輸入像素映射為3D高斯基元。
- 運動預測:通過運動頭(motion head)預測高斯基元在任意目標時間戳的位移,實現時間演化跟蹤。
- Transformer 架構:基于大規模預訓練Transformer主干網絡,獨立編碼視頻幀并通過注意力機制聚合信息。
- 多任務預測頭:
a.深度頭(depth head):估計每幀的深度。
b.splatter head:預測高斯基元的外觀屬性(顏色、透明度等)。
c.運動頭(motion head):預測時間相關的運動位移。
達到的效果
- 高效性:比現有方法快幾個數量級(1秒內完成推理)。
- 多任務支持:在單模型中實現新視角合成、深度估計、3D點跟蹤等任務。
- 零樣本泛化:支持場景流估計(scene flow estimation)、運動目標分割(moving object segmentation)等零樣本應用。
- 實驗表現:在多個基準測試(如KITTI、Waymo等)上達到競爭性性能,同時保持極高效率。
方法

動態濺射像素

MoVieS:統一外觀、幾何與運動
如下圖1所示,提出的MoVieS框架提供了一種統一的方法來同時建模動態場景的外觀、幾何和運動。它由一個帶有相機和時間信息的特征主干網絡組成,用于從輸入視頻幀中提取特征,隨后通過專用的深度、濺射和運動估計頭進行處理。

特征主干網絡

在將輸入圖像、相機參數和時間戳token化后,應用來自VGGT的幾何預訓練注意力塊,以實現跨視頻幀的圖像token交互。這生成了一組共享特征token,其中富含幀間上下文以及相機和時間信息,隨后用于預測動態場景的各種屬性。
預測頭
來自特征主干網絡的共享聚合視頻token被輸入三個并行預測頭,分別估計動態場景的外觀、幾何和運動。每個頭采用DPT風格架構,將圖像token轉換為與輸入分辨率匹配的密集預測,從而生成動態濺射像素。
深度與濺射頭
與之前使用單一頭預測所有濺射像素屬性的前饋式3DGS重建方法不同,本文采用解耦設計以更好地利用預訓練VGGT的幾何先驗。一個從VGGT初始化的專用深度頭用于幾何預測,為濺射像素構建提供空間基礎;而另一個獨立的DPT作為濺射頭從頭訓練,用于外觀渲染。進一步從輸入圖像到濺射頭的最終卷積層加入了直接RGB捷徑,以保留高頻細節并增強顏色保真度。
運動頭


訓練
數據集構建
理想的動態場景重建數據集應包含同步多視角視頻,并帶有密集深度和點跟蹤標注。然而,實際中大規模采集和標注此類數據并不可行。因此,本文利用多種開源數據集,每個數據集提供互補的監督信息,如下表1所示。通過靈活的模型設計,MoVieS可以通過將目標與各自的標注對齊,在這些異構數據源上聯合訓練。

目標函數
MoVieS通過結合深度、渲染和運動損失的多任務目標進行訓練:

深度與渲染損失
深度損失計算為預測深度圖與真實深度圖之間的均方誤差(MSE),以及它們的空間梯度,在過濾無效值后進行。渲染損失結合了像素級MSE和感知損失,比較3DGS在對應相機視角下渲染的圖像與目標時間戳的視頻幀。
運動損失


目標函數

歸一化
與VGGT類似,我們通過每個3D點到規范世界坐標系原點的平均歐氏距離來歸一化3D場景尺度。因此,與其他重建方法不同,本文不在深度或運動損失中應用額外的歸一化。為簡化起見,我們也省略了置信度感知加權。
實驗
實驗設置
實現MoVieS基于幾何預訓練transformer VGGT構建,濺射頭和相機/時間嵌入從頭訓練。使用AdamW優化器配合余弦學習率調度和線性預熱進行優化。我們觀察到MoVieS的訓練特別不穩定,可能源于稀疏標注和訓練數據的異構性。因此采用課程學習策略逐步增加訓練復雜度:
- 靜態場景預訓練;
- 多視角動態場景訓練;
- 高分辨率微調。
采用gsplat渲染后端、DeepSpeed、梯度檢查點、梯度累積和bf16混合精度等技術提升內存和計算效率。使用32塊H100 GPU訓練約5天完成。
評估本文在兩個主要任務評估MoVieS:
- 新視角合成;
- 3D點跟蹤。

新視角合成
靜態場景
下表2顯示,雖然MoVieS主要針對動態場景設計,但在靜態數據集RealEstate10K上仍保持競爭力。處理靜態輸入時,預測運動自然收斂為零,表明MoVieS能隱式區分靜態/動態區域而無需顯式監督。

動態場景
在DyCheck(3相機同步拍攝)和NVIDIA(12相機靜態架拍攝)兩個基準上評估。如表2所示,MoVieS僅需0.93秒/場景,性能優于或媲美依賴繁重預訓練模型和多階段流程的優化方法。下圖3可視化表明,MoSca易對觀測位姿過擬合,而MoVieS通過大規模學習先驗產生更平滑真實的結果。

值得注意的是,本文實驗未使用動態物體視頻掩碼,這對依賴顯式運動分割的優化方法(如Shape-of-Motion)構成挑戰。NVIDIA數據集存在相機抖動時,我們的方法通過直接學習運動建模展現出強魯棒性。
3D點跟蹤
在大規模點跟蹤數據集上訓練后,所提方法還能密集跟蹤視頻幀中對應像素的任何3D點(見下圖7)。本文將MoVieS與三個強基線對比:兩個最先進的2D點跟蹤方法(BootsTAP和CoTracker3)和一個原生3D點跟蹤方法(SpatialTracker)。對于2D跟蹤器,使用最新視頻深度估計模型和真實相機內參將跟蹤點反投影到3D空間。為消除方法間的尺度差異,評估前將所有預測3D點按其模長中值歸一化。

下表3定量結果顯示:基于3D的SpatialTracker通常優于2D方法,但它們都嚴重依賴預訓練單目深度估計器進行幾何推理,在3D空間引入顯著噪聲和不一致性。相比之下,MoVieS直接在共享世界坐標系中估計3D點位置,實現更準確魯棒的3D跟蹤,在所有數據集上均取得最優或具有競爭力的性能。

消融與分析
相機條件注入
我們在靜態預訓練階段研究不同相機條件注入策略。下表4定量對比表明:相機token貫穿特征主干網絡注入可實現有效的相機感知建模;而Plücker嵌入單獨使用時條件有限,效果與無相機信息相當。但作為像素對齊表示,Plücker嵌入與相機token互補,二者組合產生最有效的相機條件。

運動監督
為學習動態場景中物體的3D運動,本文提供兩種運動監督(式4):
- 逐點L1損失;
- 分布損失。
下表5通過3D點跟蹤任務評估其有效性。無任何運動監督時(僅從新視角合成學習),訓練出現嚴重損失振蕩和頻繁梯度消失。分布損失僅捕捉像素間相對運動,而逐點L1損失產生更合理的運動圖。二者結合可獲得更清晰邊界。圖4展示不同運動目標下估計運動的定性結果。

運動與視角合成的協同效應
得益于MoVieS的統一設計,它支持同步新視角合成(NVS)和運動估計。表6研究二者的相互促進:"NVS w/o motion"在訓練中禁用顯式運動監督,僅依賴NVS作為動態學習的代理。如下表6和圖4所示,該設置無法學習有效運動且傾向于建模靜態場景。"Motion w/o NVS"將運動頭與3DGS渲染解耦,改為讓深度頭以時間為條件。雖然顯式監督能實現部分運動學習,但預測模糊低質(下圖4)。此外,深度頭需同時建模幾何和動態,增加其負擔并對NVS產生負面影響。這些結果凸顯了MoVieS中NVS與運動估計的相互增強——聯合訓練可使二者性能共同提升。


零樣本應用
場景流估計
通過將估計的逐像素運動向量從世界坐標系轉換到目標相機坐標系,可自然導出場景流。下圖5(a)的可視化結果展示了清晰的邊緣和準確的運動方向,更多結果見圖8。


運動目標分割
通過對逐像素運動向量模長設定閾值,估計的運動圖可用于分割運動物體(圖5(b))。值得注意的是,該方法無需任何顯式的掩碼監督,展現了我們方法的強大潛力。更多結果見下圖9。

結論
MoVieS——一個用于從單目視頻合成動態新視角的前饋模型。通過在大規模多樣化數據集上訓練,該模型以統一高效的網絡聯合建模了場景外觀、幾何和運動。提出的動態濺射像素表示實現了精確且時序一致的4D重建。除新視角合成外,MoVieS還支持深度估計、3D點跟蹤、場景流估計和運動目標分割等多種應用,展現了其在動態場景感知中的通用性。我們希望這項工作能推動通用動態場景理解的發展,并為需要空間和運動智能的應用提供支持。
本文轉自AI生成未來 ,作者:AI生成未來

















