4D生成爆款來了!南洋理工&上海AI Lab發布4DNeX: 單圖生成4D動態世界,效率碾壓

論文鏈接:https://arxiv.org/pdf/2508.13154項目鏈接:https://4dnex.github.io/

亮點直擊
- 4DNeX,首個用于圖像到 4D 生成的前饋框架,能夠從單張圖像生成動態點云;
- 構建了4DNeX-10M,一個具有高質量 4D 標注的大規模數據集;
- 引入了一套簡單但有效的微調策略,用于將預訓練的視頻擴散模型適配到 4D 生成任務中。

總結速覽
解決的問題
現有的 4D(動態 3D)場景生成方法普遍依賴計算密集型的優化過程或多幀視頻輸入,導致效率低、泛化能力差,且難以從單張圖像生成高質量的動態場景表示。與此同時,4D 數據的稀缺也限制了模型的訓練與應用。
提出的方案
本文提出了4DNeX,這是首個能夠從單張圖像生成動態 3D 場景的前饋式框架。該方法通過微調預訓練的視頻擴散模型,實現高效的圖像到 4D 的端到端生成流程,無需復雜優化或多幀輸入。
應用的技術
- 4DNeX-10M 數據集:構建了一個包含高質量 4D 標注的大規模數據集,用于支持模型訓練;
- 統一的 6D 視頻表示:將 RGB(外觀)與 XYZ(幾何)序列聯合建模,促進結構化學習;
- 適配策略:設計了一套簡單有效的微調方法,將預訓練的視頻擴散模型重構為適用于 4D 生成任務的模型。
達到的效果
- 實現了從單張圖像生成高質量動態點云的能力;
- 支持新視角的視頻合成,具備良好的可擴展性;
- 在效率與泛化能力方面超越現有 4D 生成方法;
- 為生成式 4D 世界模型的研究與應用奠定了基礎,可模擬動態場景的演化過程。
4DNEX-10M
為了解決 4D 生成建模中的數據稀缺問題,引入了4DNeX-10M,這是一個專為訓練前饋式 4D 生成模型設計的大規模混合數據集。該數據集聚合了來自公共來源和內部流程的視頻,涵蓋靜態和動態場景。所有數據都經過嚴格的篩選、偽標注和質量評估,以確保幾何一致性、運動多樣性和視覺真實感。如下圖 2 所示,本文提出的數據集包含高度多樣化的場景,包括室內和室外環境、遠景和近景、高速場景、靜態場景以及包含人類的情境。此外,4DNeX-10M 還涵蓋了各種光照條件和豐富的人類活動。

同時,本文提供了這些對應場景的精確 4D 點圖(pointmaps)和相機軌跡。總體而言,4DNeX-10M 包含超過 920 萬幀帶有偽標注的視頻幀。關于數據整理,如下圖 3 所示,本文使用一個包含多個階段的自動獲取與篩選流程來構建該數據集:
- 數據清洗;
- 數據描述生成;
- 3D/4D 標注。

數據預處理
4DNeX-10M 的基礎建立在多個數據集之上,每個數據集都貢獻了不同的場景特征和運動類型。
數據來源
本文從多個來源收集單目視頻。DL3DV-10K(DL3DV)和 RealEstate10K(RE10K)提供了具有多樣化相機軌跡的靜態室內和室外視頻。Pexels 數據集提供了大量以人為中心的素材視頻,并附帶輔助元數據,如運動信息、OCR 和光流。Vimeo 數據集選自 Vchitect 2.0,包含真實環境下的動態場景。來自 Vbench 的合成數據包含使用視頻擴散模型(VDM)生成的動態序列。

視頻描述生成
對于沒有文本標注的數據集(例如 DL3DV-10K 和 RE-10K),本文使用 LLaVA-Next-Video 生成描述。本文從每個視頻(或片段)中均勻采樣 32 幀,并將其輸入 LLaVA-NeXT-Video-7B-Qwen2 模型,使用提示詞:
"Please provide a concise description of the video, focusing on the main subjects and the background scenes."
對于內容一致的場景(如 DL3DV-10K、Dynamic Replica),本文為每個視頻生成一個描述。對于 RealEstate10K,本文將每個視頻拆分為多個片段并分別生成描述。
靜態數據處理
為了學習強幾何先驗,本文從 DL3DV-10K 和 RE-10K 中整理了靜態單目視頻。這些視頻覆蓋了包括住宅、街道、商店和地標在內的各種環境,并通過多樣的相機軌跡提供了豐富的多視角信息。
偽 3D 標注
由于這些數據集缺乏 3D 真值,本文使用 DUSt3R(一種立體重建模型)生成偽點圖。對于每個視頻,本文對所有視角對應用 DUSt3R 構建視圖圖(view graph),然后按照原論文的方法進行全局融合,以恢復一致的場景級 3D 結構。
質量篩選
為了確保高質量的標注,本文使用 DUSt3R 的置信圖定義了兩個指標:1)平均置信值(MCV),即在所有幀上對像素級置信分數取平均;2)高置信像素比例(HCPR),表示超過閾值 的像素所占比例。
本文針對每個指標選取排名前r%的片段,最終保留超過 10 萬個高質量的 28 幀片段,用于靜態訓練,這些片段具有可靠的偽點圖標注。
動態數據處理
為了豐富 4DNeX-10M 的動態內容,本文從 Pexels、VDM 和 Vimeo 收集了單目視頻。這些數據集包含具有運動和深度變化的多樣化真實場景,但缺乏幾何真值。
偽 4D 標注 本文使用 MonST3R 和 MegaSaM 這兩種先進的動態重建模型生成偽 4D 標注。這些模型能夠從單目視頻中恢復時間一致的三維點云和全局對齊的相機位姿,從而構建隨時間變化的場景表示。
多階段篩選 為了篩選高質量片段,本文采用了三階段的連續篩選策略:首先,在全局融合階段使用最終對齊損失(alignment loss),該損失反映了多視角一致性以及與 RAFT 光流的一致性,用于剔除重建質量較差的結果;其次,本文通過分析相機平移中的逐幀速度與加速度來評估相機平滑度(Camera Smoothness, CS),并估算局部軌跡曲率,計算方法如下:

保留平均速度、加速度和曲率較低的片段。第三步,本文應用與靜態流程中相同的平均置信值(MCV)和高置信像素比例(HCPR)指標。
經過篩選后,本文保留了約 32K 個來自 MonST3R 處理的數據片段,5K 個來自 VDM,27K 個來自 Pexels,以及超過 80K 個來自 MegaSaM 處理的數據片段。總計超過 110K 個高質量片段,具備偽 4D 標注,支持在廣泛運動與外觀變化條件下對動態 3D 場景進行穩健建模。
4DNeX
問題定義


融合策略
為了對視頻擴散模型進行微調,使其能夠聯合生成 RGB 和 XYZ,一個關鍵挑戰是設計出一種有效的融合策略,使模型能夠利用兩種模態。本文的目標是通過簡單而有效的融合設計,利用預訓練模型的強先驗。受到已有工作的啟發,隱空間變量拼接是一種廣泛采用的聯合建模技術。本文系統性地在不同維度上探索融合策略,如下圖 4 所示。

通道維度融合(Channel-wise Fusion) 一種直接的方法是沿通道維度拼接 RGB 和 XYZ,然后插入一個線性層(a.i)或模態切換器(a.ii)來適配輸入和輸出格式。然而,這種策略會破壞預訓練模型所期望的輸入和輸出分布,從而削弱預訓練的優勢。通常需要大規模數據和大量計算資源才能獲得令人滿意的性能。
批次維度融合(Batch-wise Fusion) 為了保持預訓練分布,該策略將 RGB 和 XYZ 視為獨立樣本,并使用切換器控制輸出模態(b.i)。雖然它保留了單模態性能,但未能建立跨模態對齊。即使加入額外的跨域注意力層(b.ii),兩種模態之間的相關性仍然較差。
幀/高度/寬度維度融合(Frame-/Height-/Width-wise Fusion) 這些策略分別沿幀(c)、高度(d)或寬度(e)維度拼接 RGB 和 XYZ,在保留預訓練模型分布的同時,在單個樣本中實現了跨模態交互。本文從 token 交互距離的角度對它們進行分析。直觀上,對應 token 之間的交互距離越短,模型越容易學習跨模態對齊。如下圖 5 所示,寬度維度融合具有最短的交互距離,從而實現更有效的對齊和更高的生成質量,這一點在本文的實驗中得到了驗證。

網絡架構




這鼓勵模型在生成過程中優化初始幾何結構。

該優化在計算上是高效的,并且可以在不同視角之間并行處理,從而生成物理上合理且幾何上一致的相機位姿和深度圖估計。
實驗
設置
基線方法。 按照 Liu 等人(2025)的方法,將本文的方法與現有的 4D 生成方法進行比較,這些方法可以分為兩類:text-to-4D 和 image-to-4D 方法。對于 text-to-4D,與該類別中的最新方法 4Real進行比較。對于 image-to-4D,與最新的 Free4D、前饋方法 GenXD 以及基于對象的方法 Animate124進行基準測試。對于 text-to-4D 方法,首先從輸入文本提示生成圖像,然后將其轉換為 image-to-4D 設置。為了保證公平性,在評估過程中對所有方法使用相同的單張圖像或文本提示。
數據集與指標。 在從對比方法的官方項目頁面收集的一組圖像和文本上進行評估。為了評估生成的新視角視頻的質量,本文報告標準的 VBench 指標,包括一致性(在主體和背景上取平均)、動態程度和美學評分。鑒于缺乏成熟的 4D 生成基準,本文進一步進行了包含 23 名評估者的用戶研究,以增強評估的可靠性。

為了生成新視角視頻,首先使用本文的前饋模型生成場景的 4D 點云表示,然后使用 YU 等人(2025)的方法進行渲染。
主要結果
4D幾何生成。 如下圖 7 所示,可視化了從單張圖像生成的 RGB 和 XYZ 視頻對。結果表明,本文的方法可以同時從單張圖像中推斷出合理的場景運動和相應的 4D 幾何。這種高質量的動態場景幾何表示對于后續渲染階段中新視角合成的一致性和真實感至關重要。

新視角視頻生成。 在 VBench 上的定量結果如下表 1 所示。本文的方法在性能上可與當前最先進的方法相媲美,尤其在動態程度(Dynamic Degree)方面顯著優于其他方法。
Free4D受益于 Kling Team專有的圖像動畫模型,因此在美學評分上更高。定性比較如下圖 9 所示,本文結果在場景動態性方面表現得更顯著且連貫,尤其是在相機運動的情況下。此外,用戶研究結果(下表 2)顯示,在一致性、動態性和美學方面,本文方法在大多數情況下均優于其他基線。盡管結果與 Free4D 相當,但需要注意的是,評估是在 Free4D 的測試集上進行的,該測試集主要以以物體為中心的場景為主。相比之下,本文的方法在更為多樣、真實環境中的泛化能力更強,如下圖 8 所示。此外,本文的方法是前饋式的,效率極高,能夠在 15 分鐘內生成一個動態 4D 場景。相比之下,Free4D 依賴于耗時的處理流程,通常需要超過一小時才能生成結果。



消融實驗與分析
為了驗證本文所采用的寬度方向融合策略的有效性,并支持前文中的分析,本文進行了一個消融實驗,對比了五種不同的融合設計,如下圖 10 所示。其中,通道方向融合(channel-wise fusion)與預訓練先驗之間引入了嚴重的分布不匹配,常導致預測結果出現噪聲或失敗(a.i-a.ii)。批次方向融合(batch-wise fusion)雖然保留了單模態質量,但未能捕捉模態間的對齊關系,導致 RGB-XYZ 相關性不一致(b.i-b.ii)。幀方向(c)和高度方向(d)策略帶來了中等程度的改進,但仍存在對齊不佳和視覺質量不足的問題。相比之下,本文的寬度方向融合(width-wise fusion)將對應的 RGB 和 XYZ token 在序列中距離拉近,顯著縮短了跨模態交互距離。這促進了更有效的對齊,并在幀間生成更清晰、更一致的幾何與外觀,如下圖 10(e)所示。

結論
4DNeX,首個可從單張圖像生成 4D 場景表示的前饋框架。本文方法通過微調預訓練的視頻擴散模型,實現了高效的圖像到 4D 的生成。為了解決訓練數據稀缺的問題,構建了 4DNeX-10M,這是一個具有高質量偽 4D 注釋的大規模數據集。此外提出了一種統一的 6D 視頻表示,同時建模外觀與幾何,并引入了一組簡單而有效的適配策略,用于將視頻擴散模型重定向至 4D 生成任務。大量實驗表明,4DNeX 能夠生成高質量的動態點云,為新視角視頻合成提供可靠的幾何基礎。生成的視頻在與現有方法競爭的同時,還具備更高的效率和更強的泛化能力。本文希望本工作能為可擴展且易于訪問的單圖像生成式 4D 世界建模開辟道路。
局限性與未來工作
盡管 4DNeX 在單圖像 4D 生成方面展示了有前景的結果,但仍存在若干局限性。首先,本文的方法依賴偽 4D 注釋進行監督,這可能會引入噪聲或不一致性,尤其是在細粒度幾何或長期時間一致性方面。引入高質量的真實世界或合成數據集對于通用 4D 建模將是有益的。其次,盡管基于圖像驅動的生成結果具有 4D 基礎,但在光照、細粒度運動和物理屬性方面的可控性仍然不足。第三,盡管統一的 6D 表示有效,但其假設輸入圖像相對干凈,在存在遮擋、極端光照條件或背景雜亂的情況下可能性能下降。未來的工作包括通過顯式的世界先驗改進時間建模、在可能的情況下引入真實世界的 4D 真值數據,以及擴展本文的框架以處理多物體或交互式場景。此外,整合文本或音頻等多模態輸入可能進一步增強可控性和場景多樣性。
本文轉自AI生成未來 ,作者:AI生成未來

















