3D視覺被過度設計?字節Depth Anything 3來了,謝賽寧點贊
這項研究證明了,如今大多數 3D 視覺研究都存在過度設計的問題。
本周五,AI 社區最熱門的話題是一篇新論文,有關 3D 建模的。

經過一年多的探索,來自字節跳動的團隊推出了 Depth Anything 3(DA3),將單目深度估計擴展到了任何視角場景,讓計算機實現了媲美人類的空間感知。

- 論文:https://arxiv.org/abs/2511.10647
- 項目頁面:https://depth-anything-3.github.io
- 代碼:https://github.com/ByteDance-Seed/Depth-Anything-3
- Hugging face Demo: https://huggingface.co/spaces/depth-anything/depth-anything-3
為了追求最小建模,DA3 的工作獲得了兩個關鍵見解:
- 搞 3D 視覺,一個普通的 Transformer(如標準的 DINO)就夠了,不需要專門的架構。
- 只需單一深度射線表示即可,無需復雜的 3D 任務。
就是這樣的方法,在姿態估計方面比當前業界最先進的方法 (SOTA) 提升了 44%,在幾何估計方面提升了 25%。
原來 3D 視覺竟然這么簡單?
紐約大學計算機科學助理教授、知名 AI 學者謝賽寧表示,論文有點像電影:第一部通常是最好的,續集往往更復雜卻并不更精彩。但這完全不適用于 DepthAnything 系列。 Bingyikang 的團隊每次都能讓事情變得更簡單、更易于擴展。

謝賽寧感嘆道,「在 Depth Anything 3 上,作者基本上表明,一個強大的表示編碼器加上一個深度光線預測目標就足以在很多任務中獲得可靠的、通用的空間感知(可以看到 RAE 的影子)。」
「人們常說他們討厭計算機視覺,因為它太復雜 —— 任務太多、數據類型太多、涉及的環節太多。但這恰恰是我喜歡它的原因。我認為人工智能最大的突破將悄然來自視覺領域,然后突然間超越其他所有領域,徹底改變 AI 與現實世界,以及我們人類的互動方式。」
「我們很快就會意識到,視覺并非一系列任務的羅列 —— 它是一種視角。這種視角關乎對連續感官數據進行建模,構建世界的分層表征,并逐步邁向類人智能。說實話,在所有炒作的背后,我們每天都在見證著這一切的發生,所有這些不同的『任務』正慢慢地開始融合。」
概述
Depth Anything 3 (DA3) 是一種能夠根據任意數量的視覺輸入預測空間一致幾何形狀的模型,無論是否已知相機位姿。為了實現最小化建模,DA3 帶來了兩個關鍵發現:僅需一個簡單的 Transformer 架構(例如,原始的 DINOv2 編碼器)即可作為骨干網絡,無需進行架構上的特殊設計;單一的深度光線預測目標也能避免復雜的多任務學習。
Depth Anything 3 目前已發布三個系列:主 DA3 系列、單目測量估計系列和單目深度估計系列。
在方法上,Depth Anything 3 將幾何重建目標建模為一個密集預測任務。對于給定的 N 張輸入圖像,該模型經過訓練,可以輸出 N 個對應的深度圖和光線圖,每個深度圖和光線圖都與其對應的輸入圖像像素對齊。實現這一目標的架構以標準的預訓練視覺 Transformer 作為骨干網絡,充分利用其特征提取能力。
為了處理任意數量的視圖,作者引入了一個關鍵的改進:輸入自適應的跨視圖自注意力機制。該模塊在前向傳播過程中,會在選定的層中動態地重新排列 token,從而實現跨視圖的高效信息交換。對于最終的預測,作者提出了一種新的雙 DPT 頭,它通過處理同一組具有不同融合參數的特征,聯合輸出深度值和光線值。為了增強靈活性,該模型可以通過一個簡單的相機編碼器選擇性地整合已知的相機姿態,使其能夠適應各種實際場景。這種整體設計形成了一個簡潔且可擴展的架構,并直接繼承了其預訓練骨干網絡的擴展特性。
在訓練上,Depth Anything 3 模型采用了師生范式,以統一各種不同的訓練數據。數據源包括多種格式,例如真實世界的深度相機捕獲數據、3D 重建數據以及合成數據。
其中真實世界的深度數據質量可能較差。為了解決這個問題,作者采用了一種受先前工作啟發的偽標注策略,使用合成數據訓練一個強大的單目深度模型,從而為所有真實世界數據生成密集、高質量的偽深度圖。事實證明,這種方法非常有效,在不犧牲幾何精度的前提下,顯著提高了標簽的細節和完整性。
為了更好地評估模型并跟蹤該領域的進展,作者還建立了一個新的視覺幾何基準,涵蓋相機姿態估計、任意視圖幾何(TSDF 重建)和視覺渲染。
DA3 在所有 10 項任務中都取得了新的 SOTA 成績,在相機姿態精度方面比之前的 SOTA VGGT 平均提高了 35.7%,在幾何精度方面提高了 23.6%。它在單目深度估計方面優于 Deepth Anything V2,同時在細節和魯棒性方面與之相當。
所有模型均完全基于公開的學術數據集進行訓練。

此外,Depth Anything 3 具備多種強大功能,進一步展示了其廣泛的應用潛力:
- 視頻重建:DA3 能夠從任意數量的視圖中恢復視覺空間,涵蓋從單視圖到多視圖的范圍。這個演示展示了 DA3 從一段復雜視頻中恢復視覺空間的能力。


- 大規模場景的 SLAM:精確的視覺幾何估計能夠提升 SLAM 的性能。定量結果表明,在大規模環境下,僅用 DA3 替換 VGGT-Long 中的 VGGT(DA3-Long)就能顯著降低漂移,其效果甚至優于需要 48 小時以上才能完成的 COLMAP。

- 前饋 3D 高斯估計:通過凍結整個主干網絡,并在多個數據集上訓練 DPT 頭部來預測 3DGS 參數,該模型實現了非常強大且具有很強泛化能力的新穎視圖合成能力。

- 基于多攝像頭的空間感知:DA3 能夠從車輛的不同視角獲取多張圖像,并估計出穩定且可融合的深度圖,從而增強自動駕駛車輛對環境的理解,研究團隊認為這在機器人領域也是可以實現的。

Depth Anything 3 發布后,已有不少開發者表示要把這個新方法引入自己的項目中,可見這種簡單高效的設計,是人們所需要的落地方向。
更多內容,可參考原技術報告。































