NeurIPS 2025 Spotlight | GeoSVR:稀疏體素的新潛力——超越3DGS系列的高精度三維表面重建
在計算機視覺與圖形學中,表面重建是一個長期未解的難題:給定一組多視角圖像,能否重建出高精度、幾何清晰、細節豐富的 3D 模型?
近年來,NeRF、SDF 與 3D Gaussian Splatting 等方法大放異彩,讓 AI 能從圖像中恢復出三維世界。但隨著相關技術路線的發展與完善,瓶頸問題也隨之浮現:
- 初始化依賴:3DGS 高效,但強烈依賴高精度和覆蓋度的點云初始化,點云缺陷會直接傳遞為幾何誤差與細節缺失。
- 模糊邊界:高斯基元天生邊界并不銳利,難以保證幾何表面的清晰性與一致性。
- 外部先驗難以融合:單目深度、法線等外部幾何線索雖有幫助,但若不加選擇地引入,往往將會受害于其中的不可避免的錯誤估計,破壞原本準確的幾何。
于是一個問題被拋出:有沒有一條新路徑,不依賴復雜初始化,也能在保持效率的同時,實現真正精確、完整的表面重建?
北京航空航天大學百曉團隊、Rawmantic AI、麥考瑞大學、RIKEN AIP 與東京大學的團隊給出了他們的答案:GeoSVR (Geometric Sparse Voxel Reconstruction) —— 一種全新的顯式幾何優化框架,探究稀疏體素的潛力,在幾何準確性、細節捕捉和完整性上全面超越現有方法。
目前,該論文已被 NeurIPS 2025 接收為 Spotlight,項目代碼已開源。
本文第一作者為李嘉禾為北京航空航天大學計算機學院博士研究生,目前于新加坡國立大學進行訪問,主要研究方向為計算機三維視覺。通訊作者為北京航空航天大學計算機學院百曉教授和鄭錦副教授。

- 論文鏈接:https://arxiv.org/abs/2509.18090
- 項目主頁:fictionarry.github.io/GeoSVR-project/
- 代碼倉庫:https://github.com/Fictionarry/GeoSVR
方法核心:馴服稀疏體素的兩大設計

圖 1 GeoSVR 方法流程
GeoSVR 在稀疏體素表達 SVRaster 的基礎上,圍繞幾何約束與表面正則化提出了系統化設計,使體素能夠在保證效率的同時,生成幾何精確的表面。
1. 體素不確定性深度約束 (Voxel-Uncertainty Depth Constraint)
- 挑戰:稀疏體素在沒有幾何先驗時,容易出現局部表面錯誤;而外部深度信號(如單目深度估計)又往往帶有噪聲,若直接施加監督,可能導致幾何結構進一步劣化。
- 核心思路:GeoSVR 在引入深度約束之前,首先對具有清晰幾何意義和三維邊界的體素進行幾何可靠性建模。即:先估計體素的不確定性,再細粒度地決定監督強度。
——不確定性建模:受不確定性和體素層級的緊密耦合的啟發,GeoSVR 抽象出一種層級感知的幾何不確定性,其與體素八叉樹的層級明確相關,表明具有關鍵幾何形狀的低層級體素會導致更高的不確定性。
——深度約束加權:將外部深度損失與不確定性結合。
——效果:在幾何歧義處借助外部信號校正,而在可信區域保持體素自身學習,避免過擬合噪聲。
因此,體素不確定性深度約束能夠盡量減少對低不確定性體素的關注,以確保原有光度約束的可信度,同時增強對高不確定性體素的關注,使其依賴外部線索來解決幾何歧義性問題,以實現穩定、可靠的選擇性場景約束施加。
值得注意的是,該不確定性推導與思想也可能為其他相關方法提供技術啟發,具體過程可見論文原文。

圖 2 體素不確定性深度約束效果
2. 稀疏體素表面正則化 (Sparse Voxel Surface Regularization)
- 挑戰:稀疏體素的表達天然是離散的,每個體素只作用于局部區域。如果缺乏約束,容易導致:
——局部過擬合,產生碎片化表面;
——渲染表面與真實幾何不對齊,形成不準確的表面;
——大型體素主導幾何表達幾何,帶來失真。
- 解決方案:GeoSVR 提出了三種互補的正則化策略:
1)體素暫退——在進行傳統 patch-warping 正則化時,隨機丟棄一部分體素,僅保留子集參與訓練?!仁鼓P屠酶俚捏w素保持全局一致性,從而減少冗余表達,避免優化過程陷入局部最小值。
2)表面修正——在渲染過程中顯式檢測射線與體素交界點,強制渲染表面與體素密度邊界對齊?!獙缀伪砻媾c顯示體素分布進行錨定,減少不確定的表面形成、從而得到更銳利、準確的幾何邊緣。
圖 3 表面修正說明及效果
3)體素尺度懲罰——為體素尺度引入正則項,抑制過大體素對幾何的錯誤主導?!箮缀伪磉_更加細粒度,避免大體素占據并「抹平」局部結構。
通過全局一致性約束、表面修正與尺度懲罰,GeoSVR 在全局性的場景約束下得到的幾何結構上,進一步進行表面細化,有效提升了所重建表面的幾何精度、銳度與優化穩定性。
實驗結果:精準、完整、高效
GeoSVR 在多個主流數據集上全面超越現有方法:
1. DTU 數據集
- Chamfer 距離顯著超越以往 SOTA 方法,幾何精度領先,重建效果逼真;
- 訓練僅需 0.8 小時,遠快于先前 SOTA 方法 Geo-NeuS 等隱式方法的 >12 小時。


2. Tanks and Temples 數據集
- GeoSVR 以 0.56 的 F1-score 成為目前最高精度方法;
- 在復雜建筑與低紋理區域保持穩定重建。



3. Mip-NeRF 360 數據集
- 在新視角合成上保持與 3DGS 相當的高保真度;
- 同時提供更為精確、完整與細致的幾何結構重建。


實驗表明,GeoSVR 取得的重建效果:更準,幾何精度顯著提升;更全,細節與完整性優于現有方法;更快,效率媲美 3DGS,遠超隱式表達系列的工作。
意義與展望
GeoSVR 展示了一個新的可能,在 SDF 與 3DGS 以外,稀疏體素也能支撐高質量表面重建,并通過顯式不確定性約束建模與正則化設計,兼顧精度、完整性與效率。這一技術為機器人感知、自動駕駛、數字孿生、虛擬現實等應用提供了三維環境構建及數字資產支持。
未來,進一步增加場景重建規模與復雜光路條件的支持,將是該方向的重要研究路徑。





































