僅需0.7秒單圖像實時3D重建,開源擴散模型
單圖像3D重建,即從單一視角的二維圖像中恢復出三維物體的形狀和結構,是計算機視覺領域的一項基礎且極具挑戰(zhàn)的難題。
學術界和工業(yè)界主要探索了兩種不同的技術路線:基于回歸的建模方法和生成式建模方法。基于回歸的方法能夠高效地推斷出可見表面,但在處理遮擋區(qū)域時卻力不從心,常常導致表面和紋理估計不準確。
而生成式方法雖然通過建模分布更好地處理了不確定性區(qū)域,卻存在計算成本高昂、生成結果與可見表面對齊不佳等問題。
著名開源大模型平臺Stability-AI開源了一個創(chuàng)新模型SPAR3D,通過融合上面兩種傳統(tǒng)的方法同時規(guī)避局限性,僅需0.7秒就能將單圖實時完成3D重建。

開源地址:https://github.com/Stability-AI/stable-point-aware-3d
Huggingface:https://huggingface.co/stabilityai/stable-point-aware-3d
SPAR3D的架構一共使用了點采樣和網(wǎng)格化兩大階段:點采樣階段的核心是點擴散模型,它能夠根據(jù)輸入圖像生成包含XYZ坐標和RGB顏色信息的稀疏點云。該階段基于DDPM框架,包含正向過程和反向過程。正向過程向原始點云添加高斯噪聲,而反向過程中的去噪器則學習如何從含噪點云中恢復出噪聲。
在推理時,采用DDIM采樣器生成點云樣本,并借助分類器自由引導(CFG)來提升采樣保真度。去噪器的設計采用了類似Point-E的Transformer架構,將含噪點云線性映射為點標記,同時利用DINOv2編碼輸入圖像作為條件標記,然后將條件標記和點標記拼接起來輸入到Transformer中,以預測每個點上添加的噪聲。
此外,為了降低網(wǎng)格化階段逆渲染的不確定性,該階段還直接生成了反照率點云,作為網(wǎng)格化階段的輸入,從而減少了逆渲染的歧義,穩(wěn)定了分解學習過程。

網(wǎng)格化階段的目標是從輸入圖像和點云中生成帶有紋理的網(wǎng)格。其骨干網(wǎng)絡是一個大型的三平面Transformer,能夠從圖像和點云條件中預測三平面特征。基于三平面特征,可以估計出物體的幾何形狀、紋理和照明,以及從圖像特征中估計金屬度和粗糙度。
幾何形狀和材質在訓練過程中輸入到可微渲染器中,以便利用渲染損失來監(jiān)督模型。三平面Transformer由點云編碼器、圖像編碼器和Transformer主干網(wǎng)絡三個子模塊組成。點云編碼器使用簡單的Transformer編碼器將點云編碼為點標記,圖像編碼器則采用DINOv2生成局部圖像嵌入。
三平面Transformer遵循PointInfinity和SF3D的設計,通過計算分離的雙流設計生成高分辨率的三平面。在表面估計方面,通過淺層MLP查詢三平面以產(chǎn)生密度值,并利用可微Marching Tetrahedron(DMTet)將隱式密度場轉換為顯式表面。
同時,還使用兩個MLP頭一起預測頂點偏移和表面法線,以減少Marching Tetrahedron引入的偽影,使表面更加平滑。對于材質和照明估計,執(zhí)行逆渲染并聯(lián)合估計材質(反照率、金屬度和粗糙度)和照明。

基于RENI++的學習型照明先驗構建照明估計器,通過學習編碼器將三平面特征映射到RENI++的潛在空間中,從而估計輸入圖像中的環(huán)境照明。反照率的估計方式與幾何形狀類似,通過淺層MLP預測每個3D位置的反照率值。
對于金屬度和粗糙度,則采用概率方法通過Beta先驗進行估計,并用AlphaCLIP替換SF3D中的CLIP編碼器,以解決物體大小變化時的不穩(wěn)定性問題。可微渲染器根據(jù)預測的環(huán)境圖、PBR材質和幾何表面渲染圖像。使用可微網(wǎng)格光柵化器和可微著色器,著色器中采用標準的簡化Disney PBR模型,并進行蒙特卡洛積分。
此外,為了更好地模擬通常被忽略的自遮擋現(xiàn)象,實現(xiàn)了可見性測試以改進陰影建模,靈感來源于實時圖形技術,將可見性測試作為屏幕空間方法,利用光柵化器生成的深度圖進行建模。
為了評估SPAR3D的性能,研究人員在GSO和Omniobject3D數(shù)據(jù)集上進行了實驗。結果顯示,SPAR3D在多個評估指標上都顯著優(yōu)于其他回歸或生成式基線方法。例如,在GSO數(shù)據(jù)集上,SPAR3D的CD值為0.120,F(xiàn)S@0.1為0.584,PSNR為18.6,LPIPS為0.139,而其他方法如Shap-E、LN3Diff、LGM等的相應指標均不如SPAR3D。

在OmniObject3D數(shù)據(jù)集上,SPAR3D同樣展現(xiàn)出優(yōu)異的性能,CD值為0.122,F(xiàn)S@0.1為0.587,PSNR為17.9,LPIPS為0.140。這些定量比較結果充分證明了SPAR3D在幾何形狀和紋理質量方面的卓越性能。


































