Meta「分割一切」進入3D時代!圖像分割結果直出3D,有遮擋也能復原
Meta的“分割一切”,這回給3D建模帶來了新的范式——
現在,圖像分割得到的切片,可以直接轉換成3D模型了。
只要一張圖,就能對里面的每個物體進行單獨重建,有遮擋也不用怕。
這就是Meta MSL實驗室剛剛發布的三維重建模型SAM 3D。
圖片
與此同時,MSL實驗室之前投稿ICLR 2026的分割模型SAM 3,也終于露出了真容。
圖片
之前SAM 3就在一般圖像分割的基礎上增強了語義理解,論文一公布就備受關注。
現在又上新SAM 3D,許久不見出成果的Meta AI,總算是打出了一組王炸。
分割結果生成3D模型
SAM 3D家族包含兩個新模型——SAM 3D Objects,用于物體和場景重建;以及SAM 3D Body,專注于人體,這兩個模型均能夠將靜態2D圖像轉換為精細的3D重建模型。
SAM 3D Objects能夠從單張自然圖像中實現基于視覺的3D重建和物體姿態估計。
圖片
即使存在小物體、間接視角和遮擋現象等障礙,依然可以進行重建,彌補了僅憑像素不足以完成重建的不足。
圖片
SAM 3D Objects的性能顯著優于現有方法,能夠很好地泛化到多種類型的圖像,并支持密集場景重建。
在與人類用戶進行的直接對比測試中,其勝率至少達到其他領先模型的5倍。
圖片
類似地,SAM 3D Body在涉及不尋常姿態、圖像部分被遮擋或多人等復雜情況下也依然能對人物進行建模。
圖片
相比其他人物重建模型,SAM 3D Body同樣取得了SOTA成績。
圖片
接下來用一段VCR來感受下SAM 3D家族兩款模型的效果:

同時,Meta還與藝術家合作構建了SAM 3D藝術家物體數據集SA-3DAO,用于評估基于視覺的物理世界圖像三維重建能力。
不只分割,還更懂語義
再來看SAM 3。
傳統模型通常專注于使用固定的文本標簽集進行對象分割,這限制了它們處理用戶請求的能力,因為用戶請求往往涉及分割預定義列表中不存在的概念。
這意味著現有模型可以分割像“人”這樣常見的概念,但難以處理像“紅色條紋傘”這樣更細微的概念。
SAM 3則通過引入可提示概念分割功能克服了這些局限。
它能夠查找并分割由文本或示例提示定義的概念的所有物體,消除了固定標簽集的限制。
圖片
你可以直接通過文本指令,讓SAM 3從圖像中找到符合描述的物體。
圖片
也可以處理稍復雜的提升,例如輸入“條紋貓”,SAM 3自己就能找出并分割圖中所有帶條紋的貓貓。
圖片
除了文本,還可以直接在圖中選中某個物體,讓SAM 3找到所有同類。
圖片
更多效果,請看VCR:

為了評估大詞匯量檢測和分割性能,Meta還創建了“基于概念的任意分割”(SA-Co)基準測試,用于圖像和視頻中的可提示概念分割。
與之前的基準測試相比,SA-Co要求模型識別更大的概念詞匯量。
圖片
實驗結果表明,SAM 3在可提示分割任務中刷新了SOTA。
在LVIS數據集的零樣本分割任務中,SAM 3的準確率達到了47.0,比此前的SOTA 38.5提升不少。
在新的SA-Co基準測試中,SAM 3的表現至少比基線方法強2倍。
圖片
另外,在針對視頻的PVS(Promptable Visual Segmentation)任務中,SAM 3的性能也優于SAM 2。
圖片
SAM如何實現?
SAM 3的核心架構建立在一個共享的Perception Encoder視覺骨干網絡之上。
圖片
該骨干網絡同時服務于檢測器和追蹤器兩個模塊,確保了圖像特征提取的一致性與高效性。
其檢測器部分基于DETR架構進行了改進,引入了包含文本提示和圖像示例的提示Token。
這些Token與圖像特征在融合編碼器中通過交叉注意力機制進行交互,隨后輸入到解碼器中生成對象查詢。
為了解決開放詞匯檢測中常見的幻覺問題(即模型在目標不存在時仍強制預測出物體),SAM 3創新性地設計了一個Presence Head來解耦識別與定位任務。
該模塊引入了一個可學習的全局存在Token,專門負責預測目標概念在當前圖像中出現的概率,而原本的對象查詢則專注于在假設目標存在的前提下計算局部匹配概率,最終的置信度得分為兩者的乘積。
在視頻處理方面,SAM 3繼承并擴展了SAM 2的記憶機制,即通過追蹤器利用記憶庫存儲過去幀的空間特征,將上一幀的掩碼傳播到當前幀。
為了處理新出現的物體,系統使用一種匹配函數,基于IoU等指標將追蹤器預測的掩碼與檢測器在當前幀新發現的對象進行關聯和更新,從而實現跨幀的身份保持與新目標的自動捕獲。
圖片
SAM 3D Objects的核心則是通過兩階段的生成模型來實現幾何與紋理的逐步構建。
首先,系統使用DINOv2編碼器分別提取裁剪后的物體特征和全圖上下文特征作為條件輸入。
第一階段的幾何模型采用了一個參數量達12億的流匹配Transformer,并結合了Mixture-of-Transformers(MoT)架構,主要用于預測物體的粗糙體素形狀以及其在相機坐標系下的旋轉、平移和縮放等6D布局參數。
當粗糙的幾何結構確定后,第二階段的紋理與精細化模型接手工作。
該模型基于稀疏潛在流匹配架構,僅從第一階段預測的粗糙形狀中提取活躍體素進行處理。
這種稀疏化處理極大地提高了計算效率,它可以細化幾何細節并合成高保真的物體紋理,最終通過一對VAE解碼器將潛在表示解碼為網格(Mesh)或3D高斯濺射以適應不同的渲染需求。
圖片
為了支撐這一生成過程,Meta構建了一個獨特的model-in-the-loop(MITL)數據引擎。
由于人類難以直接標注3D形狀,該引擎讓模型生成多個3D候選結果,利用Best-of-N搜索策略由人類標注員從8個候選中選擇最佳匹配項。
然后,基于點云參考對齊物體在場景中的位姿,從而低成本地獲取了大規模且精準的圖像-3D配對數據。
圖片
針對人體結構的SAM 3D Body模型,其核心在于摒棄了傳統的Skinned Multi-Person Linear模型,轉而采用Momentum Human Rig表示法。
這種表示法將骨骼姿態與身體形狀參數顯式解耦,避免了傳統模型中骨肉粘連導致的調整失真問題。
在模型架構上,SAM 3D Body采用了一種可提示的編碼器-解碼器設計,支持輸入二維關鍵點或掩碼作為提示Token,與圖像特征一起指導推理過程。
為了解決全身模型往往難以兼顧手部細節的痛點,SAM 3D Body設計了獨特的雙路解碼器結構。
雖然身體和手部共享同一個圖像編碼器,但在解碼階段分流——
- 身體解碼器利用全局特征和Momentum Human Rig Token預測全身的姿態、形狀及相機參數;
- 手部解碼器則專門關注手部裁剪圖像的特征,利用交叉注意力機制處理手部細節。
圖片
這種設計通過在Token層面融合全身與手部信息,使得模型既能通過身體解碼器輸出連貫的全身網格,又能利用手部解碼器的輸出來修正末端細節。
網友評價其精妙之處在于它并非憑空臆造幾何圖形,而是像人類一樣,利用日常經驗推斷幾何形狀,這意味著混合場景理解從此普及開來,是真正意義上的基礎模型具身化。
圖片
現在,成為開發者的最好時機已經來臨了。
圖片
項目主頁
SAM 3:https://ai.meta.com/sam3
SAM 3D:https://ai.meta.com/sam3d
GitHub
SAM 3:https://github.com/facebookresearch/sam3
SAM 3D Objects:https://github.com/facebookresearch/sam-3d-objects
SAM 3D Body:https://github.com/facebookresearch/sam-3d-body
論文地址
SAM 3:https://ai.meta.com/research/publications/sam-3-segment-anything-with-concepts/
SAM 3D Objects:https://ai.meta.com/research/publications/sam-3d-3dfy-anything-in-images/
SAM 3D Body:https://ai.meta.com/research/publications/sam-3d-body-robust-full-body-human-mesh-recovery/




























