分割一切并不夠,還要3D重建一切,SAM 3D來了
深夜,Meta 有了重大更新,接連上線 SAM 3D、SAM 3(Segment Anything Model,SAM)。
其中,SAM 3D 是 SAM 系列的最新成員,它將人們對圖像的 3D 理解帶入通俗易懂的世界,其包含兩個模型:
- SAM 3D Objects:支持物體與場景重建
- SAM 3D Body:專注于人體形狀與姿態估計
這兩個模型都具備強大且穩定的 SOTA(業界領先)性能,能夠將靜態的 2D 圖像轉化為細致的 3D 重建結果。


SAM 3 可通過文本、示例和視覺提示,對圖像和視頻中的物體進行檢測、分割與跟蹤。


作為本次發布的一部分,Meta 同步開放了 SAM 3D、SAM 3 的模型權重與推理代碼。
此外,Meta 還推出了一個全新平臺 Segment Anything Playground,通過該平臺,用戶能輕松體驗 SAM 3D、SAM 3 的能力。
接下來,我們一一來介紹 SAM 3D、SAM 3。
SAM 3D
SAM 3D Objects:從一張靜態照片到可操控的 3D 場景對象
SAM 3D Objects 提出了一種全新的技術路徑,用于在單張自然圖像中實現穩健、真實感強的 3D 重建與物體姿態估計。它能夠從日常照片中重建物體的細致 3D 形狀、紋理和場景布局。

對于自然圖像來說,小物體、側視角、遮擋等情況十分常見,僅依賴像素往往不足以完成重建,而 SAM 3D Objects 能利用識別能力與上下文信息來彌補純視覺像素的缺失。

借助 SAM 3D Objects,用戶只需從一張圖片開始,選擇任意物體,就可以快速生成帶姿態信息的 3D 模型。
以往的 3D 模型受到數據限制極大。與文本或圖像等模態相比,高質量 3D 真值數據的數量要少幾個數量級,并且現有數據主要是孤立的、合成的 3D 資產。這使得傳統模型雖然能生成質量不錯的單個 3D 物體,但在 3D 重建方面卻局限于合成或擺拍場景,例如:
- 簡單背景上的單個高分辨率物體
- 受控光照和姿態
- 非真實環境
這種基于大規模孤立 3D 資產訓練的方式雖然是一個良好的起點,但若要超越這些簡化場景,實現真實世界中日常復雜環境的 3D 重建,就需要全新的方法。

SAM 3D Objects 背后的核心創新來自兩個方面:
- 一是通過一個強大的數據標注引擎,突破長期以來真實世界 3D 數據難以大規模獲取的瓶頸;
- 二是將該數據引擎與全新的多階段 3D 訓練流程緊密結合。
眾所周知,構建 3D 真值數據需要高度專業的技能,主要依賴經驗豐富的 3D 藝術家。因此,3D 數據采集往往更慢、成本更高。
然而,Meta 觀察到:驗證或排序 3D 網格(mesh)的難度遠低于從零創建一個網格。
基于這一點,Meta 構建了一個可擴展的數據引擎,讓標注人員對模型生成的多個 3D 候選結果進行評分,而把最困難的樣例再交給專業 3D 藝術家處理,以彌補數據盲區。
借助這一數據引擎,Meta 首次在真實世界圖像上,總計標注了近 100 萬張圖像,生成了約 314 萬個 3D 網格。


與此同時,Meta 還借鑒了近期 LLM 的訓練范式,將基于合成數據的學習重新定義為 3D 的預訓練階段。
為了讓模型能夠有效處理真實世界圖像,還必須加入一個后訓練階段,用來進行對齊,以彌補模擬環境與真實環境之間的鴻溝。
數據引擎正是支撐這一后訓練階段的核心,它持續提供高質量的數據來驅動對齊過程。
反過來,當模型的穩健性和輸出質量不斷提升時,又會增強數據引擎生成數據的能力,從而形成一個正向反饋閉環,不斷循環迭代。
這種數據引擎與后訓練階段的緊密耦合,將會吸收更廣泛的人類專業知識,將模型能力引導到單一方法所無法達到的水平。
Meta 還與專業藝術家合作,構建了一個種類多樣的 SAM 3D Artist Objects(SA-3DAO)數據集,其在性能上顯著超越現有方法。

SAM 3D Body:穩健、精準且可交互的 3D 人體重建
SAM 3D Body 旨在解決從單張圖像中獲得準確的人體三維姿態與形體重建這一長期挑戰,即使圖像中存在不尋常的姿勢、遮擋、多人同時出現等復雜情況,它仍能保持高質量表現。
SAM 3D Body 是一個可提示模型,支持可交互輸入,例如:
- 分割掩碼(segmentation mask)
- 2D 關鍵點(2D keypoints)
借此,用戶可以直接引導與控制模型的預測結果,從而提升精度與可控性。
該模型基于 Meta 全新的開源 3D 網格格式 Meta Momentum Human Rig(MHR),這種格式通過將骨骼結構與軟組織形體分離建模,提供了更強的可解釋性。
在架構上,SAM 3D Body 構建于 Transformer 編碼器 — 解碼器架構之上,用于預測 MHR 網格參數:
- 圖像編碼器:采用多輸入結構,以捕捉身體各部位的高分辨率細節;
- 網格解碼器:經過擴展,支持基于提示的預測方式。

為了訓練模型,Meta 還構建了一個包含約 800 萬張圖像的高質量訓練數據集,使其能夠應對遮擋、罕見姿態和各種服裝,并在多個 3D 基準測試中均超越了以往的模型。

SAM 3
在計算機視覺中,將語言與圖像或視頻中的具體視覺元素精準對應是一項重大挑戰。
現有模型雖然能輕松分割像人這樣常見的類別,但在面對更細致、更具體的請求時就會遇到困難,例如:那把紅色條紋的雨傘。

SAM 3 通過引入可提示概念分割(promptable concept segmentation) 克服了這些限制:模型能夠根據文本提示或示例圖像提示,找到并分割某個概念的所有實例。
為了評估模型在大詞匯量情況下的檢測與分割能力,Meta 還構建了 SA-Co(Segment Anything with Concepts)基準。與以往基準相比,SA-Co 涵蓋了規模更大的概念詞匯,挑戰性顯著提高。

模型架構
SAM 3 模型架構建立在 Meta 以往許多 AI 進展之上。SAM 3 中的文本和圖像編碼器來自 Meta 在今年 4 月開源的 Meta Perception Encoder,這一模型能夠幫助構建更高級的計算機視覺系統,用于圖像識別、目標檢測等日常任務。相比以往編碼器選擇,Meta Perception Encoder 在性能上取得了顯著躍升。
SAM 3 的檢測模塊基于 DETR,這是首個使用 transformer 進行目標檢測的模型。SAM 2 中使用的 memory bank 和 memory encoder 則成為 SAM 3 中跟蹤模塊(Tracker)的基礎。此外,Meta 還使用了多個開源組件,包括數據集、基準和模型改進,以推動研究進一步發展。

結果
SAM 3 在圖像(SA-Co Gold 子集)和視頻(SA-Co Video)上的概念分割性能取得了跨越式提升。與現有模型相比,SAM 3 將 cgF1 分數(衡量模型識別與定位概念的能力)提升了兩倍。SAM 3 優于基礎模型(如 Gemini 2.5 Pro)以及強大的專業模型(如 GLEE)。
此外,SAM 3 在 H200 GPU 上對單張包含超過 100 個檢測目標的圖像,僅需 30 毫秒即可完成推理。在視頻中,推理延遲隨目標數量線性增長,在約五個并發目標的情況下仍可保持近實時表現。

了解更多內容,請參考:
https://ai.meta.com/blog/segment-anything-model-3/
https://ai.meta.com/blog/sam-3d/




























