首個實例理解3D重建模型!NTU&階越提出基于實例解耦的3D重建模型,助力場景理解
人類能自然地感知3D世界的幾何結構與語義內容 ,但對AI而言,這“兩者兼得”一直是巨大挑戰。
傳統方法將3D重建(底層幾何)與空間理解(高層語義)割裂處理 ,導致錯誤累積且無法泛化 。而新方法試圖將3D模型與特定的視覺語言模型(VLM)“鎖死” ,這不僅限制了模型的感知能力(例如,無法區分同一類別的兩個不同實例 ),更阻礙了其適應更強下游任務的擴展性 。
現在,NTU聯合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一個創新的端到端大型統一Transformer,首次將空間重建與實例級上下文理解融為一體。

為解決上述問題,本研究的主要貢獻在于:
- 端到端統一框架:提出IGGT,一個大型統一Transformer,將空間重建和實例級上下文理解的知識統一在同一個模型中進行端到端訓練 。
- 大規模實例數據集:構建了一個全新的大規模數據集 InsScene-15K,包含15K個場景 、2億張圖像 ,以及通過新穎數據管線標注的高質量、3D一致的實例級掩碼 。
- 實例解耦與即插即用:首創“實例接地的場景理解” (Instance-Grounded Scene Understanding) 范式 。iGGT不與任何特定VLM綁定,而是生成實例掩碼作為“橋梁” ,使其能以“即插即用”的方式與任意VLMs(如CLIP, OpenSeg )和LMMs(如Qwen-VL 2.5 )無縫集成 。
- 多應用支持:該統一表示極大地擴展了下游能力,是首個能同時支持空間跟蹤、開放詞匯分割和場景問答(QA)的統一模型 。


InsScene-15K數據集的構建
InsScene-15K 數據集是通過一個新穎的數據管理流程構建的 ,該流程由 SAM2 驅動 ,并整合了三種不同來源的數據,每種來源的處理方式不同。

圖2 △InsScene-15K數據集標注管線總覽。
合成數據 (Synthesis Data - 如 Aria, Infinigen):
這是最直接的。在模擬環境中,RGB圖像、深度圖、相機位姿和物體級的分割掩碼被同時生成 。 由于這些模擬生成的掩碼是“完美準確的” ,因此無需任何后處理,直接使用。
真實世界視頻采集 (Video Captured - 如 RE10K):
這個流程如圖2(a)所示,是一個定制化的SAM2視頻密集預測管線 。 首先,在視頻的第0幀使用SAM生成密集的初始掩碼提議 (Initial Mask Proposals) 。 然后,使用SAM2視頻對象分割器將這些掩碼在時間上向前傳播 (Propagate Masks Forward) 。 為了處理新出現的對象或避免漂移,管線會迭代式地添加新關鍵幀:如果未被覆蓋的區域超過閾值,就在新幀上重新運行SAM來發現新物體 。 最后,執行一次雙向傳播 (Bi-directional Propagation) 來確保整個視頻序列的高度時間一致性 。
真實世界RGBD采集 (RGBD Captured - 如 ScanNet++):
這個流程如圖2(b)所示,是一個掩碼優化流程 (Mask Refinement Pipeline) 。 ScanNet++ 自帶的3D標注是粗糙的 。流程首先將這些3D標注投影到2D圖像,以獲得具有一致ID的初始GT掩碼 。 同時,使用SAM2為同一張RGB圖像生成形狀精確但沒有ID的細粒度掩碼提議 。 關鍵步驟是匹配與合并:將SAM2生成的精細掩碼與投影的粗糙GT掩碼進行對齊,為精細掩碼分配正確的、多視圖一致的ID 。 通過這種方式,管線極大地提升了2D掩碼的質量,使其既保持了3D的ID一致性,又具有了SAM2級別的形狀準確性 。
IGGT模型的構建
IGGT架構概覽:
輸入圖像被編碼為統一的Token表示,隨后由幾何頭(Geometry Head)和實例頭(Instance Head)分別處理,以同時生成高質量的幾何重建和實例接地的聚類結果。

IGGT 的架構由三部分關鍵組件構成:
統一 Transformer (Large Unified Transformer)
遵循 VGGT,模型首先使用預訓練的 DINOv2 提取圖像塊級 Token。隨后,通過 24 個注意力模塊對多視圖圖像的 Token 進行 intra-view self-attention 和 global-view cross-attention,將其編碼為強大的統一 Token 表示 Ti。
雙解碼頭與跨模態融合 (Downstream Heads and Cross-Modal Fusion)
統一 Token 被送入兩個并行的解碼器:
- Geometry Head: 繼承自 VGGT,負責預測相機參數、深度圖和點圖。
- Instance Head: 采用 DPT-like 架構,解碼出實例特征。
- Cross-Modal Fusion Block: 為了讓實例頭感知精細的幾何邊界,團隊設計了一個跨模態融合塊。它通過一個窗口滑動交叉注意力 (sliding window cross attention),將幾何頭的空間結構特征高效地嵌入到實例表示中,顯著增強了實例特征的空間感知能力。
3D 一致性對比監督 (3D-Consistent Contrastive Supervision)
為了讓模型僅從 2D 輸入中學到 3D 一致的實例特征,團隊設計了一個多視角對比損失 Lmvc。 該損失的核心思想是:在特征空間中,“拉近”來自不同視角但屬于同一 3D 實例的像素特征,同時“推開”屬于不同實例的特征。
其中 m(pi) 和 m(pj) 分別是像素 pi 和 pj 的實例 ID,而 fpi 和 fpj 是其對應的實例特征。
基于實例Grounded的場景理解
其核心思想是將3D模型的統一表示與下游的特定語言模型(VLMs 或 LMMs)進行“解耦” 。
這與以往的方法不同,以往的方法通常將3D模型與特定的語言模型(如LSeg)“緊密耦合”或“強行對齊”,這限制了模型的感知能力和擴展性 。首先利用無監督聚類(HDBSCAN)將IGGT預測的3D一致性實例特征分組,從而將場景分割為不同的對象實例 。
這些聚類結果隨后被重新投影以生成3D一致的2D實例掩碼 ,這些掩碼充當“橋梁” ,實現了與各種VLMs(如CLIP、OpenSeg)和LMMs(如Qwen2.5-VL)的“即插即用”式集成 。這種解耦范式極大地擴展了模型的應用范圍:
- 實例空間跟蹤 (Instance Spatial Tracking): 利用聚類生成的3D一致性掩碼,可以在多個不同視角的圖像中密集地跟蹤和分割特定對象實例,即使在相機大幅運動的情況下也不易丟失目標 。
- 開放詞匯語義分割 (Open-Vocabulary Semantic Segmentation): 實例掩碼可以作為“提示”(prompts),被送入任意現成的VLM(如OpenSeg) 。VLM會對每個掩碼定義的區域分配一個語義類別,從而實現開放詞匯的分割 。
- QA場景定位 (QA Scene Grounding): 這種解耦的實例聚類可以與LMM(如GPT-40或Qwen-VL 2.5)交互 。例如,可以在多個視圖中高亮顯示同一個實例的掩碼,然后向LMM提問,以在3D場景中執行以對象為中心的復雜問答任務 。
實證結果
相比于已有的方法,IGGT是唯一一個能夠同時做到重建、理解和跟蹤三個任務的模型,并在理解和跟蹤指標上大幅提升。

在實例3D跟蹤任務上,IGGT的跟蹤IOU和成功率高達70%和90%,是唯一一個能夠成功跟蹤物體消失又重新出現的模型。
IGGT與SAM2和SpaTracker+SAM進行比較。為了清晰起見,所有實例都使用不同的 ID 和顏色進行可視化。

團隊同時還針對場景做了充分的可視化實驗,可以看出IGGT 能夠生成3D一致的基于實例的特征,這些特征在多個視圖中保持區分性:同一類別的多個實例在 PCA 空間中呈現相似但可區分的顏色。
將3D一致的PCA 結果與基于實例特征的聚類掩碼進行可視化。PCA 中相似的顏色表示實例間的特征相似度更高。對于聚類掩碼,同一個對象實例在多個視圖中共享相同的顏色。

在2D / 3D開放詞匯分割任務上,得益于Instance-grounded paradigm的特性,可以無縫接入最新的Vision-Language Model以提升模型的查詢性能。
Scannet 和 Scannet++ 上的 2D 開放詞匯分割的定性結果:

Scannet 和 Scannet++ 上的 3D 開放詞匯分割的定性結果。

此外,團隊還可以利用實例掩碼(instance masks)構建視覺提示(visual prompts),并將其接入如 Qwen-VL 等大型多模態模型(LMM),以實現更復雜的針對場景中特定物體的查詢與問答任務。相反,即便是當前最先進的 LMM 模型,在處理多視圖或三維場景理解方面仍存在顯著的局限。
與 vanilla Gemini 2.5 Pro 相比,QA 場景理解的應用:
論文鏈接:https://arxiv.org/abs/2510.22706
項目主頁:https://lifuguan.github.io/IGGT_official
Huggingface:https://huggingface.co/datasets/lifuguan/InsScene-15K


































