PartCrafter:首個結構化3D多部件生成模型

本篇文章是北京大學、字節跳動和卡耐基梅隆大學的聯合工作。
我們提出了 PartCrafter,一種新穎的結構化 3D 生成模型,為 3D 對象創建引入了一種變革性的方法。PartCrafter 不僅能生成可分解的 3D 網格,還支持靈活的部件編輯,為創作者提供了更高的自由度。它打破了傳統的整體式 3D 模型生成規范,不僅徹底改變了 3D 模型的生成方式,還顯著增強了 3D AIGC 的基礎模型能力和可解釋性。

Partcrafter 是一個結構化的3D生成模型,無需分割步驟,可以秒級生成帶多個部件的 3D Mesh 表示
第一性原理
1. 為什么 part-level 的生成如此重要?從簡單的生成到實際可用:
- 文本的“逐token”生成

- 圖像的“分層”生成

- 3D的“分部件”生成

2. 潛在應用:3D資產二次創作(游戲資產開發)、具身智能(關節點)、3D打印(泡泡瑪特)等
- 綁定關節點,并生成 URDF 文件
- 3D資產二次創作

社交媒體上,開發者對 PartCrafter 的創新性反響熱烈,認為其“簡單而有效”的設計理念重新定義了 3D 生成的范式。Github 已累計達到 2k star,在 3D 生成領域的專家和學者們紛紛轉發與評論,相關推特累計達到百萬次瀏覽。PartCrafter 的訓練數據、代碼和模型已經完全開源。

- 論文標題:
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers - 項目主頁:
https://wgsxm.github.io/projects/partcrafter/ - 論文鏈接:
https://arxiv.org/abs/2506.05573 - 代碼鏈接:
https://github.com/wgsxm/PartCrafter
技術方法
傳統部件級別 3D 生成方法通常采用兩階段流程,先對圖像進行語義分割,再逐一重建部件,效率低(~20分鐘)且易受分割錯誤影響。PartCrafter 通過統一生成架構,消除了對預分割的依賴,同時在生成質量和計算效率上實現雙重突破。PartCrafter 能在約40秒內完成從單張圖像到結構化 3D 模型的生成,效率遠超傳統方法。
PartCrafter 引入組合式潛在空間來同時建模每個 3D 部件之間的聯系,通過局部-全局注意力機制來保證生成過程中各部件的語義獨立性和整體的保真程度。

Partcrafter 網絡結構設計
1.組合式潛在空間(Compositional Latent Space)
每一個3D部件都對應一組解耦的 latent token 表示,模型能理解各個部件的獨立性與語義含義。為了區分不同部件,模型還為每組 token 添加了一個可學習的“部件身份嵌入”(Part Identity Embedding),增強對部件級別的結構感知。
2. 局部-全局聯合去噪 Transformer
(Local-Global Denoising Transformer)
PartCrafter 并非簡單地單獨生成每個部件,而是引入了一個局部與全局融合的推理機制:
- 局部信息用于保證每個部件內部結構的一致性;
- 全局信息用于協調多個部件之間的空間和語義關系;
- 圖像條件(RGB輸入)被同時引入局部與全局分支,確保生成內容既獨立又具整體性。
數據構造
現有的大型3D數據集雖包含豐富的模型,但真正具備部件級標注的資源仍較稀缺。為此,PartCrafter 團隊自建了一個高質量訓練數據集:

為支持部件級生成,PartCrafter 團隊精心構建了一個包含13萬個 3D 對象的大型數據集,其中10萬個對象具備多部件標注。這些數據整合了 Objaverse、ShapeNet、ABO 等知名 3D 資源庫,通過挖掘部件級標注,為模型訓練提供了豐富的監督信息。這一數據集的開放將為 3D 生成領域的研究提供寶貴資源,助力更多團隊探索結構化建模的潛力。
篩選標準:
- 材質貼圖質量(texture quality)
- 拆分部件數量(part count)
- 各部件之間的平均交并比(IoU)
最終構成:
- 精選出約 5萬個 具備精細部件標簽的對象
- 包含超過 30萬個獨立 3D 部件,構成強監督訓練的核心資源
數據分布圖展示了不同 3D 對象的部件數量統計,說明模型訓練覆蓋了從少數部件到復雜組合的廣泛結構類型。
實驗結果
PartCrafter 可以同時適用于(1)部件級別的3D物體生成;(2)物體組合的3D場景生成。團隊在這兩種設定下開展了豐富全面的實驗。
1. 定量結果
1.1 物體數據集上的重建結果

在物體級和部件級指標上, PartCrafter 的性能都遠超 HoloPart 。給定一張圖像, PartCrafter 能夠在數秒內生成一個高保真、幾何獨立且可按部件分解的 3D 網格。相比之下, HoloPart 需要更多時間來分割物體網格,并且其分割過程會因生成網格的幾何質量低于真實的藝術創作網格而受到影響,從而限制了其性能。值得注意的是,即使當我們將骨干模型 TripoSG 中的 token 數量與我們的方法對齊時, 在物體級指標上仍然優于 TripoSG .
1.2 場景數據集上的重建結果

MIDI 在評估時使用了真實的分割掩碼(ground truth segmentation masks),但 PartCrafter 則完全不需要任何分割操作。為了進一步驗證我們方法的有效性,我們從 3D-Front 數據集中選取了一個包含嚴重遮擋的 3D 場景子集,在這些場景中,真實的分割掩碼無法分割出所有物體。我們觀察到,在場景遮擋情況下, MIDI 的性能出現了顯著下降,而 PartCrafter 仍然能夠保持高水平的生成質量。
2. 定性結果
2.1 3D物體重建效果

2.2 3D場景重建效果

2.3 用戶指定 Part 生成的顆粒度
PartCrafter 的組合式潛在空間設計使得顆粒度控制成為可能。通過指定潛在向量集合的個數,用戶可以實現部件分割顆粒度的控制。



































