3D-R1:讓AI理解3D世界的下一步
在人工智能快速發展的今天,我們已逐漸習慣于讓 AI 識別圖像、理解語言,甚至與之對話。但當我們進入真實三維世界,如何讓 AI 具備「看懂場景」、「理解空間」和「推理復雜任務」的能力?這正是 3D 視覺語言模型(3D VLM)所要解決的問題。

本文介紹的一項新研究 —— 3D-R1,提出了一種更通用、更具推理能力的三維視覺語言模型,它在多個 3D 任務中表現出了顯著的性能提升,有望成為 3D 人工智能通用系統的新范式。

- 論文標題:3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
- 論文鏈接:https://arxiv.org/pdf/2507.23478
背景:3D 場景理解為何重要?
讓 AI 理解一個真實的三維環境,遠比識別一張圖片復雜得多。無論是服務機器人、自動駕駛,還是 AR/VR 應用,都離不開 AI 對空間結構、物體布局和多步任務的精準理解。但當前大多數 3D VLM 依然存在兩大核心問題:
- 空間理解不足:許多模型依賴固定視角或簡單全景拼接,導致遮擋物或關鍵結構難以準確識別;
- 推理能力薄弱:缺乏高質量的三維推理數據與獎勵信號,模型難以進行深入的多步邏輯思考。
3D-R1:增強推理能力的 3D 通用模型
為解決上述挑戰,研究團隊提出了 3D-R1。它不僅聚焦于對 3D 場景的精準感知,還專門設計了增強「推理能力」的訓練機制,使模型能像人一樣「思考」和「判斷」。

我們從三個關鍵方面對現有方法進行了創新:
(1)構建高質量推理數據集:Scene-30K
大多數 3D 數據集中,只包含簡單的描述或問答,而缺乏真正多步邏輯的訓練樣本。為此,我們基于多個 3D 數據集(如 ScanQA、SceneVerse 等)合成了一個具有邏輯鏈條的高質量數據集 —— Scene-30K。

這個數據集的構造流程如下:
1. 場景描述生成:利用預訓練 3D 模型對點云生成簡潔的場景描述;
2. 推理鏈生成:將場景描述輸入 Gemini 2.5 Pro 等大語言模型生成結構化的推理過程(Chain-of-Thought);
3. 規則過濾:對輸出進行格式、邏輯一致性、答案正確性等過濾,確保質量。
最終,我們獲得了 3 萬條結構規范、邏輯清晰的訓練樣本,為模型提供「冷啟動」訓練支持。
(2)結合強化學習:讓模型學會「思考」
在冷啟動訓練之后,我們引入了基于 GRPO(Group Relative Policy Optimization)的強化學習機制,讓模型在生成回答的過程中不斷自我優化。

我們設計了三種獎勵信號:
- 格式獎勵:確保輸出結構規范,例如必須包含 < think > 推理和 < answer > 答案格式;
- 感知獎勵:通過預測框與真實框的 IoU 計算定位準確性;
- 語義獎勵:使用 CLIP 編碼器計算預測答案與真實答案的語義相似度。
這種方式使得模型不僅回答正確,而且過程清晰、結構合規、語義貼合,具備更強的泛化推理能力。
(3) 動態視角選擇:看到更關鍵的信息
在三維場景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會錯過關鍵細節。為此,我們提出了一種動態視角選擇策略,幫助模型自動選擇 6 張最具代表性的視圖。
這一策略結合三種評分指標:
- 文本相關性(Text-to-3D):視角是否與問題文本高度相關;
- 空間覆蓋度(Image-to-3D):該視角是否補充其他視角遺漏的信息;
- 多模態對齊(CLIP 相似度):該視角與語言描述是否匹配。
最終,我們通過可學習的權重融合機制自動優化這些指標組合,選擇對任務最關鍵的觀察視角。
多任務基準測試:全面領先
3D-R1 在 7 個 3D 任務上進行了全面評估,包括:3D 問答(3D-QA)、密集描述(3D Dense Captioning)、物體描述(3D Object Captioning)、多輪對話(3D Dialogue)、場景推理(3D Reasoning)、動作規劃(3D Planning)、視覺定位(3D Visual Grounding)。



在 3D 場景密集描述任務中,3D-R1 在 ScanRefer 和 Nr3D 兩個數據集上均超越了之前的專業模型。

在最具挑戰性的 3D 問答任務上,3D-R1 在 ScanQA 基準的驗證集和兩個測試集上都取得了最優成績。

在更復雜的 3D 對話、規劃和空間推理任務上,3D-R1 同樣展現了其強大的綜合能力。

這些結果證明了:無論是感知還是推理,3D-R1 都展現了更強的泛化能力和任務表現。
應用前景廣闊
3D-R1 不僅在學術指標上領先,更具備實際應用價值。未來,它可以應用于:
- 家用機器人中:理解屋內物體位置并作出決策;
- 元宇宙 / VR:根據場景進行對話式引導和互動;
- 自動駕駛:理解復雜街景并實時應答;
- 工業檢查:根據場景自動識別潛在風險區域。
3D-R1 不僅是一項模型技術創新,更是我們走向更強三維智能體的關鍵一步。未來,我們計劃將其拓展至機器人控制、交互式問答、甚至自動家居整理等現實應用場景中。
本文作者介紹:
黃庭是上海工程技術大學電子電氣工程學院在讀碩士,研究方向聚焦于三維視覺語言模型、空間場景理解與多模態推理。曾參與多項科研項目,致力于構建具備認知與推理能力的通用 3D-AI 系統。
張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。
唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金,連續兩年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發表論文 100 余篇,相關成果被引用超過 10000 次。曾獲 ACM Multimedia 最佳論文提名獎,現任 ACL 2025、EMNLP 2025、ACM MM 2025 領域主席及多個人工智能會議和期刊審稿人。更多信息參見個人主頁: https://ha0tang.github.io/



























