ICCV 2025 | 機器人自主探索未知復雜空間?GLEAM破解主動探索建圖的泛化難題
本文一作為陳驍,香港中文大學 MMLab - 上海人工智能實驗室具身智能中心聯培博士生,研究方向是三維計算機視覺和具身智能,導師為薛天帆教授。個人主頁:xiao-chen.tech/。
研究背景
當人類走入陌生房間時,會通過移動和觀察來掌握室內結構。想象機器人被扔進一個陌生場景:有的房間堆滿障礙,有的走廊九曲十八彎,它能像人類一樣主動探索未知空間嗎?
盡管計算機視覺已賦予機器人強大的被動技能,比如按預設拍攝軌跡實現同步定位建圖(SLAM),可一旦剝離所有提示,機器人卻可能淪為 “路癡”——
“門在哪?”“怎么繞過障礙物?”
“哪片區域還沒有探索過?”
“目標最可能出現在哪片區域?”
“主動探索” 這一智能基石,何以成為技術盲區?
經典方案往往依賴人工預設的軌跡、視角與指令,而現有探索策略在陌生復雜場景中頻頻失效:機器人既可能在廢墟救援時因全局規劃缺失而卡死墻角,又容易在障礙密集的客廳中反復碰撞進退維谷。當機器人在此類復雜環境下運轉時,感知 - 決策 - 行動閉環如何掙脫被動依賴桎梏? 這正是下一代機器人跨越 “智能鴻溝” 的核心挑戰。
如何讓機器人在完全未知的復雜房間里自主探索?

針對移動機器人在復雜未知環境中 “探索 - 建圖” 的泛化難題,香港中文大學與上海人工智能實驗室聯合提出系統性解決方案:研究者們搭建了全球規模最大的 “探索 - 建圖” 基準 GLEAM-Bench—— 該數據集涵蓋上千個室內場景,并在此基礎上設計了通用可泛化的 “探索 - 建圖” 策略GLEAM。該策略使機器人在完全陌生的復雜室內環境中首次實現了高效安全的探索和精準建圖,實現零樣本適配未知復雜空間,無需微調即達66.5% 平均場景覆蓋率。得益于大規模訓練架構,GLEAM 較現有技術提升 9.49%。

- 論文標題:GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes
- 項目主頁: https://xiao-chen.tech/gleam
- 代碼:https://github.com/zjwzcx/GLEAM
- 論文:https://arxiv.org/abs/2505.20294
方法效果
基線方法往往只能在空曠的單一場景內探索,一旦面對家具等障礙物密集的多房間布局,難以保證跨房間探索的安全性和高效性。
相比之下,GLEAM 在來自三個室內場景數據集的未知場景上展現了優越的泛化能力。更為重要的是,GLEAM 首次體現了無需在新數據集上微調模型的零樣本泛化能力 —— 它能夠直接適配到全新的真實場景數據集(如 Matterport3D),而之前的方法通常局限于單一數據集或需要針對特定場景進行參數調整。



數據和基準
團隊構建了首個涵蓋千級(1152個)復雜三維室內場景的訓練評測體系:GLEAM-Bench 基準。完整的三維場景數據文件、預處理腳本和仿真相關的 API 均已開源。

GLEAM-Bench 涵蓋多種數據來源,包括
- 高質量虛擬場景(ProcTHOR-10K、HSSD)
- 真實掃描數據集(Gibson、Matterport3D)
其中,兩個真實掃描數據集驗證了 GLEAM 真實世界部署的潛力,ProcTHOR 提供了場景生成方法,可以批量制作豐富多樣的場景數據。

研究者嚴格篩選并預處理了所有三維場景數據,數據特征包括:
- 拓撲連通性:確保場景中每個房間的可達性;
- 幾何水密性:選擇幾乎 100% 水密的場景,避免無人機穿過窗戶等特殊情況;
- 復雜度躍升:導航復雜度達到 11.35,包含高密度障礙與拓撲迷宮等復雜結構。
方法解讀
為攻克 “探索 - 建圖” 在未知復雜場景的泛化瓶頸與大規模訓練的數據效率難題,GLEAM 架構融合三大創新設計:
- 語義認知地圖
- 分層動作空間
- 抗過擬合訓練策略

1. 語義認知地圖:讓機器理解 “未知”
為了使機器人在復雜環境中實現高效時空推理,研究者將環境解構為任務導向的語義地圖表征,構建了雙地圖系統:
- 全局概率地圖:融合歷史觀測的貝葉斯占據柵格,動態更新環境認知;
- 局部語義地圖:以機器人為中心,在局部柵格概率地圖的基礎上,進一步引入邊界檢測模塊,通過提取四元語義狀態(占據 / 空閑 / 未知 /邊界)來強化探索導向。
同時,研究者部署了輕量化 LocoTransformer 提煉語義地圖的空間關系,助力實時推理和建圖。
2. 分層動作空間:直覺式長程決策配合啟發式局部規劃器
研究者解耦了全局探索與局部避障:
- 高層決策(“去哪探索”):摒棄傳統局部移動指令(如“前進 10cm”),直接預測可達的長程目標;
- 低層規劃(“目的地是否安全可達”):由輕量級 A * 模塊保障,在實時更新的觀測空間內驗證目標可達性,避免過于激進或取巧的規劃策略。
這個設計極大提升了訓練和推理效率, 并且確保了決策安全性與探索效率。
3. 隨機化 “抗過擬合” 訓練
- 隨機初始化機器人位置:強制適應任意初始位姿;
- 動態輪換千級訓練場景:訓練中實時更換環境,鍛造跨域適應能力。
實驗結果
實驗結果表明,GLEAM 優越的泛化性主要來源于四個要素:
- 大規模多樣化空間數據
- 豐富的任務特征
- 分層策略架構
- 隨機化抗過擬合訓練技巧
從以下表格可以看出,無論在虛擬場景還是真實場景上,GLEAM 在探索覆蓋率(Cov.),探索效率(AUC)和建圖精度(CD)三類指標上均大幅超越之前的方法。

研究者分析了訓練場景的數量、質量和多樣性對測試結果的影響。從數量開始, 研究者們均勻地對每種類別的訓練場景數量作下采樣, 測試結果如下:

符合直覺的是,隨著訓練場景的數量從 32 按比例上升到 1024,GLEAM 在未知測試場景上的探索覆蓋率相關指標呈穩定上升趨勢,同時建圖精度穩定下降。
更進一步,研究者解耦了訓練場景的數量、復雜度和多樣性這三個要素:

有趣的是,只使用 192 個多房間 (>10) 訓練場景的策略性能竟然高于 416 個少房間 (<6) 場景, 甚至已經逼近完整 896 個訓練場景的結果。可見,訓練場景的復雜度顯著影響了策略的性能。
研究者在搭載單張 RTX 3090 顯卡的電腦上測試推理速度為 104.7Hz,證明了 GLEAM 在現實部署的潛力。

另外,研究者還進行了抗噪聲測試和關鍵技術的消融實驗,證明了 GLEAM 的魯棒性和涉及特征提取、動作空間和訓練策略等方面的關鍵設計的有效性。
更多細節與結果請參閱原論文 (https://arxiv.org/abs/2505.20294) 與項目主頁 (https://xiao-chen.tech/gleam)。歡迎對該方向感興趣的讀者與作者交流探討!





























