銀河通用全新模型統一機器人導航任務,7B參數模型支持實時部署
導航能力是機器人移動操作所需要的基礎能力之一,是擴展機器人工作范圍和應用場景的關鍵因素。然而目前的導航任務往往是為特定任務和特定機器人而設計的。
這種對導航任務和機器人的劃分使得大量研究精力投入到利用任務和機器人設計的先驗上,這種做法忽視了跨任務和跨本體導航的能力共性(synergy),極大的限制了導航能力在算法層面上的可擴展性。
為此,北京大學,銀河通用,阿德萊德大學,浙江大學等機構合作,探究如何構建具身導航的基座模型(Embodied Navigation Foundation Model)提出了NavFoM,一個跨任務和跨載體的導航大模型。實現具身導航從“專用”到“通用”的技術躍進,真正做到:
- 多任務:視覺語言導航,目標搜索,目標跟隨,自駕等;
- 全場景:室內、室外等不同場景;
- 跨本體:四足,輪式,人形,無人機和汽車等。

NaVFoM 項目主頁:https://pku-epic.github.io/NavFoM-Web/
論文鏈接:https://arxiv.org/abs/2509.12129
統一導航范式
NavFoM基于一個最根本的想法,在于把不同機器人的導航任務統一到相同的范式:
機器人采集的流式視頻 + 自然語言導航指令 -> 動作軌跡。
為了實現這種范式,我們可以把不同的導航任務的目標用文本指令描述,并且統一用視頻流來表達導航歷史,用自然語言描述不同任務的導航目標,并讓模型預測未來的運動軌跡。因此,我們可以用一個統一的架構構建NavFoM:

NavFoM的模型結構特點包括:
- 支持單目,多種環視輸入,使用Temproal - viewpoint indicator Tookens(TVI Tokens) 支持不同本體的相機設置(多目環視),可以兼容單目相機,環視無人機,環視車輛等視頻流數據。這里TVI Tokens是時間和角度兩個系數通過端到端學習得到的,用于標記圖像的時間和角度維度。
- 對于導航任務可以使用時間和角度兩個維度,從而同時標記圖像所在的時間和相機角度。
- 對于基于視頻的問答任務(Video QA),僅使用時間維度,支持標記不同長度的視頻幀。
- 對于基于圖像的問答任務(Image QA),可以不使用時間和角度維度,直接標記視頻中的圖像幀。

TVI Tokens提供了一套可擴展的方法,使得模型可以更容易理解圖像在不同任務不同相機設置下的內容。
- 通過支持Image QA和Video QA的混合的訓練,可以讓NavFoM仍然保留對開放世界的理解能力,避免overfit到導航的任務中。
- Dual-Branch結構,當進行導航任務時,模型通過planning head輸出一條由waypoints組成的軌跡。當進行QA任務時,模型則可以通過LM head做next token prediction,輸出文字。Dual-Branch結構可以讓一個模型輸出兩種任務的最優表達,并且兼容訓練和測試的整個過程。
7B導航基座模型實時部署
盡管NavFoM通過擴展視覺語言大模型實現跨本體和跨任務導航的統一,但一個現實的問題就是如何在真實場景中實時部署7B參數的導航基座模型。特別是在導航過程中,會產生大量的導航歷史(視頻幀),會極大的影響導航的效率和表現。
為了支持實時部署,團隊提出了Budget-Aware Token Sampling Strategy (BATS), 幀采樣策略,在有限算力約束(最大Token數量,Token Budget)下,自適應采樣關鍵幀,既保持性能,又能在真實機器人上高效運行。
以下分別為給定Token上限,在不同幀數下的采樣分布(左)與給定視頻幀數,在不同Token上限下的采樣分布(右)。

具體而言,團隊定義了一套遺忘曲線,越靠近當前幀采樣概率越大,越遠離當前幀采樣概率越小。
這套遺忘曲線可以根據視頻幀數自適應的調整采樣分布(上圖左),而當tokens上限改變(上圖右,更好的顯卡或者更差的顯卡),這套采樣同樣可以自適應調整分布,更大的token上限則可以保留更多的關鍵幀(曲線更緩),更少的token上限則更多的保留最新的關鍵幀(曲線更陡)。

在團隊的測試中,BATS采樣策略可以實現非常穩定的運行效率,可以實現非常長程的導航任務,具有落地真實場景的潛力。
在八百萬條跨任務跨本體導航數據中訓練
團隊收集了八百萬條導航數據,包括視覺語言導航、目標導航、目標跟蹤、自動駕駛、網絡導航數據,涵蓋了輪式機器人、四足機器狗、無人機和汽車,以及四百萬條開放世界的問答數據。
訓練數據量對比:

數據預處理:

團隊的訓練量是以往工作的兩倍左右,并且為了減少訓練的硬件需求,團隊對圖像數據做了cache,從而支持更大規模的訓練。
算法表現
NavFoM在多個公開的benchmark (不同任務和不同本體)上實現了SOTA和SOTA-comparable的效果。實驗中,團隊不需要對特定任務或機器人進行finetuning,而是直接修改指令和相機布局即可。

不同benchmark的可視化效果如下:

用同一套模型實現機器狗,輪式機器人,無人機的跟隨:

本文的作者團隊來自北京大學、銀河通用、中科大、阿德萊德大學、浙江大學。
共同第一作者包括北京大學計算機學院博士生張嘉曌,北京大學元培學院本科生李安齊、中科大碩士研究生戚云鵬、銀河通用李名涵。本文的通訊作者為北京大學助理教授、銀河通用創始人及CTO王鶴,銀河通用聯合創始人及大模型負責人張直政。
NaVFoM 項目主頁:https://pku-epic.github.io/NavFoM-Web/
論文鏈接:https://arxiv.org/abs/2509.12129
Three More Things
團隊進一步驗證NavFoM作為一個具身導航基座大模型,在各種復雜且不同任務要求下的潛力:
TrackVLA++,實現30min+復雜環境中的穩定長程跟隨
項目主頁: https://pku-epic.github.io/TrackVLA-plus-plus-Web/
論文地址:https://arxiv.org/pdf/2510.07134

UrbanVLA,第三方地圖引導的機器人自主城市出行
UrbanVLA項目主頁: https://pku-epic.github.io/UrbanVLA-Web/
論文地址:http://arxiv.org/abs/2510.23576

MM-Nav: 360度純視覺精確避障
MM-NaV項目主頁:https://pku-epic.github.io/MM-Nav-Web/
論文地址:https://arxiv.org/abs/2510.03142

NavFoM提出了一種多任務、全場景、跨本體的具身導航基座大模型,標志著具身智能導航模型研發邁向通用化,導航技術落地邁向規模化。
其意義不僅在于首次構建了一個統一的導航基礎模型架構,能夠處理來自多種機器人載體(包括四足機器人、無人機、輪式機器人和車輛)、不同任務(如視覺語言導航、目標搜索、目標跟蹤和自動駕駛)和不同場景(包括室內、室外)的輸入,并在無需任務特定微調的情況下,在多個公開基準測試中達到或接近最優性能,更是導航大模型技術賦能大模型機器人實現跨行業應用的關鍵點。
團隊希望這項工作能夠吸引更多對以智能為核心的具身導航研究的關注,并激發新一代技術、數據集和基準測試的出現,并以此為基石,加速具身智能前沿技術創新向新質生產力和智能服務力的轉化。




































