北大-靈初重磅發布具身VLA全面綜述!一文看清VLA技術路線與未來趨勢
如今,GPT-4o、Gemini 2.5 Pro 等多模態基礎模型在對話、代碼生成和數學推理等任務中已經達到甚至超越了人類水平。研究者開始探索如何將這種智能從數字世界延伸至物理空間,以實現具身智能。這其中最受關注的前沿方向之一,便是視覺 - 語言 - 動作模型(Vision-Language-Action Models,簡稱 VLA)。此類模型借助基礎模型的通用能力與大規模學習范式,可以處理通用的視覺(Vision)與語言(Language)輸入,并生成實時動作(Action),極大地賦能了機器人系統。
近兩年來,VLA 相關研究爆發式增長,技術路線日新月異 —— 但這也造成了認知碎片化與理解上的困難。現有分類方法如 “大腦 - 小腦”、“快慢系統”、“分層 - 端到端” 等,直覺清晰但本質仍不明確。領域急需系統化的分析框架,以梳理研究現狀,指明未來方向。
為此,北京大學 - 靈初智能聯合實驗室首次從動作詞元化(action tokenization)視角,提出統一理解 VLA 模型的新框架。綜述系統分析了八種主流 action token,探討了不同動作表示背后的能力支撐、數據擴展策略和適用場景,明確了未來的架構趨勢與關鍵挑戰。論文由靈初智能 00 后聯合創始人陳源培與北京大學人工智能研究院助理教授楊耀東共同擔任通訊作者。
值得一提的是,在發布這一重要理論成果的同時,靈初智能也在加速推進 VLA 技術的產業化落地。其自研的 VLA 模型 Psi R1 已在麻將機器人等實際場景中得到驗證,7/25 晚 20:00 鎖定抖音直播,靈初智能聯合創始人陳源培將與搭載 Psi R1 的靈初智能機器人小靈、智元機器人聯合創始人稚暉君和首形科技創始人 U 航展開一場麻將對戰。
除此之外,還有外賣機器人、超市打包機器人等也將在 WAIC 2025(7 月 26-29 日,上海世博展覽館 H3-C604 展位)上進行集中展示,為業界提供從理論到應用的完整技術路徑參考。
圖片

- 論文標題:A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
- 論文鏈接:https://arxiv.org/abs/2507.01925
- 倉庫地址:https://github.com/Psi-Robot/Awesome-VLA-Papers
核心觀點總結
- VLA 統一框架與 Action Token 分類:當前的 VLA 系統遵循一個通用框架:視覺與語言輸入經過一系列 VLA modules 逐級處理,生成逐漸具體的 action token,最終轉化為動作輸出。在該框架中,action token 可分為 language description、code、affordance、trajectory、goal state、latent representation、raw action 和 reasoning 八類。VLA 中的 action token 是 LLM 中 language token 的推廣。
- Action Token 發展趨勢:VLA 模型的未來不在于依賴單一 action token,而在于多種 token 的協同。Language motion 表達能力有限,難以成為主流; language plan 在任務分解中不可或缺。Code 是另一種高效的規劃形式,其潛力依賴于構建完備的感知與動作函數庫。Affordance(做什么)與 trajectory(如何做)可互補結合,并借助 goal state 的目標預測提升生成精度。Latent representation 雖具潛力,但訓練中面臨粒度、語義覆蓋和任務對齊等挑戰。Raw action 最適合端到端學習,但能力高度依賴數據。Reasoning 可作為 “元 token” 增強其他 token 的生成,未來將從基于 language token 的推理發展為基于 action token 的多模態推理,并支持任務適應性推理計算。
- 新興 Action Token 類型:Action token 類型由基礎模型的能力決定。隨著模型的演進和聽覺、觸覺等新模態的引入,未來可能涌現出更多新的 action token 類型與子類型。
- VLA 架構趨勢:未來的 VLA 模型很可能采用分層架構:頂層通過 language description 和 code 實現長程規劃與邏輯控制。下層在近期內預計將使用 goal state 的視頻預測、trajectory 的流建模以及 affordance 的三維交互預測緊密結合,形成中間動作表示,最終映射為 raw action。長期來看,下層將演化為完全端到端的方式,直接從子任務級輸入預測 raw action。reasoning 按需貫穿整個 VLA 模型,增強 action token 生成。
- 從模仿學習到強化學習:引入強化學習可幫助 VLA 模型突破模仿學習的局限,實現類人試錯與自主探索。實際部署則需更高效的強化算法,以應對高重置成本和低交互效率。同時,VLM 可自動生成密集獎勵,加速訓練與應用。
- 從 VLA 模型到 VLA 智能體:VLA 模型應向具備記憶、探索、規劃和反思能力的主動型 VLA 智能體演進,并由線性結構轉向更復雜的雙向或圖結構架構。
- 模型、數據與硬件協同發展:具身智能旨在應對物理世界的非結構化與開放性挑戰,亟需模型、數據與硬件協同發展。然而受限于機器人平臺與高質量數據匱乏,研究多局限于簡化實驗場景,整體仍處早期階段。實現通用智能需三者協同演進,協力前行。
- 安全與對齊:當前的 VLA 研究主要關注模型能力,未來必須更加重視安全性與人類對齊。
VLA 統一框架與 Action Token 視角
VLA 模型指依托至少一個視覺或語言基礎模型,能夠根據視覺與語言輸入,生成動作輸出的模型。其本質目標是將基礎模型在數字世界中的智能延伸到物理世界,實現具體的、具身的任務執行能力。
VLA 統一框架描述了不同 VLA 模型共同遵循的通用架構:即視覺和語言輸入經過一系列功能模塊(VLA modules),逐層處理并生成更具體、可執行的動作信息(action token),最終轉化為實際的動作輸出。
VLA module 指 VLA 模型中支持端到端梯度傳播的最大可微子網絡,或不可微的功能模塊(如 motion planning),承擔特定的能力(例如場景感知、動作規劃等),并在模型內部彼此協同工作。
Action token 則是不同 VLA modules 之間傳遞的動作表示,承載具體動作信息。可以理解為 VLA 模型生成的 “動作語言”,用于明確不同模塊間的溝通內容與執行目標。

舉個具體的例子,以完成 “端茶倒水” 任務為例:
- 首先,一個 VLA module 處理視覺輸入和語言指令,接受指令 “我渴了,請為我倒一杯茶”,識別場景中的茶壺、茶杯等物品,并規劃出下一步的子任務目標,比如:“抓起茶壺把手”。這里生成的子任務描述即為一種 action token(此處為 language plan)。
- 接著,另一個 VLA module 接收該 action token,進一步規劃具體的抓取路徑與運動軌跡,并生成更加具體的動作描述(例如 trajectory)。
- 最終,這些更具體的 action tokens 被下游的模塊轉化為機器人可以直接執行的動作序列(即 raw actions),實現 “端茶倒水” 的實際行為。
這樣的模塊化結構和 action token 的概念,不僅明確了 VLA 系統的內部結構,也為深入分析和理解該類模型提供了統一的視角和框架。基于此,這篇綜述發現當前的 VLA 模型主要使用了八種 action token,并進行了系統的分類梳理與分析。

綜述論文還以時間軸的形式展示了基礎模型、基于 action token 分類的 VLA 模型,以及相關數據工作的演進歷程。其中呈現出的 U 形結構清晰地表明,VLA 模型的快速發展受到基礎模型與數據資源持續進步的雙重驅動。

八種 Action Token 的梳理分析
Language Description(語言描述)
用自然語言的形式描述要完成的動作,按照描述顆粒度主要分為子任務級別的 language plan(“端起茶杯”)和原子動作級別的 language motion(“手往前伸”)兩種。
該類方法利用 LLM 和 VLM 在理解、推理、分解任務等方面的能力,使機器人能夠以更 “類人” 的方式規劃和執行復雜任務。
早期工作如 Language Planner、SayCan 等表明,LLM 可直接將高層指令拆解為語義明確的子任務(language plan),大幅降低人工設定需求。為了緩解僅使用 LLM 導致的缺乏環境感知的缺陷,他們引入視覺模塊和動態反饋等顯式的落地機制,提升了模型對實際場景的適應和操作能力。后續研究直接使用 VLM 進一步提升多模態理解和規劃能力。此外,針對復雜和長時任務,部分研究(如 BUMBLE、ReflectVLM)引入了記憶與反思機制,使系統具備分階段推理與跨場景適應能力。最近的 Hi Robot、pi0.5 等則進一步消除了下層簡單策略的能力限制,擴展到能執行通用 language plan 的策略,實現了更強的任務泛化和動態修正能力。在細粒度 language description 的研究方面,RT-H、NaVILA 等工作將低層動作細化為 language motion,促進了跨任務的數據共享和人機交互。
這一范式展示出諸多優勢。一是與基礎模型高度兼容:語言描述與 LLM/VLM 的原生輸出空間一致,能夠充分發揮模型的理解、推理和規劃能力,實現零樣本(zero-shot)或少樣本(few-shot)泛化,顯著降低任務定制化成本。二是豐富的訓練數據支持:借助海量圖文與操作數據,語言描述能有效遷移現實世界知識,提升模型的泛化性與可擴展性。三是更強的長時規劃能力:分層的語言指令有助于模型處理長鏈路、多階段任務,支持復雜任務的結構化分解和執行。四是高度可解釋性與可控性:自然語言表達易于人類理解和干預,方便實現人機協同、動態糾錯與在線優化。
但當前也面臨表達精度不足與推理時延等挑戰。未來,研究趨勢是將 language description 用于高層規劃,底層控制則結合 affordance、trajectory、goal state 等精細表示,從而兼顧任務復雜性和動作精確性,推動具身智能系統在復雜環境下的實用落地。
Code(代碼)
用代碼的形式表達任務的實現邏輯,包含循環、分支等邏輯控制和機器人感知、控制的 API 調用。
代碼是人類與計算機之間最直接也最高效的交流方式。文章系統梳理了近年來以 code 為 action token 的 VLA 研究進展,聚焦其如何從 “能運行的控制代碼” 演進為 “具備邏輯結構、感知能力與任務泛化能力的機器人行為策略”。代碼其核心思想是:將自然語言和視覺輸入轉化為結構清晰、具備可讀性與可執行性的程序或偽代碼,擺脫對神經網絡隱式向量的依賴,用明確、透明的代碼來驅動機器人行為。
code 的主要優勢在于當前語言模型在代碼生成方面已展現出極強的能力。生成的程序不僅能夠自然地調用預定義的機器人操作 API,也可以集成感知基礎模型提供的識別模塊,還能靈活接入如 NumPy、PyTorch 等常用庫進行空間計算與邏輯控制。這種模塊化、可組合的特性,使得策略能夠快速適配新任務,具備良好的擴展性與可調試性。同時,代碼語言天然具備流程控制結構,如條件判斷與循環語句,從而完成邏輯更復雜的任務規劃。
但與此同時,code 也面臨現實挑戰。首先,它對 API 庫的依賴極高,而 API 本身的覆蓋范圍往往受限。一旦機器人需要的功能未被定義,或已有接口無法適配當前任務需求,策略即失效。例如,如果現有控制 API 并不支持對 “濕滑地面”“易碎物體” 等復雜環境屬性進行建模和調用,那么即使生成的代碼邏輯正確,也無法穩健執行所需動作。其次,代碼結構的固定性也帶來了執行層的脆弱性。一方面,語言模型在生成代碼時可能出現邏輯錯誤、結構冗余等問題,影響控制效率;但更嚴重的是,代碼本身往往默認了若干環境前提條件。一旦實際場景違背這些假設(例如物體潮濕、位置偏移或不可見),系統可能觸發不當操作,甚至導致物體損壞或設備安全風險。
因此,未來研究可以從兩個維度進一步釋放代碼式策略的潛力。一方面,需要構建更完善、更語義豐富的機器人 API 庫,使語言模型能夠通過調用接口實現復雜任務的自動編排,尤其適用于多步驟、長時序的任務控制。另一方面,引入形式化驗證機制以檢測 API 調用的一致性與合法性,并配合運行時安全監控手段,降低執行層風險。同時,代碼的可讀性也為 “人機協同控制” 提供了天然接口 —— 人類可以參與策略微調、糾錯甚至插入控制邏輯,為構建可信、可控的具身智能系統提供新的技術路徑。
Affordance(可操作性)
一種基于空間的表示方式,刻畫物體在當前任務中可以如何被交互使用。常見形式包括關鍵點(keypoint)、邊界框(bounding box)、分割掩碼(segmentation mask)或可操作圖(affordance map)。
在具身智能系統中,如何將感知結果轉化為可執行動作,始終是 “語言 - 感知 - 控制” 鏈條中最具挑戰性的環節之一。近年來 VLA 興起的一個關鍵方向是將 affordance(可操作性)作為結構化的 action token,用于連接高層感知理解與底層控制執行。所謂 affordance,指的是物體或區域 “可以被如何交互” 的結構化表示,例如杯沿可能是 “可抓取的”,抽屜把手可能是 “可拉動的”。相較于傳統的坐標點或動作軌跡表示,affordance 更強調語義明確、空間對齊,并具備良好的任務適應性。當前的 VLA 研究中,affordance 動作表達的形式包括:關鍵點、邊界框、分割掩碼以及可操作性圖,每種方式在任務類型、精度要求與環境復雜度之間展現出互補優勢。
不同的表示形式各有側重:關鍵點能夠精確指示交互目標,如把手或按鈕;邊界框在多類檢測模型和語言視覺模型支持下可高效實現實例定位;分割掩碼為功能性區域提供像素級輪廓與幾何細節,適用于復雜表面操作;而可操作性圖則從全局視角提供稠密、概率化的交互區域分布,適合復雜場景下的空間推理與動作規劃。
盡管具有結構清晰、跨平臺遷移性強等優勢,現有 affordance 動作表示仍面臨三類核心挑戰:一是空間表達維度不足,多數方法仍停留在 2D 或投影 3D 表達,難以勝任需要完整空間理解的真實操作任務;二是動態建模缺失,affordance 通常被視為靜態屬性,忽略了動作執行后的狀態變化,無法處理例如 “打開瓶蓋后變為可倒出” 的動態演化;三是感知魯棒性有限,在遮擋、模糊等視覺干擾下容易出現誤判,影響下游控制穩定性。
針對這些問題,文章總結出 affordance 動作表示未來的三個關鍵發展方向:
- 構建原生三維表達形式,基于神經輻射場、高斯渲染等方法,實現對物體幾何與空間布局的真實建模;
- 引入時序建模機制,使模型能夠感知并預測交互過程中的 affordance 演化,提高對長時序任務的適應能力;
- 增強策略魯棒性與不確定性感知能力,不僅預測交互區域,還需識別模型自身置信度,提升決策安全性與可控性。
Trajectory(軌跡)
表示物體、末端執行器或場景隨時間變化的連續空間狀態序列,也就是 “從哪里到哪里怎么動”。
在 VLA 模型的研究中,一個核心挑戰是附帶動作標簽的機器人數據集的稀缺性。近期研究表明,將 “軌跡(Trajectory)” 作為一種動作表征,是應對此挑戰的有效范式。該方法通過利用無需動作標注的通用視頻數據,用其中蘊含的運動軌跡來表示動作,從而顯著拓寬了模型的訓練數據來源。
該研究方向的核心在于將機器人動作編碼為運動軌跡。這些表征主要分為三類:一是點軌跡(Point Trajectory),通過一系列時序下的離散坐標點來為機器人提供精確的路徑引導;二是視覺軌跡(Visual Trajectory),它將運動路徑直接渲染于圖像之上,在視覺上下文中直觀地呈現動作意圖;三是光流(Optical Flow),作為一種更為稠密的表征,它描述場景中每個像素的運動矢量,從而捕捉了整體環境的動態信息。
基于軌跡的動作表征展現出多項關鍵優勢。首先,正如前文所言,用軌跡作為動作表征可以有效地利用大量視頻數據,拓寬訓練數據來源。其次,也是至關重要的一點,軌跡在任務泛化上表現出卓越的能力。對于那些語義目標不同但底層運動模式相似的任務(例如 “擦拭表面” 與 “滑動滑塊”),基于軌跡的策略能夠實現更高效的零樣本泛化。再次,與依賴隱空間表征的抽象方法相比,軌跡是一種外顯且具備人類可解釋性的動作形式,為模型的訓練與調試提供了極大便利。
盡管前景廣闊,該方法仍面臨若干挑戰。當前多數工作聚焦于二維軌跡,其固有的三維空間信息(尤其是物體姿態與旋轉)的缺失,限制了其在復雜靈巧操作任務中的應用。同時,部分依賴大型生成模型的方法存在計算成本高、推理頻率低的問題,難以滿足機器人實時、平滑控制的需求。此外,純軌跡表征在處理需要復雜交互邏輯、力控制或基于物體功能理解(affordance)的任務時,其語義豐富度尚顯不足。
因此,未來的研究方向將主要聚焦于三個方面:一是探索包含完整六自由度(6-DoF)信息的三維空間軌跡表征;二是開發輕量化、高效率的軌跡生成與規劃模型;三是構建結合了軌跡路徑與語義概念的混合式動作表征,從而使機器人能夠應對更廣泛、更復雜的任務場景。
Goal State(目標狀態)
對未來動作結果的視覺預測,如一張圖片、點云或視頻片段,直觀地展示執行完某個動作序列后應該達到的目標樣子,用作規劃和執行的中間目標。
讓機器人 “想清楚” 再行動。我們人類在執行任務前,常會先在腦中構想最終結果。受此啟發,VLA 模型也開始采用預測的目標狀態,即任務預期結果的視覺呈現,來作為中間的 “行動指令”。這就像在給機器人下達指令后,先讓它 “想象” 出任務完成的樣子,再根據這個 “想象” 來規劃具體動作,從而彌合高層指令與低層執行之間的鴻溝。
這種方法通常采用分層架構:一個高層模型根據指令生成目標狀態的圖像或視頻,隨后低層模型依據這個視覺指引來生成最終的動作序列。目標狀態主要分為單幀圖像和多幀視頻。單幀圖像描繪任務完成后的靜態場景,帶來數據可擴展性高、能利用無動作視頻訓練等優勢。而多幀視頻則提供了更豐富的時間上下文和 “如何做” 的線索,能從大規模數據中生成、提取隱式動作信息,并增強模型在不同任務和機器人平臺間的泛化能力。
目標狀態的核心優勢在于其極佳的數據可擴展性(通過自動化數據生成)、更廣泛的數據源和更強的泛化能力(利用無動作視頻和人類執行數據),以及增強的任務特異性(提供精確視覺指引),同時還具備魯棒的可解釋性和直觀的評估方式。然而,目標狀態也面臨挑戰:生成高質量、一致性的目標狀態依然困難,可能出現過度具體或不準確的情況;此外,生成未來圖像或視頻會引入較高的推理延遲,影響實時控制。盡管如此,隨著圖像和視頻生成技術的飛速發展,目標狀態作為 VLA 模型中一個充滿前景的行動指令,正不斷提升機器人理解和執行復雜任務的能力。未來的研究將重點關注提高計算效率、增強環境魯棒性,以及優化長程任務規劃。
Latent Representation(隱式表示)
通過大規模數據預訓練得到的一段隱向量序列,用來編碼一定時間范圍內與動作相關的信息。
如何讓機器人像人一樣,通過觀察就能快速學習各種任務?近期的 VLA 研究開發了一種新的訓練范式,不再大量依賴昂貴的、為機器人量身定制的訓練數據,通過讓 AI 模型觀看多樣的機器人視頻數據集和海量的人類視頻數據集(如 Ego4D 等),可以自動學習并提煉出一套通用的動作 “隱式表示(latent representation)”。
這一類方法的核心在于構建動作的隱式表示,根據編碼的動作信息不同,主要分為以下三類:視覺變化信息,通過分析一段時間內視覺場景的變化(比如機械臂的移動),來推斷其中發生的動作;動作塊壓縮信息,將一段完整的機器人動作序列(Action Chunk),直接壓縮成一個高效、緊湊的 “動作 ID”;任務目標信息,將一系列的視覺觀察,編碼成一個具有高級語義的 “目標” 信息,指導后續行為。
這一 “潛在動作” 方法的價值是多方面的。首先,它極大地拓寬了數據來源,使得幾乎所有機器人數據集和海量人類視頻都能成為機器人的 “教科書”。其次,它顯著提升了訓練效率。例如,文中提到的 UniVLA 模型,采用該方法后,僅用 OpenVLA 所需 4.45% 的預訓練時間,就達到了相當的性能,效率飛躍超過 20 倍。最關鍵的是,這種方法學習到的動作是 “身體無關” 的,意味著從人類視頻中學到的操作技能,可以被有效遷移到擁有不同形態的機器人身上,展現了驚人的泛化能力。此外,潛在動作表示還有融合其他模態動作信息的潛力,比如觸覺和聽覺信息。
盡管有上述的種種優點,該方法也面臨著挑戰,主要在于其 “黑箱” 特性 —— 由于 “潛在動作” 由 AI 自主定義,其內部邏輯難以被人類完全理解和干預,這給調試和確保安全性帶來了新的挑戰。因此,確保這些潛在的動作表示具有良好的性質和質量變得尤為重要。未來的研究將聚焦于三大方向:如何讓這套 “潛在動作” 的粒度更精細以支持復雜操作;如何確保其完備性以覆蓋所有可能的任務場景;以及如何加強其與人類意圖的對齊,確保機器人真正 “聽得懂、干得對”。
Raw Action(原始動作)
可以被機器人直接執行的低層級控制指令,比如關節角度變化、末端位姿控制、輪子轉速等。
近年來,大語言模型(LLM)所展現出的強大能力引發了廣泛關注。正如 Richard Sutton 在《The Bitter Lesson》中所指出的,通向通用智能的長期路徑并非依賴人類設計的領域知識,而是通過通用方法和擴展計算規模實現。LLM 的成功正源于其在預訓練數據量和模型參數規模上的擴展(scaling law)。因此,一個自然而然的設想是:是否可以將 LLM 的成功經驗推廣到 VLA 模型中?
在所有的動作 token 表征方式中,raw action 是最直接的形式,它對應具身智能體的底層動作空間,例如機械臂的關節角度。這種表征天然具備無損性,既可直接從真實系統中采集,也可用于生成,省去了額外的動作格式映射步驟,因而非常適合 VLA 模型的端到端訓練。隨著數據規模和模型參數的不斷增長,我們有理由期待 VLA 模型出現類似 LLM 的 scaling law,從而實現更強的泛化能力。
近年圍繞 raw action token 的 VLA 模型的發展已初步展現出這一趨勢。在數據層面,多個大規模機器人數據集陸續發布,如 RT 系列、Open-X Embodiment、DROID、AgiBot World,涵蓋了跨本體、多任務的多樣性數據。模型層面的發展也呈現出清晰的演進路徑:從早期的簡單多模態融合架構,發展到基于 Transformer 的自回歸模型,再到近期基于基座 VLM 和擴散模型的動作塊生成方法(Diffusion-based Action Chunking)。這些模型在參數規模和數據使用上不斷擴展,并借助預訓練的 VLM 提升了泛化能力,同時擴散模型結合動作塊也顯著增強了對精細動作分布的建模能力與動作生成頻率。此外,LLM 中 “預訓練 + 后訓練” 的范式也在 VLA 中得到驗證。研究表明,經過大規模數據預訓練的 VLA 模型,在后訓練階段僅需少量新數據即可遷移至下游任務,大幅降低了微調與部署成本。
總體而言,基于 raw action 的 VLA 模型具有多方面優勢:其表征無需人為設計或映射,最符合《The Bitter Lesson》中倡導的最少人類知識介入原則;其端到端可擴展結構便于借鑒 LLM/VLM 的成功范式;其預訓練能力降低了后訓練數據需求,使得在現實環境中的泛化部署成為可能。
然而,這一方向也面臨若干挑戰。首先,真實數據的獲取成本高昂,當前最大規模的機器人數據集仍處于百萬級別,遠低于 LLM 所依賴的十億級互聯網語料,實現類似 scaling law 效應尚顯不足。其次,大模型 VLA 的推理速度仍然受限,難以滿足高實時性要求的精細操作任務。最后,實現單一模型的跨本體泛化能力仍是一個未解難題。未來的研究應聚焦于如何更高效地獲取高質量數據、提升推理效率,并突破模型在異構機器人間的遷移能力等核心問題。
Reasoning(推理)
用自然語言表達的思考過程,解釋 “為什么要做這個動作”,常用來輔助生成更合理的其他 action token。
機器人操作和自動駕駛等復雜的具身任務不僅需要長期規劃和推理能力,更要求 AI 對空間、語義有深刻理解,并能在不斷變化的真實世界環境中高效運行。僅僅依靠擴大模型參數規模,遠不足以應對這些固有的復雜性。因此,為 VLA 模型注入強大的推理能力,已成為當前最迫切且有前景的解決方案。
我們所說的 VLA 中的推理,并非抽象概念,而是一個明確外化的、以自然語言形式呈現的深思熟慮過程。它扮演著關鍵的中間角色:當模型接收到高層指令時,推理步驟會引導其生成最終的目標 action token。這就像讓人工智能擁有了 “思考” 的能力,能夠一步步地權衡、判斷,并將內部決策過程清晰地展現出來。
這種 “思考” 能力最初源于大型語言模型的 “思維鏈” 概念,即通過一系列中間步驟來解決復雜問題。如今,這一理念已成功拓展到 VLA 領域。早期,研究者常通過結合大型語言模型與額外視覺模塊來實現具身推理。但現在,具備多模態先驗知識的 VLM 已成為主流。VLM 能夠簡化模型架構,并通過專門的微調或再訓練來適應具身推理的獨特需求。一些方法通過自動化數據合成有效解決了高質量大規模推理數據集的獲取難題,甚至將人類日常視頻也納入數據合成,拓寬了訓練數據的來源。此外,一些 VLM 更是通過強化學習等方式,專門針對具身推理進行了深度優化。在自動駕駛這一高風險、高復雜度的應用場景中,這類模型將 “思維鏈” 應用于其場景描述、分析和規劃等關鍵模塊,充分展現了推理在處理復雜決策中的核心作用。
將推理融入 VLA 模型,帶來了多重顯著優勢。它能有效彌合高層指令與底層行動的鴻溝,通過中間思考步驟提升模型對復雜指令的理解和分解能力,從而增強其在面對新場景和對象時的泛化性和對復雜任務的解決能力。此外,推理過程的外化極大地提高了模型的可解釋性,使人類能清晰審查決策、定位錯誤并實時干預,從而深化人機協作。
然而,推理的應用也面臨局限。最突出的是,推理過程往往涉及冗長序列,導致推理時間增加和執行速度降低,這對于需要實時響應的高頻任務而言是關鍵瓶頸。同時,當前推理步驟的固定性以及高質量、大規模推理數據集構建的挑戰,也限制了其靈活性和進一步發展。
VLA 中的數據來源
在 VLA 迅速發展的當下,“數據” 正成為決定模型能力邊界的關鍵因素。因此,文章系統梳理了當前 VLA 模型所依賴的數據資源,并按照 “數據金字塔” 的框架,將其劃分為三層:網絡數據與人類視頻、合成與仿真數據、真實機器人數據。這三類數據在模態組合、監督粒度和具身相關性上各具優劣,同時在性能與泛化能力之間形成了清晰的分工。
金字塔的底層由網絡數據與人類視頻構成。這類數據規模最大、獲取成本最低,盡管不包含機器人可執行的動作標簽,但它們為模型建立通用視覺語言理解能力提供了基礎。例如,大量圖文對支持模型學習物體、動作與場景的語義表征;而第一人稱視角的人類演示視頻(如廚房任務)則提供了豐富的多模態信息。雖然這些數據缺乏動作監督與精確標注,但其強語義密度使其成為 VLA 預訓練中不可或缺的資源,幫助模型 “看懂世界”“聽懂任務”,為后續具身接入與行為學習打下語義基礎。此外,這類數據還廣泛用于訓練 trajectory,latent representation 等 action token。
金字塔的中層由合成與仿真數據構成。相比昂貴而稀缺的真實機器人數據,這類數據提供了高性價比且更多樣化的數據;相比人類視頻,它包含明確的動作標簽。主流做法包括兩類:離線數據合成與交互式仿真平臺。離線數據合成方法如 MimicGen、DexMimicGen 和 RoboCasa,通過程序化修改、動力學擾動等手段,從少量演示中生成覆蓋廣泛任務與環境變化的大規模軌跡數據。而交互式仿真平臺(如 Isaac Lab、Habitat、robosuite 等)則提供了一個可反復試驗、高度可控的 “具身訓練場”。研究者可以通過遙操作、算法規劃或強化學習等方式持續生成行為數據,并通過程序生成器不斷多樣化環境配置。值得注意的是,越來越多的仿真平臺開始融合高保真物理引擎與真實 3D 場景資產,使仿真交互更接近現實,適用于復雜任務的預訓練。
金字塔的頂層是真實機器人數據,承載了物理世界中最具真實性的動作信息。相比仿真或人類演示,真機數據包含了現實世界中的動態變化、感知噪聲與物理約束,是將策略 “從仿真走向真實” 的關鍵支撐。綜述系統梳理了多個代表性數據集:多機器人數據(如 OXE、RoboMIND),單機器人數據集(如 RT-1、DROID、AgiBot World),以及自動駕駛任務中的時序軌跡(如 Waymo Open Dataset-Motion)。這些數據覆蓋了各種場景中不同形態的機器人完成不同任務的真機軌跡,還在故障軌跡、力矩 / 聲音模態等方面提供了學習樣本,為策略訓練帶來了更強的現實魯棒性與泛化數據支撐。
結語
VLA 模型正迅速成為通往具身智能的核心路徑。這篇綜述首次從 action token 視角系統梳理 VLA 技術路線,明確八類 token 的設計思路、優劣權衡與發展趨勢,并指出當前研究中的關鍵挑戰與未來方向。隨著基礎模型能力的持續躍升、數據的不斷擴展、研究人員的不斷努力,VLA 研究正在邁向通用智能的下一站。
在即將到來的 2025 世界人工智能大會(7 月 26-29 日)上,靈初智能將全面展示 VLA 技術的產業化成果,其發布的 Psi R1 模型能夠實現 30 分鐘連續麻將博弈,展現了機器人在開放環境下處理復雜任務的突破性能力,標志著具身智能從簡單動作執行向真正的認知決策和長程操作的關鍵躍遷。這將為業界提供一個觀察 VLA 技術從理論突破走向實際應用的重要窗口,共同推動具身智能技術在真實世界中的廣泛落地。





































