具身VLA后訓練:TeleAI提出潛空間引導的VLA跨本體泛化方法
在多模態大模型的基座上,視覺 - 語言 - 動作(Visual-Language-Action, VLA)模型使用大量機器人操作數據進行預訓練,有望實現通用的具身操作能力。然而,現有 VLA 基座模型的能力仍存在很大不足,在進行目標場景應用時需要采集數十乃至數百小時目標本體數據完成后訓練(Post-Training),特別是當目標場景本體和預訓練本體存在差異時,預訓練和后訓練階段的動作分布出現嚴重失配,從而引發了 VLA 模型跨本體適配(Cross-Embodiment Adaption)挑戰。在后訓練階段通過堆疊目標本體數據對抗這種失配的邊際收益迅速遞減,也難以有效擬合目標場景動作分布。
為了解決該問題,中國電信人工智能研究院(TeleAl)具身智能團隊提出了一種 “對齊 - 引導 - 泛化”(Align then Steer, ATE)的 VLA 跨本體泛化框架,破解了 VLA 后訓練難題。其核心思想是在潛空間中對齊跨本體動作分布,從而在后訓練利用統一潛空間梯度引導 VLA 策略的更新方向。無需改動現有 VLA 主干架構,實現了 VLA 模型后訓練從調架構向調分布的范式轉移,適配 Diffusion 和 Flow-Matching 等主流的 VLA 模型,極大減少 VLA 跨本體適配的數據需求。

- 論文題目:Align-Then-Steer: Adapting the Vision-Language Action Models through Unified Latent Guidance
- 論文地址:https://arxiv.org/abs/2509.02055
- 項目地址:https://align-then-steer.github.io/
- 開源代碼:https://github.com/TeleHuman/Align-Then-Steer
研究動機:從分布一致性突破 VLA 的跨本體泛化訓練瓶頸
在面向特定具身場景的操作大模型應用中,決定 VLA 能否進行跨本體遷移的關鍵并非參數規模或主干架構的復雜度,而是預訓練階段與后訓練階段的目標本體和任務的動作分布的一致性。特別地,當目標本體的機械臂構型、執行器形態、關節自由度與本體物理約束等發生變化時,目標動作分布不可避免地偏離預訓練階段 VLA 學得的動作分布域。單純地通過采集大量真機數據在后訓練階段彌補這一鴻溝,面臨迅速遞減的邊際收益,即單純數據堆疊難以有效地引導策略抵達目標域。
為了解決 VLA 的跨本體泛化適配問題,目前學界采用的方法主要從以下兩個角度開展,構建統一的、語義級別的潛在動作表示,或通過運動學重定向(Retargeting)手動將跨本體數據構建到統一的動作空間。然而,這些路徑普遍存在兩類局限:一方面,目標動作分布與原分布相差過大時(如預訓練采用單臂數據,目標場景在雙臂),上述的方法難以準確刻畫目標本體的可行子分布;另一方面,現有方式依然面向自回歸范式,并沒有考慮擴散 / 流匹配類策略的條件生成結構。為了解決該問題,TeleAI 具身智能團隊提出了 “對齊 - 引導 - 泛化”(ATE)框架,在統一的潛空間中先對齊動作統計,并在后訓練階段引入可微的引導項牽引策略更新,僅利用少量樣本便可以將模型適配到目標本體。

研究方法
ATE 框架
ATE 框架的核心思想是先在潛空間中對齊動作分布,再利用潛空間的分類器引導去牽引后訓練策略更新方向。ATE 框架如上圖所示,共分為兩個階段。
第一階段先構建一個與跨本體的統一動作潛空間,將預訓練數據所蘊含的跨任務、跨環境結構性信息編碼到潛空間,再利用目標域的有限樣本將目標潛空間嵌入到預訓練潛空間。在完成潛空間的對齊后,第二階段在統一的潛空間上設計引導函數,并利用由此得到擴散 / 流匹配 VLA 模型的分類引導,在后訓練階段顯式地將微調過程牽引至期望的目標分布,而無需更改 VLA 模型主干模型結構。
在 ATE 框架中,“對齊 — 引導” 都從分布的角度出發:先把目標域的動作潛分布嵌入到預訓練動作潛分布的某個模態中,隨后用一個可微的分類器引導項把策略輸出的生成分布朝目標分布持續推近。第一步等價于在潛空間上完成一次分布投影;第二步等價于在生成過程中為分布流添加一個外部力場,沿著統一潛空間定義的能量梯度推進去噪,使最終的邊緣分布更接近適配數據分布。
這種 “從調模型到調分布” 的范式遷移具有如下優勢。第一,樣本效率提升:潛空間對齊將策略搜索范圍約束在包含目標分布域的流形上,顯著降低了擬合到可行動作分布所需的數據量。第二,訓練效率提升:分布引導避免模型全參數重訓練,能夠在既定訓練預算內獲得更快的有效收斂。第三,工程可復用性增強:潛空間引導只作用于動作專家模型后訓練,與頂層模型解耦,具備即插即用的特性,可適配目前主流分層 VLA。
第一階段:動作潛分布對齊

在對齊階段,ATE 框架分別構造了兩個小型變分自編碼器模型(VAE)來對齊兩階段數據的動作空間。具體而言,首先構建一個統一動作潛空間,將預訓練和適應階段的動作數據嵌入到同一潛空間中。該方法通過訓練一個 VAE 在預訓練動作數據上,獲得一個固定的動作潛先驗分布。接著,對適應階段的動作數據,訓練第二個 VAE,并通過反向 KL 散度約束,將適應動作的潛分布嵌入到預訓練潛分布的特定模式中。由于反向 KL 散度的模式尋找特性(mode seeking),能夠將適應動作的潛表示緊密嵌入到預訓練分布的主模式中,使適配數據的潛變量分布
逼近預訓練潛分布
某一模態,從而把目標域的動作分布嵌入到預訓練域已經學到的潛空間中,得到統一的動作潛空間 Z,從而實現高效的跨實體和跨任務適應。此外,該方法僅需對 VAE 進行訓練,無需修改原始 VLA 架構,具有低計算開銷和高適配性。

第二階段:動作潛分布引導

在引導階段,設計了面向主流 VLA 框架的引導機制,通過能量函數和分類器,衡量生成動作與目標動作分布的差異,并將引導梯度整合進模型的訓練目標函數中。這一過程無需額外數據,僅依賴細調數據的噪聲樣本作為參考,即可在保持預訓練模型通用性的基礎上,高效地將模型輸出引導至與新任務和實體相匹配的動作分布。具體的,ATE 在潛空間內構造 classifier guidance 函數,度量當前去噪時間步的策略輸出動作塊(action truck)與目標動作塊在潛空間的距離,其梯度
被直接加到擴散過程的分數函數或流匹配的速度場更新式中,從而在每個去噪 / 流動時間步對生成軌跡的分布施加 “拉力”,把概率質量往目標分布牽引。通過引入分類器引導函數無需通過改變 VLA 的主干結構和動作空間,卻可以改變訓練時優化的分布方向。

引導機制充分利用了統一潛空間的優勢,既解決了跨實體和跨任務的適應性問題,又保留了預訓練階段習得的通用視覺 - 運動先驗知識,顯著提升了模型在新環境下的適應效率和性能。
實驗結果
ATE 算法在 ManiSkill 與 RoboTwin 1.0 等多任務仿真評測中,相較于直接后訓練,平均多任務成功率最高提升 9.8%。而在真實機器人跨本體現實場景中,ATE 帶來最高 32% 的成功率增益,且表現出更穩健的收斂行為與對光照、干擾的魯棒性。這些結果表明:ATE 框架在統一潛空間中引導學習,使得 VLA 跨本體與跨任務泛化在有限數據下得到提升,而無需額外的數據與大規模重訓練。

上表匯總了 17 個機器人操作任務上,ATE 框架下 RDT 和 PI-0 在 RoboTwin 1.0 上的性能對比。ATE 框架對 RDT 與 PI-0 的平均提升分別約為 + 9.8 與 + 8.7 個百分點,顯示出跨任務的一致增益與較好的可遷移性。尤其在基線困難的長程任務中,單項增益明顯:例如,RDT 在 Empty Cup Place 任務成功率由 22% 提升到 61%(+39),Pi 0 在 Dual Bottles Pick (Easy) 任務上成功率由 48% 提升到 85%(+37),反映了潛空間對齊與引導在動作空間分布失配較大的場景中效果更顯著。與此同時,個別任務出現了小幅下降,如 RDT 在 Bottle Adjust(-16)、Tool Adjust(-12)、Shoe Place(-1),Pi 0 在 Pick Apple Messy(-7)、Blocks Stack (Hard)(-1)、Tool Adjust(-1)。這類現象通常表現為目標域動作分布較窄。從樣本效率與收斂速度角度,ATE 在 70k 步即可超過傳統 RDT 的 90k 步效果,說明 ATE 框架的對齊 — 引導機制,不僅提高任務成功率,也顯著提升了任務成功率。

為了驗證模型的跨本體泛化能力,我們自行搭建了雙臂睿爾曼實驗環境,該實驗平臺從未在預訓練數據中出現過,且雙臂的動作空間和預訓練數據有明顯不同。進而,構建了多個分鐘級長序雙臂協同操作任務,包括制作三明治、蒸包子等復雜協作任務,以及制作酸奶、烤面包等工具使用類任務。通過采集少量真機數據進行后訓練,ATE 算法能夠將基座 RDT 和 Pi-0 等 VLA 模型快速適配到目標本體上。上圖呈現了四個真機任務在不同訓練步數的成功率與整體平均,展示了在有限數據與分鐘級長程任務下 ATE 框架的性能。可見在需要雙臂協同、時序規劃與多階段配合的任務上,在統一的潛空間引導下 ATE 框架能使模型更快地收斂到目標域動作分布。

上圖可視化了空間泛化(初始位姿隨機偏移)、視覺干擾(放置未見過的雜物,如水果)、人為擾動(在關鍵點迫使策略重試)。ATE 框架在未見的光照、雜物干擾、空間偏移與外部干預下仍能維持任務相關注意與恢復能力。
研究總結
在 VLA 基座模型尚不具備直接泛化能力的情況下,TeleAI 提出的跨本體 ATE 后訓練框架為數據稀缺與跨本體泛化后訓練難題提供了可行答案。面對數據預算、訓練窗口與算力上限的三重約束,無需寄望于數據堆疊或昂貴的全參重訓,而是以最小工程代價引入潛空間對齊與分布引導,實現快速、穩健的跨本體泛化適配。換言之,ATE 框架可以作為一個即插即用的模塊,成為兼容各種主流 VLA 模型的后訓練階段的對齊引導方案,用于提升后訓練的跨本體泛化能力,成為破解數據與訓練瓶頸的實踐路徑。
作者簡介:本文由 TeleAI 三名研究實習生:清華大學博士生張揚、港中文碩士生王陳煒、西工大碩士生陸歐陽作為共同第一作者,成果由 TeleAI 聯合清華大學、港中文、西工大合作完成,本文通訊作者為 TeleAI 具身智能團隊負責人白辰甲博士和 TeleAI 院長。





































