推理與操控能力雙提升!具身機器人雙系統VLA模型新突破
讓機器人學會聰明且快速精準執行,一直是機器人操控領域的難題。
為了解決這個問題,香港中文大學、北京大學、智平方和北京智源研究院聯合創新性地提出了Fast-in-Slow(FiS-VLA),即一個統一的雙系統VLA模型。
它通過將慢系統2最后幾層的Transformer模塊重新構建為一個高效的執行模塊,用作快系統1,從而在一個模型中實現了快慢系統融合。

這種創新范式首次在單一預訓練模型內實現慢速推理與快速執行的協同,突破了傳統雙系統分離瓶頸。
從此,系統1不再是“門外漢”,它直接繼承了VLM的預訓練知識,能無縫理解系統2的“思考結果”(中間層特征),同時自身設計保證其能高速運行。
在真機測試中,研究團隊在AgileX和AlphaBot兩個雙臂機器人平臺上分別設計了8項任務,如“擦黑板”、“倒水”、“折疊毛巾”等。FiS-VLA成功率分別達到68%和74%,比Pi0模型提升超過10個百分點。

此外,FiS-VLA在泛化任務中表現也十分穩健。無論是未見過的新物體、復雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率,而其他模型則普遍出現性能大幅下滑。
方法:首個“ 異構輸入+異步頻率”雙系統VLA模型
盡管近年來的視覺-語言-動作模型(VLA)開始借助互聯網規模預訓練的視覺-語言模型(VLMs)提升常識推理能力,但這類模型動輒數十億參數,以及基于自回歸生成動作的策略,導致在執行速度上往往表現不佳。
受心理學家丹尼爾?卡尼曼大腦快慢雙系統理論的啟發,業界把“雙系統”設計引入VLA大模型,利用基于VLM的慢系統2模塊處理高級推理,并使用獨立的快系統1動作模塊負責實時控制。
但是,現有的設計是將兩個系統保持為獨立模塊,限制了快系統1充分利用慢系統2的豐富預訓練知識,即系統1這個“運動員”很難充分吸收系統2“學霸”的淵博知識。
團隊提出的Fast-in-Slow(FiS-VLA),實現了在一個模型中快慢系統融合。
考慮到FiS-VLA中兩個系統在角色上的根本差異,研究者引入異構模態輸入與異步運行頻率策略,使得模型既能實現快速反應,也具備精細操控能力。
此外,為提升兩個系統之間的協調性,研究者提出了一種雙系統感知協同訓練策略(dual-aware co-training strategy):一方面為系統1注入動作生成能力,另一方面保留系統2的上下文推理能力。
這樣就有效解決了傳統VLA模型執行頻率低、推理與動作割裂的問題,真正做到“謀動并行”。
在模型評估中,相比于現有的SOTA VLA方法,FiS-VLA在仿真任務中提升了8%的平均成功率,在真實環境下提升了11%,并實現了117.7 Hz 的控制頻率(動作塊大小為8)。

由于系統2與系統1在職責上存在根本差異:系統2負責理解,它處理語言指令和2D圖像,提取任務語義,節奏偏慢;系統1負責執行,它讀取機器人狀態、3D點云和當前圖像,生成高頻控制動作,節奏極快。
因此,FiS-VLA對這兩個系統進行了專門設計:它們接收不同模態的輸入,并以異步的頻率運行。
兩套系統雖任務不同,但運行邏輯連貫、數據互通。系統1使用系統2的中間語義表示作為指導,同時結合自身輸入,實現高速精準的動作生成。
為了處理點云數據,研究者設計了一個輕量級的3D tokenizer。它可以把復雜的空間信息壓縮成高維token,并通過視覺編碼器提取局部幾何特征。這一做法不僅高效,還讓系統1擁有敏銳的空間感知能力。
在系統運行節奏上,FiS-VLA采用異步頻率設計。系統2慢慢思考,系統1快快執行。比如系統2每跑一次,系統1可以連續運行4次。這種機制讓推理不會成為瓶頸,而動作響應也足夠及時。
值得一提的是,快慢雙系統融合正在成為VLA大模型領域的共識,但在異步架構的突破設計上,FiS-VLA目前仍是領跑同行。
訓練:“雙系統”協同訓練,相輔相成
訓練過程也很有講究。
FiS-VLA的核心目標是生成精確且可執行的動作,因此特地采用了“雙系統感知協同訓練”策略:
對于執行模塊(系統1)使用了擴散建模(diffusion modeling)中概率性與連續性的特點,通過向系統1的嵌入空間注入帶噪動作作為潛在變量,來學習動作生成,具體如下:
給定初始動作序列?τ,研究者在隨機時間步τ ~ U(1, T)(其中τ ∈ Z,T = 100)注入高斯噪聲η ~ N(0, I)。前向過程以閉式添加噪聲:

其中βτ為預定義調度表的噪聲縮放因子。為訓練系統1(π_{θ_f}),將學習過程建模為以下目標的優化問題:

其中c表示條件源,包含系統2提取的低頻潛在特征和系統1的高頻輸入。由于系統1執行模塊嵌入在系統2的VLM中,若僅針對擴散動作生成訓練模型,可能導致其自回歸推理能力災難性遺忘。
因此,研究者提出聯合訓練目標,對于推理模塊(系統2)保留其高維推理能力,采用自回歸逐token預測的范式作為訓練目標,生成離散的語言或動作,避免慢系統發生災難性遺忘。
以離散動作為例:

其中D_t為離散動作詞元總長度,a_i為第i個真實動作詞元,P(a_i | context, θ)為LLM在輸入上下文和參數θ(θ_f ? θ)下的預測概率。最終整體訓練目標為:

從上面可以看出,兩個系統的目標不同,但訓練是同步進行的。系統1學“怎么動”,系統2學“想清楚再動”。這種策略避免了模型遺忘系統2的推理能力,也讓兩個系統在統一模型中共同優化。

此外,在預訓練階段,研究者用到了超過86萬條機器人任務軌跡,涵蓋多個機器人平臺。FiS-VLA主干采用的是參數量7B的LLaMA2大語言模型,視覺部分采用了SigLIP和DINOv2編碼器,兼顧語義和空間表達。
效果:仿真&真機成功率提升顯著
在RLBench仿真任務中,FiS-VLA在10個任務上取得了69%的平均成功率,明顯優于CogACT(61%)和Pi0(55%)。尤其值得注意的是,FiS-VLA在10個任務中有8個任務表現優越,突顯了其在動作生成方面的魯棒性。
同時,在控制頻率方面,FiS-VLA在動作塊大小設為1的情況下達到了21.9 Hz的控制頻率,運行速度是CogACT(9.8 Hz)的2倍以上,也比Pi0(13.8 Hz)快超過1.6倍。

消融實驗
為了更細致地驗證模型設計,研究者進行了多輪消融實驗。
首先測試了系統1在系統2中共享的Transformer塊數量。結果顯示,隨著共享塊數量的增加,操控性能逐步提升,并在使用兩個塊時趨于飽和。
然后考察系統1的輸入模態。實驗表明,機器人狀態、2D圖像、3D點云缺一不可。尤其是3D點云,在精細動作控制中發揮了關鍵作用。
他們還研究了系統運行頻率的配比。系統2與系統1之間的異步運行頻率比為1:4時,FiS-VLA取得了最佳性能,在慢速推理與快速動作生成之間達到了理想平衡。這驗證了異步協調頻率設計不僅提升了動作生成速率,同時也增加了傳遞給執行模塊的觀察信息的豐富度。

為了進一步提升控制效率,FiS-VLA還引入了“動作分塊”機制。即每次預測多個連續動作,而不是逐步推理。這樣做能降低誤差積累風險,同時提升動作連續性。
結果表明,在動作塊設置為8的情況下,模型成功率保持穩定,而控制頻率則飆升至117.7Hz。機器人行為更加流暢,決策更少、執行更穩。
泛化能力
更難得的是,FiS-VLA在泛化任務中表現依舊穩健。無論是未見過的新物體、復雜背景干擾,還是光照條件變化,它都能保持50%以上的成功率。而其他模型則普遍出現性能大幅下滑。

這背后正是快慢系統融合帶來的好處:系統2能夠理解語義,找到任務核心;系統1能夠根據感知迅速反應。二者結合,使模型具備強泛化能力與魯棒性。
目前FiS-VLA的結構仍是靜態配置:Transformer共享層數、系統頻率比都需提前設定。研究者計劃在未來探索動態調參機制,讓模型能根據任務復雜度和環境自動調整運行策略。
這種自適應機制將進一步釋放FiS-VLA的潛力,讓它更接近通用智能機器人的核心大腦。
總結來看,FiS-VLA不是對已有模型的簡單優化,而是一種全新的架構思路。它打通了思考與行動、語義與物理、計劃與執行之間的壁壘。
它不僅讓機器人“會想”,更讓它“快動”;不僅理解復雜任務,還能高頻率完成。
這或許就是未來通用智能機器人的基礎形態——既有認知大腦,又有靈巧身體,統一于同一個神經系統中。
論文鏈接: https://arxiv.org/pdf/2506.01953






























