VLA爆發!從美國RT-2到中國FiS-VLA,機器人「即知即行」的終極進化
2025年,具身智能可真是太火了。
而提到具身智能,不得不提——視覺語言動作模型(Vision-Language-Action,VLA)。
作為具身智能的核心驅動力,VLA正席卷全球,成為研究人員們的「新寵」。
從產業界到學術界,全球的主流公司與研究機構,都在加速向這一方向靠攏,達成了罕見的共識。
在硅谷,諸如谷歌DeepMind、Figure AI、Skild AI、Physical Intelligence等行業領軍者,早已開始發力押注VLA的未來。
幾周前,谷歌曾發布了首個離線VLA模型,讓機器人不用聯網,即可精準操控完成任務。

與此同時,中國在這一賽道上的表現也毫不遜色。
近日,國內具身智能代表性創企——智平方,聯合頭部高校發布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。
這款模型最大的亮點,是將雙系統模塊中的「快系統」嵌入「慢系統」,打破了機器人「操控效率」與「推理能力」不可兼得的困局。

論文鏈接: https://arxiv.org/pdf/2506.01953
項目主頁: https://fast-in-slow.github.io/
代碼鏈接: https://github.com/CHEN-H01/Fast-in-Slow
從放置水果到疊毛巾,FiS-VLA加持的機器人不僅秒懂指令,還能以驚人速度流暢執行。
更令人振奮的是,自今年以來,與VLA相關的學術論文呈爆發式增長。
根據谷歌學術統計,VLA相關結果共有2820條;而今年,就有1390條結果,幾乎占全部結果的1/2。

放眼全球,VLA的熱潮不止于此。
VLA技術加速機器人從實驗室走向物理世界,并催生出了各具特色的技術分支。
這不僅印證了VLA的巨大潛力,也預示著,它正在重塑智能機器人與人類交互的未來。
或許你一定好奇,VLA為何成為了具身智能的「新范式」?
VLA超進化
谷歌RT-2成關鍵節點
若想破除這一疑問,前提是必須理解VLA模型的重要性。
機器人要像人類一樣,既能理解復雜指令,又能靈活應對環境,快速行動——
目前,端到端VLA大模型是最符合第一性原理的解題思路。

作為AI領域的一顆新星,VLA模型將視覺、語言、動作三種模態融在一體,讓具身AI不僅能「看懂」世界、「聽懂」指令,還能執行任務。
想象一下,一個機器人能理解「將物品放置在冰箱」,并與同伴「共腦」合作,精準完成抓取放置任務——
這就是VLA的魅力!
與傳統對話式AI不同,VLA通過統一的模型架構,將多模態信息整合處理,實現了從感知到動作的「端到端閉環控制」。
正是它的出現,讓機器人從過去的預編程、簡單遙控的「機械執行者」,進化為真正的通用具身智能。
那么,VLA究竟何時出現的?又是如何煉成的?
2022年,谷歌Robotics團隊的RT-1橫空出世,這是接近VLA的機器人基礎模型的代表工作之一。

論文鏈接:https://arxiv.org/abs/2212.06817
這是機器人領域,首個大規模訓練的Transformer模型。
RT-1通過模仿學習,在多樣化的機器人演示數據上訓練,具備了跨任務的泛化能力,比如它能完成「把可樂放入冰箱」多步驟任務。
它首次將「預訓練+微調」的范式引入了機器人控制領域,為后續VLA模型的提出奠定了基礎。
RT-1的出現,開創了多任務的「視覺-動作」模型。
既然「預訓練+微調」范式行得通,為什么要重新訓練大模型?
與純文本任務不同,機器人系統必須具備對現實世界物理規律、環境上下文的深入理解,并能執行具體動作。
這些問題遠遠超出了語言模型最初的設計范疇:它不僅要「理解文字」,更要「執行意圖」。
隨后,研究者嘗試將語言融入機器人系統。但這些方法通常存在功能有限、適用范圍狹窄或為開環系統,難以實現實時互動與基于反饋的動態調整。
2023年,微軟提出了ChatGPT for Robotics,首次將對話大模型應用于機器人,實現了零樣本任務規劃。

論文鏈接:https://arxiv.org/abs/2306.17582
這時,只需動動嘴皮子——我想用積木塊拼出微軟logo,模型瞬間領會完成拼圖。

這項研究,將LLM用于機器人控制的設想變成現實,并在機器人領域,引領了一種全新研究風潮——「LLM+機器人」。
不過,它也暴露了語言模型在低級動作控制上的局限,如何讓語言與動作的深度融合,成為下一個突破的難題。
幾乎同時,谷歌帶來了PaLM-E,首次將視覺感知能力融入超大語言模型PaLM中。
PaLM-E最大參數達5620億,實現了視覺問答、圖像描述、機器人操作規劃的統一。
在開放領域視覺問答上,PaLM-E刷新了SOTA,還將互聯網規模的語義知識遷移到機器人控制中,為后續多模態模型提供了關鍵的設計范式。

VLA范式正式確立
經過四個多月迭代后,23年7月,谷歌DeepMind的RT-2正式上線,明確提出了VLA概念。

RT-2首創性地將機器人動作離散化為文本token,與視覺語言數據聯合訓練。
得益于此,它展現出了強大的泛化能力,在從未見過的物體上完成指令響應、理解數字符號和多步推理。

RT-2在未見任務上實現了超50%的成功率
這一刻,標志著VLA范式的正式確立,開啟了「大模型驅動機器人控制」的新方向。
技術追逐賽加速
中國具身企業國際舞臺首發聲
自此之后,國內外具身智能玩家競相加速,掀起了一場激烈的VLA技術追逐戰。
2024年6月,中國隊提出創新方法,破解VLA領域的長期痛點,迅速嶄露頭角。
眾所周知,機器人操作基本目標之一是理解視覺場景并執行動作。盡管RT-2這類VLA可以處理一些基本任務,但還有兩個痛點:
(1)面對復雜任務,推理能力不足;
(2)在微調和推斷上,算力成本太高。
而狀態空間序列模型Mamba,只有線性復雜度,但也實現了情境感知推理。
那為什么不把Mamba引入VLA,解決之前的痛點?
在這一關鍵時刻,智平方作為國內具身智能領域的領先者,展現了其技術創新的深厚實力。
他們與北大等頂尖機構一起,率先將Mamba引入VLA架構模型,推出了革命性的輕量化結構RoboMamba。
這一突破,直接讓VLA模型實現了效率與推理泛化能力的重大飛躍。

論文鏈接:https://arxiv.org/abs/2406.04339
具體而言,RoboMamba將視覺編碼器與Mamba大模型融合,實現視覺常識理解與機器人專項推理能力。
相比之前的VLA模型,RoboMamba不僅復雜度降低了,還顯著提升了長序列推理能力。
而且RoboMamba僅微調0.1%參數,即可實現SE(3)位姿的預測與操控能力。
在模擬和真實環境下,推理速度是主流模型的3倍,成為VLA實時性挑戰的突破口。
RoboMamba證明了,狀態空間建模范式在VLA中的高效性,引領了Transformer替代方案的新探索。
這一突破性成功入選了人工智能頂級盛會 NeurIPS 2024,也創造了中國具身公司在VLA領域國際舞臺的首次發聲!

緊接著,同月,來自Physical Intelligence、斯坦福、谷歌等機構的團隊,則針對RT系列模型所暴露出的問題,開源了一款全新的大規模VLA模型——OpenVLA。
此前的RT系列模型雖展示了VLA模型的通用泛化能力,但其對物理空間的表達能力,即視覺編碼器(Vision Encoder)在精細化識別上,表現不佳。

舉個栗子,讓RT-2機器人分類同色積木塊、將可樂放在霉霉身邊的任務中,表現并不理想
OpenVLA有7億參數,基于Llama 2骨干構建,融合了DINOv2和SigLIP視覺特征,并在97萬個真實機器人示教數據集上完成了預訓練。
令人意想不到的是,OpenVLA在29種操作任務中,碾壓55億參數的RT-2-X,成功率高出16.5%。

論文鏈接:https://arxiv.org/abs/2406.09246
OpenVLA僅以1/7的體積,就實現了性能超越,還能在消費級GPU上快速適配各種任務。
比如,讓它把香蕉放在盤子里,OpenVLA就會直接將其放在盤子中間。

最強泛化?
國產原創「混合架構」出圈
繼RoboMamba、OpenVLA推動了模型開源和效率提升之后,Physical Intelligence提出的π系列模型重新思考一個問題:
如何用最簡結構,實現VLA最強泛化?
2024年10月31日,π?,一款通用機器人流匹配策略模型誕生。
在預訓練視覺語言模型基礎上,π?疊加了流匹配架構,集成了互聯網級語義知識,同時還支持單臂、雙臂、移動操作臂等多種靈巧機器人的連續動作建模。

在洗衣折疊、桌面清潔、裝配盒子等復雜任務中,π?展現出零樣本執行、自然語言指令遵循、快速微調新技能的能力。

π?架構
得益于其「流匹配+預訓練語義模型」的架構,為高自由度連續控制場景提供了全新路徑。
與此同時,π?還承接了RT-2對語義泛化的關注,進一步推動了AI社區對VLA模型研究。
時隔半年,π?.?作為初代增強版發布,更加聚焦開放世界泛化能力的提升,強化了在未見環境中的適應能力。
π?.?在未見家庭場景中,無需訓練即可高質量完成清潔任務,處理從模糊指令到詳細動作的多種輸入。

它的誕生,真正實現了在不犧牲精度前提下,提升了「任務泛化」和「環境泛化」的性能,標志著VLA已具備了向現實世界大規模推廣的能力。
π系列僅是VLA模型技術模型技術分支的一種:采用擴散架構。
除此之外,隨著不同玩家的布局,在VLA全新范式下,已經分化出不同的技術路徑。
有的采用自回歸架構,有的基于擴散模型的動作解碼器,還有的兩種架構兼用。
融合自回歸+擴散,既要穩又要學得快
HybridVLA,就是混合架構的代表作之一。
這背后,依舊由中國團隊主導,他們通過原創突破攻克了復雜環境下魯棒性與泛化能力平衡的難題,開啟了混合動作生成的新方向。
通過自回歸和Diffusion+Action Chunk架構,HybridVLA統一了視覺-語言-動作的協作生成。

論文地址:https://arxiv.org/abs/2503.10631
如下圖所示,過去基于擴散的VLA方法僅在LLM后端附加獨立擴散頭(圖1a)。
而新方法創新性地提出協同訓練方案,將擴散去噪過程無縫融入單一LLM主干的自回歸流程(圖1b)。

不同VLA中LLM和Diffusion的融合方法對比
具體實現上,針對離散自回歸token與連續擴散隱變量在表征層面的異構性,研究者設計了系統化的token序列組織形式,利用特定標記token實現多模態輸入、擴散token與自回歸token的有機銜接。
從結果上看,HybridVLA在多個仿真和真實世界任務中超越了現有的SOTA VLA方法,同時被PI作為baseline引用和對比,這也是PI唯一對比過的中國VLA模型。
值得注意的是,該Paper的一作劉家銘博士也是「北大—智平方具身智能聯合實驗室」的研究員。

最終,機器人實現了全身控制,包括從桌面單臂到全域觸達&全身動作,因而適用范圍也得到了指數級拓展。
盡管業界在VLA模型的探索成果頗多,但傳統方法仍未解決具身智能領域核心矛盾——
視覺-語言模型(VLM)具備很強的泛化能力,但處理速度較慢;
而機器人視覺-運動策略雖然反應迅速,卻缺乏通用性。
雙系統
泛化性和執行效率全都要
受到卡尼曼雙系統理論(Kahneman’s theory)的啟發,Helix研究者提出了「雙系統架構」:
由基于VLM的System 2處理高層推理,另一個獨立的System 1負責實時動作執行。

Daniel Kahneman:諾貝爾經濟學獎得主。他將人類思維劃分為兩種模式:「系統1」反應快速、依賴本能和情緒;「系統2」則更為緩慢、審慎且合乎邏輯

2025年2月21日,人形機器人初創Figure AI發布了突破性的VLA進展——Helix。
這是一個采用「系統1+系統2」架構的端到端機器人大模型。

以往的VLA主干網絡,具有通用性但速度不快,機器人視覺運動策略速度快,但缺乏通用性。
Helix通過兩個系統端到端訓練,徹底解決了這一難題。
系統1(S1):80M參數交叉注意力Transformer,依靠一個全卷積的多尺度視覺主干網絡,進行視覺處理
系統2(S2):VLM主干網絡,經互聯網規模數據訓練后,工作頻率7-9Hz,用于場景和語言理解
這種解耦架構,讓每個系統都能在最佳時間尺度上運行,S2可以「慢思考」高層目標,S1通過「快思考」來實時執行和調整動作。
更驚嘆的是,在協作中,S1能快速適應同伴的動作變化,同時維持S2設定的語義目標。

Helix也成為最有影響力的「雙系統」VLA模型之一。
英偉達:開源GROOT N1
緊接著,3月18日,英偉達Isaac團隊則開源了全球首個通用人形機器人基礎模型——GROOT N1。

該工作將雙系統VLA理念落實到人形機器人領域,加速了學術界和工業界對通用人形機器人智能體的研發。

GR00T N1神經網絡架構示意圖:采用視覺語言基礎模型與擴散Transformer頭的創新組合,通過連續動作去噪實現精準控制
GR00T N1標志著人形機器人基礎模型的里程碑:通過融合互聯網數據和機器人數據,實現了硬件實體上的廣義推理與技能遷移。
FiS-VLA:全面超越當時最強開源模型π0
然而,此類架構中兩個系統相互獨立,System 1難以充分利用System 2所蘊含的豐富預訓練知識。
為了攻克這一技術瓶頸,智平方聯合香港中文大學、北京大學、北京智源研究院,又一次展現了中國具身的最強實力。
他們創新性地提出了深度融合的快慢系統Fast-in-Slow(FiS-VLA),以突破性技術架構實現了機器人的「即知即行」,為全球VLA技術樹立了全新里程碑。
具體來說,Fast-in-Slow(FiS)架構統一了雙系統VLA模型:
執行模塊System 1被嵌入到System 2中,二者通過共享部分參數的方式連接。

常規算法和FiS對比:FiS-VLA采用完整視覺語言模型(VLM)實現系統2(圖中藍色部分)的推理功能,同時改造LLM的末端Transformer模塊作為系統1(圖中綠色部分)的執行單元
這是首次在單一預訓練模型內實現「慢思考」與「快執行」的協同,成功突破了傳統雙系統分離的瓶頸。
系統1直接繼承了VLM的預訓練知識,能無縫理解系統2的「思考結果」(中間層特征)。
從此,它不再是「門外漢」,同時還能保證高速運行。
在FiS-VLA中,兩個系統的角色存在根本差異:
(1)系統1負責執行,讀取機器人狀態、3D點云和當前圖像,生成高頻控制動作,節奏極快;
(2)系統2負責理解,處理二維圖像和語言指令等低頻輸入,提取任務語義,節奏偏慢。
為此,這次特意引入了異構模態輸入與異步運行頻率策略。
這種做法讓模型既能像「張飛繡花」,又能像「博爾特短跑」:既可快速反應,又能精細推理。
此外,兩個系統之間的協調性也是難點:一方面要為系統1注入動作生成能力,但另一方面卻要保留系統2的上下文推理能力。
對此,研究者結合擴散去噪目標與自回歸目標,提出了雙系統感知協同訓練策略(dual-aware co-training strategy)。

FiS-VLA框架結構
- 執行模塊(系統1,上圖綠色部分):采用擴散建模(diffusion modeling)中概率性與連續性的特點,向嵌入空間注入帶噪動作作為潛在變量,學習動作生成。
- 推理模塊(系統2,上圖藍色部分):采用自回歸逐token預測的范式作為訓練目標,生成離散的語言或動作,避免慢系統發生災難性遺忘。
這有效解決了傳統VLA模型執行頻率低、推理與動作割裂的問題:
不僅賦予了System 1高頻率執行能力,也促進了推理與執行模塊之間的高效協同。
在實驗評估中,FiS-VLA的表現顯著優于現有方法:在仿真任務中平均成功率提升8%,在真實環境中提升11%。
在RLBench的10個仿真任務上,FiS-VLA取得了69%的平均成功率,明顯優于CogACT(61%)和π0(55%)。
而且,哪怕在未采用動作塊(action chunking)機制的情況下,FiS-VLA依然實現了21.9Hz的控制頻率,運行速度是CogACT(9.8 Hz)的2倍以上,也超過π0(13.8 Hz)1.6倍。

在RLBench上,FiS-VLA與基線方法的性能對比
在真機任務上,不管單臂還是雙臂操作的任務,新方法的成功率都全面領先當時最強的開源模型π0。

在真實場景中,FiS-VLA與π0的性能對比
在面對全新物體、復雜背景與多樣光照條件等難題時,也展現出了良好的泛化能力,明顯領先π0模型。

泛化性實驗。左圖展示三種泛化測試場景,其中紅色方框標出關鍵差異點
上表中,「Object」(物體)、「background」(背景)與「Lighting」(光照)分別指未經訓練的操控對象、復雜背景及光照干擾。
最終,這種快慢系統能夠同時快速響應環境變化,同時還能完成長程推理任務。
通往AGI的星辰大海
回顧VLA模型在全球的演進歷程,我們見證了,技術的每一次突破如何層層遞進,中國具身公司如何為業界貢獻力量。
從RT-1的開創,到RT-2確立VLA范式,再到RoboMamba、OpenVLA的開源普及,到Pi0~Pi0.5的進一步泛化、擴大影響力,又到FiS-VLA的實時控制突破,每一步都在不斷挑戰技術極限。
這構成了VLA動作層面的「自回歸到擴散到混合」的演進路徑,以及雙系統層面的「非端到端到快慢松耦合到快慢緊耦合」的演進路徑,不僅展現出VLA模型的強大適應性,也揭示了機器人智能從單一任務到通用能力的進化邏輯。
在這一波瀾壯闊的技術浪潮中,智平方作為中國具身智能的代表,以其卓越的創新能力和產業影響力,攜手國內頂尖高校與機構,共同鑄就了技術新高峰。
通過RoboMamba、HybridVLA、FiS-VLA等一系列原創成果,智平方不僅攻克了長序列推理、實時控制等VLA難題,更以中國智慧為全球具身智能的發展注入了強勁的動力。
短短三年的時間,VLA技術完成了從實驗室走向工業落地的華麗蛻變。
隨著GROOT N1、Helix、FiS-VLA等模型的部署,VLA將在人形機器人、智能制造等領域大放異彩。
如今,VLA模型加持下的人形機器人,已經進車間打工了。


站在2025年全新節點上,VLA模型不僅僅是技術的突破,更是人類邁向AGI的堅實一步。
一起共同期待,VLA如何在未來重塑世界,開啟機器人智能的黃金時代!


































