中科院聯合清華等發布視覺語言行動推理模型VLA-R1,讓機器人先思考再行動
還記得 DeepSeek R1嗎?它實現了大語言模型先思考再回答。
剛剛,中科院自動化所、清華和GigaAI聯合發布視覺-語言-行動(Vision-Language-Action, VLA)模型的R1推理版本。讓機器人實現了先思考再行動。

當前的機器人模型在執行任務時,像一個提線木偶,直接輸出動作,而VLA-R1模型給機器人裝上了一個會推理的大腦,讓它在行動前先想清楚每一步。
視覺-語言-行動(Vision-Language-Action, VLA)模型是具身智能(embodied AI)領域的一項關鍵技術。它的目標是讓一個智能體,比如機器人,能夠像人一樣,通過看(視覺)、聽(語言)來理解指令,并作出相應的行動。
這就像你告訴一個朋友,請把桌上的紅蘋果遞給我。他會先用眼睛掃描桌子,找到所有的蘋果,分辨出紅色的那個,然后規劃手臂的運動路徑,最后伸手拿起并遞給你。這個過程融合了感知、理解、推理和行動。
早期的VLA模型已經能做到不錯的程度。它們通過學習海量的圖片與文字,建立了對世界的基本認知。比如,它知道什么是蘋果,什么是桌子。接著,通過學習大量的操作數據,它將這種認知與具體的機器人動作聯系起來。比如,它學會了如何控制機械臂去抓取一個物體。
這使得模型具備了寶貴的泛化能力。即使它沒見過某個特定品牌的杯子,但因為它理解‘杯子’這個概念,它也能舉一反三,去抓取那個新杯子。它還能理解組合性的新指令,比如‘把方塊放到圓圈的左邊’。
然而,這些模型有一個共同的短板,它們像一個做事不過腦子的行動派。
你給它一個指令,它幾乎是憑直覺,直接給出一個最終動作。這個過程像個黑箱,中間沒有清晰的思考步驟。它不會明確地去推理物體的用途(可供性),比如杯子是用來裝水的,錘子是用來敲的。它也不會仔細分析物體之間的幾何關系,比如哪個物體在前面,哪個在后面。
這種莽撞的模式,在簡單的場景下或許還能應付。一旦環境變得復雜,問題就暴露無遺。
想象一下桌上有兩個顏色非常接近的紅色方塊,指令是‘拿起那個深紅色的方塊’。模型很可能因為無法進行細致的推理而選錯。
再比如,桌上有好幾個碗,指令是‘把草莓放進碗里’。模型應該選擇哪個碗?是離得最近的,還是最大的,還是空的那個?缺乏推理能力,模型的選擇就帶有很大的隨機性,任務成功率自然大打折扣。
更關鍵的是,現有的模型訓練方法也難以系統性地提升這種推理能力。主流的方法是監督微調(supervised fine-tuning, SFT)。就是給模型看大量的‘問題-標準答案’,讓它去模仿。這種方式很少能優化思考過程的質量,也缺乏對最終執行效果的有效獎勵。
即便引入了強化學習(Reinforcement Learning, RL),獎勵設計也通常很單一,比如只獎勵最終任務是否成功。這很難同時優化過程的合理性(比如視覺區域對齊是否準確)和動作的連貫性(比如軌跡是否平滑)。這導致模型在面對新環境或真實世界時,性能會大幅下降。
機器人需要學會思考。不是簡單的反應,而是有條理、有邏輯的逐步推理。
VLA-R1學會了先思考再行動
針對這些挑戰,研究人員提出了VLA-R1,一個會推理的VLA模型。它的核心思想很簡單:把人的思考過程,也就是思維鏈(Chain-of-Thought, CoT),教給模型,并用一套可驗證的獎勵機制去強化這個思考過程和最終的行動。
這全面提升了機器人行動的準確性。

整個VLA-R1的訓練和工作流程分為兩個核心階段。
第一階段是學習如何思考。這個階段采用的是監督微調。
研究團隊首先需要高質量的教材,也就是帶有清晰思考過程的訓練數據。他們構建了一個名為VLA-CoT-13K的數據集。他們使用強大的Qwen2.5-VL-72B模型,為13000個任務場景自動生成了中間的推理步驟。

比如,對于‘把綠色的積木放到紅色的碗里’這個任務,生成的思維鏈可能是這樣的:
- 識別任務目標:移動綠色積木。
- 定位綠色積木:在圖像的左上角區域找到了一個綠色的方塊。
- 識別目的地:紅色的碗。
- 定位紅色的碗:在圖像的右側中間位置找到了一個紅色的碗。
- 規劃行動軌跡:從綠色積木的位置,規劃一條避開障礙物的路徑,移動到紅色碗的上方,然后放下。
這些帶有思維鏈的數據,就像一本本詳細的解題步驟分析。模型在學習時,不僅僅是看到最終答案(機器人動作),更重要的是學習了從問題到答案的整個邏輯推理過程。這種‘先推理,后行動’的策略,讓模型學會了分解任務,將視覺感知和最終的動作目標更緊密地聯系起來,也大大提高了學習效率。
在模型架構上,VLA-R1使用Qwen2.5-VL-3B作為基礎。它的視覺部分是一個經過重新設計的視覺Transformer,可以高效處理高分辨率圖像和視頻。語言部分則使用了成熟的Qwen2.5解碼器。圖像和文字信息在這里融合,共同推理,最終生成包含推理過程和動作預測的結構化輸出。這個輸出隨后被轉換成機器人可以執行的連續7D動作指令(包括三維空間位移,三維旋轉和夾爪的開合)。

第二階段是強化思考與行動的質量。這個階段采用的是強化學習。
經過第一階段的學習,模型已經初步具備了推理能力。但這種推理可能還不夠精確,不夠魯棒。就像一個學生學會了解題步驟,但計算過程可能還會有小錯誤。
為了解決這個問題,研究團隊引入了一套基于可驗證獎勵的強化學習(Reinforcement Learning from Verifiable Rewards, RLVR)策略。他們采用了一種名為群體相對策略優化(Group Relative Policy Optimization, GRPO)的算法。這個算法的好處是,可以讓模型從結構化的、可驗證的獎勵中學習,同時保持訓練過程的穩定。
研究團隊設計了三種具體的、可量化的獎勵,像三位嚴格的考官,從不同維度評判模型的輸出。
第一位考官負責評判軌跡。它使用的評分標準叫作角度長度增強Fréchet距離(Angle-Length Augmented Fréchet distance, ALAF)。傳統的評價方式可能是比較兩個軌跡對應點之間的距離,但ALAF更聰明。它不僅考慮位置,還考慮了軌跡的順序、方向和局部長度。
第二位考官負責評判空間定位的準確性。比如指令是‘拿起那個蘋果’,模型需要先在圖像中框出蘋果的位置。這位考官使用的評分標準是廣義交并比(Generalized Intersection over Union, GIoU)。交并比(IoU)是衡量兩個邊界框重合度的常用指標。但當兩個框完全不重合時,IoU為0,無法反映它們之間的距離。GIoU則改進了這一點,即使兩個框不重合,它也能通過計算包裹它們的最小外接矩形來給出一個懲罰,從而衡量它們的距離。
第三位考官負責評判輸出格式。它要求模型的輸出必須嚴格遵守‘先推理,后動作’的結構。輸出必須先包含一段推理文字,然后是一個被特定標簽(...)包裹的動作指令。
通過這三位考官的聯合評分,模型不斷調整自己的策略,力求在軌跡對齊、空間定位和格式規范性上都做到最好。這個過程系統性地優化了模型的推理魯棒性和執行準確性。
嚴苛的考驗證明了它的強大
為了驗證VLA-R1的真實水平,研究團隊設計了一系列嚴格的實驗,涵蓋了從標準數據集到模擬環境,再到真實世界的全方位考驗。
首先是在熟悉的領域內數據集(ShareRobot)上進行測試。這個數據集是專門為可供性感知和軌跡預測任務構建的,規模龐大,場景豐富。

實驗結果非常清晰。那些通用的、強大的開源多模態模型,比如Gemma和Phi系列,在這些具身任務上表現不佳。盡管它們參數量巨大,但在定位精度(IoU)上得分低于10,軌跡預測的各項誤差(DFD, HD, RMSE)也居高不下。這說明,通用的視覺語言能力并不能直接轉化為精確的機器人操作能力。
經過監督微調(SFT)的基線模型,如RoboBrain和NORA,表現有所提升,IoU通常在5到25之間。這證明了針對性訓練的有效性。
而VLA-R1-3B的表現則全面領先。它的IoU達到了36.51,軌跡誤差的三項指標(DFD, HD, RMSE)分別為106.2, 97.9, 71.12。與同樣經過強化學習訓練的強基線ManipLVM-R1相比,VLA-R1的IoU提升了17.78%,軌跡誤差整體降低了17.25%。
接著是更具挑戰性的領域外(Out-of-Distribution, OOD)泛化能力測試。模型需要處理它在訓練中從未見過的數據。結果顯示,VLA-R1的優勢更加明顯。在可供性任務上,它的IoU達到了33.96。在軌跡預測任務上,三項誤差指標甚至比領域內測試時還要低。這證明VLA-R1學到的不僅僅是死記硬背訓練數據,而是真正掌握了可泛化的推理能力。

隨后,實驗進入了模擬環境。研究團隊使用RoboTwin模擬器,在一個每次都會隨機變化的桌面環境中測試模型的性能。他們測試了兩種不同的機器人(Piper和UR5),以檢驗模型的跨平臺通用性。

盡管模擬環境的變化比訓練數據更大,VLA-R1依然表現出色。在可供性感知任務上,它的平均成功率(Success Rate, SR)為55%。在軌跡執行任務上,平均成功率更是達到了70%。相比之下,基線模型NORA的表現則差很多,尤其是在軌跡任務上,幾乎完全失敗。這證實了VLA-R1在動態變化的環境中,依然能保持強大的穩定性和泛化能力。
最后,也是最關鍵的,是真實世界實驗。研究團隊在真實的桌面上設置了四個典型場景,包括拾取特定顏色的碗、從多個相同水果中挑選一個、在有遮擋的廚房場景中操作,以及包含多種干擾物的混合場景。


在這些充滿不確定性的真實環境中,VLA-R1再次證明了自己。在可供性感知任務上,它的平均成功率約為62.5%,在軌跡預測任務上,平均成功率高達75%。而基線模型NORA-3B在這兩項任務上的成功率分別只有35%和47.5%。研究團隊發現,顏色相近、位置變化等因素是導致錯誤的主要原因。即便如此,VLA-R1在失敗的情況下,其預測也通常集中在目標物體附近,而不是完全離譜,顯示出了一定的容錯和自我糾正能力。
為了徹底搞清楚思維鏈(CoT)和強化學習(RL)各自的貢獻,研究團隊還進行了一項消融研究。他們測試了三種配置:沒有CoT和RL的模型,只有CoT的模型,以及同時使用CoT和RL的完整版VLA-R1。

結果如表所示,每一步的改進都清晰可見。單獨加入CoT,就能讓模型的定位精度(IoU)從23.74提升到28.37,這說明思維鏈對于幫助模型理解屬性、消除歧義至關重要。而當CoT和RL結合后,所有指標都獲得了巨大提升。這完美地證明了兩者是互補的:思維鏈提供了結構化的任務分解和推理框架,而強化學習則利用精細的獎勵信號來打磨和完善具體的執行策略,最終實現了1+1>2的效果。
目前,所有的開發和驗證工作都集中在單臂機器人上。未來,將這套方法擴展到更復雜的機器人平臺,比如雙臂協作機器人,或者能行走的四足機器狗,將是一個重要的研究方向。
這項研究清晰地表明,讓機器人學會像人一樣先思考再行動,是通往通用物理世界AI的必由之路。




































