中科院聯合清華等發布視覺語言行動推理模型VLA-R1，讓機器人先思考再行動

2025-10-30 16:04:35

剛剛，中科院自動化所、清華和GigaAI聯合發布視覺-語言-行動（Vision-Language-Action, VLA）模型的R1推理版本。讓機器人實現了先思考再行動。

還記得 DeepSeek R1嗎？它實現了大語言模型先思考再回答。

剛剛，中科院自動化所、清華和GigaAI聯合發布視覺-語言-行動（Vision-Language-Action, VLA）模型的R1推理版本。讓機器人實現了先思考再行動。

當前的機器人模型在執行任務時，像一個提線木偶，直接輸出動作，而VLA-R1模型給機器人裝上了一個會推理的大腦，讓它在行動前先想清楚每一步。

視覺-語言-行動（Vision-Language-Action, VLA）模型是具身智能（embodied AI）領域的一項關鍵技術。它的目標是讓一個智能體，比如機器人，能夠像人一樣，通過看（視覺）、聽（語言）來理解指令，并作出相應的行動。

這就像你告訴一個朋友，請把桌上的紅蘋果遞給我。他會先用眼睛掃描桌子，找到所有的蘋果，分辨出紅色的那個，然后規劃手臂的運動路徑，最后伸手拿起并遞給你。這個過程融合了感知、理解、推理和行動。

早期的VLA模型已經能做到不錯的程度。它們通過學習海量的圖片與文字，建立了對世界的基本認知。比如，它知道什么是蘋果，什么是桌子。接著，通過學習大量的操作數據，它將這種認知與具體的機器人動作聯系起來。比如，它學會了如何控制機械臂去抓取一個物體。

這使得模型具備了寶貴的泛化能力。即使它沒見過某個特定品牌的杯子，但因為它理解‘杯子’這個概念，它也能舉一反三，去抓取那個新杯子。它還能理解組合性的新指令，比如‘把方塊放到圓圈的左邊’。

然而，這些模型有一個共同的短板，它們像一個做事不過腦子的行動派。

你給它一個指令，它幾乎是憑直覺，直接給出一個最終動作。這個過程像個黑箱，中間沒有清晰的思考步驟。它不會明確地去推理物體的用途（可供性），比如杯子是用來裝水的，錘子是用來敲的。它也不會仔細分析物體之間的幾何關系，比如哪個物體在前面，哪個在后面。

這種莽撞的模式，在簡單的場景下或許還能應付。一旦環境變得復雜，問題就暴露無遺。

想象一下桌上有兩個顏色非常接近的紅色方塊，指令是‘拿起那個深紅色的方塊’。模型很可能因為無法進行細致的推理而選錯。

再比如，桌上有好幾個碗，指令是‘把草莓放進碗里’。模型應該選擇哪個碗？是離得最近的，還是最大的，還是空的那個？缺乏推理能力，模型的選擇就帶有很大的隨機性，任務成功率自然大打折扣。

更關鍵的是，現有的模型訓練方法也難以系統性地提升這種推理能力。主流的方法是監督微調（supervised fine-tuning, SFT）。就是給模型看大量的‘問題-標準答案’，讓它去模仿。這種方式很少能優化思考過程的質量，也缺乏對最終執行效果的有效獎勵。

即便引入了強化學習（Reinforcement Learning, RL），獎勵設計也通常很單一，比如只獎勵最終任務是否成功。這很難同時優化過程的合理性（比如視覺區域對齊是否準確）和動作的連貫性（比如軌跡是否平滑）。這導致模型在面對新環境或真實世界時，性能會大幅下降。

機器人需要學會思考。不是簡單的反應，而是有條理、有邏輯的逐步推理。

VLA-R1學會了先思考再行動

針對這些挑戰，研究人員提出了VLA-R1，一個會推理的VLA模型。它的核心思想很簡單：把人的思考過程，也就是思維鏈（Chain-of-Thought, CoT），教給模型，并用一套可驗證的獎勵機制去強化這個思考過程和最終的行動。

這全面提升了機器人行動的準確性。

整個VLA-R1的訓練和工作流程分為兩個核心階段。

第一階段是學習如何思考。這個階段采用的是監督微調。

研究團隊首先需要高質量的教材，也就是帶有清晰思考過程的訓練數據。他們構建了一個名為VLA-CoT-13K的數據集。他們使用強大的Qwen2.5-VL-72B模型，為13000個任務場景自動生成了中間的推理步驟。

比如，對于‘把綠色的積木放到紅色的碗里’這個任務，生成的思維鏈可能是這樣的：

識別任務目標：移動綠色積木。
定位綠色積木：在圖像的左上角區域找到了一個綠色的方塊。
識別目的地：紅色的碗。
定位紅色的碗：在圖像的右側中間位置找到了一個紅色的碗。
規劃行動軌跡：從綠色積木的位置，規劃一條避開障礙物的路徑，移動到紅色碗的上方，然后放下。

這些帶有思維鏈的數據，就像一本本詳細的解題步驟分析。模型在學習時，不僅僅是看到最終答案（機器人動作），更重要的是學習了從問題到答案的整個邏輯推理過程。這種‘先推理，后行動’的策略，讓模型學會了分解任務，將視覺感知和最終的動作目標更緊密地聯系起來，也大大提高了學習效率。

在模型架構上，VLA-R1使用Qwen2.5-VL-3B作為基礎。它的視覺部分是一個經過重新設計的視覺Transformer，可以高效處理高分辨率圖像和視頻。語言部分則使用了成熟的Qwen2.5解碼器。圖像和文字信息在這里融合，共同推理，最終生成包含推理過程和動作預測的結構化輸出。這個輸出隨后被轉換成機器人可以執行的連續7D動作指令（包括三維空間位移，三維旋轉和夾爪的開合）。

第二階段是強化思考與行動的質量。這個階段采用的是強化學習。

經過第一階段的學習，模型已經初步具備了推理能力。但這種推理可能還不夠精確，不夠魯棒。就像一個學生學會了解題步驟，但計算過程可能還會有小錯誤。

為了解決這個問題，研究團隊引入了一套基于可驗證獎勵的強化學習（Reinforcement Learning from Verifiable Rewards, RLVR）策略。他們采用了一種名為群體相對策略優化（Group Relative Policy Optimization, GRPO）的算法。這個算法的好處是，可以讓模型從結構化的、可驗證的獎勵中學習，同時保持訓練過程的穩定。

研究團隊設計了三種具體的、可量化的獎勵，像三位嚴格的考官，從不同維度評判模型的輸出。

第一位考官負責評判軌跡。它使用的評分標準叫作角度長度增強Fréchet距離（Angle-Length Augmented Fréchet distance, ALAF）。傳統的評價方式可能是比較兩個軌跡對應點之間的距離，但ALAF更聰明。它不僅考慮位置，還考慮了軌跡的順序、方向和局部長度。

第二位考官負責評判空間定位的準確性。比如指令是‘拿起那個蘋果’，模型需要先在圖像中框出蘋果的位置。這位考官使用的評分標準是廣義交并比（Generalized Intersection over Union, GIoU）。交并比（IoU）是衡量兩個邊界框重合度的常用指標。但當兩個框完全不重合時，IoU為0，無法反映它們之間的距離。GIoU則改進了這一點，即使兩個框不重合，它也能通過計算包裹它們的最小外接矩形來給出一個懲罰，從而衡量它們的距離。

第三位考官負責評判輸出格式。它要求模型的輸出必須嚴格遵守‘先推理，后動作’的結構。輸出必須先包含一段推理文字，然后是一個被特定標簽（...）包裹的動作指令。

通過這三位考官的聯合評分，模型不斷調整自己的策略，力求在軌跡對齊、空間定位和格式規范性上都做到最好。這個過程系統性地優化了模型的推理魯棒性和執行準確性。

嚴苛的考驗證明了它的強大

為了驗證VLA-R1的真實水平，研究團隊設計了一系列嚴格的實驗，涵蓋了從標準數據集到模擬環境，再到真實世界的全方位考驗。

首先是在熟悉的領域內數據集（ShareRobot）上進行測試。這個數據集是專門為可供性感知和軌跡預測任務構建的，規模龐大，場景豐富。

實驗結果非常清晰。那些通用的、強大的開源多模態模型，比如Gemma和Phi系列，在這些具身任務上表現不佳。盡管它們參數量巨大，但在定位精度（IoU）上得分低于10，軌跡預測的各項誤差（DFD, HD, RMSE）也居高不下。這說明，通用的視覺語言能力并不能直接轉化為精確的機器人操作能力。

經過監督微調（SFT）的基線模型，如RoboBrain和NORA，表現有所提升，IoU通常在5到25之間。這證明了針對性訓練的有效性。

而VLA-R1-3B的表現則全面領先。它的IoU達到了36.51，軌跡誤差的三項指標（DFD, HD, RMSE）分別為106.2, 97.9, 71.12。與同樣經過強化學習訓練的強基線ManipLVM-R1相比，VLA-R1的IoU提升了17.78%，軌跡誤差整體降低了17.25%。

接著是更具挑戰性的領域外（Out-of-Distribution, OOD）泛化能力測試。模型需要處理它在訓練中從未見過的數據。結果顯示，VLA-R1的優勢更加明顯。在可供性任務上，它的IoU達到了33.96。在軌跡預測任務上，三項誤差指標甚至比領域內測試時還要低。這證明VLA-R1學到的不僅僅是死記硬背訓練數據，而是真正掌握了可泛化的推理能力。

隨后，實驗進入了模擬環境。研究團隊使用RoboTwin模擬器，在一個每次都會隨機變化的桌面環境中測試模型的性能。他們測試了兩種不同的機器人（Piper和UR5），以檢驗模型的跨平臺通用性。

盡管模擬環境的變化比訓練數據更大，VLA-R1依然表現出色。在可供性感知任務上，它的平均成功率（Success Rate, SR）為55%。在軌跡執行任務上，平均成功率更是達到了70%。相比之下，基線模型NORA的表現則差很多，尤其是在軌跡任務上，幾乎完全失敗。這證實了VLA-R1在動態變化的環境中，依然能保持強大的穩定性和泛化能力。

最后，也是最關鍵的，是真實世界實驗。研究團隊在真實的桌面上設置了四個典型場景，包括拾取特定顏色的碗、從多個相同水果中挑選一個、在有遮擋的廚房場景中操作，以及包含多種干擾物的混合場景。

在這些充滿不確定性的真實環境中，VLA-R1再次證明了自己。在可供性感知任務上，它的平均成功率約為62.5%，在軌跡預測任務上，平均成功率高達75%。而基線模型NORA-3B在這兩項任務上的成功率分別只有35%和47.5%。研究團隊發現，顏色相近、位置變化等因素是導致錯誤的主要原因。即便如此，VLA-R1在失敗的情況下，其預測也通常集中在目標物體附近，而不是完全離譜，顯示出了一定的容錯和自我糾正能力。

為了徹底搞清楚思維鏈（CoT）和強化學習（RL）各自的貢獻，研究團隊還進行了一項消融研究。他們測試了三種配置：沒有CoT和RL的模型，只有CoT的模型，以及同時使用CoT和RL的完整版VLA-R1。

結果如表所示，每一步的改進都清晰可見。單獨加入CoT，就能讓模型的定位精度（IoU）從23.74提升到28.37，這說明思維鏈對于幫助模型理解屬性、消除歧義至關重要。而當CoT和RL結合后，所有指標都獲得了巨大提升。這完美地證明了兩者是互補的：思維鏈提供了結構化的任務分解和推理框架，而強化學習則利用精細的獎勵信號來打磨和完善具體的執行策略，最終實現了1+1>2的效果。

目前，所有的開發和驗證工作都集中在單臂機器人上。未來，將這套方法擴展到更復雜的機器人平臺，比如雙臂協作機器人，或者能行走的四足機器狗，將是一個重要的研究方向。

這項研究清晰地表明，讓機器人學會像人一樣先思考再行動，是通往通用物理世界AI的必由之路。

責任編輯：張燕妮來源： AIGC開放社區

AI 模型機器人