開放世界任務成功率82%!美的攻克機器人泛化控制難題
還在擔心機器人只能機械執行、不會靈活應變?
美的AI研究院和華東師范大學聯合提出ChatVLA-2——一個具有開放世界具身推理能力的視覺-語言-動作模型(VLA)模型。
它引入動態混合專家架構,并結合雙階段訓練流程,不僅最大程度保留了視覺-語言模型(VLM)的多模態認知和推理能力,還能將推理結果真正轉化為可執行的動作。

在真機實驗中,研究團隊設計了兩項任務,重點考察模型繼承的核心能力:
- 通過數學匹配游戲評估其數學推理能力,對新算式的識別與推理;
- 通過玩具擺放任務測試其空間推理能力,對新物體和指令的理解與執行。

結果顯示,ChatVLA-2面對新算式和新物體,在數學推理、空間理解和泛化操作能力上遠超現有方法,開放世界任務成功率高達82%。
模型結構:專家協作,推理注入
混合專家模型
ChatVLA的研究表明,多模態理解與機器人操作任務往往會在參數空間中相互競爭。
為此,研究引入了混合專家模型架構(MoE),動態選擇專家模塊,希望部分專家專注于特定任務特征,另一些專家捕捉在多任務間共享的互利特征。這種自適應策略也確保了計算資源的高效分配。
推理跟隨增強模塊
為了讓機器人動作能精準跟隨復雜、甚至前所未見的域外推理指令,ChatVLA-2在模型的深層用推理令牌替換了原有的觀測嵌入,生成調控動作生成的縮放與偏移參數,深度注入到模型決策過程中。

訓練策略:先知后行,知行合一
僅僅擁有強大的模型骨架,還不足以打造真正通用的視覺-語言-動作模型。
如果在訓練中直接混合開放世界圖文數據與具身機器人動作數據,往往會導致動作學習過程難以控制,從而影響最終性能。
為此,團隊創新性地提出了雙階段訓練策略。

第一階段:激活開放世界理解與推理
為了實現這一目標,將圖文數據與機器人數據協同訓練(co-training)被證明至關重要。
團隊使用了多個開放場景主流圖文數據集,并專門構建了機器人場景圖文。訓練數據的選擇有意規避了對特定技能的傾向(如字符識別、數學推理)。
第二階段:精進模型的推理跟隨能力
開放世界的復雜任務常常需要模型進行超出訓練數據范圍的“超綱”推理。因此,確保模型動作能精準跟隨并執行這些推理結果,是實現泛化控制的關鍵挑戰。
基于此,模型在第二階段凍結第一階段中訓練完的視覺語言模型,鎖定其習得的知識與推理能力,只訓練動作專家。
該策略能顯著強化模型對前所未見推理場景的理解與響應能力,并讓模型的“思考”過程與最終的“行動”輸出緊密結合,從而大幅提升動作執行的精準度和任務完成的泛化性。
實驗與效果
為全面驗證ChatVLA-2,研究團隊進行了大量真機實驗。他們特別設計了兩種實驗場景:數學匹配游戲和玩具放置任務。
通過這些實驗,重點考察了模型在數學推理、空間推理、字符識別(OCR)以及物體識別和定位方面的綜合能力,其中任務涉及的開放世界場景并未出現在訓練數據中。

數學推理能力:在數學匹配游戲中,研究團隊采用了三類指標來評估模型在域內和開放世界下的操控、推理與理解能力,包括任務成功率、手寫數字與符號識別得分、以及數學推理得分。
開放世界評估中,測試的數學等式未在訓練數據中出現,手寫數字也存在不同書寫風格。

相比其他模型在陌生場景中幾乎無法完成任務,ChatVLA-2 在未見過的數學表達上,依然取得了3.58的OCR得分、1.73的數學推理得分,并達成82.7%的操控成功率。
空間推理能力:在玩具放置任務中,研究團隊同樣采用三類指標:任務成功率、目標物體與參考物體識別率、邊框準確識別得分。
開放世界評估中,目標和參考物體在訓練中從未出現,模型需在此場景下識別所有物體,定位參考物體,理解空間關系,并完成擺放。

在陌生場景中,ChatVLA-2面對從未見過的物體和空間關系取得了0.94的目標識別得分,并以81.4%的操控成功率領先同類方法,充分證明了其在開放世界推理與機器人執行上的卓越實力。
從保留視覺-語言模型的認知能力,到實現推理結果向動作的轉化,ChatVLA-2提供了一種探索通用機器人控制的新思路,并為后續在復雜場景與多模態交互中的研究提供了參考方向。


































