字節發了個機器人全能大模型,帶隊人李航
機器人終于不用散裝大腦了!
字節Seed一個模型就能搞定機器人推理、任務規劃和自然語言交互。

經常做機器人的朋友都知道,以前想讓機器人干活,得先解決一個煩人的問題——
模塊之間的信息代溝。
能聽懂指令和能完成指令可完全不是一回事,以前要讓機器人聽懂人話,得裝個專門的語言交互模塊;要讓它能避開障礙從客廳走到陽臺,又得搭一套任務規劃模塊;要想……還得……
于是不同模塊在機器人身上拼湊使用苦開發者久矣。
但現在,字節Seed推出了Robix視覺——語言單模型,把三件事全包了,也不用搞多模塊拼接那套了。

所以,這是怎么做到的呢?
核心采用思維鏈推理和三階段訓練策略
Robix是一款專門給機器人用的模型。核心想法是讓一個模型同時搞定三件事:
- 琢磨怎么干活(推理)
- 安排干活步驟(任務規劃)
- 跟人聊天溝通(自然語言交互)
首先,團隊的思路是把機器人系統分為兩層,高層認知和底層執行,Robix就是管高層認知的。
底層(VLA)來執行Robix發出的命令。

而Robix本身也并不是多個模塊拼合的散裝大腦,而是一個視覺-語言融合的單模型,能同時處理畫面、語言,還能把思考過程、動作指令、人類回復整合在一個邏輯循環里,避免模塊間溝通卡頓。
Robix核心采用思維鏈推理和三階段訓練策略。
在推理與決策方面,采用思維鏈,根據輸入信息進行深思熟慮的推理。
在推理過程中,它會考慮當前場景中的物體、空間關系、任務要求等因素,預測下一步的思考方向、行動方案以及可選的語言回復。
這個過程是一個迭代的決策過程,每一步決策都基于當前的觀察和之前的交互歷史。

再來說說Robix是怎么訓練的。
三階段是分為持續預訓練、監督微調和強化學習。
在持續預訓練階段,用大量機器人相關的數據,教它看懂3D空間、把語言和畫面對應上,學會能判斷任務進度的能力。
在監督微調階段,模擬收拾餐桌、超市購物這些真實場景,教它處理各種指令、按邏輯一步步想問題,同時讓它學會跟人簡單對話,做到能聽懂、會規劃、能聊天。
在強化學習階段,用專門算法糾正“想的和做的不一樣”的問題,通過“做對給獎勵、做錯給提醒”的方式,讓它在長時間任務里決策更穩、動作更準。
至于效果,團隊給出了一些測試數據。
在基礎能力測試上,Robix的兩個版本(7B和32B)在8個空間理解任務中有7個比Qwen2.5-VL 表現好,平均準確率更高;
并且在多數基準測試中超越了閉源的GPT-4o、Gemini 2.5 Pro等。

離線評估中,Robix-32B-RL在所有評估集上排名第一。

在模擬真實環境的交互測試,使用UMI設備在線評估,Robix-32B在5個任務中的3個超越Gemini 2.5 Pro,且平均任務進度略高,且大幅超越Qwen2.5-VL-32B。

而使用GR-3進行在線評估時,在自動化真實機器人評估中,Robix-32B的平均任務進度達到92.5%,分別比Gemini 2.5 Pro和GPT-4o高出4.3和28.1個百分點。

看來,機器人模型以后拼的可能就不是模塊數量而是單一模型的綜合能力了。
One More Thing
值得關注的是,Robix項目的負責人,正是字節AI實驗室的負責人李航博士,更早之前,他曾擔任華為諾亞方舟實驗室主任和首席科學家。
△圖源:李航微博
他于2017年加入字節,后帶領團隊開展字節的機器人項目。
在今年6月,有知情人透露李航已經退休,但字節相關負責人則馬上表示他還將以返聘顧問的形式進行工作,且工作范圍不變。



























