重磅突破!全球首個真實物理環境機器人基準測試正式發布,具身智能迎來“ImageNet時刻” 原創
當機器人在演示視頻中表現完美,卻在真實環境中頻頻失誤,該如何客觀評估它們的真實能力?RoboChallenge的出現正在改變這一現狀。
?
近日,全球首個大規模、多任務的在真實物理環境中由真實機器人執行操作任務的基準測試——RoboChallenge正式發布。這一由Dexmal原力靈機聯合Hugging Face共同發起的基準測試,意味著著具身智能走向“現實世界智能”的關鍵一步。
?

?
長期以來,機器人領域缺乏統一、開放且可復現的基準測試方法,使得技術進展難以衡量,不同方法的優劣無法公平比較。RoboChallenge通過構建大規模多任務的具身智能真機測試集,為研究人員提供了在統一環境中驗證對比機器人算法的平臺。
?
真機測試的創新突破
?
RoboChallenge的核心創新在于其“遠程機器人”測試方法。通過云端化服務,研究者無需購買和維護昂貴的機器人設備,只需通過網絡提交算法模型,即可進行在線真機測試和驗證。這一模式打破了機器人測試的硬件資源限制,實現了“沒有機器人,一樣做實驗”的效果。
?

【團隊將機器人在線部署。通過形式化一組底層API,提供觀測的精確時間戳和動作隊列的狀態,以實現細粒度控制。無需交換Docker鏡像或模型檢查點】
?
平臺集成了多款主流機器人硬件,包括UR5、Franka Panda、Aloha、ARX-5,每臺均配備2-3臺RGB-D相機,并部署統一軟件棧實現機器人與視覺系統的高可靠性聯動。
?
在基準測試方法上,RoboChallenge創新性地提出“視覺輸入匹配”方法。從演示數據中抽取參考圖像,并實時疊加于測試畫面,測試人員通過調整物體位置使實時場景與參考圖像完全吻合,確保每次測試的初始狀態一致。這種方法不僅降低了測試人員的技術門檻,其穩定性甚至優于依賴經驗人員的傳統模式。
?
Table30測試集的科學設計
?
作為RoboChallenge的首套桌面操作基準測試集,Table30包含30個精心設計的日常情境任務,遠超行業內真機競賽或評測通常的3-5個任務數量。這些任務由位置固定的雙手或單臂機器人執行,系統性地評估算法在多維度場景下的泛化能力。
?

【左:任務縮略圖。右:基線方法的排名列表。第一個基準測試是一個包含30個任務的靜態機械臂測試集,它對學習算法的多個方面提出了挑戰。團隊測量了端到端的任務級成功率以及衡量任務部分進展的得分,發現各模型之間存在明顯差異】
?
Table30從四個關鍵維度構建評估體系:VLA解決方案難點、機器人類型、任務場景環境和目標物體屬性。測試數據表明,即使最先進的基礎模型也難以實現全面高分,印證該基準可作為通用機器人算法的“試金石”。
?
這些任務測試了模型的多種能力,包括精準定位抓取點、理解物體間空間關系、多視角協同運用、雙臂交替協作操作、雜亂環境中重復執行技能、記憶多步驟任務階段。從插花、整理果籃到疊抹布、開關水龍頭,任務設計覆蓋了從基礎操作到復雜組合的全過程。
?
在評分機制上,Table30突破傳統二值化評估局限,采用進度評分系統。對復雜任務認可分步進展,對簡單任務優化完成效率,這一設計能更精準反映算法性能的代差。當算法實現突破性進展時,評分體系將給予增量認可。
?
10月14日在光谷舉辦的中部地區國家高新區G100聯盟高質量發展論壇上,中國工程院院士陳學東在演講中談到,對于人形機器人的進化而言,最大的挑戰是小腦——即運動規劃與控制。目前人形機器人首要的短板正是運動穩定性還不夠強。
?
在產業層面,具身智能已成為我國培育未來產業的重要方向。北京、上海、廣東深圳、浙江杭州等多地密集出臺專項政策,形成了一場面向未來的產業競逐。
?
未來,人形機器人有望形成比新能源汽車更為龐大的產業規模。這也促使各地積極行動,力爭在這一產業中占據先機。
?
而RoboChallenge也堅持全面開放原則,向全球研究者免費提供評測服務,并公開所有任務演示數據及測試中間結果,確保研究的可復現性與透明度。
?
這一舉措可能將極大促進技術民主化,降低研究門檻。
?
目前,具身智能發展面臨著感知與操作復雜性、高質量多模態數據稀缺、數據技術生態的開放性等挑戰。RoboChallenge的發布,正是應對這些挑戰的重要舉措。通過構建開放、透明的評測生態,它將助力解決高質量多模態數據稀缺的問題,為算法發展提供豐富的真實世界數據支持。
?
隨著RoboChallenge的推出,具身智能領域或將加速向更高水平發展。未來,RoboChallenge計劃持續引入移動機器人、靈巧操作裝置等更多硬件平臺,拓展跨場景任務測試能力。評測維度將從視覺-動作協調延伸至多模態感知、人機協作等方向,并計劃推出動態環境適應、長期規劃等更具挑戰性的基準測試。
?
這不僅是技術評測工具的進步,更是具身智能發展歷程中的重要里程碑。正如ImageNet曾經推動計算機視覺技術的飛速發展,RoboChallenge有望在具身智能領域發揮類似的催化作用,加速技術從實驗室走向現實世界的進程。
?
隨著這一基準測試平臺的廣泛應用,我們將能夠更準確地衡量技術進步,更有效地引導研發方向,推動具身智能技術在實際應用中創造更大價值。

















