機器人界的「Imagenet 時刻」,李飛飛團隊官宣全球頂級具身智能挑戰賽
在計算機視覺的歷史上,Imagenet 挑戰賽曾被譽為 AI 發展的分水嶺,引爆了深度學習的浪潮。那么,在具身智能與機器人領域,是否也會迎來類似的 “拐點時刻”?
答案或許漸漸清晰。李飛飛團隊與斯坦福 AI 實驗室正式官宣:首屆 BEHAVIOR 挑戰賽將登陸 NeurIPS 2025。這是一個為具身智能量身定制的 “超級 benchmark”,涵蓋真實家庭場景下最關鍵的 1000 個日常任務(烹飪、清潔、整理……),并首次以 50 個完整長時段任務作為核心賽題,考驗機器人能否在逼真的虛擬環境中完成真正貼近人類生活的操作。

為什么 BEHAVIOR 值得關注?
與以往碎片化的基準不同,BEHAVIOR 首次提出:一個真正的家庭機器人,必須同時具備跨房間導航、雙手精細操控、長期規劃與動態適應等多項能力。
任務規模前所未有:覆蓋 1000 個家庭活動,50 個完整長程挑戰,平均單個任務需要 6.6 分鐘連續操作。
- 高保真環境仿真:基于 NVIDIA Omniverse 的高保真模擬器 OmniGibson,支持衣物折疊、液體倒水、加熱 / 冷凍等復雜物理交互。

- 數據史無前例:10,000 條專家遙操作示范,總計 1,200+ 小時,細致標注物體狀態、空間關系和自然語言描述 —— 為模仿學習和強化學習提供 “黃金數據集”。

- 平臺統一:采用星海圖 R1 Pro 機器人作為默認機器人本體,雙手協調與穩定導航能力讓研究成果更具可遷移性。

這不僅是一個挑戰賽,更是有史以來最全面的具身智能研究資源。
挑戰賽怎么玩?
- 賽題:完成 50 個 BEHAVIOR 任務,均來自真實家庭場景的復雜活動。
- 平臺:統一使用星海圖 R1 Pro 本體(雙手操作 + 輪式移動),保證研究成果具備可遷移性。
- 基準方法:官方提供模仿學習(ACT、Diffusion Policy 等)與視覺語言行動模型(OpenVLA、π0)的完整訓練評估流程,幫助選手快速入門。
評估標準:
- 主要指標:任務成功率(完全達成 vs 部分達成)。
- 輔助指標:效率(用時、路徑、動作)、數據利用率(示范數量 vs 成效)。
時間線:
- 2025/9/2:開放報名與數據下載,進入開發與公開排行榜階段。
- 2025/11/15:最終評估,隱藏測試集統一運行。
- 2025/12/6-7:NeurIPS 2025 公布結果與獲獎方案。
獎項雖不高(最高 1000 美元),但真正的價值在于能在 NeurIPS 舞臺與全球頂尖團隊交流、展示。
https://behavior.stanford.edu/
你可以在這個網站中找到安裝 OmniGibson 仿真器、下載 3D 場景資源和物體模型、加載示范數據集的詳細指南,網站還提供了入門套件,其中包含示例訓練腳本和評估例程,方便重現基線結果,并在此基礎上進一步發揮創新。
此外,文檔中詳細介紹了如何設置環境、如何使用機器人控制接口以及如何可視化任務執行流程,力求讓你盡可能輕松地開始開發自己的解決方案。
如果你是具身智能的新手,也不用擔心:BEHAVIOR 挑戰提供了從仿真器設置到提交結果的詳細教程和分步指南。非常期待看到全球各團隊如何運用創意來應對這些任務!
一場屬于具身智能的集體實驗
BEHAVIOR 挑戰賽并非單純的排行榜競爭,而是一次面向核心科學問題的集體實驗:當前的具身智能發展距離真正能獨立完成以人為本的家務任務還有多遠?機器人在新環境中能否舉一反三,實現跨場景泛化?而當我們不斷擴大示范數據規模時,是否會像語言和視覺領域一樣,出現推動性能躍升的 “擴展率”?這些懸而未決的問題,正是 BEHAVIOR Challenge 希望通過開放賽題和大規模數據來共同探索的。
結語
從語言模型到視覺模型,AI 領域已經走過多個 “Imagenet 時刻”。而現在,具身智能正在迎來自己的里程碑。
BEHAVIOR 挑戰賽既是一次學術競技,也是一場社區實驗。它不僅考驗算法性能,更推動研究者集體探索:要讓機器人真正走進人類生活,還差什么?
數據已開放,任務已就緒,機器人正嚴陣以待。
這一次,我們也許真的離 “家庭機器人” 更近了一步。






























