從GEN-0看具身AI的革命 精華
2025年11月,Generalist AI發(fā)布的GEN-0模型標(biāo)志著機器人領(lǐng)域的歷史性突破。這是首個在真實世界物理交互數(shù)據(jù)上確立可預(yù)測擴展定律的具身基礎(chǔ)模型,其意義堪比GPT-3對自然語言處理的影響。GEN-0基于27萬小時的真實操作數(shù)據(jù)訓(xùn)練(比現(xiàn)有最大數(shù)據(jù)集多兩個數(shù)量級),首次觀察到機器人領(lǐng)域的"智能閾值"現(xiàn)象——7B參數(shù)成為關(guān)鍵臨界點,并驗證了機器人性能遵循冪律擴展定律。這些發(fā)現(xiàn)為機器人產(chǎn)業(yè)化提供了可預(yù)測的技術(shù)路線圖。
機器人學(xué)習(xí)的困境與突破
傳統(tǒng)機器人系統(tǒng)面臨著根本性挑戰(zhàn):每個新任務(wù)都需要從零開始訓(xùn)練專門策略。清華大學(xué)研究顯示,即使是簡單的倒水任務(wù),要在多樣化環(huán)境中達到90%成功率,也需要約1600個演示,覆蓋32個環(huán)境-對象組合。這種"任務(wù)特定"范式導(dǎo)致數(shù)據(jù)效率低下、泛化能力受限和工程成本高昂。
2023-2024年,Vision-Language-Action(VLA)模型的興起帶來了轉(zhuǎn)機。這類模型將視覺理解、語言指令和動作生成統(tǒng)一到單一架構(gòu)中。Google的RT-2、加州大學(xué)伯克利的OpenVLA、Physical Intelligence的π0以及Figure AI的Helix相繼問世,證明了跨任務(wù)泛化的可能性。它們通過在互聯(lián)網(wǎng)規(guī)模的視覺-語言數(shù)據(jù)上預(yù)訓(xùn)練,然后在機器人軌跡上微調(diào),實現(xiàn)了前所未有的靈活性。
然而,與LLM可以利用海量互聯(lián)網(wǎng)文本不同,機器人學(xué)習(xí)面臨嚴(yán)重的數(shù)據(jù)匱乏。在GEN-0之前,最大的公開數(shù)據(jù)集Open X-Embodiment僅有約100萬條軌跡,與LLM訓(xùn)練的數(shù)萬億tokens相比微不足道。Sebastian Sartor等人對327篇論文的元分析顯示,69%的機器人擴展定律研究關(guān)注數(shù)據(jù)擴展,但受限于可用數(shù)據(jù)量,大多數(shù)研究只能在有限范圍內(nèi)觀察擴展行為。這個數(shù)據(jù)瓶頸一直是阻礙機器人AI發(fā)展的最大障礙。
GEN-0的三大技術(shù)突破
突破一:GEN-0最引人注目的是其訓(xùn)練數(shù)據(jù)規(guī)模
27萬小時的真實世界操作數(shù)據(jù),相當(dāng)于約30年的連續(xù)機器人經(jīng)驗。更重要的是數(shù)據(jù)的多樣性——來自全球數(shù)千個家庭、倉庫和工作場所,覆蓋面包店、洗衣店、工廠等多種環(huán)境,包含從削土豆皮、穿螺栓到折疊衣物、組裝紙箱等數(shù)百萬種操作任務(wù),支持6自由度到16+自由度的不同機器人平臺。
為支持這一規(guī)模,Generalist AI構(gòu)建了專門基礎(chǔ)設(shè)施:定制硬件、專用互聯(lián)網(wǎng)線路、多云架構(gòu)存儲數(shù)十PB數(shù)據(jù)、約1萬個CPU核心進行持續(xù)數(shù)據(jù)處理。系統(tǒng)每天可吸收6.85年的機器人經(jīng)驗,目前每周新增1萬小時數(shù)據(jù)且在加速。這種工程能力本身就是重大成就,也揭示了一個新趨勢——建立全球"數(shù)據(jù)工廠"網(wǎng)絡(luò),專門收集高質(zhì)量機器人演示數(shù)據(jù)。
突破二:智能閾值與模型僵化現(xiàn)象
GEN-0團隊首次在機器人領(lǐng)域觀察到"模型僵化"(ossification)現(xiàn)象。在大數(shù)據(jù)訓(xùn)練條件下出現(xiàn)清晰的相變行為:
1B參數(shù)模型很早就表現(xiàn)出僵化,模型權(quán)重?zé)o法繼續(xù)吸收新信息,性能停止改善;6B參數(shù)模型開始從預(yù)訓(xùn)練受益,顯示強大多任務(wù)能力;
7B+參數(shù)模型能夠有效內(nèi)化大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),在下游任務(wù)上只需數(shù)千步微調(diào)即可實現(xiàn)良好遷移。
這一發(fā)現(xiàn)與莫拉維克悖論(Moravec's Paradox)形成深刻呼應(yīng)。Hans Moravec在1988年指出:"讓計算機在智力測試中表現(xiàn)出成人水平相對容易,但賦予它們一歲孩童的感知和移動能力卻極其困難。"原因在于感知運動技能經(jīng)過數(shù)億年進化,深深嵌入生物神經(jīng)系統(tǒng),而抽象推理是人類近期才發(fā)展的能力。

GEN-0的發(fā)現(xiàn)量化了這一悖論:LLM在約10億參數(shù)時就展示強大能力,而機器人需要7倍以上才能突破僵化閾值。物理智能的激活閾值在計算資源上遠高于抽象智能。
突破三:可預(yù)測的擴展定律
GEN-0在16個不同任務(wù)集(涵蓋靈巧性、應(yīng)用和泛化三類)上的系統(tǒng)性實驗揭示了強大的冪律擴展關(guān)系。給定固定的微調(diào)預(yù)算和不同規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)D,驗證誤差L遵循:L(D) = (Dc / D)^αD。這一關(guān)系在所有測試任務(wù)上表現(xiàn)穩(wěn)定,包括搭建樂高、組裝相機套件、快餐打包、服裝處理(分類、整理、扣扣子、掛衣)等真實工作場所任務(wù)。
研究團隊使用兩個互補指標(biāo)評估性能:均方誤差(MSE)測量動作預(yù)測精確度,反向KL散度衡量模式尋找行為。他們發(fā)現(xiàn)低MSE+低Reverse KL的模型更適合監(jiān)督微調(diào),而高MSE+低Reverse KL的模型更適合強化學(xué)習(xí)(因其動作分布更具多模態(tài)性)。
這些擴展定律使團隊能夠預(yù)測性地回答:"要達到特定性能需要多少預(yù)訓(xùn)練數(shù)據(jù)?"或"給定固定預(yù)算,增加預(yù)訓(xùn)練能換取多少性能提升?"例如對服裝處理任務(wù),可以預(yù)測10億條軌跡下的模型性能。

Harmonic Reasoning
GEN-0的架構(gòu)創(chuàng)新Harmonic Reasoning解決了具身AI的核心挑戰(zhàn):如何在物理世界不停歇的情況下實現(xiàn)深度推理。對語言模型,讓AI"先思考再行動"很直接(如OpenAI的o1),但對機器人,物理定律不會暫停,操作頻率需要10-50Hz,必須持續(xù)響應(yīng)環(huán)境變化。
許多現(xiàn)有系統(tǒng)采用雙系統(tǒng)架構(gòu):
System 2(大型VLM用于場景理解和任務(wù)規(guī)劃,<1Hz)和System 1(快速擴散策略用于低層控制,10-50Hz)。代表案例包括Figure AI的Helix和NVIDIA的GR00T N1。這種架構(gòu)雖有效,但增加了系統(tǒng)復(fù)雜度,兩個系統(tǒng)需要仔細協(xié)調(diào)。
GEN-0采用單一端到端架構(gòu),通過創(chuàng)建感知token流和動作token流之間的"和諧"交互實現(xiàn)異步連續(xù)時間處理。感知流和動作流以不同頻率運行(視覺感知約10Hz,動作生成約50Hz),不需要嚴(yán)格時間步對齊。推理不是獨立的"思考階段",而是嵌入在感知-動作循環(huán)中,通過深層transformer實現(xiàn)復(fù)雜推理。這種方法簡化了架構(gòu)(單一模型無需協(xié)調(diào)多組件),支持端到端訓(xùn)練,可擴展到10B+參數(shù)而無需額外架構(gòu)復(fù)雜度,且讓模型學(xué)會在行動中思考,類似人類的熟練技能。
預(yù)訓(xùn)練的煉金術(shù)
GEN-0團隊進行了大規(guī)模消融實驗,探索不同預(yù)訓(xùn)練數(shù)據(jù)混合的影響。他們測試了來自多個"數(shù)據(jù)工廠"合作伙伴的8種預(yù)訓(xùn)練數(shù)據(jù)集,在10個長時程任務(wù)集上評估。數(shù)據(jù)分為三類:Class 1(特定任務(wù)數(shù)據(jù))、Class 2(多樣化中間數(shù)據(jù))、Class 3("任意操作"數(shù)據(jù))。
核心發(fā)現(xiàn)是數(shù)據(jù)質(zhì)量和多樣性比純粹數(shù)量更重要。精心構(gòu)建的數(shù)據(jù)混合可以產(chǎn)生不同模型特性——某些混合在靈巧性任務(wù)上表現(xiàn)更好,其他在泛化任務(wù)上更優(yōu)。通過調(diào)整數(shù)據(jù)混合,可以控制模型的多模態(tài)性:低MSE+低Reverse KL適合監(jiān)督學(xué)習(xí),高MSE+低Reverse KL適合強化學(xué)習(xí)。
團隊建立了內(nèi)部數(shù)據(jù)探索工具,使用t-SNE在語義空間中可視化數(shù)據(jù)集,支持文本搜索定位相關(guān)視頻。這種能力使他們能夠A/B測試不同數(shù)據(jù)收集策略,為合作伙伴提供反饋,持續(xù)優(yōu)化數(shù)據(jù)采集。這表明Generalist AI不是獨自收集所有數(shù)據(jù),而是與專業(yè)數(shù)據(jù)采集組織合作,這種模式可能成為機器人數(shù)據(jù)生態(tài)的新范式。
VLA模型生態(tài)與競爭格局
當(dāng)前VLA模型已演化出幾種成熟架構(gòu)。早期融合模型(如EF-VLA)在輸入階段融合視覺和語言,保留CLIP預(yù)訓(xùn)練的語義對齊,在組合操作任務(wù)上比基線高20%。雙系統(tǒng)架構(gòu)(如Helix、GR00T N1)結(jié)合高層推理和低層精確控制,Helix基于約500小時人類遠程操作數(shù)據(jù),能控制類人機器人全上身16+自由度。
主要VLA模型各具特色:
- Google RT-2擁有55B參數(shù),強大但部署困難;
- OpenVLA是7B參數(shù)開源模型,比RT-2-X高16.5%成功率但參數(shù)少7倍,支持LoRA微調(diào)和量化;
- Physical Intelligence的π0有3.3B參數(shù),特別擅長靈巧操作如折疊衣物,已于2025年2月開源;
- Gemini Robotics基于Gemini 2.0展示折紙、玩撲克牌等高難度靈巧性;
- SmolVLA僅0.45B參數(shù),證明小模型也能有效,降低了研究門檻。
數(shù)據(jù)集生態(tài)方面,開放數(shù)據(jù)集包括Open X-Embodiment(約100萬軌跡,22個機器人平臺)、DROID(76k,F(xiàn)ranka機械臂)、Bridge Data(60k,廚房操作)等。GEN-0的27萬小時數(shù)據(jù)未公開,但其研究強調(diào)精心策劃的數(shù)據(jù)混合比原始數(shù)量更重要,多樣性勝于重復(fù),真實世界優(yōu)于仿真。
機器人擴展定律
擴展定律描述模型性能如何隨資源增加而改善的數(shù)學(xué)關(guān)系,通常表現(xiàn)為冪律:Performance ∝ Resource^α。OpenAI在2020年發(fā)現(xiàn)LLM的三個關(guān)鍵擴展維度都遵循冪律,這些發(fā)現(xiàn)帶來可預(yù)測性、資源規(guī)劃指導(dǎo)和投資合理性證明。

Performance ∝ Resource^α 這個公式表示模型性能與投入資源的冪次方成正比。
簡單說:如果你把訓(xùn)練數(shù)據(jù)從1萬小時增加到10萬小時(10倍),模型誤差不是線性降低10倍,而是按照α這個指數(shù)來降低。比如α=-0.5時,數(shù)據(jù)增加10倍,誤差降到原來的1/3左右(因為10^-0.5≈0.32)。α的絕對值越大,說明擴展效率越高——同樣的資源投入能換來更大的性能提升。
GEN-0的重大意義就在于首次在機器人領(lǐng)域驗證了這個冪律關(guān)系,讓行業(yè)可以預(yù)測"投入多少數(shù)據(jù)能達到什么性能",把機器人研發(fā)從"碰運氣"變成了"可計算",這對商業(yè)決策和投資規(guī)劃至關(guān)重要。
Sebastian Sartor等人對327篇機器人論文的元分析發(fā)現(xiàn):87%的研究觀察到冪律行為,機器人任務(wù)性能的擴展速度顯著快于語言任務(wù)(暗示機器人可能從規(guī)模化獲益更多),隨著模型擴展會涌現(xiàn)新能力。清華大學(xué)團隊發(fā)現(xiàn)環(huán)境和對象多樣性遠比演示數(shù)量重要——一旦每個環(huán)境/對象達到約50個演示的閾值,額外演示效果遞減,但增加新環(huán)境/對象持續(xù)提升性能。
Waymo在2025年6月發(fā)布的自動駕駛擴展定律研究(基于50萬小時駕駛數(shù)據(jù))也發(fā)現(xiàn)運動預(yù)測和閉環(huán)性能遵循冪律。這些發(fā)現(xiàn)共同表明具身AI(與物理世界交互的系統(tǒng))普遍存在可預(yù)測的擴展行為。GEN-0的貢獻是首次在如此大規(guī)模真實機器人數(shù)據(jù)上系統(tǒng)驗證了這些定律,且覆蓋了廣泛的任務(wù)類型。
GEN-0的擴展定律使機器人公司能夠預(yù)測達到目標(biāo)性能所需的數(shù)據(jù)量、估算收集成本、制定合理研發(fā)時間線。例如,某物流公司想要95%的包裹分揀準(zhǔn)確率,可以在小規(guī)模數(shù)據(jù)(如1000小時)上訓(xùn)練基線,測量性能(假設(shè)80%),擬合冪律曲線,外推出達到95%可能需要10萬小時,若每小時成本$100則總成本$10M,然后與人工成本對比做商業(yè)決策。這種可預(yù)測性大幅降低了機器人項目的不確定性和風(fēng)險。
數(shù)據(jù)成為新的核心競爭力。傳統(tǒng)機器人公司價值鏈?zhǔn)?硬件>軟件",未來將是"數(shù)據(jù)>模型>硬件"。GEN-0提到的"數(shù)據(jù)工廠"合作模式暗示新商業(yè)模式:專業(yè)數(shù)據(jù)采集公司部署數(shù)千臺遠程操作設(shè)備,在多樣化環(huán)境收集數(shù)據(jù),出售給模型開發(fā)者。這類似ImageNet如何定義計算機視覺數(shù)據(jù)標(biāo)準(zhǔn),機器人數(shù)據(jù)也需要格式、質(zhì)量、多樣性標(biāo)準(zhǔn),未來可能出現(xiàn)數(shù)據(jù)市場。
本文轉(zhuǎn)載自????魯班模錘??,作者:祝融

















