如何獲取足夠的數據來訓練機器人GPT?
?一、核心命題
訓練“機器人GPT”式通用機器人基礎模型的關鍵瓶頸在于“機器人數據鴻溝”:現有數據集規模遠低于數萬億token,且缺乏多樣性(跨環境、物體、任務、光照)。要實現2萬億token目標,傳統單機采集需數萬年,但通過組合現實機器人集群、模擬數據和人類視頻數據,可在幾年內接近目標。這需數十億美元級投資,但2025年進展(如NVIDIA的Project GR00T更新和Skild AI的通用機器人腦)顯示技術路徑日益成熟,凸顯合成數據和高保真模擬的作用。
二、量化與假設:從算賬出發
基本假設:機器人以10 fps采集,每幀約1個“有價值token”(考慮機器人數據冗余及非IID特性,信息密度遠低于文本token),24/7運行下,單機需約6,377年達2×1012 token。放寬現實因素(如間歇運行、數據過濾),基線取約70,000機器人年。
三個縮放杠桿與粗略倍率(基于樂觀估算,結合2025年更新):
1. 機器人集群:如1,000臺多任務人形機器人并行(參考Tesla/Figure計劃的數千臺規模及2025年人形機器人出貨激增)。
2. 模擬數據:參考“Sim-and-Real Co-Training”及2025年進展(如NVIDIA Isaac Lab的zero-shot轉移框架),等效放大1:100至1:1,000(DrEureka利用LLM加速sim-to-real設計)。
3. 人類視頻數據:人類與機器人數據等效比約10:1,2025年工作如EgoVLA(基于500k人類第一人稱視頻預訓練)顯示更高效率。
綜合:70,000年 ÷ (1,000 × 10 × 10) ≈ 0.7年。考慮數據質量與泛化(如AutoRT收集77k真實episode,強調多樣性),實際可能需調整為幾年。
三、三類數據源的邏輯角色
1. 現實世界機器人集群:
2025年全球存量巨大(AMR預計數百萬臺,人形如Figure 02達數千臺),但多限于同質環境。價值在于多任務部署(如NVIDIA GR00T的認知基礎模型),需通過遙控操作采集失敗軌跡。2025年更新:Agility Robotics等強調真實teleop數據對泛化的關鍵作用。
2. 模擬與現實協同(Sim-to-Real Co-Training):
以少量真實演示擴展大規模模擬(比率1:100+),2025年進展如NVIDIA的Isaac GR00T云到機器人平臺及MIT的real-to-sim-to-real(通過手機捕獲環境,加速模擬訓練)。模擬對強化學習(RL)有效,但需域隨機化覆蓋現實復雜性;Omniverse平臺支持程序化生成。
3. 人類視頻數據:
從人類演示蒸餾技能(如Tesla視頻、EgoZero的Aria眼鏡數據),2025年如Autoregressive Robotic Model(從無標簽人類視頻學習4D表示)和EgoVLA(第一人稱視頻橋接人類與機器人動作空間)。對長尾行為關鍵,效率高,但需匹配機器人形態。
四、“多樣性優先”的證據鏈:模仿學習的規模定律
模型能力與參數、token、計算呈冪律關系,但機器人領域多樣性優于數量:多環境覆蓋優于單環境海量樣本。2025年共識從研究延伸:
Data Scaling Laws in Imitation Learning:多環境演示顯著提升泛化能力。
Robot Utility Models (RUM):在≥40環境下實現90%未見環境成功率,環境數量與性能呈冪律關系。
2025年更新:《Foundation Models for Robotics》綜述確認多樣數據驅動自主性;EgoVLA消融實驗顯示,機器人demo數據減半導致長任務成功率驟降(45%→7%),凸顯人類預訓練的重要性。
行業共識:
1. 泛化能力隨環境及物體數量呈冪律上升。
2. 單一環境存在邊際遞減效應。
3. 下限需≥40~100環境(如AutoRT的野外多樣數據),并需便捷工具(如Stick/UMI)高效采集。
五、Sim-to-Real 的方法學與邊界
域隨機化與程序化生成:隨機化紋理、布局、物體(基于Objaverse庫),如ProcThor生成15萬房屋,支持Poliformer(2024 CoRL最佳論文)的導航轉移。2025年進展:real-is-sim動態數字孿生縮小差距;AutoMate訓練多樣幾何裝配;DrEureka利用LLM自動化獎勵與任務生成,擴展覆蓋面。
任務自動化:Eureka/Eurekaverse用LLM生成函數,加速模擬學習。
當前局限:
1. 語義遷移薄弱:需真實數據訓練檢測器(如Detic)。
2. 復雜操作依賴VLM協調、局部策略及規劃(如ManipGen)。
3. 現實數據對分布外物體及物理交互不可或缺(2025年調研確認傳感器噪聲與域移仍為挑戰);高保真模擬(如Cosmos WFM)有所緩解,但非萬能。
六、關鍵假設與不確定性(作者自我校準)
Token估算:每幀1 token為保守估計;若單幀可提煉數百有效token(經過去冗余處理),進度將更快。
模態疊加:假設模擬與人類數據互補可能高估效果;若存在重疊,收益降低。
物理難點:夾爪與環境的物理交互需更多真實數據;2025年討論(如“Reality Gap”帖子)強調邊緣案例的挑戰。
額外不確定性:強化學習長期訓練可能導致遺忘(ProRL論文警告);機器人數據饑餓(僅500k對比LLM的萬億)需合成數據填補,但質量存風險。
七、面向落地的策略建議(數據/系統/組織一體化)
1. 以“多樣性為先”的數據路線圖:
確保每個技能覆蓋≥40~100環境,涵蓋多物體與光照;建立家庭與工業環境譜系,優先處理長尾任務。
2. 三源合一的采集體系:
現實集群:部署人形平臺(如Figure 02),通過遙控閉環采集難例;整合AutoRT式多機器人野外數據。
模擬平臺:構建程序化流水線(如Isaac Lab),版本化場景庫;利用DrEureka自動化獎勵生成。
人類視頻:建立授權流程,聚焦匹配機器人形態的分布(如EgoVLA第一人稱視頻),結合無標簽學習。
3. 數據度量與“有效 token”定義:
將token操作化為信息密度(TD-error、成功標注),通過難度采樣與去重提升效率;參考Functional Benchmarks評估真實推理能力,而非記憶。
4. 訓練架構:
采用VLM協調與局部策略組合;模擬預訓練控制模塊,現實數據精調語義模塊;動作分塊(如50Hz擴散頭預測1秒動作)。
5. 計算與預算規劃:
按冪律關系協同擴展參數、token與算力(參考DeepMind Compute-Optimal);構建訓練-評估-數據回灌閉環;2025年Skild AI強調預訓練與后訓練配方。
6. 組織與生態:
推動“曼哈頓計劃”式聯盟(跨公司如NVIDIA/Covariant、政府);統一數據格式與隱私標準(如去中心化平臺);降低數據匯集的組織摩擦,聚焦真實數據共享。
八、一句話結論
要在幾年內達到2T token級別,需以多樣性優先,構建現實集群、程序化模擬與人類視頻的三元數據引擎,在組合式學習框架下閉環運行,兼顧工程與組織挑戰;2025年進展如GR00T更新、Skild Brain和EgoVLA預示突破在即。

如何獲取足夠的數據來訓練機器人GPT?
一項關于擴展機器人數據收集至2萬億token的思想實驗
眾所周知,大型語言模型(Large Language Models)依賴海量數據進行訓練,規模往往達到數萬億token。然而,即使是目前最大的機器人數據集,也遠遠達不到這一數量級。Physical Intelligence公司在一年時間里收集了約1萬小時的機器人數據,用于訓練其首個基礎模型PI0。Andra Keay在其Substack博客中提到,這正是所謂的“機器人數據鴻溝(Robot Data Gap)”。
若僅依靠傳統方式,可能需要數萬甚至數十萬年才能收集到足夠的數據。但我們可以通過多種方式加速這一過程,包括:
- 擴展機器人集群(Scaling Robot Fleets)
- 使用模擬數據(Simulation Data)
- 使用人類視頻數據(Human Video Data)
通過整合這些方法,訓練“機器人GPT”的數據收集目標才更具可行性。然而,所需資源已超出學術實驗室的能力范圍,需要巨額資金投入。
接下來,讓我們深入探討這一問題。

這些估算在某些方面可能過于樂觀。我們先做一個簡化假設:假設一臺機器人以10幀/秒(10 fps)的速度采集數據,每幀生成1個有價值的token。之所以這樣設定,是因為機器人token的“信息密度”遠低于語言模型token。例如,Qwen或Llama的數據包含豐富語義,而機器人圖像幀往往冗余度高。
進一步地,機器學習通常在獨立同分布(IID)的數據集上表現最好,而無論是網絡數據還是機器人數據,都不具備嚴格的IID特性,其中機器人數據的非IID性更為顯著。
假設機器人全年無休地運行:
一年 = 365.25天 × 24小時 × 3600秒 ≈ 31,557,600秒
以10 fps計算,要達到2萬億token需要 約6377年。
這一假設已經非常理想化(24/7持續運行且每秒都收集到有用數據),現實中顯然無法達到。我們將時間需求放大10倍并四舍五入,得到 約7萬機器人年(Robot-Years)才能收集到相當于Llama2規模的2萬億token。
對于單臺機器人來說,這顯然是不可能完成的任務。但機器人并非孤軍奮戰。Ken Goldberg教授提出了幾種彌合這一巨大數據鴻溝的方法。Andra Keay在博客中寫道:
Goldberg提出了四種方法彌合數據鴻溝:模擬、視頻數據、人類遙控操作(Human Teleoperation)和現實世界生產數據。他強調機器人系統的可靠性和適應性,主張將數據收集與傳統工程實踐結合。
方法一:擴大機器人集群
全球已經部署了數量龐大的機器人。
- AMR(自主移動機器人):每年出貨量在數十萬臺,到2030年預計將達數百萬臺。
- 固定臂工業機器人:2023年全球運行量約400萬臺。
- 機器狗:Boston Dynamics截至2023年底已售出超1000臺,未來市場前景廣闊。
- 無人機:美國注冊數量超100萬臺,Skydio已生產約4萬臺。
- 服務機器人、養老護理機器人:在多個新興領域加速發展。
然而,問題在于:這些機器人產生的有用數據極少。大多數機器人在單一環境中反復執行同一任務,缺乏多樣性和復雜性。因此,用于訓練“機器人GPT”的真正有價值數據將大幅減少。
相比之下,能執行多樣化任務的人形機器人更具潛力。目前全球可能僅有數百到數千臺人形機器人。Tesla計劃量產數千臺,Hyundai也表示有意生產數萬臺Boston Dynamics機器人。中國六家廠商(如Unitree、Agibot)計劃在2025年前生產1000臺。
若能管理一個1000臺機器人集群,運行一年,收集到的大量多樣化數據將顯著縮短差距。雖然這是一個數十億規模的項目,但理論上可行。具備承擔能力的公司可能只有Figure和Tesla。
方法二:模擬與現實的協同
機器人數據生成異常困難。尤其對于通用家用機器人,數據不僅要足夠多,還必須在任務和環境上具有多樣性。

參考論文《Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation》(Maddukuri等,NVIDIA GEAR實驗室),研究者提出:
- 每項任務收集10次真實演示
- 基于這10次演示生成約1000次模擬演示
也就是說,模擬數據可將真實數據需求減少約 100倍。
由此,原本需要7萬年才能收集的數據,借助模擬后只需 約700年。再考慮1000臺機器人并行,所需時間可降至 不到1年。
不過,模擬數據并非“無限可擴展”。它在某些場景(如強化學習)表現優異,但在物理交互等方面仍有差距。因此更穩妥的估計是:模擬數據能大幅降低需求,但難以完全替代真實數據。
方法三:人類視頻數據
另一條路徑是直接利用人類視頻數據來教機器人技能。例如:
- Tesla展示過機器人從人類視頻中學習的案例
- EgoZero利用用戶佩戴Aria眼鏡收集演示數據
- 《Humanoid Policy ~ Human Policy》嘗試將人類與人形機器人數據共同訓練
- DreamGen利用世界模型擴展機器人任務學習
根據相關研究估算,人類視頻數據與人形機器人數據的比例約為 10:1。
綜合計算,我們假設:
- 1000臺機器人并行采集
- 每年真實數據對應10年模擬數據
- 再加上10年人類視頻數據
那么:
7萬年 ÷ 1000(機器人并行) ÷ 10(模擬) ÷ 10(視頻) ≈ 0.7年
換句話說,在這種假設下,僅需不到一年就能獲得與Llama2同等規模(2萬億token)的機器人數據。雖然這是一個數十億級別的項目,但在Figure或Tesla這樣的公司看來并非不可實現。
結語
這一推演基于若干關鍵假設:
1. 數據必須足夠“有趣”,即具備任務和環境多樣性。實驗室數據過于單一,工業環境數據也可能不足。
2. 我假設每秒僅能得到10個有價值token,可能偏悲觀。若單幀圖像可轉化為更多token,時間可進一步縮短。
3. 我假設不同模態數據可以疊加,模擬、人類視頻和真實機器人數據各自補充,提升模型泛化能力。但若機器人學習的真正難點在于物理交互,則可能需要更多真實數據。
總體而言,這些估算勾勒出一個相對樂觀的前景:在未來幾年內,數萬億token級的機器人數據并非遙不可及。若由多家公司組成聯盟,或由政府主導類似“曼哈頓計劃”的項目,完全可能在幾年時間內實現。最大挑戰或許不是數據生成本身,而是如何有效整合和利用這些海量數據。
機器人模仿學習的規模定律
運行一家結合人工智能與機器人的公司成本極高。數據收集既昂貴又耗時,計算資源價格不菲,基礎設施也需投入建設。為了在學習上做出大規模投資,我們必須明確:回報是否值得。

近期,Fanqi Lin等人發表了論文《機器人操作中的模仿學習數據規模定律(Data Scaling Laws in Imitation Learning for Robotic Manipulation)》,探討了一個核心問題:是否可以通過適度的數據擴展,訓練出適用于任意機器人和環境的通用操作策略(Manipulation Policies)。

這項研究成果顯著,該論文在機器人學習頂會 CoRL 的工作坊中榮獲最佳論文獎。
什么是規模定律?
訓練神經網絡通常涉及三類關鍵資源:
- 參數量(Parameter Count):模型規模
- 訓練 token 數(Number of Training Tokens):數據規模
- 計算預算(Compute Budget):GPU 小時數
我們預期這些資源與模型損失(Loss)之間呈冪律關系(Power Law Relationship),即:更多的數據、參數和計算預算能帶來更好的性能表現。

事實確實如此。計算資源和訓練 token 的增加,往往會以接近指數的方式提升模型性能。

例如,Google DeepMind 曾在論文《訓練計算最優的大型語言模型(Training Compute-Optimal Large Language Models)》中提出,GPT-3 時代的模型訓練實際上嚴重不足。這篇論文盡管引用量不高,卻具有重要影響力。
需要強調的是,所謂“定律”并非嚴格意義上的自然法則,而更接近經驗規律。簡而言之,當模型參數翻倍時,訓練數據量也應隨之翻倍。更多關于規模定律的背景,可參考 Nathan Lambert 的博客文章。
為什么規模定律對機器人重要?
當下,業界普遍希望訓練機器人模型,但最大障礙在于:缺乏大規模數據集。同時,許多公司也沒有能夠支持大規模訓練的團隊和基礎設施。因此,如何在有限資源下合理安排建設順序至關重要。
在單代理視頻游戲中,規模定律已有一定研究。然而,現實世界的機器人任務更復雜,相應的數據研究仍極少,原因在于:這些數據大多尚未被收集。
在機器人領域,我們尤其關注泛化能力(Generalization):機器人必須能夠適應不同環境、操作不同物體、應對不同光照條件。然而,即便是目前最大的機器人數據集(如 Open X Embodiment),規模依舊微不足道。

來自規模定律的實驗
在《機器人操作中的模仿學習數據規模定律》中,作者為 32 種物體各收集了 120 次演示,涵蓋兩類任務:倒水(Pour Water)與鼠標擺放(Mouse Arrangement)。他們還在 32 個訓練環境中分別進行了實驗,并增加了物體與環境同時變化的組合任務。最終,經過 SLAM 過濾后,共獲得約 3820 次演示數據。

研究的最重要結論是:當數據量足夠大時,數據多樣性明顯優于單一環境中的重復數據。
這一結論在其他研究中也得到驗證。例如,《機器人實用模型(Robot Utility Models, RUM)》采用了類似方法。
數據多樣性的重要性
在《機器人實用模型》中,研究者使用一款名為 “Stick” 的工具,在 40 個不同環境中收集了 1000 段演示視頻。首席作者 Haritheja 甚至在全新家具環境中進行了現場演示。我自己在家中也試用過這個工具,確實高效。
與前一篇論文不同,RUM 研究的任務更加多樣,共包含五類:
1. 開門(Door Opening)
2. 開抽屜(Drawer Opening)
3. 物體重新定位(Reorientation,例如將瓶子扶正)
4. 紙巾抽取(Tissue Pickup,從盒中抽紙)
5. 塑料袋拾取(Bag Pickup,從平面上拾起袋子)
在完全未見過的環境中,RUM 仍取得了 90% 的成功率。其關鍵就在于“Stick”工具能快速收集高度多樣化的數據。
為了驗證這一點,RUM 進行了對比實驗:

相同數據量下,多環境少樣本與 單環境多樣本的效果孰優孰劣。結果再次表明:數據多樣性勝出。
主要結論
這些研究逐漸形成了以下共識:
1. 泛化能力與環境多樣性呈冪律關系:更多不同環境帶來更強泛化能力。
2. 單一環境數據的邊際效應遞減:即使收集數百萬條單一環境的演示,也無法訓練出通用機器人智能。
3. 數據集必須具備多樣性:至少應涵蓋數十種環境、物體和光照條件。RUM 的實驗表明,40 個環境是一個合理起點。
4. 多樣性需要高效收集方式:例如,RUM 使用 Stick 工具,規模定律研究使用 UMI 工具。要在現實中實現這一點,機器人必須便攜且安全(如 Stretch、1x Neo 或輕量級 Booster T1)。
將機器人技能從模擬帶到現實世界
機器人數據生成極其困難,至今仍是一個未解決的難題。對于家用機器人而言,數據不僅需要充足,更必須在關鍵維度上具備多樣性——同一任務需在不同環境中、針對不同物體反復執行。
因此,要訓練有效的方法,就必須收集大量高質量數據。雖然可以通過多人在現實環境中收集,但這種方式成本高昂、實施困難,于是業界逐漸轉向模擬作為解決方案。
數據收集的挑戰
一個核心問題是:數據必須保持高質量。
這意味著無法依賴像 UMI 夾爪或 Stick 工具那樣的廣泛分發來批量生成數據,而是需要通過單一策略收集,以降低噪音。理想情況下,數據應來自同一來源。但這也導致現實環境中的擴展性極具挑戰,因此出現了如 Sensei 這樣專注于機器人訓練數據收集的公司。

此外,目前的模仿學習方法若要實現有效擴展,數據還需經過嚴格篩選。這類方法通常要求依賴精通系統的專家進行遙控操作,顯著增加了成本,同時占用了稀缺專家的時間。更重要的是,這種方式很難覆蓋多樣化的環境。
模擬在這一點上展現出獨特潛力,可以在多個層面緩解這些問題。
我們看到一些初創公司已經進入這一領域:
- Hillbot:專注于貨架補貨的 Sim-to-Real 策略
- Scaled Foundations:發布了 AirGen,一個新的機器人數據模擬平臺
- Electric Sheep:借助 NVIDIA Omniverse 訓練園藝場景的模擬到現實策略
- Skild:通過 Sim-to-Real 學習完成了 3 億美元 A 輪融資
- Lucky Robots:構建面向機器人基礎模型的高保真模擬環境
在學術界,也出現了完全基于模擬的成功案例。例如,Poliformer(CoRL 2024 最佳論文)和 Harmonic Mobile Manipulation(IROS 2024 最佳論文),均依托 AI2 Thor 程序化生成環境實現了從模擬到現實的訓練(見上視頻)。
視覺域隨機化(Visual Domain Randomization)
通用視覺運動策略(Visuomotor Policy)學習的關鍵依舊是數據多樣性。
數據規模固然重要,但更重要的是能夠正確捕捉并覆蓋目標分布之外的多樣性。這一邏輯在大型語言模型(如 NVIDIA 的 NVLM)和機器人策略學習中都成立。過去的工作大量采用域隨機化方法,例如 NVIDIA 的早期研究 DOPE[4]和 SORNet[5]。
基本配方看似簡單:盡可能隨機化紋理、房間布局和環境,創造足夠多樣的訓練場景。
對于姿態估計(Pose Estimation)或狀態分類(State Classification)任務,這并不復雜——背景可從 MS-COCO 等大型圖像庫隨機抽取,光源位置可調整,物體反射率可修改。但對于復雜的視覺運動策略,如導航與移動操作,環境必須復雜得多,因此挑戰更大。

這也是為什么 RoboCasa[1]和 ProcThor[6]通過程序化生成來構建訓練環境。例如,ProcThor 可以自動生成房間結構,并添加門與物體,從而批量創建復雜且逼真的訓練場景。后續研究表明,這一方向非常有效。

以 Poliformer[2]為例,其利用 150,000 個程序化生成的房屋(場景由 Objaverse 開源 3D 模型庫填充)擴展導航策略訓練,并證明這些策略能在現實世界中奏效。Poliformer 使用強化學習訓練導航代理。
AI2 的相關研究進一步展示了完全基于模擬實現的移動操作(包括移動與抓取),盡管采用的是模仿學習方法。與此同時,ManipGen[9] 展示了在大量任務與環境中的泛化能力,其核心做法是:在程序化生成的桌面場景中訓練,并利用視覺語言模型(VLM)來協調局部策略。
模擬任務的自動化生成
盡管模擬展現出強大潛力,但任務創建和獎勵設計仍需大量人工工程。Eureka[7] 和 Eurekaverse[8] 提供了一條有前景的路徑:利用大型語言模型程序化生成任務與獎勵函數。這種方法有望顯著擴大模擬訓練的規模,并已在部分 Sim-to-Real 實驗中展現出效果。
當前的局限性
盡管 Sim-to-Real 發展迅速,并展現出訓練通用機器人策略的潛力,但它仍存在一些關鍵局限:
語義遷移不足:目前還難以將語義知識從模擬完全轉移到現實。例如,Poliformer 使用的 Detic 物體檢測器依然依賴現實世界數據進行訓練。OVMM 研究中也發現,從 RGB 圖像直接學習開放詞匯物體識別效果不佳。
局部策略依賴輔助模塊:如 ManipGen 所示,局部策略仍需 VLM 協調,同時依賴物體檢測器與運動規劃器來定位并執行技能。
多模型協同而非單一模型:目前更可行的路線是結合生成式 AI 與現實世界數據處理分布外物體,同時利用 Sim-to-Real 技術解決導航和部分操作問題。這意味著我們依賴的是模型體系,而非一個端到端的統一策略。
在這一方向上,已有多項研究深耕。例如 NVIDIA 的 DextaH-G[10]和 現實世界中的物體導航[11],以及 DeepMind 的足球機器人[13]。雖然有些研究(如 Dextreme[12])的環境隨機化程度有限,但依然具有重要參考價值。
參考資料:
- Paxton, C. (2024, November 14). What are the data scaling laws for imitation learning in robotics? IT Can Think. https://itcanthink.substack.com/p/what-are-the-data-scaling-laws-for
- Paxton, C. (2024, November 22). Bringing robot skills from simulation to the real world. IT Can Think. https://itcanthink.substack.com/p/bringing-robot-skills-from-simulation
- Paxton, C. (2025, June 10). How can we get enough data to train a robot GPT? IT Can Think. https://itcanthink.substack.com/p/how-can-we-get-enough-data-to-train?
轉載自????Andy730????,作者:常華?

















