手把手教機器人:斯坦福大學提出RTR框架,讓機械臂助力人形機器人真機訓練
人形機器人的運動控制,正成為強化學習(RL)算法應用的下一個熱點研究領域。當前,主流方案大多遵循 “仿真到現實”(Sim-to-Real)的范式。研究者們通過域隨機化(Domain Randomization)技術,在成千上萬個具有不同物理參數的仿真環境中訓練通用控制模型,期望它能憑借強大的泛化能力,直接適應動力學特性未知的真實世界。盡管這類 “零樣本遷移”(Zero-Shot Transfer)方案在多種運動任務上取得了卓越表現,但其本質目標是訓練一種在任何環境下都 “能用” 的保守策略。這種策略犧牲了機器人在特定真實環境中的性能上限,因為對于最終落地而言,真實世界的表現才是唯一重要的標準。
為了突破這一瓶頸,近期一些工作開始探索在仿真預訓練后,利用少量真實數據對模型進行微調。例如,來自英偉達和 CMU 等機構的研究者提出的 ASAP [1],通過訓練一個殘差網絡來快速補償仿真與現實的動態差異;而學界經典的 RMA (Rapid Motor Adaptation) 算法 [2] 也被應用于雙足機器人,通過一個適配模塊從歷史動作中推斷環境動力學信息 [3]。然而,這些工作大多仍著眼于對動態偏差進行一次性補償,交互范式也更偏向于離線學習,并未在真實環境中對模型本身進行持續的在線調整。由于人形機器人本身極不穩定,任何微小的失誤都可能導致昂貴的硬件損壞,因此在真實環境中直接進行強化學習訓練,長期以來被視為一個難以逾越的障礙。
從人類父母教授嬰兒學步的過程中汲取靈感,我們創造性地提出,使用一個 “教師” 機械臂在現實世界中 “手把手” 地指導 “學生” 人形機器人進行在線強化學習。

在這一過程中,教師機械臂扮演了多重關鍵角色:它既是保護安全的 “吊索”,防止學生摔倒 ;也是自動重置的 “幫手”,可以在失敗后迅速扶起學生繼續訓練;它還是敏銳的 “信號源”,通過力傳感器收集寶貴的訓練數據,為學生提供在真實環境中不易獲得的獎勵信號;更是智慧的 “教練”,通過設置課程學習(Curriculum Learning)進度和施加對抗性擾動,在訓練初期幫助學生快速適應環境,再循序漸進地提升訓練難度,增強學生的學習效率和策略的魯棒性。

我們將這一創新的軟硬件協同系統命名為 RTR (Robot-Trains-Robot),凸顯了由機器人教師提供主動物理輔助,對于實現人形機器人真機強化學習有重要意義。同時,為解決真實世界數據采集成本高昂的難題,團隊還提出了一種新穎的強化學習算法,通過僅優化一個與環境動力學相關的低維隱變量來快速調整機器人的行為,極大地提升了樣本效率。這一算法上的貢獻進一步解放了真機強化學習的潛力,在評測中顯著超越了 RMA 等傳統的在線系統識別基準。

論文標題:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids
論文地址:https://arxiv.org/abs/2508.12252
方法
具體來說,RTR 系統由硬件和算法兩部分構成:
硬件設置:教師與學生的協同生態系統
RTR 的硬件系統由 “教師” 和 “學生” 兩組機器人組成。
教師系統:核心是一臺帶有力 - 矩(Force / Torque)傳感器的 UR5 六軸機械臂。四根彈性纜繩將機械臂的末端與人形機器人的肩部相連,這種柔性連接可以平滑地傳遞輔助力,避免剛性連接帶來的沖擊。在行走任務中,一臺可編程的跑步機作為輔助,確保學生始終在教師的臂展范圍內。一臺迷你 PC 作為教師系統的 “大腦”,統一處理力反饋信號并控制機械臂與跑步機的行為。
學生系統:學生基于開源的 ToddlerBot 人形機器人 [4],它擁有 30 個自由度,體型緊湊且硬件堅固,適合長時間的連續訓練。開源的機器人設計使得根據需要對其進行修改更加便捷,一臺獨立的工作站則負責運行強化學習算法,并在學生手機數據的同時持續將最新的策略模型發送給學生執行。

算法設計:三階段式高效 Sim-to-Real 微調
為了最大化數據效率,RTR 提出 Sim-to-Real 過程分為三個階段:
1. 仿真訓練具有環境適應性的策略。在大量域隨機化的仿真環境中,訓練一個接受編碼了環境物理參數(如摩擦力、阻尼等)的隱變量 z 作為輸入的控制策略。該隱變量通過 FiLM (Feature-wise Linear Modulation) [5] 層融入策略網絡,使得機器人的策略能夠根據不同的動力學環境進行自適應調整。
2. 優化通用初始隱變量。由于真實世界的物理參數未知,直接部署第一階段的模型會面臨 “真實環境中隱變量 z 該如何設置” 的難題。為此,我們參考域隨機化方法的思路,首先在仿真中優化一個 “通用” 的隱變量
,使其在所有見過的仿真環境中都能取得不錯的平均表現。這個
能夠引導策略產生能夠適應各種環境的動作輸出,成為了真實世界微調的可靠起點。
3. 真實世界在線微調。將仿真訓練的策略加上通用隱變量
作為環境狀態輸入,部署到真實機器人上。在教師機械臂的輔助下,凍結策略網絡參數,僅在線優化低維的隱變量 z 。這種隱變量的優化方式,用極少的數據量就能快速使機器人的步態適應真實世界的動力學特性,實現了極高的微調效率和穩定的微調過程。相比之下,直接使用 PPO 等強化學習算法在真實世界微調策略網絡本身,極易讓策略不再穩定而產生危險的動作。


實驗驗證
我們通過行走和 “蕩秋千” 兩個任務,全面驗證了 RTR 系統的有效性。
仿真到現實微調的行走任務中,我們是讓機器人在跑步機上精準地追蹤目標速度。消融實驗證明了 RTR 系統設計的優越性:
教師的輔助效果:與固定的吊架相比,能夠主動順應機器人運動的 “柔性” 機械臂(XY Compliant)顯著提升了學習效果。同時,從高額輔助逐漸過渡到零輔助的 “課程學習” 策略(Z Schedule),優于全程高輔助或全程低輔助的固定策略。
微調算法的數據效率:RTR 提出的 “微調隱變量” 方法,在數據效率和最終性能上均優于微調整個策略網絡或微調殘差網絡的基線方法。僅需 20 分鐘的真實世界訓練,RTR 就能將在仿真中預訓練的行走策略速度提升一倍。

我們還進一步設計了對比實驗,驗證了使用 FiLM 層向策略網絡添加關于環境動態的隱變量條件輸入,其效果優于直接將環境動態變量拼接到策略網絡的觀測中。基于 RTR 提出方法的真機微調效果,也要強于 RMA 為代表的在線參數識別基線。

除了 Sim-to-Real 任務,我們還設計了純真實環境強化學習的 “蕩秋千” 實驗,以展示 RTR 系統在直接強化學習任務中的潛力。在這個任務中,人形機器人需要學會協調雙腿,像孩子一樣蕩起秋千,以最大化擺動幅度。教師機械臂通過實時力反饋感知學生的擺動相位,在適當時機給予 “推動”(幫助)或 “阻尼”(擾動)。實驗結果表明,有教師主動參與的 “幫助” 和 “擾動” 課程學習,其效率高于教師僅作為固定吊架的方案,同時教師感知到的力信息,始終作為重要的獎勵信號指導學生訓練。整個學習過程從零開始,在 20 分鐘內就學會了幅度明顯的周期性擺蕩動作。

總結與展望
RTR 框架的提出,不僅為解決當前人形機器人真機部署與訓練的瓶頸提供了切實可行的方案,更重要的是,它引入了主動力輔助這一全新的范式來幫助機器人在真實世界學習。這一極具擴展性的框架在未來可以通過使用承載能力更強的工業機械臂或帶有力傳感的龍門吊系統,將 RTR 的成功經驗推廣到全尺寸人形機器人,乃至其他各類復雜機器人系統的真實世界強化學習任務中。
作者介紹
本文的共同第一作者為清華大學交叉信息研究院許華哲組博士生胡開哲,與斯坦福大學 C. Karen Liu 和 Shuran Song 組博士生史浩辰。文章在胡開哲于斯坦福大學訪問期間完成。共同通訊作者為斯坦福大學計算機系教授 C. Karen Liu,與斯坦福大學電子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 會議接收,項目代碼已全部開放,更多信息可以參考項目網站:robot-trains-robot.github.io,





























