清北聯(lián)合推出Motion Transfer,比肩Gemini Robotics,讓機器人直接從人類數(shù)據(jù)中端到端學(xué)習(xí)技能
本文的作者來自清華大學(xué)、北京大學(xué)、武漢大學(xué)和上海交通大學(xué),主要作者為清華大學(xué)碩士生袁承博、武漢大學(xué)本科生周睿和北京大學(xué)博士生劉夢真,通訊作者為清華大學(xué)交叉信息研究院的高陽助理教授。
近期,Google DeepMind 發(fā)布新一代具身大模型 Gemini Robotics 1.5,其核心亮點之一便是被稱為 Motion Transfer Mechanism(MT)的端到端動作遷移算法 —— 無需重新訓(xùn)練,即可把不同形態(tài)機器人的技能「搬」到自己身上。不過,官方技術(shù)報告對此僅一筆帶過,細(xì)節(jié)成謎。
正當(dāng)業(yè)內(nèi)還在揣摩 MT 的「廬山真面目」時,清華、北大等高校聯(lián)合團隊率先把同類思路推到更高維度:直接把「動作遷移」做到人類 VR 數(shù)據(jù)上!
更難得的是,他們第一時間放出完整技術(shù)報告、訓(xùn)練代碼與權(quán)重,全部開源可復(fù)現(xiàn)。下面帶你快速拆解這項「人類→機器人」零樣本動作遷移新范式。

- 論文鏈接:https://arxiv.org/abs/2509.17759
- 項目鏈接:https://motiontrans.github.io/
- 代碼地址:https://github.com/michaelyuancb/motiontrans
什么是 MotionTrans 框架

MotionTrans:端到端、零樣本、多任務(wù)的遷移人類技能
該論文提出 MotionTrans—— 業(yè)界純端到端、人類→機器人的 Zero-shot RGB-to-Action 技能遷移框架,一舉打通「看人會」到「我會做」的最后一公里。
- 零樣本遷移:無需任何同任務(wù)機器人演示,僅靠人類佩戴 VR 采集的 數(shù)據(jù),機器人即可一次性學(xué)會倒水、拔插座、關(guān)電腦、收納等日常操作,實現(xiàn)真正的「眼會到手會」。
- 小樣本精進:在零樣本基礎(chǔ)上,再用極少量(約 5–20 條)機器人本體數(shù)據(jù)微調(diào),即可把 13 種人類技能推至高成功率。
- 端到端且架構(gòu)無關(guān):整套算法為端到端,且與機器人模型架構(gòu)完全解耦;作者已在 Diffusion Policy 與 VLA 兩大主流范式上「即插即用」,驗證零樣本遷移的通用性與可擴展性。
MotionTrans 算法是怎么實現(xiàn)的

MotionTrans算法框架概覽圖
MotionTrans 算法框架是一套簡單易用,方便擴展的系統(tǒng)。具體來說,團隊首先自研了基于 VR 設(shè)備的人類數(shù)據(jù)采集系統(tǒng)(已開源)。該系統(tǒng)支持便攜式的同時采集人類第一人稱視頻、頭部運動、腕部位姿和手部動作。
然后,團隊通過坐標(biāo)系變換和手部重定向(Retargeting)等方法,將人類數(shù)據(jù)轉(zhuǎn)換為機器人格式。具體來說:
- 第一人稱視頻:人類數(shù)據(jù)與機器人數(shù)據(jù)都使用第一人稱視角來作為視覺感知。
- 相對腕部動作表征:為了進一步縮小人類動作與機器人動作之間的差距,團隊使用相對位腕部姿(Relative Pose)來作為腕部動作表征。
- 手部重定向:團隊使用 Dex-Retargeting 工具將人類手部動作轉(zhuǎn)換為機器手對應(yīng)的關(guān)節(jié)運動。
除此之外,團隊還提出使用人類 - 機器人統(tǒng)一的動作歸一化(Unfied Action Normalization)以及賦權(quán)重的人類 - 機器人聯(lián)合訓(xùn)練算法(Weighted Human-Robot CoTraining),來進一步實現(xiàn)人類向機器人技能遷移的效果。MotionTrans 是一套通用的端到端訓(xùn)練框架。
因此,團隊選擇了最為主流的 Diffusion Policy 和 VLA 模型來作為模型架構(gòu)。最后,團隊采集了一個大規(guī)模人類 - 機器人數(shù)據(jù)數(shù)據(jù)集,包含 3200 + 軌跡、15 個機器人任務(wù)、15 個 (與機器人任務(wù)不同的) 人類任務(wù)和超過 10 個真實生活場景。

MotionTrans Dataset:高多樣性的大規(guī)模人類-機器人數(shù)據(jù)集
零樣本表現(xiàn):直接從人類數(shù)據(jù)學(xué)會若干技能
團隊首先評估零樣本遷移:直接把「人類集合」里的任務(wù)部署到機器人,對于這些任務(wù),全程未采集過任何一條機器人演示。
結(jié)果顯式,在全部 13 個任務(wù)上,機器人模型的平均成功率可以達到 20 %,其中:Pick-and-Place 系列表現(xiàn)最佳,成功率可達 60% – 80%;VLA 模型在 「關(guān)電腦」任務(wù)上更是拿下 100 % 一次性通關(guān);其它更為困難的任務(wù),如拔插座、開盒子、避障放置等也取得可觀的成功率。
除此之外,即便成功率為 0 的任務(wù),MotionTrans 依舊學(xué)會了正確的動作方向與趨勢。以擦桌子為例,模型雖未能把抹布推到足夠遠,但已清晰輸出 “向前推” 的連續(xù)動作,驗證了框架在零機器人數(shù)據(jù)條件下能夠捕獲任務(wù)核心語義。

MotionTrans支持零樣本實現(xiàn)端到端的人類向機器人技能遷移
微調(diào)后表現(xiàn):僅用少量機器人微調(diào)數(shù)據(jù),精通 13 個新任務(wù)
在隨后的「小樣本微調(diào)」階段,團隊只給每個「人類原生」任務(wù)補采了 5 條機器人軌跡 —— 短短幾分鐘的示教,便讓模型在 13 個任務(wù)上的平均成功率從 20% 的零樣本基線躍至約 50%;當(dāng)把機器人軌跡增加到 20 條,平均成功率更是直達到 80%。
除此之外,實驗結(jié)果顯示,同時使用機器人數(shù)據(jù)和人類數(shù)據(jù)聯(lián)合訓(xùn)練的 MotionTrans 方法要顯著優(yōu)于對比的 Baseline 方法。
最后,團隊還實施了大量消融試驗和探索性實驗,來驗證 MotionTrans 框架設(shè)計的合理性,以及揭示 Motion Transfer 發(fā)生的底層原理與機制。

MotionTrans算法機器人數(shù)據(jù)微調(diào)效果曲線圖
總結(jié):人類數(shù)據(jù)學(xué)習(xí)的全新視角
MotionTrans 首次向社區(qū)證明:即便是最前沿的端到端 VLA 模型,也能在「零機器人演示」的嚴(yán)苛設(shè)定下,僅憑人類 VR 數(shù)據(jù)就解鎖全新的技能。
這一結(jié)果改變了人們對人類數(shù)據(jù)的認(rèn)知 —— 它不再只是提升魯棒性或加速收斂的 「調(diào)味劑」,而是足以獨立充當(dāng)「主菜」,讓機器人直接習(xí)得陌生任務(wù)。框架本身簡潔直白、模塊化設(shè)計,采、轉(zhuǎn)、訓(xùn)三步即插即用,未來面對更大規(guī)模的數(shù)據(jù)集或參數(shù)量級的模型,只需橫向擴容即可適用。
最后,團隊開源了所有的數(shù)據(jù)、代碼和模型,為后續(xù)的相關(guān)研究提供支持。
更多細(xì)節(jié)請參閱原論文。

























