機械手真正「活」了,銀河通用&清華推出DexNDM,用神經動力學重塑靈巧操作
DexNDM 成果第一作者為清華大學交叉信息研究院博士生劉雪怡,通訊作者為清華大學交叉信息研究院助理教授、上海期智研究院 PI 弋力,研發指導團隊還包括北京大學助理教授王鶴與北京銀河通用有限公司
機器人使用靈巧手幫人類在工廠里擰螺絲,在家里切菜做飯的一天何時可以到來?為了實現這一愿景,旨在解決靈巧操作技能 sim-to-real 難題的 DexNDM 應運而生。

- 論文標題:DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model
- 論文鏈接:https://arxiv.org/abs/2510.08556
- 項目網站:https://meowuu7.github.io/DexNDM/
- YouTube 視頻:https://www.youtube.com/watch?v=tU2Mv8vWftU
背景 – 高靈巧性復雜工具遙操作
實現高靈巧性的復雜工具遙操作,例如控制機械手使用螺絲刀或錘子,是機器人領域一個長期存在的核心挑戰。傳統的直接映射遙操方案,即由人手直接控制機械手,其能力通常局限于簡單的抓取與放置任務,無法勝任需要精細指尖協調的復雜操控。
為了突破這一瓶頸,我們主張采用一種半自主遙操作的范式。其核心思想是將復雜的遙操任務分解為一系列機器人可以自主執行的、穩定可靠的原子技能。操作者僅需下達高層指令,由機器人底層控制器精準地完成具體操作,從而將人的意圖與機器人的高精度執行力完美結合。
在眾多原子技能中,手內物體旋轉是一項至關重要、同時又極具挑戰的基礎能力。它不僅是靈巧手 “靈巧性” 的集中體現,也是使用絕大多數工具的前提。然而,手內旋轉涉及到復雜且快速變化的接觸動態,這帶來了巨大的仿真與現實鴻溝(Sim-to-Real Gap)。以往的研究因此常常局限于特定場景,如簡單的物體幾何形狀、受限的物體尺寸或特定的手腕姿態,難以形成通用的解決方案。
為此,我們提出了 DexNDM,一個旨在學習通用、穩定底層原子技能的新方法。DexNDM 旨在突破現有工作的局限,它能夠讓靈巧手掌握沿著多種轉軸、在多樣的手腕朝向下、穩定旋轉各類物體的技能,覆蓋了包括具有挑戰性的長條狀物體和微小物體在內的廣泛場景。
基于 DexNDM 所提供的強大且穩定的旋轉原子技能,我們最終構建了一個高靈巧性、高魯棒性的半自主遙操系統。在該系統中,操作者可以輕松地引導靈巧手完成此前無法實現的高難度任務,例如使用螺絲刀擰緊螺絲、用錘子敲擊釘子等手 - 工具 - 物體交互的復雜工具操作,甚至可以完成對系統魯棒性有極高要求的長程家具裝配任務。這充分證明了我們所提出的 “原子技能賦能復雜遙操” 路徑的有效性。
前所未有的靈巧性
【亮點 1】全場景物體覆蓋:從微小到超長,從簡單到復雜,皆可精準駕馭
1. 首次攻克極端挑戰下的持續旋轉
DexNDM 突破了現有手內旋轉技術的天花板,首次實現了在手掌朝下、側向等極具挑戰性的腕部姿態下,對長條狀物體(如棍、筆)沿長軸的持續穩定旋轉,以及對微小物體沿多軸的靈巧轉動。這是以往工作中從未實現過的能力。

圖 1:旋轉小物體和長物體

2. 極廣物體覆蓋,完美駕馭復雜幾何體

圖 2:極廣物體覆蓋
DexNDM 在可操作物體的多樣性方面取得了顯著突破,實現了對從微小到細長、從簡單到復雜幾何體的全面覆蓋,其廣度遠超以往任何工作(如圖 2 所示)。
為了量化這一優勢,我們將其與此前在復雜幾何體旋轉方面表現最佳的工作 Visual Dexterity 進行了直接比較。結果顯示,即便 DexNDM 采用的是比 Visual Dexterity 所用的定制化 D’Claw 機械手更小、更通用的 Leap Hand,它在旋轉相同物體時依然表現出相當甚至更優的性能。這證明了我們算法的卓越性,即用更通用的硬件實現了更強的能力。
更進一步,DexNDM 開創了一項前所未有的能力。我們首次展示了使用 Allegro、Leap Hand 這類通用型機械手,在手掌朝下等具有挑戰性的腕部姿態下,穩定旋轉多種表面凹凸不平的復雜幾何體(如圖 3 所示)。這一高難度場景下的操控能力是所有先前工作都未能企及的。

圖 3:旋轉復雜幾何體

【亮點 2】全姿態精準操控:任意腕部姿態,多樣旋轉軸,皆可隨心而動
除了在物體種類上的卓越通用性,DexNDM 的另一大特色在于其對腕部姿態和旋轉軸向的強大適應性。無論機械手處于何種朝向,也無論任務要求物體沿哪個軸旋轉,DexNDM 都能穩定、精確地完成指令,展現了其策略的高度靈活性和泛化能力(圖 4)。

圖 4:多樣的手腕朝向


【亮點 3】高「靈巧性」、高魯棒性靈巧手遙操系統,駕馭多種工具,勝任長程裝配任務
我們將 DexNDM 強大的手內旋轉能力作為一項 “原子技能”,構建了一套靈巧性遠超傳統方案的遙操作系統。在該系統中,操作者僅需通過手臂控制機械臂的位姿,并通過簡單指令下達期望的物體旋轉軸向,DexNDM 便能自適應地規劃并執行精細的手指運動,從而穩定地旋轉手中的物體。基于此,我們成功實現了多種復雜的工具使用任務,如使用螺絲刀擰螺絲,使用刀切香蕉,使用錘子錘釘子,使用筆寫字等。
更進一步,DexNDM 策略的超強魯棒性,使得遙操作系統能夠勝任對穩定性要求極高的長程(Long-horizon)裝配任務。例如,我們成功完成了為一張桌子安裝全部四條桌腿的完整裝配流程,整個過程流暢穩定,不會因策略失效或遭遇未見場景而中斷。

圖 5:高 「靈巧性」高魯棒的靈巧手遙操作
技術突破
DexNDM 所實現的真實世界中強大的物體旋轉能力得益于其在 sim-to-real 方法上的創新(圖 6)。
具體而言,本文方法的核心是一種關節級動力學模型,它通過有效擬合少量真實世界采集的數據,并據此相應地調整仿真策略的動作,從而彌合仿真和現實之間的動力學偏差。該模型具有很高的數據效率,并能在不同的手 - 物交互分布間實現良好的泛化:它對手 - 物交互的動力學進行逐關節的分解,將系統級影響壓縮為低維變量,并根據每個關節自身的動力學特性學習其演化過程,從而隱式地捕獲這些耦合效應。
作者配套采用了一套全自動的數據采集策略,以最少的人為干預收集多樣化的真實世界交互數據。DexNDM 所提出的逐關節動力學建模和全自動數據采集策略為真實世界中復雜的交互動力學建模提供了新的思路,并為真實世界中交互數據采集困難昂貴的問題提出了一個巧妙地行之有效的解法。
基于訓練得到的真實世界中靈巧手逐關節動力學模型,作者在原 policy 的基礎上訓練了一個殘差策略網絡,旨在根據原策略網絡的指令輸出來輸出一個修正項,從而彌補仿真和真實世界之間的動力學偏差。

圖 6:方法概述
1. 關節級神經動力學模型
與較為直接的建模整手和物體的交互動力學不同,關節級神經動力學模型將復雜的交互動力學在每個關節進行分解,通過從單關節的歷史信息中獨立預測其自身的下一個時刻的狀態,完成全手的狀態轉移預測。這樣做的兩個好處是增加了模型的數據利用效率并同時提高了模型對手 - 物交互數據分布變化的泛化能力。
作者通過理論分析和實驗驗證了關節級神經動力學模型的三個關鍵性質,即高表現力、高數據利用效率和強可泛化性。這樣的泛化能力使得作者可以僅在和目標任務有所不同的數據上訓練該動力學模型,并將其泛化到目標任務上來。這也使得本文廉價的全自動的數據采集方案成為了可能。
2. 自動化數據采集系統
基于四個宗旨,即 (i) 采集到的數據與策略網絡的轉移分布相關,(ii) 有物體的負載,(iii) 分布覆蓋全面,(iv) 容易擴展,作者構建了一個自動化的數據采集系統,稱為「混亂之盒」。
實現方法很簡單:將機器人手放入一個裝有軟球的容器中。然后作者以開環方式重放來自仿真基礎策略的動作,它提供了一個粗粒度的分布先驗(i)。手與這些球的相互作用會施加豐富、隨機化的載荷(ii-iii)。以 50% 的概率,作者為每個動作添加高斯噪聲(σ=0.01),以擴大覆蓋范圍(iii)。整個過程完全自動化、對硬件安全,且無需人工復位(iv)。下圖可以支持本文模型和數據設計的合理性:單個關節的輸入 / 輸出(I/O)歷史能夠覆蓋與任務相關的分布,而整只手的歷史則不能。

圖 7:關節級動力學建模在有偏數據分布時的優勢
3. 殘差策略的訓練
利用已學習的動力學,作者訓練一個殘差策略
,用以補償基礎策略的動作
,從而彌合仿真和真實世界之間的動力學差距。具體來說,給定基礎策略的觀測和其所輸出的動作,輸出一個校正量
,旨在匹配仿真器中所到達的下一狀態。作者通過在用于訓練基礎策略的軌跡數據集上,以監督學習的方式訓練
來實現這一目標。在部署時,作者執行
。
結語
DexNDM 在 Sim-to-Real 這一機器人學的核心難題上邁出了堅實而重要的一步。它解決了在靈巧操控中學習可靠真實世界動力學模型的難題,并從 0 到 1 實現了前所未有的靈巧操作技能 —— 這些技能對于傳統遙操作方案而言幾乎是無法想象的,這恰恰彰顯了先進 Sim-to-Real 方法的魅力與無限潛力。
誠然,DexNDM 尚有其局限之處。作者相信,這只是一個開始,靈巧手作為人形機器人的皇冠,是注定的未來,也必定會大放異彩。






























