ICLR 2025 | 機器人安燈泡、切東西都能拿捏，可操控軌跡跟蹤的DexTrack來了

作者：機器之心 2025-03-03 10:02:00

賦予機器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個具身智能體獲得廣泛的靈巧操控技能一直是具身智能領域的一個重要問題。

現實世界的機器人距離科幻小說里的機器人世界還有多遠？通用靈巧操控何時才能實現？朝著這一偉大的目標，研究通用靈巧操控軌跡跟蹤的 DexTrack 便應用而生。

論文地址：https://arxiv.org/abs/2502.09614
代碼地址：https://github.com/Meowuu7/DexTrack
項目網站：https://meowuu7.github.io/DexTrack/
YouTube 視頻：https://youtu.be/zru1Z-DaiWE

1. 動機

賦予機器人像人一樣的靈巧操控技能是通往未來終極具身智能的重要一步。如何讓一個具身智能體獲得廣泛的靈巧操控技能一直是具身智能領域的一個重要問題。靈巧操控任務復雜且多樣，之前很多工作大多專注在特定技能的獲取（如抓取或者在手里轉動）。他們大多需要對單獨的任務進行針對性的設計，例如專門對某一種特定的任務設計對應的獎勵函數，之后根據這樣的獎勵函數訓練策略網絡來解決對應的問題。這些難以遷移到不一樣的任務上的 reward 設計是通往通用操控技能的一個阻力。

所以為了實現通用的靈巧操控技能，我們首先需要任務表示層面的統一。此外，靈巧操控技能涉及到復雜的和隨時間變化的手 - 物接觸，復雜的物體運動軌跡。再考慮到對使用一個操控策略解決不同類型的操控任務的需求，得到一個通用的靈巧操控智能體對算法本身的設計也提出了很大的挑戰。

為了實現這一目標，我們將運動規劃以及控制的問題拆解開來，將不同種的靈巧操控技能重新統一到一個軌跡跟蹤控制的框架下，進一步借助于大量的人類操控物體的數據作為跟蹤的目標，通過學習一個通用的軌跡跟蹤控制器，來一定程度上解決這個問題（圖 1）。

圖 1：問題的拆解和對通用軌跡跟蹤器的期待

2. DexTrack：通用軌跡跟蹤器的學習

2.1 統一的軌跡跟蹤任務表示

我們將不同類型的操控任務統一到一個軌跡跟蹤任務來完成任務表示層面的統一。在每個時刻，給定機器手和物體當前的狀態，以及下一步想要達到的狀態，軌跡跟蹤控制器的任務是給出機器手當前應該執行的動作，從而通過執行該動作，機器手可以運動且和物體進行交互，使得機器手以及物體實際達到的狀態與下一步想要達到的狀態相吻合。這樣的表示方式對不同的操控任務是比較適配的。對一個任務，比如將物體轉動一個角度，我們可以先規劃出來物體的運動軌跡，之后將這個任務轉化為跟蹤物體運動軌跡的軌跡跟蹤任務。

圖 2：軌跡跟蹤器的輸入和輸出

2.2 通用軌跡跟蹤器的學習方法

一個通用的軌跡跟蹤需要可以響應各種各樣的軌跡跟蹤命令。這一多樣的軌跡空間對該軌跡跟蹤器的學習提出了更高的挑戰。我們提出了一個將 RL 和 IL 結合起來的方法，在 RL 訓練的同時引入監督信號來降低 policy 學習的難度。通過交替地使用高質量的軌跡跟蹤數據輔助通用軌跡跟蹤控制器的學習，以及借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質量，我們可以逐漸得到一個強大的可以跟蹤各種各樣軌跡的控制器（圖 3）。

圖 3：通用軌跡跟蹤器的訓練方法

2.2.1 軌跡跟蹤任務獎勵函數

獎勵函數主要由三部分組成：1）物體軌跡跟蹤獎勵，2）手部軌跡跟蹤獎勵，3）手和物體的親密度獎勵。

2.2.2 通過 RL 和高質量跟蹤演示數據來訓練通用軌跡跟蹤器

通過在 policy 的訓練過程中引入額外的監督信息來降低這一通用軌跡跟蹤器學習的難度。

2.2.3 借助通用軌跡跟蹤器來提高單一軌跡跟蹤演示的質量

我們設計了兩個策略來提高單一軌跡跟蹤演示的質量，1）借助通用軌跡跟蹤器來初始化單一軌跡跟蹤策略的學習，2）借助 homotopy optimization 的方式，通過解決一系列的優化任務來降低特定軌跡跟蹤任務優化的難度（圖 4）。

圖 4：Homotopy Optimization

3. 結果

我們的方法在極具挑戰性的任務上達到了令人矚目的效果。同時我們也進行了大量的真機實驗來驗證它在真實世界中的可行性。我們的機器手可以轉動并嘗試 “安裝” 一個燈泡。在 functional tool using 方面，我們也可以在手中調整一個刀使得刀可以刀刃向下來切東西，可以在手中轉動一個錘子，并使用正確的朝向來錘東西。因為獲得這些動作的人手軌跡比較困難，我們通過只跟蹤物體軌跡來實現這些效果。這也證明了我們的方法可以拓展到稀疏物體軌跡跟蹤的應用上。