加州大學(xué)最新!CrossFormer:適用于操作、導(dǎo)航、運(yùn)動(dòng)的統(tǒng)一策略
原標(biāo)題:Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation
論文鏈接:https://arxiv.org/pdf/2408.11812
項(xiàng)目鏈接:https://crossformer-model.github.io/
代碼鏈接:https://github.com/rail-berkeley/crossformer
作者單位:加州大學(xué)伯克利分校 卡內(nèi)基梅隆大學(xué)

論文思路:
現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)依賴于大規(guī)模數(shù)據(jù)集來實(shí)現(xiàn)廣泛的泛化,而這在機(jī)器人學(xué)習(xí)中往往是一個(gè)挑戰(zhàn),因?yàn)槊糠N機(jī)器人平臺(tái)和任務(wù)可能只有一個(gè)小數(shù)據(jù)集。通過在多種不同類型的機(jī)器人上訓(xùn)練單一策略(single policy),機(jī)器人學(xué)習(xí)方法可以利用更廣泛和多樣化的數(shù)據(jù)集,從而實(shí)現(xiàn)更好的泛化和魯棒性。然而,在多機(jī)器人數(shù)據(jù)(multi-robot data)上訓(xùn)練單一策略具有挑戰(zhàn)性,因?yàn)闄C(jī)器人可能具有截然不同的傳感器、執(zhí)行器和控制頻率。本文提出了CrossFormer,一種可擴(kuò)展且靈活的基于Transformer的策略,能夠處理來自任何實(shí)體(embodiment)的數(shù)據(jù)。本文在迄今為止最大和最具多樣性的數(shù)據(jù)集上訓(xùn)練了CrossFormer,該數(shù)據(jù)集包含了來自20種不同機(jī)器人實(shí)體的90萬條軌跡。本文展示了相同的網(wǎng)絡(luò)權(quán)重可以控制截然不同的機(jī)器人,包括單臂和雙臂操作系統(tǒng)、輪式機(jī)器人、四旋翼飛行器和四足機(jī)器人。與以往的工作不同,本文的模型不需要手動(dòng)對(duì)齊觀測(cè)空間或動(dòng)作空間。大量現(xiàn)實(shí)世界中的實(shí)驗(yàn)表明,本文的方法不僅能匹配為每個(gè)實(shí)體量身定制的專用策略的性能,還顯著超越了現(xiàn)有的跨實(shí)體學(xué)習(xí)(cross-embodiment learning)的最先進(jìn)方法。
論文設(shè)計(jì):
近年來,機(jī)器學(xué)習(xí)的許多成功都得益于在日益多樣化和多任務(wù)數(shù)據(jù)上訓(xùn)練通用模型。例如,視覺和語言任務(wù),曾經(jīng)由特定任務(wù)的方法處理,如今通過通用的視覺-語言模型能夠更有效地完成,這些模型可以在任務(wù)之間遷移知識(shí) [1, 2, 3, 4]。類似地,在機(jī)器人領(lǐng)域,最近的數(shù)據(jù)聚合工作 [5] 使得可以在跨多個(gè)實(shí)體、任務(wù)和環(huán)境的機(jī)器人數(shù)據(jù)上訓(xùn)練通用策略(general-purpose policies)。這些通用策略通過遷移視覺表示和技能,能夠超越那些僅使用目標(biāo)機(jī)器人和任務(wù)數(shù)據(jù)訓(xùn)練的狹窄策略(narrow policies) [6, 5]。除了正遷移(positive transfer)帶來的好處之外,訓(xùn)練通用的跨實(shí)體策略還減少了為每個(gè)機(jī)器人設(shè)計(jì)和調(diào)整策略架構(gòu)所需的工程工作量。
然而,訓(xùn)練通用的機(jī)器人策略具有獨(dú)特的挑戰(zhàn)性,因?yàn)闄C(jī)器人系統(tǒng)在相機(jī)視角、本體感知輸入(proprioceptive inputs)、關(guān)節(jié)配置、動(dòng)作輸出和控制頻率等方面可能存在極大的差異。最初在大規(guī)模跨實(shí)體策略訓(xùn)練上的努力通常局限于單一的機(jī)械臂或地面導(dǎo)航機(jī)器人,這些機(jī)器人可以通過單一的相機(jī)視角和基座或末端執(zhí)行器的相對(duì)航點(diǎn)動(dòng)作進(jìn)行控制 [5, 6, 7, 8]。要進(jìn)一步增加這些策略所能控制的實(shí)體的多樣性,就需要一種支持任意數(shù)量的相機(jī)視角或本體感知觀測(cè),以及預(yù)測(cè)任意維度動(dòng)作的模型架構(gòu)。遵循以往的工作,本文采用了順序建模的方法來進(jìn)行跨實(shí)體模仿學(xué)習(xí) [9, 10]。本文提出了一種基于Transformer的策略,通過將輸入和輸出轉(zhuǎn)換為序列來支持可變的觀測(cè)和動(dòng)作。本文將這一方法擴(kuò)展到目前為止能夠用單一策略控制的最為多樣化的實(shí)體集,包括單臂和雙臂機(jī)器人、地面導(dǎo)航機(jī)器人、四旋翼飛行器和四足機(jī)器人。
通過本文的Transformer策略,本文可以通過簡(jiǎn)單地將觀測(cè)數(shù)據(jù) tokenizing 并排列成序列,來訓(xùn)練具有任意數(shù)量相機(jī)視角或本體感知傳感器的機(jī)器人數(shù)據(jù)。同時(shí),本文可以預(yù)測(cè)任意維度的動(dòng)作,關(guān)鍵是無需手動(dòng)對(duì)齊不同實(shí)體的動(dòng)作空間 [8]。對(duì)于每種動(dòng)作類型,本文將一組動(dòng)作讀取tokens(action readout tokens)插入到輸入 token 序列中。然后,本文將相應(yīng)的輸出嵌入傳遞到特定于動(dòng)作空間的頭部,以生成正確維度的向量。本文的策略可以接受以語言指令或目標(biāo)圖像形式呈現(xiàn)的任務(wù),使用戶能夠選擇最適合特定實(shí)體的任務(wù)模式。
本文的主要貢獻(xiàn)是一種跨實(shí)體的機(jī)器人策略,該策略在迄今為止最大、最具多樣性的機(jī)器人數(shù)據(jù)集上訓(xùn)練完成,包含90萬條軌跡和20種不同的實(shí)體。本文的策略能夠控制具有不同觀測(cè)和動(dòng)作類型的機(jī)器人,從具有本體感知傳感器和12個(gè)關(guān)節(jié)的四足機(jī)器人,到配備3個(gè)相機(jī)和14個(gè)關(guān)節(jié)的雙臂機(jī)器人。在大量的現(xiàn)實(shí)世界實(shí)驗(yàn)中,本文發(fā)現(xiàn)本文的策略能夠匹敵僅在目標(biāo)機(jī)器人數(shù)據(jù)上訓(xùn)練的相同架構(gòu)的性能,以及在每種設(shè)置中表現(xiàn)最佳的現(xiàn)有方法,這表明本文的架構(gòu)能夠吸收異構(gòu)的機(jī)器人數(shù)據(jù)而不會(huì)產(chǎn)生負(fù)遷移,同時(shí)在性能上可以媲美為每個(gè)機(jī)器人量身定制的最先進(jìn)的專用方法。此外,本文還發(fā)現(xiàn),本文的方法在跨實(shí)體學(xué)習(xí)中優(yōu)于現(xiàn)有的最先進(jìn)方法,同時(shí)減輕了手動(dòng)對(duì)齊觀測(cè)空間和動(dòng)作空間的需求。
在多種實(shí)體的機(jī)器人學(xué)習(xí)中,主要挑戰(zhàn)在于處理觀察空間和動(dòng)作空間的巨大差異,以及控制頻率和機(jī)器人系統(tǒng)其他方面的差異。機(jī)器人系統(tǒng)可能具有不同數(shù)量的相機(jī)視角或本體感知傳感器,并且可能通過多種不同的動(dòng)作表示進(jìn)行控制,包括關(guān)節(jié)角度、笛卡爾坐標(biāo)位置和電機(jī)扭矩。為了將數(shù)據(jù)標(biāo)準(zhǔn)化為統(tǒng)一的格式,以往一些關(guān)于跨實(shí)體策略訓(xùn)練的工作忽略了某些觀察類型(例如操作中的腕部視角或第三人稱視角)[5, 7],或在機(jī)器人之間對(duì)齊了動(dòng)作空間[8]。而本文則遵循其他相關(guān)研究[9, 10, 6],將跨實(shí)體模仿學(xué)習(xí)視為一個(gè)序列到序列的問題,并選擇了基于Transformer的策略架構(gòu),以處理長(zhǎng)度可變的序列輸入和輸出。
由于Transformer策略的序列化特性,本文可以將每種實(shí)體的所有可用觀察類型編碼為一個(gè)扁平的序列。同樣地,這種方法允許本文解碼可變長(zhǎng)度的動(dòng)作,使本文能夠?yàn)槊糠N實(shí)體使用最佳的動(dòng)作類型。利用這種靈活的輸出方式,本文還可以預(yù)測(cè)不同大小的動(dòng)作塊。動(dòng)作塊化(Action Chunking)[48, 47, 49]能夠提高動(dòng)作的時(shí)間一致性,并減少累積誤差,這對(duì)于高頻率的精細(xì)操作尤為重要。結(jié)合Transformer骨干網(wǎng)絡(luò)和動(dòng)作塊化技術(shù),本文的策略能夠控制從使用20Hz關(guān)節(jié)位置控制的雙臂ALOHA系統(tǒng),到使用5Hz二維航點(diǎn)控制的地面和空中導(dǎo)航機(jī)器人等多種機(jī)器人。
從總體上看,本文的Transformer策略遵循了以往在多模態(tài)數(shù)據(jù)上訓(xùn)練Transformers的研究[9, 10, 6]。具體來說,觀察數(shù)據(jù)和任務(wù)規(guī)范首先通過特定模態(tài)的分詞器進(jìn)行分詞處理,然后組裝成一個(gè)token序列,并輸入到一個(gè)因果性的、僅解碼器的Transformer骨干網(wǎng)絡(luò)中,這個(gè)網(wǎng)絡(luò)在所有實(shí)體之間共享。接下來,輸出的嵌入向量會(huì)被輸入到為每類實(shí)體設(shè)計(jì)的獨(dú)立動(dòng)作頭中,以生成對(duì)應(yīng)維度的動(dòng)作。有關(guān)本文架構(gòu)的概覽,請(qǐng)參見圖2。接下來,本文將更詳細(xì)地描述本文的訓(xùn)練數(shù)據(jù)以及架構(gòu)的各個(gè)組成部分。

圖1:本文介紹了CrossFormer,這是一種基于Transformer的策略,經(jīng)過在90萬條多樣化、多實(shí)體機(jī)器人數(shù)據(jù)軌跡上的訓(xùn)練,能夠控制截然不同的機(jī)器人,包括單臂和雙臂操作系統(tǒng)、輪式機(jī)器人、四旋翼飛行器和四足機(jī)器人,同時(shí)在性能上匹敵針對(duì)每個(gè)實(shí)體的專用策略,并在跨實(shí)體學(xué)習(xí)中優(yōu)于以往的工作。

圖2:策略架構(gòu)。本文的架構(gòu)通過Transformer主干網(wǎng)絡(luò)實(shí)現(xiàn)跨實(shí)體策略學(xué)習(xí)。本文的策略通過將圖像和本體感知信息 tokenizing 來接收可變的觀測(cè)輸入,通過動(dòng)作讀取tokens(action readout tokens)預(yù)測(cè)可變的動(dòng)作輸出,并基于語言指令或目標(biāo)圖像進(jìn)行條件判斷。
實(shí)驗(yàn)結(jié)果:

圖3:訓(xùn)練數(shù)據(jù)組合。本文將訓(xùn)練數(shù)據(jù)中的20種實(shí)體分為不同類別,并可視化它們?cè)跀?shù)據(jù)組合中的貢獻(xiàn)。餅圖顯示了每個(gè)訓(xùn)練批次中基于采樣權(quán)重的平均組成情況。

圖4:評(píng)估設(shè)置。本文的任務(wù)包括單臂操作設(shè)置、靈巧和雙臂任務(wù)設(shè)置、導(dǎo)航以及航空任務(wù)。詳細(xì)分類請(qǐng)參見第4節(jié)。

圖5:實(shí)際評(píng)估。本文將CrossFormer與僅在目標(biāo)機(jī)器人數(shù)據(jù)上訓(xùn)練的相同架構(gòu)進(jìn)行比較,同時(shí)也與在目標(biāo)機(jī)器人數(shù)據(jù)上表現(xiàn)最佳的現(xiàn)有方法進(jìn)行對(duì)比。

圖6:與Yang等人[8]的比較。本文將CrossFormer與Yang等人[8]的方法進(jìn)行比較,該方法對(duì)導(dǎo)航和操作任務(wù)的動(dòng)作進(jìn)行對(duì)齊,并且一次只使用單一相機(jī)視角。CrossFormer在整體表現(xiàn)上優(yōu)于Yang等人[8]三倍,無論是在使用第三人稱相機(jī)視角進(jìn)行的桌面操作任務(wù)上,還是在常見的導(dǎo)航任務(wù)中,均表現(xiàn)出色。
總結(jié):
本文引入了CrossFormer,這是一種可擴(kuò)展且靈活的Transformer策略,基于迄今為止最大且最為多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練,包括20種不同機(jī)器人實(shí)體的90萬條軌跡。本文展示了一種系統(tǒng)化的方法來學(xué)習(xí)單一策略,該策略能夠控制截然不同的實(shí)體,包括單臂和雙臂操作系統(tǒng)、輪式機(jī)器人、四旋翼飛行器和四足機(jī)器人。本文的結(jié)果表明,CrossFormer的表現(xiàn)與專門針對(duì)單一實(shí)體的策略相媲美,同時(shí)在跨實(shí)體學(xué)習(xí)中顯著優(yōu)于當(dāng)前的最先進(jìn)方法。
然而,本文的工作也存在一些局限性。本文的結(jié)果尚未顯示出在不同實(shí)體之間的顯著正遷移效應(yīng)。本文預(yù)計(jì),隨著本文在更大、更具多樣性的機(jī)器人數(shù)據(jù)集上進(jìn)行訓(xùn)練,本文將看到更大的正遷移效應(yīng)。另一項(xiàng)局限性是,本文的數(shù)據(jù)組合使用了人工挑選的采樣權(quán)重,以避免在包含大量重復(fù)情節(jié)的數(shù)據(jù)集上過度訓(xùn)練,或在與本文的評(píng)估設(shè)置最相關(guān)的數(shù)據(jù)上訓(xùn)練不足。原則上,隨著模型規(guī)模的擴(kuò)大,策略應(yīng)具備同等良好地?cái)M合所有數(shù)據(jù)的能力,而無需進(jìn)行數(shù)據(jù)加權(quán)。
最后,由于本文需要大型模型來適應(yīng)大規(guī)模的多機(jī)器人數(shù)據(jù)集,模型的推理速度可能成為一個(gè)限制因素。在本研究中,本文成功地將本文的策略應(yīng)用于高頻率、細(xì)粒度的雙臂操作任務(wù)中,但隨著模型規(guī)模的擴(kuò)大,本文可能無法控制這些高頻率的實(shí)體。未來的硬件改進(jìn)將有助于緩解這一問題,但在如何利用大型模型來控制高頻率機(jī)器人方面仍需進(jìn)一步研究。
未來的工作還可以包括探索技術(shù)以實(shí)現(xiàn)更大的跨實(shí)體正遷移,同時(shí)保持本文架構(gòu)的靈活性、改進(jìn)數(shù)據(jù)管理技術(shù),并引入更多樣化的數(shù)據(jù)源,如次優(yōu)的機(jī)器人數(shù)據(jù)或無動(dòng)作的人類視頻。本文希望這項(xiàng)工作能夠?yàn)殚_發(fā)更通用且靈活的機(jī)器人策略打開大門,使其能夠有效地從在不同機(jī)器人實(shí)體上收集的經(jīng)驗(yàn)中學(xué)習(xí)并遷移知識(shí)。
























