人形機(jī)器人首次打通視覺感知與運(yùn)動(dòng)斷層,UC伯克利華人博士讓宇樹G1現(xiàn)場(chǎng)演示
不用提前熟悉環(huán)境,一聲令下,就能讓宇樹機(jī)器人坐在椅子上、桌子上、箱子上!
還能直接解鎖 “跨過箱子”、“敲門” 等任務(wù)~

這是來自UC伯克利、卡內(nèi)基梅隆大學(xué)等團(tuán)隊(duì)的最新研究成果LeVERB框架——
基于模擬數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)零樣本部署,讓人形機(jī)器人通過感知新環(huán)境,理解語言指令就能直接完成全身動(dòng)作。

傳統(tǒng)人形機(jī)器人要么 “能看懂指令卻動(dòng)不了”(缺乏全身控制能力),要么 “只能機(jī)械執(zhí)行動(dòng)作卻讀不懂環(huán)境”(依賴人工預(yù)設(shè)動(dòng)作庫)。
LeVERB首次打通了視覺語義理解與物理運(yùn)動(dòng)兩者之間的斷層,讓機(jī)器人能像人類一樣從“想”到“做”,自動(dòng)感知環(huán)境,直接遵循指令完成動(dòng)作。
上面展示的“坐下”動(dòng)作就是通過“相機(jī)感知環(huán)境+'坐在[椅子/盒子/桌子]上'指令”完成的:

團(tuán)隊(duì)還推出了配套基準(zhǔn):LeVERB-Bench。
這是首個(gè)面向人形機(jī)器人WBC(全身控制)的 “仿真到真實(shí)” 視覺-語言閉環(huán)基準(zhǔn),包含10類超150個(gè)任務(wù)。

團(tuán)隊(duì)將該框架部署在宇樹G1機(jī)器人上進(jìn)行基準(zhǔn)測(cè)試,結(jié)果顯示:
在簡(jiǎn)單視覺導(dǎo)航任務(wù)中零樣本成功率達(dá)80%,整體任務(wù)成功率58.5%,比樸素分層VLA(視覺-語言-動(dòng)作)方案的性能強(qiáng)7.8倍。
目前,LeVERB-Bench數(shù)據(jù)集已在LeRobot格式中開源,項(xiàng)目的完整代碼也即將發(fā)布。
雙層系統(tǒng)實(shí)現(xiàn)從“想”到“做”的全身動(dòng)作
多數(shù)視覺-語言-動(dòng)作(VLA)模型在控制機(jī)器人時(shí),依賴手工設(shè)計(jì)的底層動(dòng)作 “詞匯”(如末端執(zhí)行器姿勢(shì)、根部速度等)。
這使得它們只能處理準(zhǔn)靜態(tài)任務(wù),無法應(yīng)對(duì)人形機(jī)器人全身控制(WBC)所需的靈活全身動(dòng)作。
簡(jiǎn)單來說,以前的機(jī)器人要么高層直接控制細(xì)節(jié)(就像大腦同時(shí)管走路和思考,效率低),要么底層不懂語義(就像四肢只聽簡(jiǎn)單命令,復(fù)雜任務(wù)做不了)。
而人形機(jī)器人是高維非線性動(dòng)態(tài)系統(tǒng),需要高頻控制與低頻規(guī)劃結(jié)合,傳統(tǒng)方法缺乏對(duì)視覺和語言語義的有效整合。
于是,團(tuán)隊(duì)提出將高層的視覺-語言指令壓縮映射為一個(gè)動(dòng)作向量,也就是一個(gè)抽象指令,這種指令能夠被底層的動(dòng)作模塊識(shí)別并執(zhí)行。
在LeVERB框架中,這個(gè)抽象指令被稱為“潛在動(dòng)作詞匯”。
LeVERB框架由分層雙系統(tǒng)組成,這兩層系統(tǒng)以“潛在動(dòng)作詞匯”作為接口。
該方法的最終目標(biāo)是使兩層的“潛在動(dòng)作詞匯”保持一致,讓高層專注 “理解任務(wù)”,底層專注 “做好動(dòng)作”,各取所長(zhǎng)。
LeVERB框架

- 高層LeVERB-VL(想):一個(gè)基于Transformer的102.6M視覺語言主干,將語言指令和視覺上下文轉(zhuǎn)換為潛在動(dòng)詞,運(yùn)行頻率10Hz。

LeVERB-VL負(fù)責(zé)理解 “看到的東西” 和 “聽到的話”。比如看到 “去坐藍(lán)色椅子”,它會(huì)先分析 “藍(lán)色椅子在哪”“怎么過去”,但不直接控制動(dòng)作細(xì)節(jié),而是把想法轉(zhuǎn)化成一種 “抽象指令”。
它通過VLA先驗(yàn)?zāi)K、運(yùn)動(dòng)學(xué)編碼器、殘差潛在空間、運(yùn)動(dòng)學(xué)解碼器和判別器等組件,將視覺和語言輸入映射到平滑規(guī)則的潛在詞匯空間,為運(yùn)動(dòng)控制生成潛在動(dòng)作計(jì)劃。
訓(xùn)練時(shí),通過軌跡重建、分布對(duì)齊和對(duì)抗分類三部分優(yōu)化模型,同時(shí)采用數(shù)據(jù)混合策略增強(qiáng)數(shù)據(jù)多樣性,并對(duì)超參數(shù)進(jìn)行精細(xì)設(shè)置,以實(shí)現(xiàn)對(duì)視覺 - 語言信息的高效處理和準(zhǔn)確決策 。
- 底層LeVERB-A(做):一個(gè)基于Transformer的1.1M全身動(dòng)作專家,利用強(qiáng)化學(xué)習(xí)訓(xùn)練的WBC策略,接收高層的潛在動(dòng)作指令,將潛在動(dòng)詞解碼為動(dòng)力學(xué)級(jí)的人形動(dòng)作輸出,運(yùn)行頻率50Hz。

這部分作用是將LeVERB-VL生成的潛在指令轉(zhuǎn)化為機(jī)器人可執(zhí)行的動(dòng)力學(xué)級(jí)動(dòng)作。
訓(xùn)練時(shí),先通過近端策略優(yōu)化算法訓(xùn)練與視覺-語言無關(guān)的教師策略,再使用DAgger算法和Huber損失函數(shù)將教師策略的動(dòng)作蒸餾到以潛在命令為條件的學(xué)生策略(即LeVERB-A)中。
運(yùn)行時(shí),LeVERB-A接收本體感受信息和潛在向量,采用Transformer架構(gòu)輸出經(jīng)重新參數(shù)化的扭矩級(jí)關(guān)節(jié)位置動(dòng)作指令,并在機(jī)器人板載CPU上用C++實(shí)現(xiàn)實(shí)時(shí)推理,完成人形機(jī)器人的全身控制 。
LeVERB-Bench
無法衡量就無法展開下一步工作,團(tuán)隊(duì)還專門提出了一個(gè)人形機(jī)器人視覺-語言全身控制(WBC)任務(wù)的配套基準(zhǔn)LeVERB-Bench。
在人形機(jī)器人WBC領(lǐng)域,用于訓(xùn)練VLA模型的演示數(shù)據(jù)稀缺?,F(xiàn)有基準(zhǔn)存在諸多問題,如僅關(guān)注locomotion、在狀態(tài)空間中無視覺、渲染不真實(shí)導(dǎo)致仿真與現(xiàn)實(shí)差距大等,無法滿足研究需求。
LeVERB-Bench在仿真中重放重定向的動(dòng)作捕捉(MoCap)運(yùn)動(dòng),收集逼真的軌跡數(shù)據(jù)。這種方式無需在數(shù)據(jù)收集時(shí)進(jìn)行可靠的動(dòng)態(tài)控制,運(yùn)動(dòng)學(xué)姿勢(shì)能提供任務(wù)級(jí)語義,還支持使用互聯(lián)網(wǎng)視頻等來源的重定向人形數(shù)據(jù)。
采用IsaacSim中的光線追蹤渲染技術(shù),能更準(zhǔn)確地模擬場(chǎng)景光照和陰影,減輕以往合成數(shù)據(jù)中因光照不真實(shí)導(dǎo)致的仿真與現(xiàn)實(shí)差距問題。
通過程序生成管道,對(duì)每個(gè)軌跡進(jìn)行縮放和隨機(jī)化處理,隨機(jī)化場(chǎng)景背景、物體屬性、任務(wù)設(shè)置、相機(jī)視圖,并對(duì)部分演示進(jìn)行鏡像,以確保數(shù)據(jù)的多樣性和語義豐富性。
手動(dòng)或使用VLM為數(shù)據(jù)標(biāo)注以自我為中心的文本命令。同時(shí),利用VLM為僅包含運(yùn)動(dòng)的對(duì)標(biāo)注文本指令,增加僅語言數(shù)據(jù),擴(kuò)大數(shù)據(jù)覆蓋范圍。

LeVERB-Bench包含多種任務(wù)類別,如導(dǎo)航(Navigation)、走向目標(biāo)(Towards)、繞物體移動(dòng)(Around)、移動(dòng)(Locomotion)、坐下(Sitting)、伸手夠物(Reaching)等。
從視覺-語言任務(wù)和僅語言任務(wù)兩個(gè)維度進(jìn)行分類,共涵蓋154個(gè)視覺-語言任務(wù)軌跡和460個(gè)僅語言任務(wù)軌跡,每個(gè)軌跡經(jīng)過多次隨機(jī)化后生成大量演示數(shù)據(jù)。

通過154條軌跡,每條隨機(jī)化100次,生成了17.1小時(shí)的逼真運(yùn)動(dòng)軌跡數(shù)據(jù)。此外,還增加了2.7小時(shí)的僅語言數(shù)據(jù),覆蓋500條不同軌跡,進(jìn)一步豐富了數(shù)據(jù)集。

在評(píng)估時(shí),會(huì)在20個(gè)隨機(jī)環(huán)境中進(jìn)行,每個(gè)任務(wù)類別的場(chǎng)景紋理和物體屬性完全隨機(jī)化且在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過,同時(shí)對(duì)第三人稱相機(jī)角度進(jìn)行局部隨機(jī)化,確保評(píng)估任務(wù)在視覺上未在訓(xùn)練集中出現(xiàn),以此檢驗(yàn)?zāi)P偷姆夯芰Α?/span>
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)將LeVERB框架部署在Unitree G1機(jī)器人上,測(cè)試其在真實(shí)場(chǎng)景中的零樣本閉環(huán)控制能力,讓機(jī)器人執(zhí)行如 “走向椅子坐下” 等任務(wù)。驗(yàn)證了LeVERB從仿真到真實(shí)的遷移能力,證明該框架在實(shí)際應(yīng)用中的可行性。

通過在LeVERB-Bench基準(zhǔn)上評(píng)估,LeVERB框架表現(xiàn)出色,簡(jiǎn)單視覺導(dǎo)航任務(wù)零樣本成功率達(dá)80%,整體任務(wù)成功率為58.5% ,比樸素分層VLA方案高出7.8倍。這表明LeVERB能有效處理復(fù)雜視覺-語言任務(wù),在不同場(chǎng)景下具備良好的泛化能力。

還對(duì)LeVERB框架的關(guān)鍵組件進(jìn)行消融實(shí)驗(yàn),探究各組件對(duì)性能的影響,例如去掉判別器(ND)、運(yùn)動(dòng)學(xué)編碼器(NE)等組件進(jìn)行測(cè)試。
去掉判別器(ND)會(huì)導(dǎo)致性能顯著下降,表明其在對(duì)齊潛在空間、增強(qiáng)模型泛化能力方面的重要性;去掉運(yùn)動(dòng)學(xué)編碼器(NE)也會(huì)使性能降低,證明運(yùn)動(dòng)學(xué)編碼器對(duì)補(bǔ)充運(yùn)動(dòng)細(xì)節(jié)信息的必要性。

團(tuán)隊(duì)成員半數(shù)為華人
LeVERB團(tuán)隊(duì)有半數(shù)成員是來自UC伯克利、卡內(nèi)基梅隆大學(xué)(CMU)等的華人學(xué)者。
該項(xiàng)目的主要負(fù)責(zé)人薛浩儒碩士畢業(yè)于卡內(nèi)基梅隆大學(xué)(CMU),現(xiàn)于UC伯克利攻讀博士學(xué)位。
他曾在MPC Lab、LeCAR 實(shí)驗(yàn)室實(shí)驗(yàn)室進(jìn)行機(jī)器人研究,現(xiàn)在NVIDIA GEAR實(shí)驗(yàn)室實(shí)習(xí)。

2021年至2024年,他領(lǐng)導(dǎo)了AI Racing Tech項(xiàng)目——一個(gè)價(jià)值數(shù)百萬美元的自動(dòng)駕駛賽車研究項(xiàng)目。
該項(xiàng)目在F1級(jí)自動(dòng)駕駛賽車上部署了真實(shí)世界的機(jī)器人學(xué)習(xí),最高時(shí)速達(dá)到160英里。
AI Racing Tech在2022年的美國(guó)印第安納波利斯自動(dòng)駕駛挑戰(zhàn)賽中奪得亞軍,在2023年奪得季軍。

另一位負(fù)責(zé)人廖啟源本科畢業(yè)于廣東工業(yè)大學(xué)機(jī)電工程專業(yè),目前是UC伯克利機(jī)械工程專業(yè)的博士研究生。
他的研究方向?qū)W⒂陂_發(fā)新型機(jī)器和驅(qū)動(dòng)方式、結(jié)合學(xué)習(xí)和基于模型的方法、協(xié)同設(shè)計(jì)硬件、學(xué)習(xí)和控制。
目前,他在波士頓動(dòng)力公司實(shí)習(xí)。

感興趣的朋友可以到原文中查看更多細(xì)節(jié)。
項(xiàng)目地址:https://ember-lab-berkeley.github.io/LeVERB-Website/

































