真機(jī)RL!最強(qiáng)VLA模型π*0.6來(lái)了,機(jī)器人在辦公室開起咖啡廳
完全使用真實(shí)世界數(shù)據(jù)訓(xùn)練的具身智能,具備什么級(jí)別的能力?
本周,美國(guó)具身智能創(chuàng)業(yè)公司 Physical Intelligence(簡(jiǎn)稱 PI 或 π)發(fā)布了旗下的最新機(jī)器人基礎(chǔ)模型 π*0.6。
PI 是一家總部位于舊金山的機(jī)器人與 AI 創(chuàng)業(yè)公司,其使命是將通用人工智能從數(shù)字世界帶入物理世界:他們的首個(gè)機(jī)器人通用基礎(chǔ)模型名為 π?,讓同一套軟件控制多種物理平臺(tái)執(zhí)行各類任務(wù)。
在 2024 年,PI 獲得超過(guò) 4 億美元融資,估值突破 20 億美元,成為具身智能賽道最受矚目的玩家之一。
PI 的技術(shù)路線強(qiáng)調(diào) 「視覺(jué) - 語(yǔ)言 - 動(dòng)作」(VLA)模型,通過(guò)大規(guī)模機(jī)器人感知與動(dòng)作數(shù)據(jù)訓(xùn)練出具備泛化能力的策略,使機(jī)器人不再局限于預(yù)設(shè)動(dòng)作,而能在未知環(huán)境中靈活執(zhí)行。

機(jī)器學(xué)習(xí)與決策控制領(lǐng)域的知名專家、UC Berkeley 副教授、Physical Intelligence 聯(lián)合創(chuàng)始人 Sergey Levine 表示,搭載這個(gè)模型的機(jī)器人已經(jīng)可以在公司的辦公室里為人們制作拿鐵、美式和意式咖啡了。

Sergey Levine 表示,通過(guò)對(duì) π*0.6 模型進(jìn)行微調(diào),可以使其在多種任務(wù)上表現(xiàn)出色,除了處理衣物之外的任務(wù)都可以達(dá)到 90% 成功率,而且任務(wù)處理的效率也大大提升了。
在 Physical Intelligence 的一篇博客中,工程師們?cè)敿?xì)介紹了 π*0.6 的機(jī)制與性能。

想一下,要組裝一個(gè)紙箱需要哪些步驟?
作為人類,想要快速高效地完成這個(gè)任務(wù),首先你應(yīng)該會(huì)請(qǐng)人教你一些基礎(chǔ)知識(shí):哪些方法有效,常見的錯(cuò)誤有哪些,以及正確的技巧是什么。其次,一位優(yōu)秀的老師不僅會(huì)演示如何操作,還會(huì)指導(dǎo)你,糾正你自行操作時(shí)犯的錯(cuò)誤。但是,僅僅依靠指導(dǎo)是不夠的:最終熟能生巧,成為紙箱組裝大師的第三步是反復(fù)練習(xí),直到熟練掌握,成為一種本能反應(yīng)。
過(guò)去一年,我們?cè)跈C(jī)器人學(xué)習(xí)領(lǐng)域看到的許多令人矚目的成果,都僅僅使用了第一步 —— 通過(guò)人提供的演示來(lái)訓(xùn)練機(jī)器人。僅憑這一步,讓機(jī)器人成功完成一半的任務(wù)并不難,但要讓它每次都成功卻非常困難,更不用說(shuō)在復(fù)雜的實(shí)際任務(wù)中達(dá)到人類水平的效率了。這是一個(gè)很大的問(wèn)題,因?yàn)閷?shí)際的機(jī)器人任務(wù)需要一個(gè)能夠可靠且快速運(yùn)行的系統(tǒng)。
基于這樣的思考,Physical Intelligence 開發(fā)了一種名為 Recap(基于優(yōu)勢(shì)條件策略的經(jīng)驗(yàn)與糾錯(cuò)強(qiáng)化學(xué)習(xí))的方法,它實(shí)現(xiàn)了所有三個(gè)步驟:通過(guò)演示訓(xùn)練機(jī)器人、通過(guò)糾錯(cuò)指導(dǎo)機(jī)器人,并使其能夠從自主經(jīng)驗(yàn)中改進(jìn)。作者使用 Recap 改進(jìn)了最新版本的視覺(jué) - 語(yǔ)言 - 動(dòng)作 (VLA) 模型 π(0.6),使其能夠穩(wěn)健高效地執(zhí)行復(fù)雜任務(wù),例如制作意式濃縮咖啡、組裝紙箱和折疊各種衣物。
這款經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后的模型稱為 π*(0.6),利用 Recap 在自主經(jīng)驗(yàn)上訓(xùn)練 π*(0.6) 可以將一些最困難任務(wù)的吞吐量提高一倍以上,并將失敗率降低 2 倍或更多。這使得 π*(0.6) 達(dá)到了實(shí)際應(yīng)用所需的魯棒性水平:它能夠連續(xù)運(yùn)行一整天制作意式濃縮咖啡,在新家中連續(xù)數(shù)小時(shí)不間斷地折疊各種衣物,以及組裝工廠實(shí)際包裝所需的紙箱。
模仿是遠(yuǎn)遠(yuǎn)不夠的
我們可能會(huì)想,為什么 VLA 僅依靠監(jiān)督學(xué)習(xí)(即模仿)時(shí)難以持續(xù)取得成功,而監(jiān)督學(xué)習(xí)在 LLMs 和其他機(jī)器學(xué)習(xí)系統(tǒng)中卻效果很好。這個(gè)問(wèn)題的原因?qū)嶋H上已經(jīng)被很好地理解了,不過(guò)此前一直缺乏實(shí)用的解決方案。
當(dāng)一個(gè)通過(guò)模仿訓(xùn)練的 VLA 控制機(jī)器人時(shí),它會(huì)像任何模型一樣犯一些小錯(cuò)誤 —— 它可能把夾爪放在略微錯(cuò)誤的位置、抓取失敗,或撞倒一個(gè)物體。
由于機(jī)器人在真實(shí)的物理環(huán)境中進(jìn)行交互,這些錯(cuò)誤會(huì)產(chǎn)生與訓(xùn)練數(shù)據(jù)略有不同的情境,而在這些情境中,錯(cuò)誤是會(huì)累積的。機(jī)器人更可能犯下另一個(gè)更大的錯(cuò)誤,小錯(cuò)誤是可以修復(fù)的,但累積錯(cuò)誤會(huì)導(dǎo)致失敗。
對(duì)于產(chǎn)生靜態(tài)輸出的 AI 系統(tǒng)(例如 LLMs)來(lái)說(shuō),這并不是一個(gè)大問(wèn)題;但在模型作為一個(gè)持續(xù)與外部環(huán)境互動(dòng)的控制策略時(shí)(例如現(xiàn)實(shí)世界中的機(jī)器人),這就是一個(gè)特定的問(wèn)題。實(shí)際上,這意味著,雖然讓 VLA 偶爾完成某項(xiàng)任務(wù)相對(duì)容易,但讓它們可靠,穩(wěn)定的實(shí)現(xiàn)成功卻非常困難。
如果我們使用來(lái)自 VLA 自身行為的額外數(shù)據(jù),本質(zhì)上讓它在真實(shí)世界中糾正它實(shí)際犯下的錯(cuò)誤,就像人類可以通過(guò)練習(xí)在某項(xiàng)任務(wù)上不斷提高一樣,通過(guò)允許 VLA 反復(fù)練習(xí),就可以解決累積錯(cuò)誤的問(wèn)題。
但對(duì)于這種類型的經(jīng)驗(yàn),能用什么作為真實(shí)標(biāo)簽?如果我們訓(xùn)練策略只是去復(fù)制它之前做過(guò)的事情,那我們只是教會(huì)它繼續(xù)犯相同的錯(cuò)誤。讓模型能夠從經(jīng)驗(yàn)中學(xué)習(xí)的關(guān)鍵,是從糟糕的經(jīng)驗(yàn)數(shù)據(jù)中提取出良好的訓(xùn)練信號(hào)。

糾正式指導(dǎo)與強(qiáng)化學(xué)習(xí)
Recap 使我們能夠從「質(zhì)量較差」的經(jīng)驗(yàn)數(shù)據(jù)中獲得良好的訓(xùn)練信號(hào),途徑包括兩種:
- 糾正式指導(dǎo)(coaching with corrections):由專家展示機(jī)器人如何修復(fù)錯(cuò)誤或做得更好;
- 強(qiáng)化學(xué)習(xí)(reinforcement learning):機(jī)器人依據(jù)整個(gè)任務(wù)過(guò)程的最終結(jié)果自行判斷哪些行為更好或更差,并通過(guò)迭代學(xué)習(xí)強(qiáng)化好的行為、避免不好的行為。
糾正式指導(dǎo)要發(fā)揮作用,專家遠(yuǎn)程操作人員需要提供糾正信號(hào),展示如何從機(jī)器人在真實(shí)世界中實(shí)際犯下的錯(cuò)誤中恢復(fù)。
實(shí)踐中,這意味著運(yùn)行當(dāng)前最強(qiáng)的策略,并在機(jī)器人出錯(cuò)時(shí)通過(guò)手動(dòng)遠(yuǎn)程接管(teleoperation)控制。這種干預(yù)可以作為監(jiān)督信號(hào)使用,但與用于訓(xùn)練原始策略的演示不同,該干預(yù)針對(duì)的正是策略實(shí)際將機(jī)器人帶入的那些狀態(tài),從而解決錯(cuò)誤累積的問(wèn)題。
然而,僅依靠糾正式指導(dǎo)是有限的:這類監(jiān)督的質(zhì)量受制于人類是否能及時(shí)判斷應(yīng)當(dāng)介入以及是否能提供高質(zhì)量的糾正。對(duì)于明顯或嚴(yán)重的錯(cuò)誤,這種方式可以奏效,但若想獲得最佳性能 —— 即快速、可靠且一致地完成任務(wù) —— 機(jī)器人必須能夠自主學(xué)習(xí)。
從任務(wù)結(jié)果中通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)的核心挑戰(zhàn)在于信用分配(credit assignment):即理解機(jī)器人執(zhí)行的哪些動(dòng)作導(dǎo)致了好的結(jié)果,哪些導(dǎo)致了壞的結(jié)果。
如果機(jī)器人以錯(cuò)誤的方式抓起意式咖啡機(jī)的手柄(portafilter),它在插入時(shí)可能會(huì)遇到困難。錯(cuò)誤并不發(fā)生在插入階段,而是在最初的抓取動(dòng)作上。一個(gè)正確的信用分配方法應(yīng)當(dāng)將該失敗歸因于抓取錯(cuò)誤,即使失敗只是在之后的步驟中表現(xiàn)出來(lái)。

僅通過(guò)模仿學(xué)習(xí)訓(xùn)練的基礎(chǔ)模型在將手柄插入意式咖啡機(jī)時(shí)會(huì)遇到困難。導(dǎo)致失敗的錯(cuò)誤可能發(fā)生在更早的階段。
信用分配是強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵挑戰(zhàn)。Recap 通過(guò)訓(xùn)練一個(gè)價(jià)值函數(shù)來(lái)解決這一問(wèn)題。
舉例來(lái)說(shuō),在象棋這類游戲中,智能體只有在贏得比賽時(shí)才會(huì)獲得獎(jiǎng)勵(lì),那么價(jià)值函數(shù)就會(huì)根據(jù)當(dāng)前棋局預(yù)測(cè)智能體獲勝的概率。使價(jià)值函數(shù)上升的動(dòng)作是應(yīng)該被鼓勵(lì)的好動(dòng)作;而使價(jià)值函數(shù)下降的動(dòng)作則應(yīng)被抑制。
下圖展示了價(jià)值函數(shù)在任務(wù)執(zhí)行過(guò)程中所做的預(yù)測(cè)。

在一個(gè)回合中不同時(shí)間點(diǎn)的值函數(shù)預(yù)測(cè)。這個(gè)值函數(shù)預(yù)測(cè)完成任務(wù)的(負(fù))步數(shù)。請(qǐng)注意,當(dāng)機(jī)器人取得進(jìn)展時(shí)預(yù)測(cè)會(huì)增加,而當(dāng)進(jìn)展很小時(shí)預(yù)測(cè)會(huì)保持平穩(wěn)。
在訓(xùn)練好價(jià)值函數(shù)之后,我們需要利用它來(lái)得到一個(gè)更好的策略。實(shí)現(xiàn)這一點(diǎn)的方法有多種,但我們需要的是一種可擴(kuò)展、并且能夠與大型 VLA 模型結(jié)合使用的方法。
在 Recap 中,Physical Intelligence 將 VLA 在價(jià)值變化上調(diào)整:使用所有訓(xùn)練數(shù)據(jù)(包括好的和不好的動(dòng)作),同時(shí)告訴 VLA 哪些動(dòng)作是好是壞。由于模型在擁有大量數(shù)據(jù)時(shí)通常具有最佳的泛化能力,在訓(xùn)練中保留全部數(shù)據(jù)并僅僅將價(jià)值變化注釋作為輸入,是一個(gè)非常具有吸引力的選擇。
在強(qiáng)化學(xué)習(xí)中,這種「價(jià)值變化」被稱為優(yōu)勢(shì)(advantage)。在執(zhí)行階段,我們只需讓這個(gè)按優(yōu)勢(shì)條件化的 VLA 去選擇高優(yōu)勢(shì)的動(dòng)作,從而得到一個(gè)比訓(xùn)練數(shù)據(jù)本身更優(yōu)的策略。
面向真實(shí)世界任務(wù)
Physical Intelligence 使用 Recap 來(lái)訓(xùn)練 π*(0.6) 模型,使其能夠執(zhí)行多項(xiàng)真實(shí)世界應(yīng)用。π*(0.6) 是基于 π(0.6) 模型訓(xùn)練得到的,而 π(0.6) 則是早期 π(0.5) 模型的改進(jìn)版本。
它采用了稍大一些的骨干網(wǎng)絡(luò),并能夠處理更加異質(zhì)化的提示與條件信息,如下圖所示。關(guān)于 π(0.6) 模型架構(gòu)的更詳細(xì)描述,請(qǐng)參閱模型卡。
- https://website.pi-asset.com/pi06star/PI06_model_card.pdf

Physical Intelligence 研究了三個(gè)應(yīng)用場(chǎng)景:制作意式咖啡飲品、折疊多種類型的衣物,以及組裝包裝用的紙盒。Recap 的第一階段,是使用離線強(qiáng)化學(xué)習(xí)(offline RL)對(duì) π*(0.6) 模型進(jìn)行預(yù)訓(xùn)練,這與基礎(chǔ) π(0.6) 和 π(0.5) VLA 所采用的標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)方法形成對(duì)比。在此基礎(chǔ)上,再通過(guò)示范數(shù)據(jù)對(duì) π*(0.6) 進(jìn)行任務(wù)級(jí)微調(diào),隨后利用機(jī)器人在真實(shí)環(huán)境中收集的額外數(shù)據(jù)繼續(xù)通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,其中包括專家提供的糾正(用于修復(fù)大的錯(cuò)誤)以及來(lái)自獎(jiǎng)勵(lì)的反饋(用于根據(jù)自主經(jīng)驗(yàn)進(jìn)一步改進(jìn))。
下方的圖表對(duì)比了不同階段模型的性能:監(jiān)督學(xué)習(xí)訓(xùn)練的基礎(chǔ) π(0.6) 模型;使用離線強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練的基礎(chǔ) π*(0.6) 模型(即 Recap 的第一階段);通過(guò)示范對(duì)每個(gè)任務(wù)微調(diào)后的 π*(0.6) 模型;以及結(jié)合機(jī)器人真實(shí)執(zhí)行經(jīng)驗(yàn)進(jìn)行微調(diào)后的最終 π*(0.6) 模型。對(duì)每個(gè)任務(wù),Physical Intelligence 測(cè)量了吞吐量(每小時(shí)成功完成任務(wù)的次數(shù))以及成功率。
值得注意的是,對(duì)于一些最困難的任務(wù)(如制作意式咖啡),加入機(jī)器人真實(shí)執(zhí)行經(jīng)驗(yàn)后,吞吐量和成功率都提升了超過(guò)兩倍。

Recap 在所有任務(wù)中都顯著提升了吞吐量,并且通常還能帶來(lái)成功率的大幅提升。
從質(zhì)量上看,最終的 π*(0.6) 模型在結(jié)合示范數(shù)據(jù)和機(jī)器人自身經(jīng)驗(yàn)學(xué)習(xí)后,能夠熟練掌握每個(gè)應(yīng)用任務(wù)。下面的視頻展示了這些任務(wù)的一些評(píng)估亮點(diǎn)。

π*(0.6) 在每項(xiàng)真實(shí)世界任務(wù)中的質(zhì)性示例。π*(0.6) 能夠應(yīng)對(duì)多種條件,并從錯(cuò)誤中恢復(fù)。
每一項(xiàng)任務(wù)都包含許多挑戰(zhàn),使得實(shí)現(xiàn)高吞吐量的自主執(zhí)行變得困難。
箱子組裝任務(wù)需要執(zhí)行高度復(fù)雜的物理操作 —— 在保持箱體結(jié)構(gòu)的同時(shí)折疊箱蓋。此外,該任務(wù)需要反復(fù)執(zhí)行并處理各種邊緣情況,正如上方視頻中所示:有時(shí)扁平的紙箱會(huì)粘在一起,導(dǎo)致機(jī)器人一次抓起多個(gè)箱子,此時(shí)它必須將多余的箱子放回去;有時(shí)在出現(xiàn)錯(cuò)誤后還需要重新折疊箱子。
衣物折疊任務(wù)則需要處理高度的多樣性,并在不同初始條件和不同衣物種類之間實(shí)現(xiàn)泛化。這非常困難,因?yàn)椴粌H不同的衣物需要不同的折疊策略,不同材質(zhì)的布料也具有不同的動(dòng)力學(xué)特性。
最后,意式咖啡制作任務(wù)需要處理一個(gè)跨度非常長(zhǎng)的操作序列,新模型使用了類似于之前 π(0.5) 模型的高層語(yǔ)言策略。該任務(wù)還涉及倒液體、判斷咖啡研磨機(jī)和意式咖啡機(jī)何時(shí)完成工作、以及在制作結(jié)束后用布巾清潔機(jī)器。
這些步驟對(duì)當(dāng)前最先進(jìn)的 VLA 模型來(lái)說(shuō)都極具挑戰(zhàn)性,而 π*(0.6) 能夠以超過(guò) 90% 的成功率完成這些任務(wù)。
下一步?
目前,機(jī)器人基礎(chǔ)模型主要依賴人為收集的示范數(shù)據(jù)(例如通過(guò)遠(yuǎn)程操作)。這種方式使訓(xùn)練過(guò)程簡(jiǎn)單直接,但也帶來(lái)了一個(gè)嚴(yán)重的障礙:數(shù)據(jù)需要大量人工投入,模型的速度與可靠性受限于人類的操作水平,而機(jī)器人本身無(wú)法通過(guò)經(jīng)驗(yàn)不斷變得更好。像 Recap 這樣的方法在原理上能夠解決這些限制,因?yàn)樗€能直接從機(jī)器人自身的經(jīng)驗(yàn)中學(xué)習(xí)。
隨著機(jī)器人在真實(shí)世界中的部署越來(lái)越廣泛,從經(jīng)驗(yàn)中學(xué)習(xí)可能會(huì)成為一種重要的數(shù)據(jù)來(lái)源,并成為實(shí)現(xiàn)高性能模型不可或缺的組成部分。
就像人類通過(guò)「指導(dǎo) — 輔導(dǎo) — 練習(xí)」的組合方式成長(zhǎng)一樣,機(jī)器人同樣將從多種不同的數(shù)據(jù)來(lái)源中學(xué)習(xí)。但這些數(shù)據(jù)來(lái)源會(huì)承擔(dān)不同的角色:專家示范用于定義新的行為,糾正式指導(dǎo)用于改進(jìn)策略,而自主經(jīng)驗(yàn) —— 可能是規(guī)模最大的數(shù)據(jù)來(lái)源 —— 則用于打磨行為,使其最終有可能達(dá)到超越人類的表現(xiàn)。


























