地圖、GPS不靠譜也無妨,UC伯克利機(jī)器人陌生環(huán)境導(dǎo)航超三公里

大多數(shù)機(jī)器人導(dǎo)航方式與多數(shù)人類導(dǎo)航方式截然不同。當(dāng)機(jī)器人對環(huán)境有全面的了解,并對周圍的一切進(jìn)行完整的幾何重建以及準(zhǔn)確了解自身位置和方向時,它們表現(xiàn)最好。激光雷達(dá)、預(yù)先存在的地圖、強(qiáng)大的計(jì)算機(jī),甚至是動作捕捉系統(tǒng),可以說,自主機(jī)器人的「需求」永無止境。
但很顯然,這些東西并不能很好地?cái)U(kuò)展,當(dāng)然也可能是研究負(fù)擔(dān)不起。
考慮到這些,在近期一篇論文《ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints》中,UC 伯克利分校的人工智能博士生 Dhruv Shah 及其導(dǎo)師 Sergey Levine 探索了一種不同的機(jī)器人導(dǎo)航方式。他們主張機(jī)器人導(dǎo)航中消除高端耗能的組件,只需要一個單目相機(jī)、一些神經(jīng)網(wǎng)絡(luò)、一個基礎(chǔ)的 GPU 系統(tǒng)以及一些以人類可讀的非常基礎(chǔ)的俯視圖形式的簡單提示就足夠了。
這樣的提示聽起來可能沒有那么有影響力,但它們使一個非常簡單的機(jī)器人能夠高效、智能地穿越陌生環(huán)境,到達(dá)遙遠(yuǎn)的目的地。

- 論文地址:https://arxiv.org/pdf/2202.11271.pdf
- 項(xiàng)目主頁:https://sites.google.com/view/viking-release
具體而言,該研究提出了一種基于學(xué)習(xí)的方法,即將學(xué)習(xí)和規(guī)劃集成起來,并且可以利用諸如示意路線圖、衛(wèi)星地圖和 GPS 坐標(biāo)等輔助信息作為規(guī)劃啟發(fā)式。ViKiNG 結(jié)合了一個局部可遍歷性模型,該模型可以查看機(jī)器人當(dāng)前基于相機(jī)的觀察結(jié)果和一個潛在子目標(biāo),以推斷到達(dá)子目標(biāo)難易程度。
此外,ViKiNG 還包括一個啟發(fā)式模型,該模型查看俯視圖并嘗試估計(jì)各種子目標(biāo)到目的地的距離。ViKiNG 不執(zhí)行顯式幾何重建,只利用環(huán)境的拓?fù)浔硎尽?/span>
盡管在 ViKiNG 訓(xùn)練數(shù)據(jù)集中從未見過超過 80 米的軌跡,但其可以利用基于圖像的學(xué)習(xí)控制器和目標(biāo)導(dǎo)向啟發(fā)式(goal-directed heuristic),在以前沒見過的環(huán)境中導(dǎo)航到最遠(yuǎn) 3 公里以外的目標(biāo),并表現(xiàn)出復(fù)雜的行為。ViKiNG 對不可靠的地圖和 GPS 也有很強(qiáng)的魯棒性,因?yàn)榈讓涌刂破髯罱K基于自身圖像觀察做出決策,而地圖僅作為規(guī)劃的啟發(fā)式。
ViKiNG 機(jī)器人的導(dǎo)航是這樣的:

ViKiNG 簡介
如果那個小機(jī)器人看起來很眼熟,那是因?yàn)槲覀儙啄昵巴ㄟ^ Levine 的學(xué)生 Greg Khan 認(rèn)識了它。當(dāng)時,這個機(jī)器人被命名為 BADGR,它的特殊技能是學(xué)習(xí)根據(jù)簡單的圖像和生活經(jīng)驗(yàn)在新的環(huán)境中導(dǎo)航 —— 或者任何與生活經(jīng)驗(yàn)相當(dāng)?shù)臋C(jī)器人。

ViKiNG的前身BADGR。BADGR 現(xiàn)在已經(jīng)演變成 ViKiNG,它代表帶有地理提示的基于視覺的公里級導(dǎo)航。雖然 BADGR 可以自由的在小區(qū)域四處行走,但它的繼任者 ViKiNG 旨在穿越長距離尋找目標(biāo),這是邁向?qū)嶋H應(yīng)用的重要一步。
導(dǎo)航,非常廣泛地,包括了解你在哪里,你想去哪里,以及你想如何到達(dá)那里。對于機(jī)器人來說,這相當(dāng)于一個長期目標(biāo)。一些遙遠(yuǎn)的 GPS 坐標(biāo)可以通過實(shí)現(xiàn)一系列短期目標(biāo)來達(dá)到,例如在接下來的幾米內(nèi)停留在特定路徑上。達(dá)到足夠的短期目標(biāo),你就達(dá)到了你的長期目標(biāo)。但其中也有一種中期目標(biāo),這尤其棘手,因?yàn)樗婕皩ψ罴崖窂娇赡苁鞘裁醋龀龈鼜?fù)雜和抽象的決定?;蛘撸瑩Q句話說,哪種短期目標(biāo)組合最適合實(shí)現(xiàn)長期目標(biāo)的使命。

方法概述。
這就是 ViKiNG 的提示所在。使用衛(wèi)星地圖或路線圖,機(jī)器人可以就短期目標(biāo)做出更明智的選擇,從而大大增加實(shí)現(xiàn)目標(biāo)的可能性。即使有了路線圖,ViKiNG 也不局限于道路;它只是可能有利于道路,因?yàn)檫@就是它所擁有的信息。衛(wèi)星圖像,包括道路和其他地形,為機(jī)器人提供了更多信息。這些地圖是提示,而不是說明,這意味著 ViKiNG 可以適應(yīng)它沒有預(yù)料到的障礙。當(dāng)然,地圖無法準(zhǔn)確地告訴機(jī)器人在更小的范圍內(nèi)去哪里(這些短期目標(biāo)是否可以穿越),但 ViKiNG 可以通過其單目相機(jī)自行處理。

ViKiNG 性能令人驚艷,正如你在圖中看到的,藍(lán)色的線為 ViKiNG 導(dǎo)航路徑,綜合來看這是通往目標(biāo)的最佳路線。值得一提的是,研究者沒有為 ViKiNG 提供周圍環(huán)境地圖,它通過基本的 GPS 完成這項(xiàng)任務(wù),此外,你還需要提供一張照片、目標(biāo) GPS 坐標(biāo)、單目相機(jī)和地圖。上圖顯示了機(jī)器人正在穿越一條短路徑,ViKiNG 可以自主導(dǎo)航。
論文通訊作者、UC 伯克利分校助理教授、強(qiáng)化學(xué)習(xí)大牛 Sergey Levine 表示:這項(xiàng)研究令人興奮,因?yàn)檎麄€過程都非常簡單。與自動駕駛系統(tǒng)使用大量軟件棧和交互組件不同,該系統(tǒng)使用兩個神經(jīng)網(wǎng)絡(luò)(一個處理第一人稱圖像,一個處理地圖圖像)和一個規(guī)劃算法來決定機(jī)器人行走路徑。

可以說這項(xiàng)研究意義重大,因?yàn)楫?dāng)今機(jī)器人導(dǎo)航系統(tǒng)非常復(fù)雜,不能進(jìn)行大規(guī)模部署。如果簡單的基于學(xué)習(xí)的系統(tǒng)能夠匹配或超過復(fù)雜的手工設(shè)計(jì)方法,這可能會為未來機(jī)器導(dǎo)航應(yīng)用指明道路。




































