開發(fā)者必看:谷歌如何用AI打造“機(jī)器人操作系統(tǒng)”
在語言大模型的競爭日趨白熱化之際,人工智能的下一個(gè)主戰(zhàn)場已然清晰——物理世界。將AI的智慧注入到物理實(shí)體中,讓機(jī)器人具備通用的、適應(yīng)各種場景的能力,已成為全球科技巨頭競相追逐的“圣杯”。在這場競賽中,谷歌DeepMind近期發(fā)布的Gemini Robotics 1.5系列,不僅展示了其在技術(shù)上的領(lǐng)先地位,更揭示了其試圖主導(dǎo)整個(gè)機(jī)器人時(shí)代的宏大“陽謀”。
打造“機(jī)器人界的Android”
谷歌的戰(zhàn)略并非是親自下場,去設(shè)計(jì)和制造所有形態(tài)的機(jī)器人。恰恰相反,其核心商業(yè)邏輯是,提供一個(gè)極其強(qiáng)大的、標(biāo)準(zhǔn)化的AI“大腦”和“操作系統(tǒng)”,讓全球所有機(jī)器人制造商,無論是工業(yè)機(jī)械臂、倉儲(chǔ)機(jī)器人還是人形機(jī)器人,都能夠采購和集成。
這無疑是在復(fù)刻其在智能手機(jī)時(shí)代,通過Android系統(tǒng)建立平臺(tái)級生態(tài)系統(tǒng)的成功路徑。通過將最核心、最復(fù)雜的AI能力封裝成一個(gè)易于調(diào)用的服務(wù),谷歌旨在成為未來所有通用機(jī)器人背后的“賦能者”,從而在即將到來的具身智能時(shí)代,占據(jù)產(chǎn)業(yè)鏈的頂端位置。
實(shí)現(xiàn)“通用”的技術(shù)基石
要實(shí)現(xiàn)這一宏偉目標(biāo),必須解決通用機(jī)器人發(fā)展道路上的兩大核心技術(shù)難題:數(shù)據(jù)稀缺性和實(shí)時(shí)性。
動(dòng)作遷移技術(shù)
具身智能領(lǐng)域最大的發(fā)展瓶頸,在于機(jī)器人訓(xùn)練數(shù)據(jù)的稀缺。收集真實(shí)機(jī)器人的物理交互數(shù)據(jù),成本高昂且極其耗時(shí),而且不同型號機(jī)器人的數(shù)據(jù)通常互不通用。
Gemini Robotics 1.5模型中的動(dòng)作遷移技術(shù),正是為了攻克這一難題。它通過一種新的模型架構(gòu),讓AI能夠從多種不同形態(tài)的機(jī)器人(異構(gòu)、多具身)的訓(xùn)練數(shù)據(jù)中,學(xué)習(xí)到關(guān)于運(yùn)動(dòng)和物理學(xué)的統(tǒng)一、通用的理解。
這帶來的革命性突破,就是零樣本技能遷移。這意味著,在一個(gè)雙臂機(jī)器人上訓(xùn)練的“打包午餐”技能,可以無需額外訓(xùn)練,直接在一個(gè)人形機(jī)器人上成功執(zhí)行。機(jī)器人之間從此可以相互“學(xué)習(xí)”和共享經(jīng)驗(yàn),這極大地加速了通用技能的積累和泛化進(jìn)程。

Gemini Robotics On-Device
另一個(gè)巨大挑戰(zhàn),是機(jī)器人在真實(shí)世界中對實(shí)時(shí)響應(yīng)和網(wǎng)絡(luò)穩(wěn)定性的嚴(yán)苛要求。傳統(tǒng)的云端AI模型,推理延遲高,且高度依賴穩(wěn)定的網(wǎng)絡(luò)連接,這在許多工業(yè)、醫(yī)療或戶外場景中是無法接受的。
為此,谷歌推出了緊湊型版本Gemini Robotics On-Device (GRoD)。它采用了一種巧妙的混合架構(gòu):將復(fù)雜的感知和推理核心保留在云端,但將一個(gè)輕量級的動(dòng)作解碼器部署在機(jī)器人本地的芯片上運(yùn)行。
通過“滾動(dòng)預(yù)測范圍”等技術(shù),GRoD成功地將云端160毫秒的延遲,隱藏在一個(gè)50Hz的平滑控制循環(huán)背后,最終實(shí)現(xiàn)了約250毫秒的低延遲閉環(huán)控制。更重要的是,它具備離線彈性,即使在網(wǎng)絡(luò)完全中斷的情況下,本地的解碼器依然能夠繼續(xù)執(zhí)行任務(wù)。這使得機(jī)器人在倉庫、外科手術(shù)室或遠(yuǎn)程勘探等網(wǎng)絡(luò)不穩(wěn)定的環(huán)境中,也能保持穩(wěn)定工作。
通用機(jī)器人離我們還有多遠(yuǎn)
那么,有了這些技術(shù)突破,一個(gè)能走進(jìn)我們生活和工作的通用機(jī)器人,離我們還有多遠(yuǎn)?
從已實(shí)現(xiàn)的場景來看,我們已經(jīng)非常接近。在演示中,搭載了Gemini Robotics 1.5的機(jī)器人,已經(jīng)能夠執(zhí)行相當(dāng)復(fù)雜的、需要情境感知的任務(wù)。例如,它能根據(jù)“請幫我打包一份午餐,但別壓壞了葡萄”這樣的自然語言指令,執(zhí)行精細(xì)的操作;也能在打包行李時(shí),通過調(diào)用Google Search查詢目的地的天氣,從而主動(dòng)將一把雨傘放入行李箱。
當(dāng)然,要實(shí)現(xiàn)大規(guī)模普及,通用機(jī)器人仍面臨諸多挑戰(zhàn)。包括如何進(jìn)一步提升在復(fù)雜動(dòng)態(tài)環(huán)境中的靈巧度和安全性,以及如何處理長時(shí)序的、更復(fù)雜的任務(wù)規(guī)劃等。谷歌發(fā)布的ASIMOV-2.0安全基準(zhǔn)測試,也正是為了系統(tǒng)性地評估和解決機(jī)器人在真實(shí)世界中的安全倫理問題。
谷歌DeepMind通過Gemini Robotics 1.5系列,不僅展示了其在具身智能技術(shù)上的絕對領(lǐng)先地位,更重要的是,其“機(jī)器人界Android”的平臺(tái)化開放戰(zhàn)略,可能會(huì)極大地加速整個(gè)通用機(jī)器人產(chǎn)業(yè)的成熟與到來。一個(gè)由AI驅(qū)動(dòng)、能夠真正理解并服務(wù)于我們物理世界的機(jī)器人新紀(jì)元,其大幕已經(jīng)拉開。

















