虛幻5加持,清華發(fā)布首個「真實開放環(huán)境具身智能平臺」與基準(zhǔn)測試集EmbodiedCity!
具身智能被視為當(dāng)前人工智能領(lǐng)域最具潛力的方向之一,重點關(guān)注智能體感知、學(xué)習(xí)和與環(huán)境動態(tài)交互的能力。
近年來,具身智能發(fā)展迅猛,在多個領(lǐng)域取得突破進展。然而,當(dāng)前大多數(shù)具身智能研究聚焦于有限環(huán)境如室內(nèi)場景中,針對城市級別開放真實世界場景的探索較為匱乏,急需構(gòu)建相應(yīng)的模擬平臺和基準(zhǔn)測試集。
近日,清華大學(xué)城市科學(xué)與計算研究中心開放發(fā)布基于虛幻引擎5的城市具身智能模擬環(huán)境EmbodiedCity,基于真實城市開放場景打造3D城市環(huán)境,并進一步針對不同維度和水平的開放空間具身智能能力,構(gòu)建相應(yīng)的任務(wù)集和數(shù)據(jù)集,可支撐真實開放空間具身智能的多類研究任務(wù)。

官方網(wǎng)站:https://embodied-city.fiblab.net/
開發(fā)文檔:https://github.com/tsinghua-fib-lab/EmbodiedCity
該平臺提供離線運行和在線接入兩種方式,既可以下載在不同操作系統(tǒng)本地環(huán)境運行,也可以訪問智能體在線平臺,基于Python SDK調(diào)用開發(fā)智能體,在平臺網(wǎng)頁直接編程使用。
EmbodiedCity模擬環(huán)境
EmbodiedCity以北京市國貿(mào)區(qū)域的真實道路和建筑布局為基礎(chǔ),結(jié)合人流和車流的真實數(shù)據(jù)與模擬算法,基于虛幻引擎5(Unreal Engine 5)構(gòu)建了一個真實、動態(tài)、開放的城市具身環(huán)境。


環(huán)境中主要包含以下元素:
(1)街道:機動車/非機動車道、十字路口、交通信號燈和人行道,街道布局合理多樣。


(2)建筑物:辦公樓、購物中心、住宅小區(qū)等,細(xì)粒度建模還原真實建筑。

(3)其他元素:長椅、路燈、植被以及動態(tài)的車輛和行人,城市場景充滿活力。


城市具身智能任務(wù)基準(zhǔn)測試集
為充分探索開放環(huán)境具身智能體的感知、推理和決策能力,EmbodiedCity構(gòu)建了一系列評測任務(wù),既包括代表性的具身任務(wù),涵蓋行人模擬、車流模擬、場景理解、問答、對話、導(dǎo)航和規(guī)劃,也支撐傳統(tǒng)的感知、預(yù)測、決策等任務(wù)。

其中,針對開放空間具身智能構(gòu)建的任務(wù)集如下:
1. 跨模態(tài)場景理解:智能體觀察環(huán)境元素并給出準(zhǔn)確描述,通過在同一位置從不同角度觀察,生成一組RGB圖像作為輸入,得到相應(yīng)的文本描述。
2. 跨模態(tài)問答:在具身場景理解的基礎(chǔ)上,智能體接收有關(guān)環(huán)境語義和空間信息的自然語言問詢,例如,「場景中有多少個建筑?」以及「在當(dāng)前視角下A建筑是否在B建筑的左邊?」輸入包括第一視角的RGB圖像和有關(guān)環(huán)境的問題,對問題進行直接文本回答。

3. 多輪對話:具身對話涉及智能體與用戶之間的持續(xù)互動,需要維持上下文和理解對話流。例如,「后方中有多少棵樹?-> 它們分別是什么顏色的?」任務(wù)的輸入包括具身觀察和多輪查詢,得到多輪響應(yīng)。
4. 具身導(dǎo)航/搜索:智能體根據(jù)自然語言指令在環(huán)境中進行具身導(dǎo)航,輸入結(jié)合了視覺感知和自然語言指令,以引導(dǎo)智能體通過復(fù)雜環(huán)境進行實時感知、推理、決策。任務(wù)輸出是環(huán)境中的行動序列。

5. 任務(wù)規(guī)劃:智能體需要能夠?qū)?fù)雜且長期的具身任務(wù)目標(biāo)拆分為多個子任務(wù),例如,「我需要去便利店購物,但我不知道怎么走,應(yīng)該怎么做?」輸入包括第一視角的觀察和自然語言描述的任務(wù)目標(biāo),輸出是智能體所規(guī)劃、拆解的一系列子任務(wù)。
6. 個體行為模擬:對于行人、車輛、無人機等不同類型的智能體,需要基于第一視角的觀察和當(dāng)前任務(wù)規(guī)劃,生成與真實個體類似、符合真實個體規(guī)律和模式的行為與動作,該任務(wù)依賴于上述任務(wù)所體現(xiàn)的開放世界中的感知、規(guī)劃、決策等具身智能能力。
平臺使用方法
EmbodiedCity同時提供在線使用和離線運行兩種智能體部署方式。
1. 在線使用
用戶可以通過在平臺官方網(wǎng)站(embodied-city.fiblab.net)申請API Key,獲得授權(quán)后即可控制接管已經(jīng)實時在線部署的智能體。在線平臺提供鍵盤控制和指令控制等多種智能體操作方式,用戶可以在網(wǎng)頁以第一視角游覽城市環(huán)境。平臺還提供了完善的智能體控制Python SDK以供調(diào)用開發(fā),用戶可以在平臺網(wǎng)頁直接編程使用。
2. 離線運行
用戶可以下載離線模擬環(huán)境,在本地部署后進行智能體的訓(xùn)練和測試,平臺提供適用于Windows、Linux、macOS等不同類型操作系統(tǒng)的相應(yīng)版本,方便模擬環(huán)境的快速部署和測試。


































