ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人稱感知-行動(dòng)-預(yù)測(cè)一體化智能體
如何讓 AI 像人類一樣從對(duì)世界的觀察和互動(dòng)中自然地學(xué)會(huì)理解世界?在今年的國(guó)際計(jì)算機(jī)視覺大會(huì)(ICCV 2025)上,來自浙江大學(xué)、香港中文大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究人員聯(lián)合提出了第一人稱聯(lián)合預(yù)測(cè)智能體 EgoAgent。受人類認(rèn)知學(xué)習(xí)機(jī)制和 “共同編碼理論(Common Coding Theory)” 啟發(fā),EgoAgent 首次成功地讓模型在統(tǒng)一的潛空間中同時(shí)學(xué)習(xí)視覺表征(Visual representation)、人體行動(dòng)(Human action)和世界預(yù)測(cè) (World state prediction)三大核心任務(wù),打破了傳統(tǒng) AI 中 “感知”、“控制” 和 “預(yù)測(cè)” 分離的壁壘。這種聯(lián)合學(xué)習(xí)方式能讓模型在三項(xiàng)任務(wù)間自然形成協(xié)同效應(yīng),并成功遷移到具身操作等任務(wù)之中。

- 論文題目:EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
- 接收會(huì)議:ICCV 2025
- 項(xiàng)目主頁:https://egoagent.github.io
- 論文鏈接:https://arxiv.org/abs/2502.05857
- 代碼地址:https://github.com/zju3dv/EgoAgent

靈感來源:模擬人類的具身認(rèn)知過程與感知 - 動(dòng)作的統(tǒng)一表征
想象你是怎么打籃球的?你需要從第一人稱視角去感知球的位置,同時(shí)迅速準(zhǔn)備好起跳或攔截的動(dòng)作,并不斷預(yù)判不同動(dòng)作對(duì)球場(chǎng)局勢(shì)的影響。而每做出一個(gè)動(dòng)作又會(huì)反過來改變環(huán)境,觸發(fā)新一輪的感知 - 行動(dòng) - 預(yù)測(cè)循環(huán)。這一循環(huán)在人類的成長(zhǎng)早期就開始了,嬰兒通過在真實(shí)世界中不斷地觀察與交互,形成一個(gè)高度耦合的視覺 - 動(dòng)作系統(tǒng)。這一系統(tǒng)比語言系統(tǒng)更早 “上線”—— 人類在會(huì)說話之前,就已經(jīng)能通過感知和行動(dòng)來理解和改變周圍環(huán)境。然而,在 AI 領(lǐng)域,對(duì)這一系統(tǒng)的學(xué)習(xí)卻落后于語言模型的發(fā)展。
在認(rèn)知科學(xué)中,這一系統(tǒng)的形成機(jī)制被稱為具身認(rèn)知(Embodied Cognition)與共同編碼理論(Common Coding Theory):感知與行動(dòng)不是相互獨(dú)立的過程,而是在共享的表征空間中協(xié)同工作、相互強(qiáng)化。EgoAgent 正是受到這一機(jī)制的啟發(fā)。它旨在模擬這種人類大腦、身體和環(huán)境之間持續(xù)的互動(dòng),使得 AI 能夠像人類一樣學(xué)習(xí) —— 不是僅僅通過觀看圖片,而是通過親身經(jīng)歷世界,去預(yù)測(cè)未來、采取行動(dòng),并理解行動(dòng)如何改變環(huán)境。

技術(shù)揭秘:EgoAgent 如何實(shí)現(xiàn) “1+1+1 > 3”?
以往的 AI 模型往往將 “感知 - 行動(dòng) - 預(yù)測(cè)” 循環(huán)拆解為三個(gè)獨(dú)立任務(wù),分別訓(xùn)練,從而割裂了它們之間的內(nèi)在聯(lián)系。EgoAgent 則在大規(guī)模的第一人稱視角視頻與同步采集的三維人體運(yùn)動(dòng)數(shù)據(jù)上,實(shí)現(xiàn)了三項(xiàng)任務(wù)的聯(lián)合學(xué)習(xí)。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為 JEAP(Joint Embedding-Action-Prediction)的核心架構(gòu)。該架構(gòu)基于聯(lián)合嵌入預(yù)測(cè)架構(gòu)世界模型(JEPA World Model)進(jìn)行擴(kuò)展,對(duì)其中的 teacher–student 框架進(jìn)行了創(chuàng)新改造:在保留 JEPA 自監(jiān)督預(yù)測(cè)條件表征的能力基礎(chǔ)上,進(jìn)一步引入對(duì)世界狀態(tài)和三維人體動(dòng)作的多模態(tài)自回歸預(yù)測(cè),使模型能夠在一個(gè)統(tǒng)一的 Transformer 框架內(nèi),同時(shí)學(xué)習(xí)三項(xiàng)任務(wù)。JEAP 的核心設(shè)計(jì)包括:

“狀態(tài) - 動(dòng)作” 交錯(cuò)式聯(lián)合預(yù)測(cè): EgoAgent 將第一人稱視頻幀和三維人體動(dòng)作交替編碼為一串統(tǒng)一的 “狀態(tài) - 動(dòng)作 - 狀態(tài) - 動(dòng)作” 序列 ,并通過 Transformer 的因果自注意力機(jī)制進(jìn)行建模。這種設(shè)計(jì)使得模型能夠在時(shí)間維度上同時(shí)捕捉兩種關(guān)系:感知如何驅(qū)動(dòng)動(dòng)作,以及動(dòng)作如何影響未來世界。
“預(yù)言家” 與 “觀察者” 的協(xié)作機(jī)制: EgoAgent 內(nèi)部包含兩個(gè)分支:預(yù)測(cè)器(Predictor)從過去的 “狀態(tài) - 動(dòng)作” 序列中預(yù)測(cè)未來的世界狀態(tài)和人體動(dòng)作;而觀察器(Observer)則僅對(duì)未來幀進(jìn)行編碼,生成目標(biāo)表征,用于監(jiān)督預(yù)測(cè)器的學(xué)習(xí)。類似于 teacher–student 框架,觀察器的參數(shù)通過指數(shù)滑動(dòng)平均(EMA)從預(yù)測(cè)器更新。這一機(jī)制不僅拓展了傳統(tǒng)學(xué)習(xí)框架在時(shí)間序列上的自監(jiān)督學(xué)習(xí)能力,使模型能夠在時(shí)間維度上對(duì)未來進(jìn)行預(yù)測(cè)與對(duì)齊;同時(shí)也保留了在靜態(tài)圖像上的自監(jiān)督學(xué)習(xí)能力:在同一時(shí)刻,觀察器與預(yù)測(cè)器可分別編碼不同增強(qiáng)方式下生成的圖像特征并進(jìn)行對(duì)比學(xué)習(xí),進(jìn)一步強(qiáng)化視覺表征的一致性與穩(wěn)定性。
此外,EgoAgent 還在兩個(gè)分支中引入了 Query Tokens 作為可學(xué)習(xí)的提示詞,用于在共享的潛空間中調(diào)度不同任務(wù)的注意力。這些 query tokens 可以主動(dòng) “提問” 模型的潛在空間,從而分別抽取與視覺表征或動(dòng)作生成相關(guān)的特征,并在反向傳播中解耦各任務(wù)的梯度流,避免不同任務(wù)之間的相互干擾。
與以往一些依賴像素重建的方法不同,EgoAgent 在連續(xù)語義嵌入空間中進(jìn)行學(xué)習(xí)。這一點(diǎn)非常重要,因?yàn)槿祟悓?duì)世界的預(yù)測(cè)并不是像素級(jí)的還原,而是基于抽象概念和高層語義進(jìn)行推理。這種方法使 EgoAgent 的學(xué)習(xí)方式更接近人類的認(rèn)知方式,并提升了模型在未來狀態(tài)預(yù)測(cè)方面的性能。

EgoAgent 的能力展示與實(shí)驗(yàn)分析
EgoAgent 在三項(xiàng)關(guān)鍵任務(wù)上均取得了優(yōu)異表現(xiàn),而現(xiàn)有模型通常僅能在其中一至兩項(xiàng)任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí)。

第一視角世界狀態(tài)預(yù)測(cè):給定過往的第一人稱視角圖片和三維人類動(dòng)作,EgoAgent 能夠準(zhǔn)確預(yù)測(cè)未來的世界狀態(tài)特征。模型的預(yù)測(cè)結(jié)果可通過檢索驗(yàn)證其真實(shí)性 —— 若 EgoAgent 預(yù)測(cè)的未來世界狀態(tài)能在由所有視頻幀構(gòu)成的圖庫中成功檢索到對(duì)應(yīng)的真實(shí)狀態(tài)時(shí),即可視為一次成功的預(yù)測(cè))。在性能方面,EgoAgent 大幅超越了現(xiàn)有的第一視角視覺表征模型 。例如,3 億參數(shù)的 EgoAgent 較最新的第一視角視覺表征模型 DoRA(ICLR 2024) 在 Top1 準(zhǔn)確率上提升了 12.86% ,在 mAP 指標(biāo)上提升了 13.05% 。這表明 EgoAgent 不局限于基于圖像語義相似性進(jìn)行未來狀態(tài)預(yù)測(cè),更能理解世界的時(shí)序演化以及動(dòng)作與環(huán)境間的因果關(guān)系。進(jìn)一步擴(kuò)展至 10 億參數(shù)規(guī)模后,EgoAgent 的性能實(shí)現(xiàn)了持續(xù)提升。

三維人體動(dòng)作預(yù)測(cè):EgoAgent 能夠根據(jù)第一人稱視角觀察和歷史動(dòng)作序列,生成連貫且逼真的未來三維人體運(yùn)動(dòng)。在定量評(píng)估中,EgoAgent 在三維動(dòng)作預(yù)測(cè)任務(wù)上取得了領(lǐng)先的性能,相比 Diffusion Policy 以及專用的人體運(yùn)動(dòng)預(yù)測(cè)模型,在 MPJPE(平均每關(guān)節(jié)位置誤差)上達(dá)到最低誤差,在 MPJVE(平均每關(guān)節(jié)速度誤差)指標(biāo)上也表現(xiàn)出高度競(jìng)爭(zhēng)力。值得注意的是,EgoAgent 在預(yù)測(cè)視頻中不可見的人體關(guān)節(jié)時(shí)同樣保持了較高的準(zhǔn)確度,展現(xiàn)出其在潛空間中對(duì)人體運(yùn)動(dòng)結(jié)構(gòu)的優(yōu)秀建模能力。

視覺表征:EgoAgent 從第一人稱視頻中學(xué)習(xí)到了魯棒而通用的視覺表征,在基礎(chǔ)的圖像分類和具身操作任務(wù)中均表現(xiàn)出良好的遷移能力。在 ImageNet-1K 上,EgoAgent-1B 的 Top-1 準(zhǔn)確率比 DoRA 提高了 1.32%,表明感知、預(yù)測(cè)與行動(dòng)的聯(lián)合學(xué)習(xí)有助于獲得更具判別力的視覺特征。進(jìn)一步地,在 TriFinger 機(jī)器人操作模擬器中,EgoAgent 使用 100 段演示數(shù)據(jù),通過 3 層 MLP 微調(diào),在 “抓取方塊” 和 “移動(dòng)方塊” 兩項(xiàng)任務(wù)中均取得最高成功率,分別超越 DoRA 3.32% 和 3.9%。這說明將人體動(dòng)作預(yù)測(cè)融入視覺學(xué)習(xí),有助于模型獲得更具可操作性的表征,從而在具身任務(wù)中展現(xiàn)出更強(qiáng)的泛化與控制能力。

消融實(shí)驗(yàn):為了驗(yàn)證各任務(wù)間的相互作用,研究團(tuán)隊(duì)對(duì) EgoAgent 進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)。結(jié)果表明,視覺表征、動(dòng)作預(yù)測(cè)與世界預(yù)測(cè)三項(xiàng)任務(wù)相互支撐、缺一不可。當(dāng)去掉其中任意一項(xiàng)任務(wù)時(shí),其余任務(wù)的性能都會(huì)下降。相反,當(dāng)三項(xiàng)任務(wù)在統(tǒng)一框架下聯(lián)合優(yōu)化時(shí),模型在各項(xiàng)評(píng)估指標(biāo)上均獲得最優(yōu)結(jié)果。這一現(xiàn)象表明,多任務(wù)的聯(lián)合學(xué)習(xí)能夠形成正向反饋機(jī)制:視覺任務(wù)提供感知語義,動(dòng)作任務(wù)引導(dǎo)動(dòng)態(tài)建模,而世界預(yù)測(cè)任務(wù)通過時(shí)間連續(xù)性約束整體的潛在空間。這種任務(wù)間的協(xié)同優(yōu)化,使 EgoAgent 能夠更穩(wěn)定地捕捉感知 - 行動(dòng)之間的關(guān)聯(lián),在整體表現(xiàn)上超越單任務(wù)模型。進(jìn)一步的消融結(jié)果表明,在語義特征空間中進(jìn)行學(xué)習(xí)的模型,在世界預(yù)測(cè)的準(zhǔn)確性和視覺表征的有效性方面均顯著優(yōu)于基于像素級(jí)重建的潛空間建模。

未來:AI 的 “第一人稱” 進(jìn)階
EgoAgent 不僅僅是一個(gè)強(qiáng)大的模型,它代表了一種新的 AI 學(xué)習(xí)范式:讓模型像人類一樣,在充滿動(dòng)態(tài)和交互的第一人稱視角下,同時(shí)學(xué)習(xí)視覺表征、運(yùn)動(dòng)控制和世界模型。它的應(yīng)用前景極其廣闊:
- 機(jī)器人: 有望提升機(jī)器人的場(chǎng)景感知和操作能力,在復(fù)雜環(huán)境中精準(zhǔn)預(yù)判物體動(dòng)態(tài)和自身動(dòng)作對(duì)環(huán)境的影響,實(shí)現(xiàn)更自然的交互和協(xié)作。
- AR/VR: 基于第一人稱視角的學(xué)習(xí)機(jī)制,可能幫助系統(tǒng)更好地理解用戶的動(dòng)作語義與環(huán)境動(dòng)態(tài),增強(qiáng)體驗(yàn)的沉浸感。
- 智能眼鏡:這類模型有潛力在連續(xù)視覺流中識(shí)別用戶意圖或環(huán)境變化,全天候分析動(dòng)作和環(huán)境的潛在危險(xiǎn)并提供輔助性決策支持。






















