精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢

十一月雨_55

發(fā)布于 2025-9-25 06:51

瀏覽

0收藏

當(dāng)你結(jié)束一天的工作，期待AI能自主整理雜亂的桌面、按照需求烹飪簡單的餐食，甚至協(xié)助完成家電維修時(shí)，是否曾疑惑：為何現(xiàn)有AI多局限于屏幕交互，難以真正“走進(jìn)”物理世界？這一問題的核心，指向了AI領(lǐng)域的關(guān)鍵方向——具身智能體（Embodied AI Agent）。Meta超級智能實(shí)驗(yàn)室的Jianwei Yang團(tuán)隊(duì)CVPR2025發(fā)布的教程系統(tǒng)梳理了多模態(tài)具身智能體從“感知環(huán)境”到“邏輯思考”再到“自主行動”的技術(shù)路徑，為我們揭示了多模態(tài)具身智能體領(lǐng)域的突破與未來可能。

第一章具身智能體：定義與需求原點(diǎn)

1.1 為什么需要具身智能體？

人類對“自主助手”的需求從未停止，而具身智能體正是這一需求的技術(shù)載體。其應(yīng)用場景已覆蓋三大核心領(lǐng)域：

?自動駕駛：無需人類干預(yù)，自主感知路況、規(guī)避障礙、規(guī)劃路線；

?工業(yè)機(jī)器人：在工廠環(huán)境中完成精密組裝、物料搬運(yùn)等重復(fù)性任務(wù)；

?家用機(jī)器人：處理清潔、收納、看護(hù)等日常繁瑣事務(wù)，降低人類生活負(fù)擔(dān)。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如研究中指出的，人類長期夢想擁有能“融入生活”的自主AI智能體，而具身智能體正是實(shí)現(xiàn)這一夢想的關(guān)鍵技術(shù)形態(tài)。

1.2 什么是具身智能體？

根據(jù)Wikipedia定義，具身智能體是“能夠感知環(huán)境、自主采取行動以實(shí)現(xiàn)目標(biāo)，并可通過機(jī)器學(xué)習(xí)或知識獲取提升性能的實(shí)體”。微軟研究院進(jìn)一步將其核心能力拆解為兩大維度：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?多模態(tài)理解：接收視覺、觸覺等多感官輸入，構(gòu)建對環(huán)境的完整認(rèn)知（例如通過攝像頭識別物體位置，通過觸覺感知物體重量）；

?動作預(yù)測：基于環(huán)境認(rèn)知和目標(biāo)，生成與環(huán)境交互、操縱物體的行動指令（例如“將杯子放到餐桌上”的具體動作序列）。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

簡言之，具身智能體的核心目標(biāo)是“像人類一樣，在物理世界中自主解決問題”。

第二章多模態(tài)具身智能體的發(fā)展浪潮

2.1 技術(shù)演進(jìn)時(shí)間線：從基礎(chǔ)到突破

具身智能體的關(guān)鍵發(fā)展節(jié)點(diǎn)，呈現(xiàn)出清晰的技術(shù)迭代路徑：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?2023年前：基礎(chǔ)模型探索期，代表成果包括DroidBot-GPT（結(jié)合LLM的機(jī)器人控制）、WebAgent（網(wǎng)頁交互智能體），此時(shí)模型多聚焦單一模態(tài)或特定任務(wù)，泛化能力有限；

?2024年：多模態(tài)融合加速期，RT-2X（視覺-語言-動作跨模態(tài)模型）、AppAgent（應(yīng)用交互智能體）、TraceVLA（引入軌跡提示的VLA模型）、OpenVLA（開源視覺-語言-動作模型）等相繼出現(xiàn)，模型開始具備跨場景適應(yīng)能力；

?2025+：通用化探索期，方向集中于“更強(qiáng)的推理與規(guī)劃能力”，目標(biāo)是讓智能體在未知環(huán)境中自主拆解復(fù)雜任務(wù)（例如“清理廚房”分解為“整理臺面→清洗餐具→收納物品”）。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

2.2 視覺語言預(yù)訓(xùn)練（VLP）：“看見”的基礎(chǔ)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

要實(shí)現(xiàn)“感知環(huán)境”，視覺語言預(yù)訓(xùn)練（VLP）模型是核心支撐。這類模型通過大規(guī)模圖像-文本數(shù)據(jù)學(xué)習(xí)，具備兩大關(guān)鍵能力：

?開放詞匯（Open-vocabulary）：無需針對特定物體重新訓(xùn)練，即可識別未見過的類別（例如訓(xùn)練過“貓”“狗”后，能識別“兔子”）；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?空間接地（Spatially grounded）：精準(zhǔn)定位物體在空間中的位置（例如指出“杯子在桌子左上角”）。

代表性模型包括：

?CLIP（OpenAI）：通過對比學(xué)習(xí)將圖像與文本映射到同一特征空間，實(shí)現(xiàn)零樣本物體識別；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?Florence（Microsoft Research）：構(gòu)建“統(tǒng)一視覺?！?，支持分類、檢測、分割等44項(xiàng)視覺任務(wù)，在多個基準(zhǔn)測試中達(dá)到state-of-the-art（SOTA）；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?GLIP、Grounding DINO：進(jìn)一步強(qiáng)化“文本-空間定位”關(guān)聯(lián)，例如輸入“黑色小狗”，可直接輸出小狗的邊界框。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第三章 “思考”的核心：多模態(tài)大語言模型（MLLM）

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

具身智能體僅“看見”還不夠，還需具備“理解指令、邏輯推理”的能力——這一功能由多模態(tài)大語言模型（MLLM）實(shí)現(xiàn)。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.1 MLLM的視覺理解能力

MLLM通過融合視覺編碼器與語言模型，實(shí)現(xiàn)“圖像輸入+語言輸出”的跨模態(tài)交互。以GPT-4V（OpenAI，2023）為例：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?極端熨燙場景：輸入“人在移動的出租車頂熨衣服”的圖像，GPT-4V能準(zhǔn)確指出“異常點(diǎn)在于熨燙行為發(fā)生在移動車輛頂部，而非固定的室內(nèi)環(huán)境”；

?雞塊地圖 meme：輸入“用雞塊擺成世界地圖”的圖像，GPT-4V可解讀出“文本暗示‘太空看地球的美景’，但圖像實(shí)際是雞塊，幽默源于預(yù)期與現(xiàn)實(shí)的反差”。

3.2 視覺指令調(diào)優(yōu)：讓MLLM“聽懂需求”

LLaVA（Large Language and Vision Assistant）的研究提出了兩階段訓(xùn)練方法，大幅降低MLLM的落地成本：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 對齊階段：僅訓(xùn)練“視覺編碼器與語言模型之間的投影權(quán)重（W）”，使用圖像-文本對讓兩者“理解同一語義”，8×A100 GPU僅需數(shù)小時(shí)；

? 指令跟隨階段：用指令數(shù)據(jù)（如“描述這張圖”“這張圖里有什么異常”）微調(diào)投影權(quán)重與語言模型，8×A100 GPU不到1天即可完成。

這種方法實(shí)現(xiàn)了“低成本復(fù)現(xiàn)GPT-4V級視覺理解”，例如LLaVA對“車頂熨燙”場景的解讀，與GPT-4V的一致性超過90%。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.3 空間推理的突破：Set-of-Marks（SoM）技術(shù)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

傳統(tǒng)MLLM在“精準(zhǔn)空間定位”上存在短板，而SoM技術(shù)通過“圖像標(biāo)注+語言關(guān)聯(lián)”解決了這一問題。其核心是在圖像中添加數(shù)字標(biāo)記，讓模型將標(biāo)記與空間位置綁定：

?物體計(jì)數(shù)：在水果籃圖像中標(biāo)記蘋果（1、2、5等）和橙子（3、4、6等），GPT-4V可準(zhǔn)確統(tǒng)計(jì)“6個蘋果、4個橙子”，錯誤率從傳統(tǒng)方法的20%降至5%以下；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?控制器操作指導(dǎo)：在游戲手柄圖像中標(biāo)記按鍵（1為方向鍵、2為左搖桿等），模型可詳細(xì)說明“左搖桿（2）控制角色移動，右搖桿（3）控制鏡頭方向”，大幅提升操作指導(dǎo)的精準(zhǔn)度。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第四章 “行動”的關(guān)鍵：視覺-語言-動作（VLA）模型

具身智能體的最終目標(biāo)是“行動”，而視覺-語言-動作（VLA）模型是連接“思考”與“行動”的橋梁。Jianwei Yang團(tuán)隊(duì)的研究重點(diǎn)分析了VLA模型的演進(jìn)——從OpenVLA的基礎(chǔ)探索，到TraceVLA、LAPA的技術(shù)補(bǔ)全，再到Magma的統(tǒng)一突破。

4.1 OpenVLA：開源VLA的基礎(chǔ)探索

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA是首個開源的通用VLA模型，其架構(gòu)核心是“多模態(tài)輸入→動作輸出”的端到端流程：

?輸入層：接收圖像（物體狀態(tài)）與語言指令（如“把茄子放進(jìn)碗里”）；

?特征融合：通過DinoV2（視覺編碼器）、SigLIP（圖像-文本對齊）提取特征，經(jīng)MLP投影后輸入Llama 2（7B參數(shù)語言模型）；

?輸出層：通過“動作解令牌器”生成機(jī)器人可執(zhí)行的動作指令（如Δx=5cm、旋轉(zhuǎn)角度=10°）。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA在“視覺泛化”“運(yùn)動泛化”等任務(wù)上表現(xiàn)優(yōu)異，例如在“拿起茄子”“翻轉(zhuǎn)鍋具”等未見場景中，成功率超過傳統(tǒng)模型30%。但它存在三大短板：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 僅依賴單張圖像，無法捕捉歷史動作（如“機(jī)器人之前移動了多少距離”）；

? 動作預(yù)測短視，無法規(guī)劃多步動作；

? 僅用機(jī)器人數(shù)據(jù)訓(xùn)練，易過擬合，丟失多模態(tài)理解能力。

4.2 TraceVLA：用“軌跡提示”補(bǔ)全歷史信息

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

為解決“歷史信息缺失”問題，TraceVLA提出“視覺軌跡提示”技術(shù)：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡提?。?/span>用CoTracker算法跟蹤視頻序列中“機(jī)器人末端執(zhí)行器”與“移動物體”的關(guān)鍵點(diǎn)，生成運(yùn)動軌跡；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡疊加：將軌跡疊加到當(dāng)前圖像上（例如用虛線標(biāo)記機(jī)器人之前的移動路徑），形成“原始圖像+軌跡圖像”的雙輸入；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?指令融合：結(jié)合語言指令（如“把海綿移到藍(lán)色瓶子旁”），讓模型基于歷史軌跡預(yù)測下一步動作。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

在Google Robot的SimplerEnv環(huán)境中，TraceVLA的表現(xiàn)顯著優(yōu)于OpenVLA：面對“背景變化”場景，成功率從41.2%提升至52.3%；面對“干擾物增加”場景，成功率從54.3%提升至66.7%。在真實(shí)WidowX機(jī)器人上，“折疊布料”“拿起刀具”等任務(wù)的成功率也提升了40%以上。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.3 LAPA：從人類視頻中學(xué)習(xí)“潛在動作”

機(jī)器人數(shù)據(jù)采集成本高、場景有限，而LAPA（Latent Pretraining from Videos）提出“從人類視頻中學(xué)習(xí)動作”的思路，大幅降低數(shù)據(jù)依賴：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 潛在動作量化：用C-ViViT（視頻編碼器）+VQ-VAE（向量量化）將人類動作（如“拿起杯子”）轉(zhuǎn)化為“潛在動作令牌”；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?預(yù)訓(xùn)練：用Large World Model（LWM-7B）學(xué)習(xí)“視頻幀→潛在動作”的映射關(guān)系；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?微調(diào)：用少量機(jī)器人數(shù)據(jù)微調(diào)，將人類動作轉(zhuǎn)化為機(jī)器人可執(zhí)行的指令。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

LAPA在“真實(shí)桌面操作”任務(wù)中，僅用人類視頻預(yù)訓(xùn)練，成功率就超過“從頭訓(xùn)練”模型2倍；若結(jié)合少量機(jī)器人數(shù)據(jù)，成功率與“用全量機(jī)器人數(shù)據(jù)訓(xùn)練的OpenVLA”持平。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4 Magma：多模態(tài)統(tǒng)一的“終極突破”

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma是當(dāng)前最全面的具身智能體模型，其核心是“同時(shí)具備多模態(tài)理解與動作預(yù)測能力”，而非構(gòu)建單一功能的專用模型。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.1 技術(shù)架構(gòu)

?輸入層：支持圖像、視頻、語言指令、UI界面等多模態(tài)輸入；

?特征編碼器：用ConvNeXt-XXLarge（視覺）+Llama-3-8B（語言）提取跨模態(tài)特征；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?任務(wù)適配：通過SoM（Set-of-Marks）處理空間定位任務(wù)，通過ToM（Trace-of-Mark）處理時(shí)序動作任務(wù)。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.2 訓(xùn)練數(shù)據(jù)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma使用3900萬條多源數(shù)據(jù)，覆蓋四大類型：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? instructional視頻（如人類做飯、維修的視頻）；

? 機(jī)器人操作數(shù)據(jù)（如Open-X-Embodiment的940萬條軌跡）；

? UI導(dǎo)航數(shù)據(jù)（如網(wǎng)頁點(diǎn)擊、APP操作）；

? 多模態(tài)理解數(shù)據(jù)（如圖像描述、視覺問答）。

4.4.3 性能表現(xiàn)

Magma是目前唯一能覆蓋“多模態(tài)理解→UI接地→機(jī)器人操作”全任務(wù)譜的模型：

? 在“UI導(dǎo)航”任務(wù)中，“點(diǎn)擊指定按鈕”的成功率達(dá)96.3%，遠(yuǎn)超GPT-4V的67.5%；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在真實(shí)WidowX機(jī)器人上，“放置蘑菇到鍋中”“推動布料”等任務(wù)的平均成功率達(dá)67.5%，是OpenVLA（25.0%）的2.7倍；

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在“空間推理”任務(wù)中，“網(wǎng)格定位”“迷宮導(dǎo)航”的準(zhǔn)確率超過LLaVA-1.5、Qwen-VL等模型20%以上。

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第五章挑戰(zhàn)與未來：走向“會思考”的具身智能體

盡管技術(shù)已取得突破，當(dāng)前具身智能體仍存在兩大核心短板：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

5.1 多模態(tài)推理能力不足

現(xiàn)有模型缺乏“系統(tǒng)2思考”（即深度邏輯推理）能力。例如面對“如何修理故障的微波爐”，模型無法像人類一樣拆解“檢查電源→打開外殼→更換零件”的邏輯鏈。雖有LMM-R1等模型嘗試引入“思維鏈（Chain-of-Thought）”，但在多模態(tài)場景下的推理精度仍需提升。

5.2 多模態(tài)規(guī)劃能力欠缺

復(fù)雜任務(wù)需“多步規(guī)劃+自我修正”，而現(xiàn)有模型多局限于“單步動作”。例如“清理桌子”需分解為“收起餐具→擦拭臺面→收納雜物”，但模型難以自主規(guī)劃步驟，也無法在“擦拭臺面后發(fā)現(xiàn)殘留污漬”時(shí)進(jìn)行修正。Pi 0.5等模型雖嘗試解決這一問題，但在開放場景中的泛化能力仍有限。

5.3 未來方向：進(jìn)入“體驗(yàn)時(shí)代”

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如DeepMind創(chuàng)始人David Silver提出的“AI發(fā)展三階段”（模擬時(shí)代→人類數(shù)據(jù)時(shí)代→體驗(yàn)時(shí)代），具身智能體的終極目標(biāo)是“在真實(shí)環(huán)境中通過自主體驗(yàn)學(xué)習(xí)”。未來技術(shù)將聚焦三大方向：

Meta團(tuán)隊(duì)CVPR'25教程：感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?融合多智能：整合“語言智能”（理解指令）、“視覺智能”（感知環(huán)境）、“時(shí)空智能”（捕捉物體位置與運(yùn)動）；

?低成本數(shù)據(jù)：進(jìn)一步利用人類視頻、仿真環(huán)境數(shù)據(jù)，降低機(jī)器人數(shù)據(jù)依賴；

?長程規(guī)劃：提升“多步任務(wù)拆解+動態(tài)修正”能力，讓智能體在未知環(huán)境中自主解決復(fù)雜問題。

參考資料

? 標(biāo)題：Towards Multimodal AI Agent That Can See, Think and Act

? 作者：Jianwei Yang

? 單位：Meta AGI

? 鏈接：https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Jianwei.pdf

本文轉(zhuǎn)載自????旺知識??，作者：旺知識

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta推出開放世界具身問答數(shù)據(jù)集OpenEQA：視覺大模型在具身智能上還有很長的路要走！

AIGC最前線 ? 5437瀏覽 ? 0回復(fù)
一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評估/應(yīng)用）

angel ? 7874瀏覽 ? 0回復(fù)
具身智能體三維感知新鏈條，TeleAI &上海AI Lab提出多視角融合具身模型「SAM-E」

輕薄滴假象 ? 5408瀏覽 ? 0回復(fù)
行動、變化與智能：人工智能中的推理機(jī)制

xuxiangda ? 4367瀏覽 ? 0回復(fù)
具身智能又進(jìn)一步！卡內(nèi)基梅隆&Meta&蘇黎世聯(lián)邦實(shí)現(xiàn)虛擬人超靈活抓取

angel ? 4329瀏覽 ? 0回復(fù)
具身智能成敗之關(guān)鍵！干貨長文首次全面回顧具身智能領(lǐng)域中的視覺-語言-動作模型！

angel ? 9677瀏覽 ? 0回復(fù)
什么是具身智能模型，它和普通大模型有什么區(qū)別？

AI探索時(shí)代 ? 5770瀏覽 ? 0回復(fù)
NeurIPS`24 | 超25萬對助力具身智能！3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI

angel ? 5268瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 1.4w瀏覽 ? 0回復(fù)
多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

angel ? 4349瀏覽 ? 0回復(fù)
12個真實(shí)世界機(jī)器人任務(wù)成功率超OpenVLA 24.17% | EMMA-X：7B具身多模態(tài)動作模型

angel ? 6462瀏覽 ? 0回復(fù)
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 1.3w瀏覽 ? 0回復(fù)
大模型驅(qū)動空間智能綜述：具身智能體、智慧城市與地球科學(xué)的進(jìn)展

歐米伽未來研究所 ? 3957瀏覽 ? 0回復(fù)
基礎(chǔ)智能體的進(jìn)展與挑戰(zhàn)：自進(jìn)化機(jī)制和構(gòu)建群體MAS系統(tǒng)

數(shù)智飛輪 ? 4034瀏覽 ? 0回復(fù)
多智能體具身智能絕對是下一個AI爆點(diǎn)

PyTorch研習(xí)社 ? 2222瀏覽 ? 0回復(fù)
2025年業(yè)界AI智能體技術(shù)進(jìn)展與趨勢報(bào)告

十一月雨_55 ? 6495瀏覽 ? 0回復(fù)
一文看懂啥是具身智能、VLM 和 VLA

智駐未來 ? 6605瀏覽 ? 0回復(fù)
大模型賦能的具身智能：自主決策和具身學(xué)習(xí)技術(shù)最新綜述

柏企閱文 ? 2899瀏覽 ? 0回復(fù)
微軟CVPR'25簡明教程：強(qiáng)化學(xué)習(xí)訓(xùn)練多模態(tài)智能體，構(gòu)建感知思考行動完整閉環(huán)！

十一月雨_55 ? 4297瀏覽 ? 0回復(fù)

十一月雨_55

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

NeurIPS'25香港城大+騰訊+浙大Retrv-R1：“壓縮 + 推理“驅(qū)動多模態(tài)檢索效率效果新SOTA 4天前發(fā)布
Meta提出DreamGym：合成經(jīng)驗(yàn)把Agent學(xué)習(xí)成本砍掉 80%，效果超SOTA 30% 2025-11-12 00:17:14發(fā)布

熱門推薦

阿里通義DeepResearch技術(shù)報(bào)告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術(shù)新標(biāo)桿！ 0回復(fù)

ICLR25賓大提出REGENT：檢索增強(qiáng)通用智能體，看兩眼就會學(xué)新技能，1.38億參數(shù)打贏百億模型 0回復(fù)

用 Cognee 構(gòu)建端到端知識圖譜，實(shí)現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

上一篇： NeurIPS'25 智能體最新技術(shù)即時(shí)洞察：6大方向、代表論文、發(fā)展趨勢

下一篇： ICML'25南洋理工+阿里：反事實(shí)RL實(shí)現(xiàn)VLM智能體高效在線調(diào)優(yōu)，成功率漲12%

社區(qū)精華內(nèi)容

目錄

国外色69视频在线观看| 亚洲电影激情视频网站| 成人国产精品视频| 亚洲欧美日韩精品一区二区| 欧美一区二区三区播放老司机| 欧美中文字幕在线观看视频| 婷婷在线免费视频| 日韩成人午夜电影| 欧美插天视频在线播放| 91久久免费视频| 91久久青草| 岛国精品视频在线播放| 中文字幕中文字幕在线中一区高清| 亚洲精品视频专区| 青青草97国产精品免费观看无弹窗版| 色中色综合影院手机版在线观看| 男人操女人动态图| 9l亚洲国产成人精品一区二三| 欧美综合欧美视频| 人妻av无码专区| 午夜视频在线观看网站| 国产成+人+日韩+欧美+亚洲| 国产精品免费久久久| 国产精品18p| 无码一区二区三区视频| 亚洲片av在线| 国产黄色三级网站| 日韩三级精品| 91超碰这里只有精品国产| 不卡影院一区二区| 九色porny自拍视频在线播放 | 污污的视频免费观看| 日韩激情电影| 午夜精品一区二区三区电影天堂| 国产手机视频在线观看| 91在线视频| wwwwww.欧美系列| 精品国产_亚洲人成在线| 国产成年妇视频| 极品美女销魂一区二区三区| 国产精品亚洲视频在线观看| 久久久久亚洲av成人毛片韩| 亚洲免费激情| 久久免费国产视频| 精品国产乱码久久久久久鸭王1 | www.国产com| 在线欧美福利| 久久久人成影片一区二区三区观看| 免费看特级毛片| 亚洲啊v在线观看| 日韩视频免费在线| 91禁男男在线观看| 日韩欧美午夜| 日韩在线观看免费网站| 国产在线免费av| 北条麻妃国产九九九精品小说 | 免费看污黄网站在线观看| 老司机aⅴ在线精品导航 | 挪威xxxx性hd极品| 国产图片一区| 亚洲国产精品久久久久| 一级特级黄色片| 九九热爱视频精品视频| 国产亚洲欧美aaaa| 91ts人妖另类精品系列| 国产精品福利在线观看播放| 久久中文久久字幕| 久久久久黄色片| 亚洲欧洲一级| 亲子乱一区二区三区电影| 51国产偷自视频区视频| 奇米色777欧美一区二区| 国产精品久久久久久久久影视| 久草热久草热线频97精品| 国产欧美日韩在线| 日韩午夜在线| 91精品国产91久久久久| 99久久久无码国产精品免费蜜柚 | 中国丰满人妻videoshd | 欧美精品激情| 国内精品小视频在线观看| 国产成人精品亚洲男人的天堂| 日韩亚洲国产精品| 国产成人福利视频| 91麻豆国产视频| 国产成人精品免费在线| 国产一区福利视频| 成人精品福利| 亚洲视频资源在线| 国产av人人夜夜澡人人爽麻豆| 性欧美xxx69hd高清| 欧美写真视频网站| 午夜视频在线免费看| 欧美日韩一区二区三区在线电影 | 9191国产精品| 国产精品嫩草av| 国产精品成人一区二区不卡| 性欧美xxxx交| 在线观看日韩一区二区| 国产不卡视频在线播放| 日韩欧美激情一区二区| 中文字幕在线三区| 欧美色视频日本版| 男男受被啪到高潮自述| 国产传媒欧美日韩成人精品大片| 日韩亚洲在线观看| 亚洲婷婷综合网| 国产精品一级在线| 日韩免费中文专区| h视频在线播放| 啪啪国产精品| 亚洲免费小视频| 性欧美videos| 秋霞成人午夜伦在线观看| 精品国产乱码久久久久软件| 黄色免费在线观看网站| 日本黄色一区二区| 这里只有精品在线观看视频| 图片区亚洲欧美小说区| 日本久久久久久久| 黄色一级大片在线免费看国产| 中文子幕无线码一区tr| 亚洲美免无码中文字幕在线| 国产免费区一区二区三视频免费 | 国产一级免费片| 五月久久久综合一区二区小说| 青青久久av北条麻妃海外网| 亚洲高清精品视频| 亚洲精品写真福利| 天天干天天av| 欧美gay男男猛男无套| 日本亚洲欧洲色| 亚洲欧美一区二区三| 亚洲综合区在线| 亚欧美一区二区三区| 999国产精品视频| 国产精品综合网站| 国产青青草在线| 色欧美日韩亚洲| 天天躁日日躁aaaxxⅹ| 夜夜爽av福利精品导航| 国产伦精品一区| 国产蜜臀在线| 精品国产91乱码一区二区三区 | 国产精品区一区二区三在线播放| 欧美成人二区| 欧美日韩一区三区| 欧美另类69xxxx| 久久电影国产免费久久电影| 欧洲精品亚洲精品| 欧美freesex| 亚洲香蕉伊综合在人在线视看| 久久精品五月天| 久久久久国色av免费看影院| 欧美激情成人网| 精品国产91乱码一区二区三区四区| 茄子视频成人在线| 国产精品秘入口| 欧美日韩小视频| 小早川怜子一区二区的演员表| 久久国产三级精品| 久久久一二三四| 日韩精品一区二区三区免费视频| 欧美精品在线免费播放| 欧美一级在线免费观看| 丰满岳妇乱一区二区三区| 中文字幕国产综合| 美女视频黄久久| av电影一区二区三区| 2020国产精品极品色在线观看| 91精品国产精品| 成人欧美亚洲| 日韩视频免费观看高清完整版在线观看 | 国产精品高潮呻吟久久av无限 | 欧美交受高潮1| 人人妻人人澡人人爽久久av| 91激情五月电影| 麻豆网址在线观看| 成人动漫在线一区| www日韩视频| 亚洲男女av一区二区| 国产精品一区视频| 精品视频在线一区二区在线| 久久av中文字幕| 日本一二三区在线视频| 欧美日韩在线综合| 精品亚洲永久免费| 国产亲近乱来精品视频| 污视频在线观看免费网站| 国产日产高清欧美一区二区三区| 日韩资源av在线| 久久伊人精品| 日本不卡高字幕在线2019| 日本a在线播放| 日韩电影免费在线观看中文字幕 | 欧美成人黑人| 欧美老女人性生活| 国产三级视频在线| 精品sm捆绑视频| 91午夜交换视频| 婷婷综合另类小说色区| 5566中文字幕| 91丨九色丨黑人外教| 91aaa精品| 日本vs亚洲vs韩国一区三区二区| 高清无码视频直接看| 欧美日韩精品一区二区视频| 国产伦精品一区二区三区视频孕妇| www.精品国产| 欧美在线视频网站| 欧美1—12sexvideos| 中文字幕一区二区三区电影| 神马午夜电影一区二区三区在线观看 | 欧美尺度大的性做爰视频| 国产黄色在线播放| 亚洲成人激情在线| 99久久精品国产色欲| 91高清视频在线| 亚洲伊人成人网| 亚洲v精品v日韩v欧美v专区| 日本不卡一二区| 国产精品美女久久久久久久久| 亚洲AV无码国产精品| 粉嫩aⅴ一区二区三区四区五区| 精品久久久99| 蜜桃久久av一区| 日韩亚洲在线视频| 性欧美xxxx大乳国产app| 国产美女主播在线| 欧美a级一区| 中文字幕色呦呦| 国产二区精品| 中文字幕一区二区三区四区五区| 成人同人动漫免费观看| 色爱区成人综合网| 国产综合久久久| 日韩在线第一区| 精品久久一区| 午夜精品视频在线观看一区二区 | 成人精品小蝌蚪| 国产调教打屁股xxxx网站| 国产一区二区三区一级| 久久国产这里只有精品| 青椒成人免费视频| 日韩免费高清在线| 日韩国产在线观看| 亚洲黄色a v| 久久成人综合网| www.久久av.com| 国产激情91久久精品导航| 无码人妻一区二区三区在线视频| 国产在线精品免费av| 污视频在线观看免费网站| 国产suv一区二区三区88区| 亚洲一区二区三区四区av| 99精品视频在线观看免费| 野花社区视频在线观看| 久久综合一区二区| 97人妻精品一区二区免费| 日本一区二区三区在线不卡| 人人艹在线视频| 一区二区三区在线高清| 日操夜操天天操| 色综合咪咪久久| 亚洲天堂aaa| 日韩欧美一区二区三区在线| 秋霞欧美在线观看| 亚洲欧洲一区二区三区久久| 麻豆视频免费在线观看| 欧美激情视频免费观看| 午夜影院在线播放| 国产精品美女呻吟| 日本超碰一区二区| 久久国产精品一区二区三区| 成人激情视频| 99re6这里有精品热视频| 国产亚洲精品久久久久婷婷瑜伽| 老熟妇仑乱视频一区二区| 精品中文av资源站在线观看| 日本美女视频网站| 国产日韩精品视频一区| 中文字幕电影av| 精品国产乱码久久久久酒店 | 欧洲猛交xxxx乱大交3| 婷婷久久综合九色国产成人| 午夜一级黄色片| 欧美大肚乱孕交hd孕妇| 免费福利在线观看| 欧美成人精品三级在线观看 | 在线中文字幕一区| 国产黄色一级大片| 亚洲午夜色婷婷在线| 伊人影院在线视频| 国产精品久久精品| 日韩中文字幕无砖| 亚洲国产精品一区二区第一页| 国产精品激情| 午夜视频你懂的| 不卡区在线中文字幕| 日韩欧美在线视频播放| 黄色一区二区三区| 国产精品久久777777换脸| 亚洲а∨天堂久久精品9966| 2019中文字幕在线视频| 欧美性做爰毛片| 日韩精品中文字幕吗一区二区| 欧美最大成人综合网| 一区在线免费观看| 国产5g成人5g天天爽| 国产无一区二区| 亚洲国产综合久久| 337p亚洲精品色噜噜| 国产视频二区在线观看| 久久久久久亚洲精品| 伊人久久精品| 一区二区在线不卡| 日韩高清在线不卡| 三叶草欧洲码在线| 亚洲综合激情另类小说区| 97成人在线观看| 伊人青青综合网站| 欧美色网一区| 久久久亚洲综合网站| 亚洲精品字幕| 久久久久亚洲AV成人网人人小说| 日韩毛片精品高清免费| 无码久久精品国产亚洲av影片| 亚洲福利影片在线| 男女在线视频| 官网99热精品| 中国成人一区| 久久精品国产99久久99久久久| 国产精品网站一区| 国产精品国产精品国产| 亚洲欧美中文日韩在线| 综合久久2023| 久久涩涩网站| 亚洲一区国产一区| 亚洲国产精品一区二区第四页av| 最近在线中文字幕| 成人av免费看| 黑人一区二区三区四区五区| 亚洲一区二区图片| 亚洲欧美自拍偷拍色图| 岳乳丰满一区二区三区| 最近2019免费中文字幕视频三| 欧美色片在线观看| 手机在线观看国产精品| 青娱乐精品在线视频| 992在线观看| 欧美精品粉嫩高潮一区二区| 国产高清一区二区三区视频 | 中文字幕的久久| 91精品在线视频观看| 美日韩精品免费视频| 亚洲日本视频在线| 亚洲熟妇无码一区二区三区导航| 99久久精品国产毛片| 狠狠人妻久久久久久| 在线免费观看羞羞视频一区二区| 欧美日韩卡一| 日韩国产小视频| 99久久精品国产精品久久| 伦av综合一区| www.日韩.com| 国产精品超碰| 成人精品视频一区二区| 国产精品白丝jk黑袜喷水| 欧美精品福利在线| xxxxx日韩| 成人在线中文字幕| 欧美三区美女| 欧美丰满少妇人妻精品| 91福利资源站| 制服丝袜中文字幕在线| 久久99精品久久久久久青青日本| 老牛嫩草一区二区三区日本| 殴美一级黄色片| 亚洲精品一区二区三区福利| 亚洲欧美se| 午夜啪啪免费视频| 99re热这里只有精品免费视频| 波多野结衣家庭主妇| 欧美成人精品激情在线观看| 西瓜成人精品人成网站| xxx国产在线观看| 亚洲高清免费视频| 北条麻妃在线| 超碰97在线播放| 奇米精品一区二区三区在线观看| 日韩欧美中文字幕视频| 亚洲人成网站777色婷婷| 91麻豆精品国产综合久久久 | 亚洲精品黄网在线观看| 精品久久在线| 丰满少妇大力进入| 中文字幕精品在线不卡| 三级视频在线看| 91精品综合久久久久久五月天| 一本色道久久综合亚洲精品高清 |