精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢

發(fā)布于 2025-9-25 06:51
瀏覽
0收藏

當(dāng)你結(jié)束一天的工作,期待AI能自主整理雜亂的桌面、按照需求烹飪簡單的餐食,甚至協(xié)助完成家電維修時(shí),是否曾疑惑:為何現(xiàn)有AI多局限于屏幕交互,難以真正“走進(jìn)”物理世界?這一問題的核心,指向了AI領(lǐng)域的關(guān)鍵方向——具身智能體(Embodied AI Agent)。Meta超級智能實(shí)驗(yàn)室的Jianwei Yang團(tuán)隊(duì)CVPR2025發(fā)布的教程系統(tǒng)梳理了多模態(tài)具身智能體從“感知環(huán)境”到“邏輯思考”再到“自主行動”的技術(shù)路徑,為我們揭示了多模態(tài)具身智能體領(lǐng)域的突破與未來可能。

第一章 具身智能體:定義與需求原點(diǎn)

1.1 為什么需要具身智能體?

人類對“自主助手”的需求從未停止,而具身智能體正是這一需求的技術(shù)載體。其應(yīng)用場景已覆蓋三大核心領(lǐng)域:

?自動駕駛:無需人類干預(yù),自主感知路況、規(guī)避障礙、規(guī)劃路線;

?工業(yè)機(jī)器人:在工廠環(huán)境中完成精密組裝、物料搬運(yùn)等重復(fù)性任務(wù);

?家用機(jī)器人:處理清潔、收納、看護(hù)等日常繁瑣事務(wù),降低人類生活負(fù)擔(dān)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如研究中指出的,人類長期夢想擁有能“融入生活”的自主AI智能體,而具身智能體正是實(shí)現(xiàn)這一夢想的關(guān)鍵技術(shù)形態(tài)。

1.2 什么是具身智能體?

根據(jù)Wikipedia定義,具身智能體是“能夠感知環(huán)境、自主采取行動以實(shí)現(xiàn)目標(biāo),并可通過機(jī)器學(xué)習(xí)或知識獲取提升性能的實(shí)體”。微軟研究院進(jìn)一步將其核心能力拆解為兩大維度:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?多模態(tài)理解:接收視覺、觸覺等多感官輸入,構(gòu)建對環(huán)境的完整認(rèn)知(例如通過攝像頭識別物體位置,通過觸覺感知物體重量);

?動作預(yù)測:基于環(huán)境認(rèn)知和目標(biāo),生成與環(huán)境交互、操縱物體的行動指令(例如“將杯子放到餐桌上”的具體動作序列)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

簡言之,具身智能體的核心目標(biāo)是“像人類一樣,在物理世界中自主解決問題”。

第二章 多模態(tài)具身智能體的發(fā)展浪潮

2.1 技術(shù)演進(jìn)時(shí)間線:從基礎(chǔ)到突破

具身智能體的關(guān)鍵發(fā)展節(jié)點(diǎn),呈現(xiàn)出清晰的技術(shù)迭代路徑:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?2023年前:基礎(chǔ)模型探索期,代表成果包括DroidBot-GPT(結(jié)合LLM的機(jī)器人控制)、WebAgent(網(wǎng)頁交互智能體),此時(shí)模型多聚焦單一模態(tài)或特定任務(wù),泛化能力有限;

?2024年:多模態(tài)融合加速期,RT-2X(視覺-語言-動作跨模態(tài)模型)、AppAgent(應(yīng)用交互智能體)、TraceVLA(引入軌跡提示的VLA模型)、OpenVLA(開源視覺-語言-動作模型)等相繼出現(xiàn),模型開始具備跨場景適應(yīng)能力;

?2025+:通用化探索期,方向集中于“更強(qiáng)的推理與規(guī)劃能力”,目標(biāo)是讓智能體在未知環(huán)境中自主拆解復(fù)雜任務(wù)(例如“清理廚房”分解為“整理臺面→清洗餐具→收納物品”)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

2.2 視覺語言預(yù)訓(xùn)練(VLP):“看見”的基礎(chǔ)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

要實(shí)現(xiàn)“感知環(huán)境”,視覺語言預(yù)訓(xùn)練(VLP)模型是核心支撐。這類模型通過大規(guī)模圖像-文本數(shù)據(jù)學(xué)習(xí),具備兩大關(guān)鍵能力:

?開放詞匯(Open-vocabulary):無需針對特定物體重新訓(xùn)練,即可識別未見過的類別(例如訓(xùn)練過“貓”“狗”后,能識別“兔子”);

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?空間接地(Spatially grounded):精準(zhǔn)定位物體在空間中的位置(例如指出“杯子在桌子左上角”)。

代表性模型包括:

?CLIP(OpenAI):通過對比學(xué)習(xí)將圖像與文本映射到同一特征空間,實(shí)現(xiàn)零樣本物體識別;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?Florence(Microsoft Research):構(gòu)建“統(tǒng)一視覺?!?,支持分類、檢測、分割等44項(xiàng)視覺任務(wù),在多個基準(zhǔn)測試中達(dá)到state-of-the-art(SOTA);

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?GLIP、Grounding DINO:進(jìn)一步強(qiáng)化“文本-空間定位”關(guān)聯(lián),例如輸入“黑色小狗”,可直接輸出小狗的邊界框。


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


第三章 “思考”的核心:多模態(tài)大語言模型(MLLM)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

具身智能體僅“看見”還不夠,還需具備“理解指令、邏輯推理”的能力——這一功能由多模態(tài)大語言模型(MLLM)實(shí)現(xiàn)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.1 MLLM的視覺理解能力

MLLM通過融合視覺編碼器與語言模型,實(shí)現(xiàn)“圖像輸入+語言輸出”的跨模態(tài)交互。以GPT-4V(OpenAI,2023)為例:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?極端熨燙場景:輸入“人在移動的出租車頂熨衣服”的圖像,GPT-4V能準(zhǔn)確指出“異常點(diǎn)在于熨燙行為發(fā)生在移動車輛頂部,而非固定的室內(nèi)環(huán)境”;

?雞塊地圖 meme:輸入“用雞塊擺成世界地圖”的圖像,GPT-4V可解讀出“文本暗示‘太空看地球的美景’,但圖像實(shí)際是雞塊,幽默源于預(yù)期與現(xiàn)實(shí)的反差”。

3.2 視覺指令調(diào)優(yōu):讓MLLM“聽懂需求”

LLaVA(Large Language and Vision Assistant)的研究提出了兩階段訓(xùn)練方法,大幅降低MLLM的落地成本:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 對齊階段:僅訓(xùn)練“視覺編碼器與語言模型之間的投影權(quán)重(W)”,使用圖像-文本對讓兩者“理解同一語義”,8×A100 GPU僅需數(shù)小時(shí);

? 指令跟隨階段:用指令數(shù)據(jù)(如“描述這張圖”“這張圖里有什么異常”)微調(diào)投影權(quán)重與語言模型,8×A100 GPU不到1天即可完成。

這種方法實(shí)現(xiàn)了“低成本復(fù)現(xiàn)GPT-4V級視覺理解”,例如LLaVA對“車頂熨燙”場景的解讀,與GPT-4V的一致性超過90%。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

3.3 空間推理的突破:Set-of-Marks(SoM)技術(shù)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

傳統(tǒng)MLLM在“精準(zhǔn)空間定位”上存在短板,而SoM技術(shù)通過“圖像標(biāo)注+語言關(guān)聯(lián)”解決了這一問題。其核心是在圖像中添加數(shù)字標(biāo)記,讓模型將標(biāo)記與空間位置綁定:

?物體計(jì)數(shù):在水果籃圖像中標(biāo)記蘋果(1、2、5等)和橙子(3、4、6等),GPT-4V可準(zhǔn)確統(tǒng)計(jì)“6個蘋果、4個橙子”,錯誤率從傳統(tǒng)方法的20%降至5%以下;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?控制器操作指導(dǎo):在游戲手柄圖像中標(biāo)記按鍵(1為方向鍵、2為左搖桿等),模型可詳細(xì)說明“左搖桿(2)控制角色移動,右搖桿(3)控制鏡頭方向”,大幅提升操作指導(dǎo)的精準(zhǔn)度。


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第四章 “行動”的關(guān)鍵:視覺-語言-動作(VLA)模型

具身智能體的最終目標(biāo)是“行動”,而視覺-語言-動作(VLA)模型是連接“思考”與“行動”的橋梁。Jianwei Yang團(tuán)隊(duì)的研究重點(diǎn)分析了VLA模型的演進(jìn)——從OpenVLA的基礎(chǔ)探索,到TraceVLA、LAPA的技術(shù)補(bǔ)全,再到Magma的統(tǒng)一突破。

4.1 OpenVLA:開源VLA的基礎(chǔ)探索

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA是首個開源的通用VLA模型,其架構(gòu)核心是“多模態(tài)輸入→動作輸出”的端到端流程:

?輸入層:接收圖像(物體狀態(tài))與語言指令(如“把茄子放進(jìn)碗里”);

?特征融合:通過DinoV2(視覺編碼器)、SigLIP(圖像-文本對齊)提取特征,經(jīng)MLP投影后輸入Llama 2(7B參數(shù)語言模型);

?輸出層:通過“動作解令牌器”生成機(jī)器人可執(zhí)行的動作指令(如Δx=5cm、旋轉(zhuǎn)角度=10°)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

OpenVLA在“視覺泛化”“運(yùn)動泛化”等任務(wù)上表現(xiàn)優(yōu)異,例如在“拿起茄子”“翻轉(zhuǎn)鍋具”等未見場景中,成功率超過傳統(tǒng)模型30%。但它存在三大短板:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? 僅依賴單張圖像,無法捕捉歷史動作(如“機(jī)器人之前移動了多少距離”);

? 動作預(yù)測短視,無法規(guī)劃多步動作;

? 僅用機(jī)器人數(shù)據(jù)訓(xùn)練,易過擬合,丟失多模態(tài)理解能力。

4.2 TraceVLA:用“軌跡提示”補(bǔ)全歷史信息

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

為解決“歷史信息缺失”問題,TraceVLA提出“視覺軌跡提示”技術(shù):

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡提?。?/span>用CoTracker算法跟蹤視頻序列中“機(jī)器人末端執(zhí)行器”與“移動物體”的關(guān)鍵點(diǎn),生成運(yùn)動軌跡;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?軌跡疊加:將軌跡疊加到當(dāng)前圖像上(例如用虛線標(biāo)記機(jī)器人之前的移動路徑),形成“原始圖像+軌跡圖像”的雙輸入;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?指令融合:結(jié)合語言指令(如“把海綿移到藍(lán)色瓶子旁”),讓模型基于歷史軌跡預(yù)測下一步動作。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

在Google Robot的SimplerEnv環(huán)境中,TraceVLA的表現(xiàn)顯著優(yōu)于OpenVLA:面對“背景變化”場景,成功率從41.2%提升至52.3%;面對“干擾物增加”場景,成功率從54.3%提升至66.7%。在真實(shí)WidowX機(jī)器人上,“折疊布料”“拿起刀具”等任務(wù)的成功率也提升了40%以上。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.3 LAPA:從人類視頻中學(xué)習(xí)“潛在動作”

機(jī)器人數(shù)據(jù)采集成本高、場景有限,而LAPA(Latent Pretraining from Videos)提出“從人類視頻中學(xué)習(xí)動作”的思路,大幅降低數(shù)據(jù)依賴:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? 潛在動作量化:用C-ViViT(視頻編碼器)+VQ-VAE(向量量化)將人類動作(如“拿起杯子”)轉(zhuǎn)化為“潛在動作令牌”;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?預(yù)訓(xùn)練:用Large World Model(LWM-7B)學(xué)習(xí)“視頻幀→潛在動作”的映射關(guān)系;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?微調(diào):用少量機(jī)器人數(shù)據(jù)微調(diào),將人類動作轉(zhuǎn)化為機(jī)器人可執(zhí)行的指令。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

LAPA在“真實(shí)桌面操作”任務(wù)中,僅用人類視頻預(yù)訓(xùn)練,成功率就超過“從頭訓(xùn)練”模型2倍;若結(jié)合少量機(jī)器人數(shù)據(jù),成功率與“用全量機(jī)器人數(shù)據(jù)訓(xùn)練的OpenVLA”持平。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4 Magma:多模態(tài)統(tǒng)一的“終極突破”

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma是當(dāng)前最全面的具身智能體模型,其核心是“同時(shí)具備多模態(tài)理解與動作預(yù)測能力”,而非構(gòu)建單一功能的專用模型。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.1 技術(shù)架構(gòu)

?輸入層:支持圖像、視頻、語言指令、UI界面等多模態(tài)輸入;

?特征編碼器:用ConvNeXt-XXLarge(視覺)+Llama-3-8B(語言)提取跨模態(tài)特征;


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

?任務(wù)適配:通過SoM(Set-of-Marks)處理空間定位任務(wù),通過ToM(Trace-of-Mark)處理時(shí)序動作任務(wù)。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

4.4.2 訓(xùn)練數(shù)據(jù)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Magma使用3900萬條多源數(shù)據(jù),覆蓋四大類型:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


? instructional視頻(如人類做飯、維修的視頻);

? 機(jī)器人操作數(shù)據(jù)(如Open-X-Embodiment的940萬條軌跡);

? UI導(dǎo)航數(shù)據(jù)(如網(wǎng)頁點(diǎn)擊、APP操作);

? 多模態(tài)理解數(shù)據(jù)(如圖像描述、視覺問答)。

4.4.3 性能表現(xiàn)

Magma是目前唯一能覆蓋“多模態(tài)理解→UI接地→機(jī)器人操作”全任務(wù)譜的模型:

? 在“UI導(dǎo)航”任務(wù)中,“點(diǎn)擊指定按鈕”的成功率達(dá)96.3%,遠(yuǎn)超GPT-4V的67.5%;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在真實(shí)WidowX機(jī)器人上,“放置蘑菇到鍋中”“推動布料”等任務(wù)的平均成功率達(dá)67.5%,是OpenVLA(25.0%)的2.7倍;

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

? 在“空間推理”任務(wù)中,“網(wǎng)格定位”“迷宮導(dǎo)航”的準(zhǔn)確率超過LLaVA-1.5、Qwen-VL等模型20%以上。

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

第五章 挑戰(zhàn)與未來:走向“會思考”的具身智能體

盡管技術(shù)已取得突破,當(dāng)前具身智能體仍存在兩大核心短板:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

5.1 多模態(tài)推理能力不足

現(xiàn)有模型缺乏“系統(tǒng)2思考”(即深度邏輯推理)能力。例如面對“如何修理故障的微波爐”,模型無法像人類一樣拆解“檢查電源→打開外殼→更換零件”的邏輯鏈。雖有LMM-R1等模型嘗試引入“思維鏈(Chain-of-Thought)”,但在多模態(tài)場景下的推理精度仍需提升。

5.2 多模態(tài)規(guī)劃能力欠缺

復(fù)雜任務(wù)需“多步規(guī)劃+自我修正”,而現(xiàn)有模型多局限于“單步動作”。例如“清理桌子”需分解為“收起餐具→擦拭臺面→收納雜物”,但模型難以自主規(guī)劃步驟,也無法在“擦拭臺面后發(fā)現(xiàn)殘留污漬”時(shí)進(jìn)行修正。Pi 0.5等模型雖嘗試解決這一問題,但在開放場景中的泛化能力仍有限。

5.3 未來方向:進(jìn)入“體驗(yàn)時(shí)代”

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)

正如DeepMind創(chuàng)始人David Silver提出的“AI發(fā)展三階段”(模擬時(shí)代→人類數(shù)據(jù)時(shí)代→體驗(yàn)時(shí)代),具身智能體的終極目標(biāo)是“在真實(shí)環(huán)境中通過自主體驗(yàn)學(xué)習(xí)”。未來技術(shù)將聚焦三大方向:

Meta團(tuán)隊(duì)CVPR'25教程:感知-思考-行動(VLA)多模態(tài)具身智能體進(jìn)展與趨勢-AI.x社區(qū)


?融合多智能:整合“語言智能”(理解指令)、“視覺智能”(感知環(huán)境)、“時(shí)空智能”(捕捉物體位置與運(yùn)動);

?低成本數(shù)據(jù):進(jìn)一步利用人類視頻、仿真環(huán)境數(shù)據(jù),降低機(jī)器人數(shù)據(jù)依賴;

?長程規(guī)劃:提升“多步任務(wù)拆解+動態(tài)修正”能力,讓智能體在未知環(huán)境中自主解決復(fù)雜問題。

參考資料

? 標(biāo)題:Towards Multimodal AI Agent That Can See, Think and Act

? 作者:Jianwei Yang

? 單位:Meta AGI

? 鏈接:https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Jianwei.pdf

本文轉(zhuǎn)載自????旺知識??,作者:旺知識

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国外色69视频在线观看| 亚洲电影激情视频网站| 成人国产精品视频| 亚洲欧美日韩精品一区二区| 欧美一区二区三区播放老司机| 欧美中文字幕在线观看视频| 婷婷在线免费视频| 日韩成人午夜电影| 欧美插天视频在线播放| 91久久免费视频| 91久久青草| 岛国精品视频在线播放| 中文字幕中文字幕在线中一区高清| 亚洲精品视频专区| 青青草97国产精品免费观看无弹窗版| 色中色综合影院手机版在线观看| 男人操女人动态图| 9l亚洲国产成人精品一区二三| 欧美综合欧美视频| 人妻av无码专区| 午夜视频在线观看网站| 国产成+人+日韩+欧美+亚洲| 国产精品免费久久久| 国产精品18p| 无码一区二区三区视频| 亚洲片av在线| 国产黄色三级网站| 日韩三级精品| 91超碰这里只有精品国产| 不卡影院一区二区| 九色porny自拍视频在线播放 | 污污的视频免费观看| 日韩激情电影| 午夜精品一区二区三区电影天堂| 国产手机视频在线观看| 91在线视频| wwwwww.欧美系列| 精品国产_亚洲人成在线| 国产成年妇视频| 极品美女销魂一区二区三区| 国产精品亚洲视频在线观看| 久久久久亚洲av成人毛片韩| 亚洲免费激情| 久久免费国产视频| 精品国产乱码久久久久久鸭王1 | www.国产com| 在线欧美福利| 久久久人成影片一区二区三区观看| 免费看特级毛片| 亚洲啊v在线观看| 日韩视频免费在线| 91禁男男在线观看| 日韩欧美午夜| 日韩在线观看免费网站| 国产在线免费av| 北条麻妃国产九九九精品小说 | 免费看污黄网站在线观看| 老司机aⅴ在线精品导航 | 挪威xxxx性hd极品| 国产图片一区| 亚洲国产精品久久久久| 一级特级黄色片| 九九热爱视频精品视频| 国产亚洲欧美aaaa| 91ts人妖另类精品系列| 国产精品福利在线观看播放| 久久中文久久字幕| 久久久久黄色片| 亚洲欧洲一级| 亲子乱一区二区三区电影| 51国产偷自视频区视频| 奇米色777欧美一区二区| 国产精品久久久久久久久影视| 久草热久草热线频97精品| 国产 欧美 日韩 在线| 日韩午夜在线| 91精品国产91久久久久| 99久久久无码国产精品免费蜜柚 | 中国丰满人妻videoshd | 欧美精品激情| 国内精品小视频在线观看| 国产成人精品亚洲男人的天堂| 日韩亚洲国产精品| 国产成人福利视频| 91麻豆国产视频| 国产成人精品免费在线| 国产一区福利视频| 成人精品福利| 亚洲视频资源在线| 国产av人人夜夜澡人人爽麻豆| 性欧美xxx69hd高清| 欧美写真视频网站| 午夜视频在线免费看| 欧美日韩一区二区三区在线电影 | 9191国产精品| 国产精品嫩草av| 国产精品成人一区二区不卡| 性欧美xxxx交| 在线观看日韩一区二区| 国产不卡视频在线播放| 日韩欧美激情一区二区| 中文字幕在线三区| 欧美色视频日本版| 男男受被啪到高潮自述| 国产传媒欧美日韩成人精品大片| 日韩亚洲在线观看| 亚洲婷婷综合网| 国产精品一级在线| 日韩免费中文专区| h视频在线播放| 啪啪国产精品| 亚洲免费小视频| 性欧美videos| 秋霞成人午夜伦在线观看| 精品国产乱码久久久久软件| 黄色免费在线观看网站| 日本黄色一区二区| 这里只有精品在线观看视频| 图片区亚洲欧美小说区| 日本久久久久久久| 黄色一级大片在线免费看国产| 中文子幕无线码一区tr| 亚洲美免无码中文字幕在线| 国产免费区一区二区三视频免费 | 国产一级免费片| 五月久久久综合一区二区小说| 青青久久av北条麻妃海外网| 亚洲高清精品视频| 亚洲精品写真福利| 天天干天天av| 欧美gay男男猛男无套| 日本亚洲欧洲色| 亚洲欧美一区二区三| 亚洲综合区在线| 亚欧美一区二区三区| 999国产精品视频| 国产精品综合网站| 国产青青草在线| 色欧美日韩亚洲| 天天躁日日躁aaaxxⅹ| 夜夜爽av福利精品导航| 国产伦精品一区| 国产蜜臀在线| 精品国产91乱码一区二区三区 | 国产精品区一区二区三在线播放| 欧美成人二区| 欧美日韩一区三区| 欧美另类69xxxx| 久久电影国产免费久久电影| 欧洲精品亚洲精品| 欧美freesex| 亚洲香蕉伊综合在人在线视看| 久久精品五月天| 久久久久国色av免费看影院| 欧美激情成人网| 精品国产91乱码一区二区三区四区| 茄子视频成人在线| 国产精品秘入口| 欧美日韩小视频| 小早川怜子一区二区的演员表| 久久国产三级精品| 久久久一二三四| 日韩精品一区二区三区免费视频| 欧美精品在线免费播放| 欧美一级在线免费观看| 丰满岳妇乱一区二区三区| 中文字幕国产综合| 美女视频黄 久久| av电影一区二区三区| 2020国产精品极品色在线观看| 91精品国产精品| 成人欧美亚洲| 日韩视频免费观看高清完整版在线观看 | 国产精品高潮呻吟久久av无限 | 欧美交受高潮1| 人人妻人人澡人人爽久久av| 91激情五月电影| 麻豆网址在线观看| 成人动漫在线一区| www日韩视频| 亚洲男女av一区二区| 国产精品一区视频| 精品视频在线一区二区在线| 久久av中文字幕| 日本一二三区在线视频| 欧美日韩在线综合| 精品亚洲永久免费| 国产亲近乱来精品视频| 污视频在线观看免费网站| 国产日产高清欧美一区二区三区| 日韩资源av在线| 久久伊人精品| 日本不卡高字幕在线2019| 日本a在线播放| 日韩电影免费在线观看中文字幕 | 欧美成人黑人| 欧美老女人性生活| 国产三级视频在线| 精品sm捆绑视频| 91午夜交换视频| 婷婷综合另类小说色区| 5566中文字幕| 91丨九色丨黑人外教| 91aaa精品| 日本vs亚洲vs韩国一区三区二区| 高清无码视频直接看| 欧美日韩精品一区二区视频| 国产伦精品一区二区三区视频孕妇| www.精品国产| 欧美在线视频网站| 欧美1—12sexvideos| 中文字幕一区二区三区电影| 神马午夜电影一区二区三区在线观看 | 欧美尺度大的性做爰视频| 国产黄色在线播放| 亚洲成人激情在线| 99久久精品国产色欲| 91高清视频在线| 亚洲伊人成人网| 亚洲v精品v日韩v欧美v专区| 日本不卡一二区| 国产精品美女久久久久久久久| 亚洲AV无码国产精品| 粉嫩aⅴ一区二区三区四区五区| 精品久久久99| 蜜桃久久av一区| 日韩亚洲在线视频| 性欧美xxxx大乳国产app| 国产美女主播在线| 欧美a级一区| 中文字幕色呦呦| 国产二区精品| 中文字幕一区二区三区四区五区| 成人同人动漫免费观看| 色爱区成人综合网| 国产综合久久久| 日韩在线第一区| 精品久久一区| 午夜精品视频在线观看一区二区 | 成人精品小蝌蚪| 国产调教打屁股xxxx网站| 国产一区 二区 三区一级| 久久国产这里只有精品| 青椒成人免费视频| 日韩免费高清在线| 日韩国产在线观看| 亚洲黄色a v| 久久成人综合网| www.久久av.com| 国产激情91久久精品导航| 无码人妻一区二区三区在线视频| 国产在线精品免费av| 污视频在线观看免费网站| 国产suv一区二区三区88区| 亚洲一区二区三区四区av| 99精品视频在线观看免费| 野花社区视频在线观看| 久久综合一区二区| 97人妻精品一区二区免费| 日本一区二区三区在线不卡| 人人艹在线视频| 一区二区三区在线高清| 日操夜操天天操| 色综合咪咪久久| 亚洲天堂aaa| 日韩欧美一区二区三区在线| 秋霞欧美在线观看| 亚洲欧洲一区二区三区久久| 麻豆视频免费在线观看| 欧美激情视频免费观看| 午夜影院在线播放| 国产精品美女呻吟| 日本超碰一区二区| 久久国产精品一区二区三区| 成人激情视频| 99re6这里有精品热视频| 国产亚洲精品久久久久婷婷瑜伽| 老熟妇仑乱视频一区二区| 精品中文av资源站在线观看| 日本美女视频网站| 国产日韩精品视频一区| 中文字幕电影av| 精品国产乱码久久久久酒店 | 欧洲猛交xxxx乱大交3| 婷婷久久综合九色国产成人| 午夜一级黄色片| 欧美大肚乱孕交hd孕妇| 免费福利在线观看| 欧美成人精品三级在线观看 | 在线中文字幕一区| 国产黄色一级大片| 亚洲午夜色婷婷在线| 伊人影院在线视频| 国产精品久久精品| 日韩中文字幕无砖| 亚洲国产精品一区二区第一页| 国产精品激情| 午夜视频你懂的| 不卡区在线中文字幕| 日韩欧美在线视频播放| 黄色一区二区三区| 国产精品久久777777换脸| 亚洲а∨天堂久久精品9966| 2019中文字幕在线视频| 欧美性做爰毛片| 日韩精品中文字幕吗一区二区| 欧美最大成人综合网| 一区在线免费观看| 国产5g成人5g天天爽| 国产无一区二区| 亚洲国产综合久久| 337p亚洲精品色噜噜| 国产视频二区在线观看| 久久久久久亚洲精品| 伊人久久精品| 一区二区在线不卡| 日韩高清在线不卡| 三叶草欧洲码在线| 亚洲综合激情另类小说区| 97成人在线观看| 伊人青青综合网站| 欧美色网一区| 久久久亚洲综合网站| 亚洲精品字幕| 久久久久亚洲AV成人网人人小说| 日韩毛片精品高清免费| 无码久久精品国产亚洲av影片| 亚洲福利影片在线| 男女在线视频| 官网99热精品| 中国成人一区| 久久精品国产99久久99久久久| 国产精品网站一区| 国产精品国产精品国产| 亚洲欧美中文日韩在线| 综合久久2023| 久久涩涩网站| 亚洲一区国产一区| 亚洲国产精品一区二区第四页av| 最近在线中文字幕| 成人av免费看| 黑人一区二区三区四区五区| 亚洲一区二区图片| 亚洲欧美自拍偷拍色图| 岳乳丰满一区二区三区| 最近2019免费中文字幕视频三| 欧美色片在线观看| 手机在线观看国产精品| 青娱乐精品在线视频| 992在线观看| 欧美精品粉嫩高潮一区二区| 国产高清一区二区三区视频 | 中文字幕的久久| 91精品在线视频观看| 美日韩精品免费视频| 亚洲日本视频在线| 亚洲熟妇无码一区二区三区导航| 99久久精品国产毛片| 狠狠人妻久久久久久| 在线免费观看羞羞视频一区二区| 欧美日韩卡一| 日韩国产小视频| 99久久精品国产精品久久| 伦av综合一区| www.日韩.com| 国产精品超碰| 成人精品视频一区二区| 国产精品白丝jk黑袜喷水| 欧美精品福利在线| xxxxx日韩| 成人在线中文字幕| 欧美三区美女| 欧美丰满少妇人妻精品| 91福利资源站| 制服丝袜中文字幕在线| 久久99精品久久久久久青青日本| 老牛嫩草一区二区三区日本| 殴美一级黄色片| 亚洲精品一区二区三区福利| 亚洲欧美se| 午夜啪啪免费视频| 99re热这里只有精品免费视频| 波多野结衣家庭主妇| 欧美成人精品激情在线观看| 西瓜成人精品人成网站| xxx国产在线观看| 亚洲高清免费视频| 北条麻妃在线| 超碰97在线播放| 奇米精品一区二区三区在线观看| 日韩欧美中文字幕视频| 亚洲人成网站777色婷婷| 91麻豆精品国产综合久久久 | 亚洲精品黄网在线观看| 精品久久在线| 丰满少妇大力进入| 中文字幕精品在线不卡| 三级视频在线看| 91精品综合久久久久久五月天| 一本色道久久综合亚洲精品高清 |