精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型在具身推理上「翻車」了?4496 道題全面揭示短板

人工智能 新聞
本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。

祁煜,2023年本科畢業于北京大學信息科學技術學院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學習, 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發表過論文。

具身智能是近年來非常火概念。一個智能體(比如人)能夠在環境中完成感知、理解與決策的閉環,并通過環境反饋不斷進入新一輪循環,直至任務完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。

已經有很多優秀的工作把多模態大語言模型(MLLMs)部署在具身智能的不同應用上。盡管已經有不少相關工作評估過他們具身智能的潛力,但主要集中在子領域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導致一個任務的失敗。

BEAR基準

為了系統評估MLLM在具身智能的各個子能力,美國東北大學聯合香港中文大學,哈佛大學,提出了BEAR基準,并且提供了詳細的錯因分析和算法提升。

Arxiv鏈接:
https://arxiv.org/abs/2510.08759

Huggingface鏈接:
https://huggingface.co/papers/2510.08759

項目主頁:
https://bear-official66.github.io/

BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務規劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務中所需要具備的技能。

測評實驗

實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結論:

多模態大模型并不具備具身智能,目前在BEAR基準上表現最好的模型,GPT-5,也僅僅有52%的成功率。

通常情況,閉源模型比開源模型表現好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準上超過了GPT-4o, Claude等模型。

Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關系,在推理最終答案的時候起到了負面作用。

細粒度錯因統計

更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統計,分析顯示了如下幾個有趣的發現:

模型視覺全能能力不足是多個類別的主要瓶頸。具體表現為模型無法細致進行language grounding, 無法判斷軌跡走向,無法理解圖片中發生的動作。

模型3D能力不足主要體現在無法判斷第一人稱下的方向(左右關系),并且常常搞混相機在連續幀之間的移動走向。

對于長程推理,與高層規劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。

BEAR智能體設計全面提升大模型的具身能力

基于上面的發現,作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態領域,已經有一些工作通過畫輔助線和教會模型使用工具用來求解數學問題。受這樣工作的啟發,作者開發了BEAR-Agent,這是一個可對話的多模態智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。

仿真測試

進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環境,并且測試了3類任務,共12個語言指令。我們的實驗結果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環境上的表現,這表示著BEAR-Agent對Embodied Agent的潛力。

本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-20 08:47:53

2025-06-10 09:10:00

2022-09-23 09:53:41

機器人機器學習

2024-06-04 09:25:51

2025-10-14 09:04:00

2025-04-25 02:30:00

機械臂大模型多模態

2024-09-05 13:11:49

2025-07-10 14:55:12

機器人AI模型

2024-09-27 09:48:28

2025-02-21 09:37:00

2024-06-11 08:55:00

2024-12-19 14:44:22

2024-03-04 07:50:00

模型成果

2025-10-20 09:12:00

2023-12-23 23:16:36

機器人模型

2025-01-10 09:30:00

2025-05-21 08:47:00

點贊
收藏

51CTO技術棧公眾號

欧美精品日日鲁夜夜添| 国产精品久久一级| 欧洲美女免费图片一区| 日本爱爱爱视频| 日韩一区二区三区色| 欧美日韩国产在线看| 一个色的综合| 手机亚洲第一页| 精一区二区三区| 欧美综合在线第二页| 91麻豆免费视频网站| 网红女主播少妇精品视频| 4hu四虎永久在线影院成人| 男人添女荫道口图片| 午夜在线播放| 91网站在线播放| 99在线看视频| 国产又粗又猛又爽又黄的| 亚洲伦理精品| 久久国产视频网站| 中文字幕精品亚洲| 色综合久久中文| 日韩精品一区二区三区视频播放| 日本成人黄色网| а√天堂中文资源在线bt| 中文字幕制服丝袜一区二区三区| 久久本道综合色狠狠五月| 国产sm主人调教女m视频| 日韩电影一二三区| 欧美性受xxxx黑人猛交| 免费毛片在线播放免费| 欧美好骚综合网| 一区二区三区黄色| brazzers精品成人一区| 国产成人在线中文字幕| 日韩欧美国产一区二区三区| 九九热免费在线观看| 成人在线高清| 91久久精品国产91性色tv| 国产91在线视频观看| 成人影院在线播放| 夜夜爽夜夜爽精品视频| 老司机激情视频| 51xtv成人影院| 亚洲欧美日本在线| 在线观看成人免费| 欧美一级二级三级区| 亚洲国产高清aⅴ视频| 欧美日韩一区综合| 欧美日韩国产中文字幕在线| 91在线视频免费91| 久久av免费观看| 人成免费电影一二三区在线观看| 99精品国产视频| 久久av一区二区三区漫画| 青青免费在线视频| 久久久久久免费网| 亚洲精品一区二区三区av| 98在线视频| 中文字幕一区二区三中文字幕| 天堂av一区二区| 欧美日韩欧美| 一区二区三区在线看| 成年在线观看视频| 91超碰在线免费| 黑人与娇小精品av专区| 日韩一级在线免费观看| 成人不卡视频| 日韩欧美一区在线观看| 久草免费资源站| 蜜桃a∨噜噜一区二区三区| 亚洲视频在线看| 日本不卡一区视频| 欧美一区高清| 97在线观看视频| 精品无码一区二区三区的天堂| 日本午夜精品视频在线观看 | 国产无人区码熟妇毛片多| 亚洲欧美春色| 成人激情视频免费在线| 亚洲国产www| 97se狠狠狠综合亚洲狠狠| 亚洲 日韩 国产第一区| 国产超级va在线视频| 亚洲福利视频三区| 久久精品一区二| 国产激情一区| 精品亚洲国产成av人片传媒| 欧美色视频一区二区三区在线观看| 欧美日韩一区二区国产| 欧美一区二区色| 国产精品久久久午夜夜伦鲁鲁| 成人午夜av电影| 日产精品久久久一区二区| 成人ww免费完整版在线观看| 色综合天天综合给合国产| 国产成年人视频网站| 久久97精品| 久久精品国产精品亚洲| 亚洲另类在线观看| 国产麻豆成人精品| 极品尤物一区二区三区| 免费日本一区二区三区视频| 日韩欧美在线视频观看| 亚洲少妇一区二区| 日韩国产综合| 欧美中文在线字幕| 丁香花免费高清完整在线播放| 日本一区二区三区国色天香| www.国产在线视频| 成人亚洲精品| 一本一本久久a久久精品牛牛影视| 国产主播在线播放| 国产一区二区三区在线看麻豆| 久久久久综合一区二区三区| 污污视频在线看| 欧美日韩情趣电影| 亚洲av无码国产精品麻豆天美| 国模吧视频一区| 成人在线视频福利| av福利在线播放| 色狠狠桃花综合| 国产三级视频网站| 亚洲美女啪啪| 国产有色视频色综合| 91一区二区三区在线| 欧美日韩精品电影| 国产又粗又硬视频| 天使萌一区二区三区免费观看| 久久99精品久久久久久三级| 国模雨婷捆绑高清在线| 日韩亚洲欧美高清| 欧美做爰爽爽爽爽爽爽| 狠狠网亚洲精品| 国产高清免费在线| 色综合一区二区日本韩国亚洲| 一区二区欧美激情| 男人天堂视频网| 国产欧美一区二区精品性| 日本熟妇人妻中出| 国产一区二区亚洲| 国产精品高潮在线| 一级日本在线| 欧美日韩mp4| 日韩av毛片在线观看| 免费不卡在线观看| 五月天亚洲综合情| 久久日本片精品aaaaa国产| 最新中文字幕亚洲| 国产又粗又大又黄| √…a在线天堂一区| 波多野结衣网页| 欧美午夜电影在线观看| 国产日韩精品一区观看| 特黄毛片在线观看| 亚洲视频axxx| 中文字幕人妻一区二区三区视频 | 久久国产精品99精品国产| 亚洲成人午夜在线| 午夜不卡一区| 欧美激情精品久久久久久黑人| 成人毛片在线精品国产| 欧美日韩国产在线| 在线观看免费小视频| 精品一区二区三区香蕉蜜桃| 国产精品视频网站在线观看| 欧美激情久久久久久久久久久| 欧美最顶级的aⅴ艳星| 触手亚洲一区二区三区| 欧美精品久久一区二区三区| 免费在线视频观看| 99久久国产综合色|国产精品| www.玖玖玖| 久久美女精品| 国产精品污www一区二区三区| 欲香欲色天天天综合和网| 中文字幕在线看视频国产欧美| 99久久国产热无码精品免费| 亚洲动漫第一页| 三年中国中文观看免费播放| 国产在线精品一区在线观看麻豆| 分分操这里只有精品| 不卡中文字幕| 成人在线观看91| 日本.亚洲电影| 欧美韩日一区二区| 精品久久av| 日韩欧美的一区二区| 日韩电影在线观看一区二区| 亚洲欧美日韩精品久久久久| 中文字幕一区三区久久女搜查官| 麻豆精品视频在线观看视频| 欧美一级片免费播放| 久久精品国产99久久| 国产伦精品一区二区三区视频孕妇| 欧美va在线| 久久久久在线观看| 中文日本在线观看| 亚洲精品天天看| 亚洲卡一卡二卡三| 欧美日韩一区二区三区四区五区 | 黑人と日本人の交わりビデオ| 成人一区二区在线观看| 网站一区二区三区| 亚洲久久一区二区| 精品一区二区三区毛片| 欧美熟乱15p| 精品日韩美女| 日韩中文字幕在线一区| 国产精品高潮在线| 成人私拍视频| 97国产suv精品一区二区62| 欧美13一16娇小xxxx| 国产午夜精品麻豆| 秋霞网一区二区| 日韩欧美自拍偷拍| 一级特黄色大片| 欧美色图在线观看| www.久久精品视频| 懂色av影视一区二区三区| 激情视频在线播放| 亚洲色图视频网站| 青青青手机在线视频| 国产午夜精品在线观看| 精品国产人妻一区二区三区| 成人精品一区二区三区中文字幕| 超碰人人草人人| 蜜臀av一区二区在线免费观看| 2022亚洲天堂| 国产情侣一区| 自拍日韩亚洲一区在线| 精品成人免费| 人妻av无码专区| 国产精品第十页| 99久久免费观看| 黄色日韩在线| 一本久道高清无码视频| 好吊视频一区二区三区四区| 国产a级黄色大片| 午夜性色一区二区三区免费视频 | 色欲AV无码精品一区二区久久| 91影院在线观看| 少妇精品一区二区| 26uuu国产一区二区三区| 免费看黄色aaaaaa 片| 97久久超碰精品国产| 香港三日本8a三级少妇三级99| 成人亚洲一区二区一| 久久性爱视频网站| 99综合电影在线视频| 538国产视频| 久久婷婷综合激情| 先锋影音av在线| 日韩一区欧美一区| 欧美精品色哟哟| 性久久久久久久| 91精品国产高清一区二区三密臀| 色婷婷av一区二区| 亚洲中文字幕在线一区| 欧美一卡二卡在线| 欧美一区二区三区激情| 亚洲欧洲av一区二区| 9色在线视频| 欧美成人sm免费视频| 女同一区二区免费aⅴ| 26uuu另类亚洲欧美日本一| 亚洲www免费| 成人黄色大片在线免费观看| 成人av动漫| 日韩欧美亚洲日产国产| 91久久国产| av免费观看大全| 日韩av中文字幕一区二区三区 | 国产乱码精品一区二区三区亚洲人| 亚洲free性xxxx护士白浆| 国内露脸中年夫妇交换精品| 欧美日韩最好看的视频| 999视频精品| 999在线观看视频| 日韩成人免费电影| 日韩大尺度视频| 久久精品夜色噜噜亚洲aⅴ| 一区二区国产精品精华液| 五月天精品一区二区三区| 中文字幕视频免费观看| 亚洲成人精品视频在线观看| 毛片在线免费| 欧美韩国理论所午夜片917电影| 日韩av中字| 成人一区二区在线| 成人影视亚洲图片在线| 国产 日韩 欧美在线| 老司机精品视频在线| 自拍视频一区二区| ㊣最新国产の精品bt伙计久久| 毛片毛片女人毛片毛片| 91麻豆精品国产91久久久| 青青草在线免费视频| 久久精品中文字幕电影| 婷婷综合六月| 国产伦精品一区二区三区视频孕妇| 色喇叭免费久久综合| 内射国产内射夫妻免费频道| 国产在线观看免费一区| 中文字幕成人动漫| 亚洲成人午夜影院| 国产免费黄色网址| 国产亚洲视频在线观看| 麻豆mv在线观看| 国产精品二区二区三区| 91av精品| 久热精品在线播放| 久久精品夜色噜噜亚洲aⅴ| 日韩黄色一级大片| 日韩美女视频在线| 毛片在线视频| 国产精品青草久久久久福利99| 青青草这里只有精品| 黄色一级片国产| 国产高清视频一区| 国产激情无码一区二区三区| 在线一区二区三区四区五区 | 91美女蜜桃在线| 国产无遮挡免费视频| 日韩一区二区精品| 成人区精品一区二区不卡| 国产欧美一区二区三区视频| 国产中文精品久高清在线不| 免费黄色特级片| 91首页免费视频| 亚洲男人的天堂在线视频| 亚洲国产91色在线| 成人一级福利| 国产专区一区二区| 亚洲美女毛片| 亚洲欧美视频在线播放| 欧美日韩国产中文字幕| 人妻一区二区三区| 91精品国产777在线观看| 国语一区二区三区| 可以看毛片的网址| zzijzzij亚洲日本少妇熟睡| 国产真实乱偷精品视频| 亚洲激情视频在线| 免费毛片b在线观看| 精品久久久久久一区二区里番| 在线亚洲精品| a级片在线观看| 欧美日韩一区二区三区四区| 米奇精品一区二区三区| 亚洲最大的成人网| 黄色在线成人| 国产精品九九视频| 日本久久电影网| 69久久夜色| 亚洲在线第一页| 伊人久久亚洲影院| 亚洲av综合一区二区| 欧美日韩视频不卡| 搞黄网站在线观看| 成人一区二区三区四区| 性高湖久久久久久久久| 日本一级免费视频| 在线不卡一区二区| segui88久久综合9999| 任我爽在线视频精品一| 国产综合久久久久久鬼色| 久视频在线观看| 亚洲精品视频免费在线观看| 美女视频一区| 成人在线播放网址| 久久免费电影网| 97人妻一区二区精品免费视频| 欧美夫妻性视频| 三级小说欧洲区亚洲区| 污色网站在线观看| 亚洲综合视频网| 国产爆初菊在线观看免费视频网站| 成人黄色中文字幕| 亚洲片区在线| 国产黄色片在线| 亚洲国产精品久久久久| 偷拍精品精品一区二区三区| 99热都是精品| 91免费国产在线| 国产又黄又大又粗的视频| 97视频在线观看成人| 色一区二区三区四区| 人妻 日韩 欧美 综合 制服| 欧美在线啊v一区| 日本高清在线观看| 日本a级片久久久| 懂色av一区二区三区免费观看| 亚洲精品国产精品乱码视色| 久久99久久久久久久噜噜| 你懂的视频欧美| 国产原创剧情av| 538在线一区二区精品国产| 欧亚在线中文字幕免费| 公共露出暴露狂另类av|