精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)大模型理解物理工具嗎?PhysToolBench提出了衡量多模態(tài)大模型對物理工具理解的基準

人工智能 新聞
論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。

人類之所以能與復(fù)雜的物理世界高效互動,很大程度上源于對「工具」的使用、理解與創(chuàng)造能力。對任何通用型智能體而言,這同樣是不可或缺的基本技能,對物理工具的使用會大大影響任務(wù)的成功率與效率。

盡管當下的多模態(tài)大模型在具身智能的高層任務(wù)規(guī)劃以及低層動作執(zhí)行方面都展現(xiàn)出很大的潛力,但它們是否真正「懂」物理工具、理解其運作原理,仍缺乏統(tǒng)一的量化評估。

為此,來自香港科技大學(xué)(廣州)、香港科技大學(xué)等研究機構(gòu)的團隊提出了 PhysToolBench,一個衡量多模態(tài)大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級,分別為「認識」工具、「理解」工具、「創(chuàng)造」工具。

  • GitHub 鏈接:https://github.com/EnVision-Research/PhysToolBench
  • 論文鏈接:https://arxiv.org/abs/2510.09507
  • Hugging Face 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系統(tǒng)性地測試了 32 個最新的多模態(tài)大模型,包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類,測試出了他們對于物理工具的理解的不足。

PhysToolBench 介紹

機器人執(zhí)行任務(wù)的一般邏輯是,機器人會收到任務(wù)指令,并進行環(huán)境觀察,隨后再做出任務(wù)規(guī)劃或者一級動作執(zhí)行。因此,PhysToolBench 以視覺問答 (VQA) 的形式,設(shè)計了包含 1000+ 圖文配對的數(shù)據(jù)集,其中文字部分是任務(wù)描述,圖片是一個包含了各種工具的圖片,代表了機器人觀察到的環(huán)境,模型被要求觀察圖片,回答應(yīng)該使用的工具 (當判斷沒有工具可用時可以回答 None)。

三層能力評估:

  • Easy-工具識別 (Tool Recognition): 判斷模型是否認識工具以及知道它的主要功能;給定一個任務(wù),圖片中會包含一個最常用的能完成這個任務(wù)的工具。例如任務(wù)是切菜,圖片中會包含一把菜刀。
  • Medium-工具理解 (Tool Understanding): 判斷模型是否理解工具運作的基本原理;為了更細致地考驗多模態(tài)大模型的真實理解,這一難度又分為了三個子類別:
  • M1-工具屬性理解: 不僅僅需要知道物理工具的用途,還得知道它的物理、化學(xué)等屬性,從而選擇合適的工具。例如任務(wù)是高溫煎牛排,圖片中包含不粘鍋和鐵鍋,模型需要選擇鐵鍋因為其高溫耐受性。
  • M2-組合工具理解: 需要組合多種工具實現(xiàn)目標,以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如,需要組合遙控器和電池才能完成開電視機的任務(wù)。
  • M3-工具可用性理解: 給出的工具有損壞,模型需要識別出它不可用,以此來判斷模型是否真正理解物理工具「為什么可用」。例如,有一把沒有刀片的美工刀,模型需要理解它沒法完成切割的任務(wù)。
  • Hard-工具創(chuàng)造 (Tool Creation): 判斷模型是否能根據(jù)任務(wù)需求反推所需要的工具的能力。給定一個任務(wù),圖片中將不包含常規(guī)工具,模型需要利用環(huán)境物體「造工具」來完成任務(wù)。例如,當沒有螺絲刀可用時,可以用一元硬幣來擰一字螺絲。

評測范圍: 覆蓋 32 個最新的多模態(tài)大模型 (專有、開源、具身智能專用與 VLA 主干)。

實驗結(jié)果:

大模型在 PhysToolBench 上的答卷

各個多模態(tài)大模型在PhysToolBench上的總準確率(%)

頂級大模型表現(xiàn)仍然不理想

整體來看,閉源商用模型領(lǐng)跑,開源模型緊隨其后。且模型越「大」,模型越「強」。然而,即使是當前的頂級的大模型,在 PhysToolBench 上表現(xiàn)欠佳,總得分最高的模型為閉源商用模型 GPT-5,得分為 62.15%,在 M3 難度和 Hard 難度下,得分普遍低于 50%,和人類表現(xiàn)相去甚遠。

專用于 Embodied 場景的 MLLM 表現(xiàn)如何?

Robobrain2、Embodied-R1 等模型以 MLLM 為基模,并在 Embodied 相關(guān)數(shù)據(jù)集上進行了 finetune。然而,對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL,在同等參數(shù)量的情況下他們并沒有展現(xiàn)出領(lǐng)先優(yōu)勢,說明當今的 Embodied Reasoning 的數(shù)據(jù)集中關(guān)于工具使用的內(nèi)容仍然比較欠缺。

被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力?

研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,結(jié)果顯示,他們的表現(xiàn)比較糟糕,總得分普遍低于 20%。這說明它們盡管具備了一定的知識,但要完成更高階更復(fù)雜的任務(wù)或許還不夠。

深入分析

對工具的識別與理解存在長尾效應(yīng)。 即使是頂級的模型,在對一些工具的識別和理解上仍然存在長尾效應(yīng)。例如,模型對一些電子設(shè)備的識別與理解欠佳。

模型對工具「是否可用」理解很差。 在 M3 難度,PhysToolBench 特意設(shè)置了「陷阱」,但絕大多數(shù)模型都沒有識別出這個陷阱,仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低,說明大模型對工具的理解較為膚淺,僅僅是淺層的死記硬背工具與其功能的對應(yīng)關(guān)系,而并沒有對其為什么可用的深刻理解。這不僅僅會導(dǎo)致任務(wù)失敗,還會帶來一些安全隱患。

推理能力非常重要,但還遠遠不夠。 研究團隊對比了一些模型在使用/不使用思維鏈下的性能,發(fā)現(xiàn)使用思維鏈會帶來性能的提升,但對于一些難度較大的 case,例如 M3 難度和 Hard 難度,純文本層面的推理仍然會有瓶頸,模型無法抓取到存在于視覺模態(tài)當中的關(guān)鍵信息,導(dǎo)致推理仍然帶來不了正確的結(jié)果。研究團隊認為,以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關(guān)鍵,并提出了一個初步的以視覺為中心的推理的 Agent 框架,鼓勵推理過程中利用目標識別等工具放大觀察一些關(guān)鍵的工具,并進行額外推理。在 M3 難度上的實驗表明,這種推理方式能顯著提升模型的準確率,但仍然達不到令人滿意的水平。

不同模型使用不同推理方式的表現(xiàn)

對比:(a)文本層面推理 與 (b)視覺為中心的推理

總結(jié)

論文提出了測試多模態(tài)大模型對物理工具的理解的基準 PhysToolBench。通過系統(tǒng)性地設(shè)置不同層級以及廣泛的測試,PhysToolBench 揭示了當今多模態(tài)大模型對物理工具的理解的短板,也為未來的發(fā)展指明了方向:理解、運用和創(chuàng)造復(fù)雜的物理工具的能力,是邁向通用智能體不可或缺的一步,也是下一代多模態(tài)大模型需要提升的一步。

相關(guān)論文、代碼、數(shù)據(jù)集等均已公開公布。 感興趣的小伙伴可以進一步體驗和探索。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2025-05-07 01:00:00

多模態(tài)大模型AI

2025-05-21 08:47:00

2025-09-16 09:35:52

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2023-08-30 13:23:00

模型訓(xùn)練

2024-05-17 16:02:00

2023-06-28 13:55:30

模型AI

2023-07-17 11:02:36

模型開源

2024-11-11 15:11:23

2024-11-12 10:20:00

模型數(shù)據(jù)

2024-05-10 06:59:06

2025-10-15 14:02:29

AI模型自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號

夜鲁夜鲁夜鲁视频在线播放| 精品中文字幕久久久久久| 色播久久人人爽人人爽人人片视av| 国产美女视频免费| 国产精品日日摸夜夜爽| 91吃瓜网在线观看| 国产日韩欧美一区二区三区| 亚洲一级二级在线| 国产精品欧美在线| 无码人妻一区二区三区免费n鬼沢 久久久无码人妻精品无码 | 中文字幕欧美区| 午夜精品在线视频| 欧美体内she精高潮| 素人av在线| 日本成人在线视频网站| 亚洲国产高清自拍| 国产3p露脸普通话对白| 人妻va精品va欧美va| 欧美日韩影院| 精品国产髙清在线看国产毛片 | 雨宫琴音一区二区在线| 欧美一级欧美三级| 91精品国产吴梦梦| 午夜精品久久久久久久99| 欧美成人tv| 欧美sm美女调教| 福利视频免费在线观看| www.午夜激情| 裸体一区二区三区| 久久成年人免费电影| 日本黄色三级网站| 婷婷av在线| 99精品视频中文字幕| 欧美一区二区色| 国产特黄级aaaaa片免| 欧美极品影院| 国产精品毛片久久久久久久| 成人一区二区电影| 激情综合五月网| 国产精品色在线网站| 高跟丝袜一区二区三区| 欧美欧美一区二区| 国产男人搡女人免费视频| 水蜜桃精品av一区二区| 91精品国产免费| 精品国产av无码一区二区三区| 人人干在线视频| 国产盗摄一区二区三区| 97欧美精品一区二区三区| 波多野结衣不卡视频| 国内自拍欧美| 精品乱人伦小说| aaaaa黄色片| 亚洲不卡视频| 日韩欧美在线中文字幕| 亚洲综合第一| 人妻无码中文字幕| 成人深夜在线观看| 国产精品视频网站| 涩涩视频在线观看| 麻豆国产精品一区二区三区| 国产拍精品一二三| 日韩av男人天堂| 91久久夜色精品国产按摩| 中文字幕免费精品一区| av天堂一区二区| 高清日韩欧美| 精品无人区太爽高潮在线播放 | 亚洲美女福利视频| 久久亚洲综合| 欧美日韩国产成人在线观看| 精品无码一区二区三区 | 欧美亚一区二区| 国产毛片久久久久久国产毛片| 日本福利片高清在线观看| 极品少妇xxxx精品少妇偷拍| 欧洲亚洲女同hd| 九九视频在线免费观看| 激情综合激情| 日本高清+成人网在线观看| 免费看污视频的网站| 国产精品av一区二区| 欧美激情日韩图片| 国产在线免费看| 国产精品一线天粉嫩av| 少妇高潮 亚洲精品| 免费在线观看国产精品| 国产精品嫩草99av在线| 欧美激情精品在线| 国产成人精品网| 激情国产一区| 国产成人福利视频| 国产综合精品视频| 老色鬼精品视频在线观看播放| 97免费高清电视剧观看| 在线免费看av片| 丝袜美腿一区二区三区| 成人在线观看视频网站| 姝姝窝人体www聚色窝| 国产成人99久久亚洲综合精品| 国产伦精品免费视频| 天天干天天操天天操| 香蕉久久国产| 国模精品视频一区二区| 久久精品亚洲无码| 欧美日韩爆操| 国产精品美女视频网站| 欧日韩在线视频| 中文子幕无线码一区tr| 日韩xxxx视频| 欧美极品在线| 欧美日韩精品一区二区三区四区| 91淫黄看大片| 成人一级视频| 欧美久久一二区| 天堂在线一区二区三区| 亚洲一区二区小说| 91精品国产欧美一区二区18| b站大片免费直播| 国产一区日韩欧美| 久久久之久亚州精品露出| 中文字幕乱码中文字幕| 麻豆精品在线看| 快播亚洲色图| aaa日本高清在线播放免费观看| 亚洲国产精品一区二区久久 | 久久亚洲AV无码| 亚洲一级网站| 96sao精品视频在线观看| 99久久久久成人国产免费| 国产一区二区看久久| 99国精产品一二二线| 丰满人妻一区二区三区免费| 国产精品激情偷乱一区二区∴| 超碰成人在线免费观看| 日韩高清不卡| 7777精品伊人久久久大香线蕉最新版 | 三级黄色片网站| 国产一区二区三区四区大秀| 久久久女女女女999久久| 国产视频一区二区三| 国产精品久久久久久妇女6080| 欧美伦理视频在线观看| 国产欧美日韩精品高清二区综合区| 久久久久久综合网天天| 日韩色图在线观看| 91在线免费播放| 国产青青在线视频| 国产成人精品一区二区三区免费 | 美女爆乳18禁www久久久久久| 欧美日中文字幕| 久久99精品久久久久久琪琪| 国产精品无码久久久久成人app| 丁香天五香天堂综合| 欧美xxxx吸乳| 亚洲女同志freevdieo| 日韩电视剧在线观看免费网站| 国产女主播喷水高潮网红在线| 一区二区三区成人精品| 国产一区二区香蕉| 婷婷五月在线视频| 日韩午夜激情视频| 国产主播在线播放| av一区二区三区四区| 亚洲视频在线二区| 日韩专区视频| 亚洲精品中文字| 中文字幕免费高清网站| 国产精品婷婷午夜在线观看| 手机免费看av网站| 国产精品啊v在线| 久久精品成人一区二区三区蜜臀| 欧美高清视频| 欧美一级黄色大片| 男人的天堂一区| 国产一区二区女| 国产毛片久久久久久国产毛片| 色综合久久中文| 精品中文字幕在线2019| 人人妻人人澡人人爽久久av| 大伊人狠狠躁夜夜躁av一区| 中文字幕免费在线看线人动作大片| 国产综合自拍| 国新精品乱码一区二区三区18| 亚洲欧洲综合在线| 一区二区欧美在线观看| 奇米视频7777| 欧美手机视频| 欧洲成人免费视频| 色欧美激情视频在线| 欧美va亚洲va| 中文字幕第三页| 亚洲成人av福利| 国产精品综合激情| 日产欧产美韩系列久久99| 亚洲国产精品女人| 欧美网色网址| 69视频在线播放| 欧美 日韩 国产 成人 在线 91| 色婷婷av一区二区三区gif| 水蜜桃av无码| 99热这里只有成人精品国产| 日本精品二区| 亚洲日本网址| 一区二区亚洲欧洲国产日韩| 中文字幕在线观看视频免费| 亚洲乱码中文字幕综合| 中文字幕在线视频一区二区| 久久久久国产精品一区三寸 | 欧美色图国产精品| 国产区日韩欧美| 伊人久久大香| 国产成人av在线播放| 久久一卡二卡| 精品国产乱码久久久久久夜甘婷婷 | 黄色视屏免费在线观看| 91 com成人网| 波多野结衣视频网址| 亚洲成人中文在线| 免费三级在线观看| 国产成人在线色| 色91精品久久久久久久久| 天堂在线亚洲视频| 免费观看美女裸体网站| 国产精品mm| 91九色国产ts另类人妖| 日韩理论电影| 91在线观看免费高清| 牛牛精品视频在线| 久久久国产精品x99av| 亚洲黄色一级大片| 狠狠躁天天躁日日躁欧美| 欧美成欧美va| 26uuu色噜噜精品一区二区| 国模杨依粉嫩蝴蝶150p| 成人影视亚洲图片在线| 久久riav| 久久久久影视| 国产成人在线一区| 天堂√中文最新版在线| 2019日本中文字幕| 欧洲一区精品| www.欧美精品| 天堂中文在线看| 精品国产3级a| 特黄视频在线观看| 亚洲激情中文字幕| 一级黄色片在线观看| 亚洲欧洲综合另类在线| 精品一区二区三区四区五区六区| 久久精品主播| 黑鬼大战白妞高潮喷白浆| 丝袜亚洲另类丝袜在线| 538任你躁在线精品免费| 欧美欧美天天天天操| 日本天堂免费a| 国际精品欧美精品| 日韩精品电影网站| 一区中文字幕| 国产精品久在线观看| 日韩精品第一| 成人免费观看a| 日韩欧美一级| 国产日韩精品推荐| 久久成人高清| 国产精品美女黄网| 日韩一区中文| 99c视频在线| 日韩高清三区| 亚洲精品白虎| 外国成人在线视频| 日韩av大全| 91精品电影| 天天综合色天天综合色hd| 欧美人妖视频| 日本高清不卡三区| 国产精品7m凸凹视频分类| 欧美日韩精品免费看| 成人高清av| 久久视频免费在线| 国产欧美日韩综合一区在线播放 | 欧美日韩卡一| 成人午夜电影在线播放| 国内精品伊人| 成人黄色片视频网站| 私拍精品福利视频在线一区| 亚洲欧美日韩综合一区| 国产综合久久| 最近中文字幕一区二区| 国产成人综合精品三级| 亚洲AV无码成人精品区明星换面| 亚洲欧美日本在线| 毛片在线免费视频| 午夜国产精品影院在线观看| 久久国产露脸精品国产| 一本色道久久综合亚洲精品按摩| 西西44rtwww国产精品| 欧美日韩激情在线| 天堂在线资源库| 久久天堂电影网| 电影一区二区三区| 欧美一区二区大胆人体摄影专业网站| 久久国内精品| 免费精品视频一区| 欧美三级第一页| 亚洲一级免费观看| 91啪九色porn原创视频在线观看| 很污很黄的网站| 亚洲人午夜精品天堂一二香蕉| www亚洲视频| 日韩天堂在线观看| 国产黄色在线播放| 在线免费看av不卡| 超碰激情在线| 日本最新高清不卡中文字幕| 日韩电影免费观| 国产欧美日韩综合精品二区| 91成人影院| 午夜视频你懂的| 久久99国产精品久久99果冻传媒| www.色就是色.com| 国产日产欧产精品推荐色| 啪啪一区二区三区| 一本色道久久加勒比精品| 人妻一区二区三区免费| 欧美高清一级大片| 国产视频网站一区二区三区| 福利视频久久| 重囗味另类老妇506070| 六月婷婷激情综合| 激情综合色综合久久综合| 亚洲色图 激情小说| 亚洲色图在线看| 在线播放成人av| 在线播放国产一区中文字幕剧情欧美| 瑟瑟视频在线看| 精品日韩欧美| 国产精品资源| 成人网站免费观看| 富二代精品短视频| 欧美捆绑视频| 久久精品视频在线播放| 欧美xxxx性| 一区二区三区电影| 久草精品在线观看| 成人做爰视频网站| 欧美顶级少妇做爰| av在线free| 日韩免费观看在线观看| 蜜臀av免费一区二区三区| 天天摸天天碰天天添| 精品一区二区免费看| 三级影片在线观看| 91精品国产91综合久久蜜臀| a毛片在线播放| 国产伦精品一区二区三区| 91久久在线| 中文字幕在线观看日| 综合久久给合久久狠狠狠97色 | 国产一区二区免费电影| 亚洲激情自拍| 亚洲精品视频久久久| 欧美性受xxxx黑人xyx| 里番在线观看网站| 999视频在线免费观看| 一区三区视频| 国产美女永久免费无遮挡| 欧美精品v国产精品v日韩精品| 超碰个人在线| 精品产品国产在线不卡| 久久综合婷婷| 四虎影院中文字幕| 亚洲国产成人精品女人久久久| 国模套图日韩精品一区二区| 亚洲日本欧美在线| 成人精品视频.| 青青草原在线免费观看视频| 精品久久国产字幕高潮| 亚洲伊人av| 三年中文高清在线观看第6集| 粉嫩av一区二区三区在线播放| 国产美女激情视频| x99av成人免费| 久久动漫网址| 午夜免费看毛片| 五月开心婷婷久久| 可以免费观看的毛片| 国产91在线播放九色快色| 亚洲成av人电影| 日本免费福利视频| 欧美日韩精品二区第二页| av免费不卡国产观看| 粉嫩av一区二区三区免费观看| 亚洲一区二区三区四区五区午夜| www.xx日本| 日韩精品视频免费| 99er精品视频| 男人天堂成人在线| 亚洲自拍偷拍av| 视频免费一区|