精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o不敵Qwen,無一模型及格!UC伯克利/港大等聯(lián)合團隊提出多模態(tài)新基準(zhǔn):考察多視圖理解能力

人工智能 新聞
來自UC伯克利、憶生科技、香港大學(xué)、紐約大學(xué)、加州大學(xué)戴維斯分校、牛津大學(xué)等多家機構(gòu)的研究者聯(lián)合提出了All-Angles Bench。

多視圖理解推理有新的評判標(biāo)準(zhǔn)了!

什么是多視圖理解?也就是從不同視角整合視覺信息進而實現(xiàn)理解決策。

想象一下,機器人在復(fù)雜環(huán)境中執(zhí)行任務(wù),這就需要根據(jù)多個攝像頭的畫面準(zhǔn)確判斷物體位置、距離和運動方向,這就依賴于強大的多視圖理解能力。

但過去,由于評估多視圖推理能力的基準(zhǔn)測試稀缺,這一領(lǐng)域的研究進展相對緩慢。

來自UC伯克利、憶生科技、香港大學(xué)、紐約大學(xué)、加州大學(xué)戴維斯分校、牛津大學(xué)等多家機構(gòu)的研究者聯(lián)合提出了All-Angles Bench,旨在全面評估MLLMs的多視圖理解能力。它涵蓋了90個真實場景下,超過2100組人工標(biāo)注的多視圖問答對。

其評測數(shù)據(jù)集以及評測代碼現(xiàn)已全部開源。

圖片

他們對27個領(lǐng)先的多模態(tài)大語言模型進行基準(zhǔn)測試,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

結(jié)果顯示,多模態(tài)大語言模型與人類水平之間存在顯著差距,并進一步發(fā)現(xiàn)模態(tài)大語言模型存在兩種主要的缺陷模式:(1)在遮擋情況下跨視圖對應(yīng)能力較弱;(2)對粗略相機位姿的估計能力較差。

圖片

具體來看:

多視圖理解Bench

數(shù)據(jù)構(gòu)建

圖片

All-Angles Bench是一個包含超過2100組人工標(biāo)注的多視圖問答對的大規(guī)模基準(zhǔn),涵蓋了90個來源于EGO4D-EXO和EgoHumans數(shù)據(jù)集的真實世界場景。

數(shù)據(jù)集包含六大具有挑戰(zhàn)性的任務(wù),分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

這些任務(wù)旨在從多角度考察MLLMs對3D場景的理解能力,包括物體之間的位置關(guān)系、物體與相機之間的位置關(guān)系等。

構(gòu)建過程

圖片

1. 數(shù)據(jù)收集與問題類型設(shè)計:研究團隊精心挑選了90個多樣化的多視圖場景,并利用GPT設(shè)計了上述六大任務(wù)下的相關(guān)問題。

2. 問題篩查與人工標(biāo)注:通過人工標(biāo)注對問題進行細化,修飾以及答案生成。研究團隊并且使用交叉檢查的方法,確保了問題的清晰度、正確性和相關(guān)性,使得測試問題能夠準(zhǔn)確地評估模型的能力。

3. 成對問題生成與人工質(zhì)量檢查:為了評估模型在跨視圖一致性方面的表現(xiàn),研究團隊通過重新表述問題或改變視角來生成成對問題。在生成過程中,保持視角對應(yīng)關(guān)系不變,并進行最后的質(zhì)量控制,以確保成對問題的有效性。

性能評估

研究團隊對27個領(lǐng)先的MLLMs進行了全面評估,其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o,以及多種開源和閉源模型。

結(jié)果發(fā)現(xiàn),無論是閉源還是開源的多模態(tài)大語言模型,在多視圖理解能力方面與人類水平之間仍存在顯著差距。

圖片

發(fā)現(xiàn)1:對人類來說簡單的任務(wù),比如粗略的相機位姿估計,對多模態(tài)大語言模型而言卻頗具挑戰(zhàn)。

在Camera Pose Estimation任務(wù)中,人類標(biāo)注者的準(zhǔn)確率達到88.9%,而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態(tài)大語言模型,其準(zhǔn)確率落后超過50%,這凸顯了其與人類推理水平的顯著差距。

發(fā)現(xiàn)2:某些開源多模態(tài)大語言模型在方向敏感的任務(wù)上超越了閉源模型。

有趣的是,Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務(wù)上的表現(xiàn)甚至優(yōu)于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測這可能得益于開源模型集成的視頻理解能力和精細的視覺定位能力,使得在跨視圖跟蹤物體重新定向方面表現(xiàn)出色。

實驗分析

1、多模態(tài)大語言模型在成對問答中的不一致性

圖片

研究人員將模型的回答分為三類:CC(兩個回答都正確)、WW(兩個回答都錯誤)和IC(一個正確,一個錯誤)。較高的IC占比表明模型的多視圖理解能力較弱,即簡單的換個說法就會導(dǎo)致其回答出錯。

在對六個頂尖的多模態(tài)大語言模型進行評估時發(fā)現(xiàn):

1)GPT-4o在Relative Distance任務(wù)上的IC得分最高(約70%),遠高于其他模型在該任務(wù)上的IC得分。

2)所有模型在Relative Direction任務(wù)上平均IC得分最高,表明在處理方向變化時存在困難。

3)Gemini-2.0-Flash和Claude-3.7-Sonnet在各個任務(wù)中的不一致性較為均衡,而Ovis2-34B和GPT-4o則表現(xiàn)出顯著的基于任務(wù)的不一致性差異。

2、多模態(tài)大語言模型在多視圖對應(yīng)方面表現(xiàn)不佳

雖然在所有物體在單一視角下都可見(完全可見)的情況下,多模態(tài)大語言模型(MLLMs)往往能夠成功處理任務(wù),但在跨視角整合碎片化信息(部分可見)時,它們有時會出現(xiàn)問題。

例如,GPT-4o 有時會選擇每個視角中的最大數(shù)量,而不是對跨視角的物體數(shù)量進行統(tǒng)一統(tǒng)計.

圖片

研究人員還在完全可見和部分可見的設(shè)置下,對 GPT-4o、Ovis2-34B 和 InternVL2.5-38B 這三款模型評估了以下三種方法:1)Zero-Shot CoT;2)Self-Consistency;3)Identification CoT。

雖然思維鏈方法在部分可見的情況下提升了 GPT-4o 的表現(xiàn),但對于在多視圖計數(shù)方面本就表現(xiàn)出色的模型(如 InternVL2.5-38B)而言,帶來的提升比較微少。

這表明,僅靠優(yōu)化提示詞并不夠,如果要對多視圖理解有根本性的性能提升,還需要進行專門的多視圖訓(xùn)練。

圖片

3、多模態(tài)大語言模型在粗略的相機位姿估計方面表現(xiàn)不佳

圖片

通過可視化的方法,研究人員讓MLLM推理多視圖下的物體和和相機的位置與朝向,可以發(fā)現(xiàn),雖然 GPT-4o 和 Gemini-2.0-Flash 對單張圖像的場景理解表現(xiàn)尚可,但它們在對齊不同的相機視角時存在困難,難以正確處理視角變換,進而影響多模態(tài)大語言模型的多視圖一致性。

論文地址: https://arxiv.org/abs/2504.15280

項目主頁: https://danielchyeh.github.io/All-Angles-Bench/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-28 18:13:05

2024-11-29 09:18:01

2025-01-02 11:01:45

2024-06-12 11:50:23

2023-08-15 14:18:19

智能研究

2025-01-22 15:21:00

2024-01-18 13:39:00

AI訓(xùn)練

2025-02-18 12:30:00

2023-05-31 16:15:51

模型圖像

2024-11-26 13:40:00

2025-11-05 08:51:33

2025-05-26 08:33:00

2024-05-20 08:20:00

OpenAI模型

2024-12-02 08:20:00

2025-04-30 09:09:00

2024-04-07 00:45:00

開源模型

2024-08-30 14:35:00

2025-05-27 15:59:41

AI工具模型

2023-12-16 09:49:18

2024-10-30 15:00:00

AI視頻模型
點贊
收藏

51CTO技術(shù)棧公眾號

中文字幕亚洲乱码| 精品一区二区久久久| 国产精品一级在线| 亚洲护士老师的毛茸茸最新章节 | 成人性生交大片免费看午夜| 精品3atv在线视频| 国产精品影视在线| 久久久久久久香蕉网| 狠狠操狠狠干视频| 免费福利在线视频| 在线看片日韩| 欧美一区二区成人6969| 色一情一乱一伦一区二区三区丨| 日韩成人一区二区三区| 色悠久久久久综合先锋影音下载| 国产精品乱码久久久久久| 日韩免费黄色av| 你懂的在线观看网站| mm1313亚洲国产精品美女| 蜜臀av性久久久久蜜臀av麻豆| 日韩精品久久久久久久玫瑰园| 毛片av在线播放| 国产ts人妖调教重口男| 欧美成人69av| 日韩视频一区二区| 青青草免费在线视频观看| 国产口爆吞精一区二区| 午夜精品久久久久久久四虎美女版| 91久久精品日日躁夜夜躁欧美| 欧美一区1区三区3区公司| 黄色片中文字幕| 国产成人短视频在线观看| 色综合一区二区| 欧美最大成人综合网| 国产xxxxxx| 免费成人在线观看视频| 欧美最猛性xxxxx(亚洲精品)| 人妻丰满熟妇aⅴ无码| 国产色播av在线| 久久蜜臀中文字幕| 国产精品久久av| 国产又粗又长免费视频| 婷婷精品久久久久久久久久不卡| 国产精品美女久久久久久 | 国产精品视频一区二区三区四区五区| 亚洲国产成人在线观看| 精品91视频| 久久香蕉频线观| 成人一区二区三区仙踪林| 国语对白在线刺激| 久久日韩粉嫩一区二区三区 | 一区二区久久精品66国产精品 | 日韩av综合网站| 久久人妻少妇嫩草av蜜桃| 黄色污污视频在线观看| 亚洲人成7777| 国产日韩欧美一区二区三区四区| 日本一区二区免费在线观看| 午夜国产欧美理论在线播放| 久久九九全国免费精品观看| 性生交大片免费看l| 欧美一区=区三区| 欧美日韩一区高清| 国产精品自拍合集| 欧美在线一卡| 国产主播一区二区| 欧美亚洲视频在线观看| 天堂网av2018| 91日韩欧美| 亚洲精品大尺度| 日本一卡二卡在线| 日韩超碰人人爽人人做人人添| 欧美中文字幕一区| 97视频在线免费| 阿v免费在线观看| 亚洲国产精品ⅴa在线观看| 91高跟黑色丝袜呻吟在线观看| 国产又大又黑又粗免费视频| 色婷婷色综合| 亚洲国产日韩欧美在线图片| 午夜久久久久久久| 成人免费91| 色婷婷久久综合| 亚洲少妇第一页| 白浆在线视频| 色中色一区二区| 欧美男女交配视频| 日本在线成人| 日韩电影中文 亚洲精品乱码| 蜜桃传媒一区二区亚洲av| 成人短视频软件网站大全app| 91精品国产美女浴室洗澡无遮挡| 黄页网站在线看| 色综合一区二区日本韩国亚洲| 欧美精品xxxxbbbb| 搡女人真爽免费午夜网站| 国产精品久久久久久吹潮| 欧美日韩免费一区| 欧美中日韩在线| 午夜影院在线观看国产主播| 一区二区三区中文字幕精品精品| 亚洲国产欧美不卡在线观看| 三级理论午夜在线观看| 欧美国产欧美亚州国产日韩mv天天看完整| 一本色道久久99精品综合| 成人性生交大片免费看午夜| 亚洲免费观看在线视频| 曰韩不卡视频| 婷婷成人激情| 国产精品天天看| a天堂资源在线观看| 成人黄色毛片| 日韩禁在线播放| www.av成人| 精品久久综合| 亚洲色图五月天| 亚欧洲乱码视频| 国产精品免费大片| 色综合久久88| 国产亚洲精品av| 亚洲性感美女99在线| 国产精品大片wwwwww| 国产 日韩 欧美 综合| 成人一级片网址| 国产九色精品| 天堂成人在线观看| 99精品偷自拍| 秋霞毛片久久久久久久久| 日本欧美电影在线观看| 亚洲制服丝袜av| 免费拍拍拍网站| 超碰国产精品一区二页| 欧美一区二区黄| 亚洲最大成人综合网| 欧美综合久久| 久久伊人色综合| 免费黄色小视频在线观看| 男女激情视频一区| 久久精品日产第一区二区三区乱码 | 美女扒开腿免费视频| 欧美日韩国产一区二区在线观看| 欧美一区二区三区免费大片| 国产激情av在线| 97精品在线| 国产激情视频一区| 91中文字幕在线播放| 国产色91在线| 日韩人妻精品一区二区三区| 在线看女人毛片| 午夜视频一区二区三区| 东京热加勒比无码少妇| www.丝袜精品| 在线观看视频亚洲| 91久久国产综合| 日韩精品电影在线观看| 444亚洲人体| 成人av免费| 欧美一二三区精品| 精品爆乳一区二区三区无码av| 国产欧美激情| 国产日韩精品在线| 秋霞网一区二区| 国产精品素人视频| 91福利国产成人精品播放| 1204国产成人精品视频| 国产亚洲欧美另类中文| 九九九在线视频| 国产成人精品亚洲日本在线桃色 | 国产视频一区二区三区在线播放| 久久精品嫩草影院| 亚洲精品videossex少妇| 国产精品白浆一区二小说| 青青草伊人久久| 国产精品免费一区二区三区在线观看| 深夜国产在线播放| 亚洲二区在线播放视频| fc2ppv在线播放| 国产精品普通话对白| 久久综合九色欧美狠狠| 亚洲淫性视频| 精品sm在线观看| 91麻豆精品成人一区二区| 国产麻豆视频一区二区| 日本一区午夜艳熟免费| 欧美综合自拍| 九九热这里只有精品免费看| 欧美熟妇乱码在线一区| 色哟哟国产精品| 三级黄色录像视频| 99久久伊人精品| 国产精品一二三在线观看| 亚洲精品一二三**| 欧洲日本亚洲国产区| 欧美性videos| 精品视频在线免费看| 国产美女福利视频| 91网上在线视频| 国产v片免费观看| 欧美大片91| 欧美在线激情网| 国产欧美久久久久久久久| 在线观看日韩毛片| 九九九免费视频| 国产亚洲福利社区一区| 男人女人拔萝卜视频| 首页综合国产亚洲丝袜| 久久精品magnetxturnbtih| 123成人网| 最新国产精品亚洲| 中文字幕在线观看欧美| 国产精品视频麻豆| 日本黄色动态图| 韩国女主播成人在线观看| av免费中文字幕| 欧美天天视频| 亚洲xxx视频| 国产综合av| 2019亚洲男人天堂| 亚洲按摩av| 综合欧美国产视频二区| 亚洲在线视频播放| 综合在线观看色| 人妻换人妻仑乱| 亚洲视频碰碰| 精品欧美日韩在线| 日本免费久久| 深夜福利一区二区| 婷婷色在线视频| 日韩欧美精品在线视频| 欧美精品久久久久性色| 国产精品天美传媒| 亚洲av无码国产精品麻豆天美| 奇米一区二区三区| 欧美日韩在线视频一区二区三区| 自拍亚洲一区| 成人精品视频99在线观看免费| 日韩伦理av| 日韩中文字幕网址| 亚洲乱熟女一区二区| 欧美日韩精品一区视频| 美国黄色小视频| 成人高清免费观看| 国产黄色特级片| 成人在线免费小视频| 欧美裸体网站| 国产精品日韩精品在线播放| 国产国语刺激对白av不卡| xx欧美视频| 久久精品福利视频| 在线a人片免费观看视频| 国产亚洲一区二区精品| 国产一级网站视频在线| 91精品国产综合久久精品图片 | 国产精品久久国产精品| 日韩精品一区国产| 99久久精品免费看国产四区| 天堂8中文在线最新版在线| 亚州国产精品久久久| h视频网站在线观看| 伊人激情综合网| aiai在线| 亚洲精品按摩视频| 婷婷婷国产在线视频| 欧美美女bb生活片| 国产三级伦理片| 日韩欧美aaa| 欧美精品一区二区蜜桃| 一区二区激情小说| 日韩精品视频免费看| 天天射综合影视| 加勒比婷婷色综合久久| 一区二区三区在线免费观看| 欧美精品入口蜜桃| 欧美午夜无遮挡| 亚洲视屏在线观看| 第一福利永久视频精品| 高潮毛片又色又爽免费| 亚洲国产日韩在线一区模特| 国产第一页精品| 亚洲欧美电影院| 久久草视频在线| 欧美性做爰猛烈叫床潮| 中国一级特黄毛片| 一区二区三区色| 久久夜靖品2区| 精品婷婷伊人一区三区三| 国产富婆一级全黄大片| 亚洲国产婷婷香蕉久久久久久| 国产经典自拍视频在线观看| 亚洲国产成人在线视频| 日色在线视频| 久久久国产精品免费| av人人综合网| 久久久久久久久久久人体 | 68国产成人综合久久精品| 黄色一级片在线看| 在线观看日韩| 一区二区三区四区五区精品| 天天做天天爱天天综合网2021| 日本午夜精品一区二区| 亚洲精品在线观看91| 国产精品va无码一区二区| 久久99久久99小草精品免视看| 第四色在线视频| 亚洲日本一区二区| 日韩黄色片网站| 精品精品国产高清一毛片一天堂| 国内精品偷拍视频| 亚洲免费伊人电影在线观看av| 天堂在线视频免费| 日韩在线国产精品| 色在线视频观看| 日本中文字幕久久看| 日本亚州欧洲精品不卡| 日韩亚洲视频| 日韩在线观看| 欧洲美女和动交zoz0z| 久久婷婷影院| 久久久久久久久久久影视| 99久久精品免费| 国产又黄又爽又无遮挡| 欧美三区在线视频| 日av在线播放| 久久久久一本一区二区青青蜜月 | 国产精选一区| 免费无码毛片一区二三区| 精品一区二区精品| 亚洲一二三精品| 色综合久久久久综合| 日韩一级中文字幕| 欧美国产日产韩国视频| 国产一线二线在线观看 | 亚洲va欧美va人人爽成人影院| 午夜一区二区三视频在线观看| 国产精品一区亚洲| 无码av免费精品一区二区三区| 亚洲美女偷拍久久| 国产情侣自拍小视频| 日韩中文字幕在线看| 巨胸喷奶水www久久久| 日韩久久精品一区二区三区| 亚洲欧美日韩国产一区| 熟妇人妻va精品中文字幕 | 在线观看a级片| 91日韩在线播放| 国内精品麻豆美女在线播放视频| 女女同性女同一区二区三区91| 亚洲国产国产亚洲一二三| 韩国日本美国免费毛片| 久久免费看少妇高潮| 三级网站在线播放| 亚洲系列中文字幕| 韩日精品一区| 正在播放一区二区三区| 国精产品一区一区三区mba桃花| 日韩三级久久久| 91精品国产免费久久综合| 日本高清在线观看| 欧美一区深夜视频| 欧美日韩播放| 久久综合亚洲精品| 国产成人亚洲综合a∨猫咪| 九九热只有精品| 亚洲国产精品久久| 午夜日韩成人影院| 亚洲一区影院| 国产馆精品极品| 日本一本高清视频| 亚洲天堂男人天堂女人天堂| 亚洲狼人在线| 亚洲色成人www永久在线观看 | 国产精品久久7| 蘑菇福利视频一区播放| 无套白嫩进入乌克兰美女| 亚洲激情av在线| 天天色综合久久| 国产精品免费一区豆花| 久久精品66| 欧洲金发美女大战黑人| 成人国产免费视频| 中国精品一区二区| 欧美大肥婆大肥bbbbb| 国产福利亚洲| 欧美久久久久久久久久久久久久| eeuss鲁片一区二区三区在线观看| 久久久精品视频网站| 日韩在线www| 加勒比中文字幕精品| 欧美在线观看视频网站| 亚洲人成网站在线| 三级做a全过程在线观看| 成人网在线免费观看| 在线一区欧美| 精品国产av色一区二区深夜久久 | 亚洲欧美自拍偷拍| 欧洲av在线播放| 91久久夜色精品国产网站| 亚洲免费婷婷| 成年人av电影| 国产亚洲精品高潮|