精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?

發布于 2024-5-11 09:33
瀏覽
0收藏

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 為代表的多模態大模型(Multimodal LLMs)已經在文本和圖像等多模態內容處理方面表現出了空前的能力,成為技術新浪潮。


然而,對于這些模型的評測多集中于語言上的任務,對于視覺的要求多為簡單的物體識別。相對的,計算機視覺最初試圖解讀圖像作為3D場景的投影,而不僅僅處理2D平面“模式”的數組。


為響應這一情況,本文提出了BLINK,這是一個新的測試集,包含了重新構想的傳統計算機視覺問題,使我們能夠更全面評估多模態大模型的視覺感知能力,帶你揭開GPT4V、Gemini等大模型的視覺界限秘密。


作者相信BLINK將激勵社區幫助多模態LLMs達到與人類同等級別的視覺感知能力。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


論文鏈接:https://zeyofu.github.io/blink


什么是BLINK?


BLINK 是一個針對多模態語言模型(Multimodal LLMs)的新基準測試,專注于評估其核心視覺感知能力,這些能力在其他評估中并未涉及。


BLINK包含 14 項視覺感知任務,擁有3.8k個選擇題7.3k張圖像


人類可以“一眨眼”之間解決這些任務 (例如,相對視深、視覺對應、目標定位,和多視角推理等);但對當前的多模態大型語言模型(Multimodal LLMs)而言,這些任務構成了重大挑戰,因為它們難以通過自然語言處理來解決。


平均而言,人類在這些任務上的準確率為95.70%,然而即使是GPT-4V和Gemini也只達到了51.26%45.72%的準確率,比隨機猜測僅高出13.17%7.63%。 


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK與其他基準測試的區別


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(1)BLINK 運用了多種的視覺prompts, 如圓形、盒形, 和圖像遮罩 masks, 而以前的基準測試僅包含文本問題和答案。


(2)BLINK評估了更全面的視覺感知能力,如多視角推理、深度估算和反射率估算。以往的基準測試通常更側重于基于物體識別的視覺問答(VQA)。


(3)BLINK只包含“視覺”常識性問題,這些問題人類不需要接受教育就可以在一秒鐘內回答,而以前的基準測試像MMMU這樣的則需要專業領域知識。


(4)BLINK涵蓋了14個需求感知的任務,這些任務受到經典計算機視覺問題的啟發。雖然這些問題僅需人類“一眨眼”的時間即可解決,但它們超出了當前多模態大型語言模型的能力。


BLINK 實驗結果


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


本文評估了17個不同大小(即7B,13B,34B)的多模態LLMs在BLINK上的表現。并觀察到一個悖論:盡管這些問題對于人類來說很容易(平均準確率為95.70%),但對現有機器來說卻極其困難。


7B和13B開源多模態大型語言模型(LLMs)的平均準確率大約在35-42%之間,與隨機猜測(38.09%)相似。


最好的開源模型是LLaVA-v1.6-34B,達到了45.05%的準確率。


即使是最新的大模型,如GPT-4V、Gemini Pro和Claude 3 OPUS,其準確率也僅為51.26%、45.72%和44.11%。它們的表現僅比隨機猜測好13.17%、7.63%和6.02%,并且比人類的表現差44.44%、49.98%和51.59%。


值得注意的是,在某些任務上,如拼圖、語義對應、多視角推理、對象定位和相對反射率,一些多模態LLMs甚至表現不如隨機猜測。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK展示大模型的錯誤范例


對于每項任務,該文章展示了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人類的選擇。紅色選項指的是正確答案。請注意,為了視覺效果,作者故意放大了標記,并且將一些圖片做成插圖以節省空間。


對于智力測驗,第三張圖片是通過疊加第一張和第二張圖片構成的。 


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK實驗分析


(1)把圖片轉換成文字是否是解決多模態問題的正確選擇?


為了回答這個問題,本文使用GPT-4V將圖片轉換為與任務無關的密集圖片字幕,并使用基于文本的LLM來完成任務(Caption + LLM)。這種密集字幕利用語言描述了圖像及視覺提示的詳細信息(例如,每個圓圈的位置)。


作者在BLINK、MMBench和MMMU上進行了實驗。令人驚訝的是,Caption + LLM的配置在MMBench和MMMU上的結果遠優于BLINK。這些結果表明,圖像字幕攜帶了回答其他基準所需的大部分視覺信息。同時,BLINK需要的高級感知能力超出了通用字幕目前可達到的范圍。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(2)視覺提示(visual prompts)對多模態大模型能產生多大的影響?


本文分析了BLINK中多個任務上圓圈大小和顏色的影響。


實驗表明,視覺提示可能對多模態LLM的性能產生重大影響,改進視覺提示或提高模型對提示變化的魯棒性是未來研究的有前景的方向。根據分析,作者發現最佳圓圈大小依賴于具體任務,平均而言,10px的圓圈效果最好。同樣,對于所有任務來說,紅色比灰色更好。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(3)傳統計算機視覺專家模型能解決BLINK任務嗎?


專家可以作為多模態LLM可能達到的上限的代理。這揭示了一個可能性,即多模態LLM可能因正確的數據和培訓策略而在這些任務上取得進展。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


作者簡介:


府星妤 (Xingyu Fu)是賓夕法尼亞大學NLP組的博士生,師從Dan Roth教授。她曾在亞馬遜和微軟實習。她的研究主要專注于多模態大模型的感知和推理Reasoning。


胡雨石 (Yushi Hu)是華盛頓大學NLP組的博士生,師從Mari Ostendorf 和 Noah Smith 教授。與此同時,他還是艾倫人工智能研究所(AI2)學生研究員,此前曾在谷歌和騰訊AI 實習。他的研究主要專注于多模態大模型和基于反饋的模型訓練。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/_-mgdLLJd4ck1UMJmfWTpg??

收藏
回復
舉報
回復
相關推薦
亚洲欧洲日本mm| 日韩区欧美区| 中文字幕一区二区三区蜜月| http;//www.99re视频| 国产无精乱码一区二区三区| 国产一区二区观看| 日韩一区二区三| 成年人黄色片视频| 黄页网站在线| 国产精品欧美经典| 国产伦精品一区| 一起草av在线| 久久久久国产精品一区二区| 免费av在线一区| 国产精品成人一区二区三区电影毛片| 粉嫩一区二区三区在线观看| 精品久久久久久久久久久久久| 在线观看福利一区| 激情福利在线| 成人国产一区二区三区精品| 成人高h视频在线| 日本视频网站在线观看| 激情成人综合| 久久亚洲影音av资源网| 国产精品久久久视频| 久久资源综合| 精品蜜桃在线看| 手机免费av片| 久久电影天堂| 欧美亚洲国产一区二区三区va | 亚洲成a人片综合在线| 亚洲精品在线视频观看| 日韩av资源站| 91丝袜美腿高跟国产极品老师 | 2018日韩中文字幕| 欧美另类视频在线观看| 999成人网| 中文字幕亚洲一区二区三区五十路| 日韩网站在线播放| 麻豆国产欧美一区二区三区r| 欧美一区二区免费观在线| 天堂av8在线| 日本在线一区二区| 欧美猛男超大videosgay| jizzzz日本| 国产成人精选| 欧美老肥妇做.爰bbww| 日本激情视频在线播放| 成人视屏在线观看| 色播五月激情综合网| 日韩久久一级片| 不卡一二三区| 在线观看中文字幕不卡| 少妇性l交大片| 日韩欧美少妇| 欧美日韩国产综合视频在线观看| 日本xxxx黄色| 高清一区二区三区av| 91精品国产免费久久综合| 国产精品igao网网址不卡| 精品国产一区二区三区2021| 欧美一级免费大片| 深夜视频在线观看| 国产精品一区二区三区美女| 亚洲国产天堂久久综合网| 疯狂揉花蒂控制高潮h| 亚洲瘦老头同性70tv| 亚洲视频视频在线| 丁香激情五月少妇| 久久久国产精品| 欧美人在线视频| 香蕉免费毛片视频| 丝袜亚洲精品中文字幕一区| 国产精品免费福利| 99热精品在线播放| 91日韩一区二区三区| 欧美日韩一区二区三区在线视频| fc2在线中文字幕| 亚洲三级小视频| 国产 日韩 欧美在线| 卡通欧美亚洲| 欧美精品一卡二卡| 久久福利小视频| 欧美日韩亚洲在线观看| 欧美成在线视频| 国产婷婷色一区二区在线观看 | 国产精品九九九| 国产视频手机在线| 久久综合久色欧美综合狠狠| 亚洲一区美女| 波多野结衣久久| 欧美日韩一区在线观看| 亚洲视频天天射| heyzo久久| 国内精品一区二区三区四区| 日韩精选在线观看| 国产成人精品三级| 欧美精品一区二区三区久久| 国产福利视频在线| 色综合天天性综合| 久久av一区二区三| 日韩av在线播放网址| 久久久久久综合网天天| 中文字幕在线观看1| 波多野结衣中文一区| 亚洲乱码一区二区三区| 国产99在线| 91精品国产免费久久综合| 男女做爰猛烈刺激| 伊人影院久久| 国产日韩换脸av一区在线观看| 亚洲三级中文字幕| 亚洲猫色日本管| 亚洲国产日韩欧美在线观看| 日韩深夜影院| 精品中文字幕乱| 国产永久免费视频| 国产三级精品三级| 亚欧无线一线二线三线区别| 日韩在线观看一区二区三区| 中文字幕av一区二区| 波多野结衣视频网站| 福利一区福利二区| 8x8x华人在线| 国产日韩在线观看视频| 色妞色视频一区二区三区四区| 男人天堂av在线播放| 成人av电影在线观看| 国产又粗又猛又爽又黄的网站| 国产欧美在线观看免费| 亚洲香蕉成人av网站在线观看 | 亚洲视频1区| 福利视频久久| 日本色护士高潮视频在线观看 | 国产精品久久久久久超碰| 熟妇高潮一区二区三区| 亚洲自拍偷拍麻豆| 女人扒开腿免费视频app| 国产精品99在线观看| 国产精品女主播视频| 欧美精品a∨在线观看不卡 | 久久免费视频在线观看| www视频在线| 亚洲永久精品国产| 精品国产aⅴ一区二区三区东京热| 久久精品青草| 99re国产视频| 9lporm自拍视频区在线| 亚洲精品狠狠操| 亚洲天堂一区在线观看| 久久美女高清视频| 日本999视频| 日韩精品久久| 亚洲一区亚洲二区亚洲三区| 日本天码aⅴ片在线电影网站| 欧美成人aa大片| 男人天堂中文字幕| 99re热这里只有精品免费视频| 日韩av三级在线| 狠狠做六月爱婷婷综合aⅴ| 国产成人精品视| 秋霞a级毛片在线看| 8x8x8国产精品| 免费一级黄色大片| 国产盗摄精品一区二区三区在线| 日韩 欧美 自拍| 麻豆精品在线| 91av在线不卡| 北岛玲一区二区三区| 欧美日韩高清不卡| 北条麻妃在线观看视频| 国产成人在线免费| 玩弄中年熟妇正在播放| 欧美一级精品| 成人在线观看视频网站| 91美女精品| 国产亚洲美女精品久久久| 国产女同91疯狂高潮互磨| 亚洲大片免费看| 久久中文字幕精品| 国产精品系列在线播放| 夫妻免费无码v看片| 欧美日韩国产免费观看视频| 亚洲自拍偷拍第一页| 欧美亚洲日本精品| xvideos亚洲人网站| 欧美一区,二区| 欧美无乱码久久久免费午夜一区| 欧美一区二区三区爽爽爽| 91免费看片在线观看| 91高清国产视频| 日韩视频免费| 91免费视频黄| 国产一区二区在线| 成人3d动漫一区二区三区91| 亚洲一区二区三区四区| 欧美激情中文字幕在线| aⅴ在线视频男人的天堂| 精品国产污网站| 91精品中文字幕| 欧美日韩激情视频| 看免费黄色录像| 国产欧美日韩精品一区| 超碰caoprom| 黄页网站大全一区二区| 亚洲国产精品久久久久爰色欲| 91精品秘密在线观看| 日韩欧美手机在线| 欧美精品中文| 99c视频在线| 欧美激情三区| 国产精品高精视频免费| segui88久久综合| 久久香蕉国产线看观看av| 成人精品福利| 亚洲女人天堂av| 日本精品一二区| 91精品国产丝袜白色高跟鞋| 中文在线字幕av| 日韩欧美高清在线视频| 国产精品99无码一区二区| 亚洲欧美一区二区在线观看| 中文字幕伦理片| 久久一二三国产| 182在线视频| 成人高清免费观看| 无套内谢丰满少妇中文字幕| 麻豆91在线观看| 亚洲成人av免费看| 久久久久久久高潮| 日本一道本久久| 亚洲国产午夜| 久久艹国产精品| 国产精品v日韩精品v欧美精品网站| 亚洲国产精品www| jlzzjlzz亚洲女人| 欧洲精品码一区二区三区免费看| 欧美三级电影在线| 狠狠色噜噜狠狠狠狠色吗综合| 综合激情网...| 国产精品theporn88| 18国产精品| 成人av资源网| 91国内精品| 成人av蜜桃| 国产精品调教| 久久久亚洲综合网站| 婷婷激情久久| 欧美精品尤物在线| 久久最新网址| 日本一区美女| 欧美高清视频在线观看mv| 亚洲成人av动漫| 91精品国产调教在线观看| 中文字幕一区二区三区有限公司| 91精品啪在线观看国产18| 中文字幕在线乱| 欧美日韩一卡| 成人午夜免费在线| 性色av一区二区怡红| 国产一级不卡毛片| 美国毛片一区二区三区| 免费成人黄色大片| 国产黄色精品网站| 精品一区二区视频在线观看| 久久久久久久免费视频了| 国产黄色大片免费看| **性色生活片久久毛片| 免费无码毛片一区二区app| 五月婷婷久久丁香| 69xxxx国产| 欧美一区永久视频免费观看| 欧美自拍第一页| 亚洲欧美综合v| 成人免费在线| 97在线视频国产| 成人av色网站| 岛国视频一区| 国产一区二区区别| 色乱码一区二区三区熟女| 欧美性久久久| 日本在线观看免费视频| 国产精品456露脸| 亚洲av无码国产精品久久| 中文字幕巨乱亚洲| 久久久香蕉视频| 一本色道久久综合狠狠躁的推荐| 国产又粗又猛又爽| 亚洲精品福利在线观看| 欧美激情视频在线播放| 性欧美亚洲xxxx乳在线观看| 国产91在线播放精品| 国产精品香蕉视屏| 日韩dvd碟片| 131美女爱做视频| 久久成人免费日本黄色| 香蕉视频污视频| 国产精品福利一区二区三区| 日韩和一区二区| 欧美丰满美乳xxx高潮www| 午夜小视频免费| 久久五月情影视| 99精品在免费线偷拍| 国产美女精品在线观看| 99久久婷婷| 北条麻妃在线一区| 国产91精品一区二区麻豆网站 | 亚洲制服丝袜一区| 欧美一级黄视频| 日韩精品极品在线观看播放免费视频| 麻豆视频在线免费观看| 国产不卡一区二区在线播放| 国产成人福利av| 国产精品夜夜夜爽张柏芝| 久久三级福利| 亚洲啪av永久无码精品放毛片| 亚洲色图视频网站| 国产精品国产精品国产| 亚洲久久久久久久久久| 97天天综合网| 国产高清精品一区二区| 亚洲综合激情在线| 手机在线成人免费视频| 久久久三级国产网站| 一区二区三区福利视频| 亚洲成人精品视频在线观看| 亚洲男同gay网站| 成人免费高清完整版在线观看| jvid福利在线一区二区| 激情网站五月天| 94色蜜桃网一区二区三区| 久久久久黄色片| 日韩一区二区三| 在线你懂的视频| 亚洲综合自拍一区| 中文乱码免费一区二区三区下载| 91精品999| 亚洲欧洲日本在线| 一级全黄少妇性色生活片| www国产精品视频| 99久热在线精品视频观看| 中国人体摄影一区二区三区| 九九视频精品免费| 国产精品成人69xxx免费视频| 欧美日韩一级黄| 色综合久久影院| 91夜夜揉人人捏人人添红杏| 婷婷六月综合| 下面一进一出好爽视频| 亚洲精品大片www| 性做久久久久久久久久| 欧美精品第一页在线播放| 高清一区二区三区| 日韩av综合在线观看| 久久久久久一级片| 亚洲图片视频小说| 啊v视频在线一区二区三区| 成人av在线播放| 欧美高清中文字幕| www.激情成人| 日日夜夜狠狠操| 少妇高潮 亚洲精品| 成人免费91| 国产天堂视频在线观看| 91在线观看一区二区| 中文字幕精品无码一区二区| 国产一区二区动漫| 亚洲精品aaa| 国产玉足脚交久久欧美| 久久综合久色欧美综合狠狠| 艳妇乳肉豪妇荡乳av无码福利 | 国产一区二区精品久久99| 九九视频在线免费观看| 日韩成人av网| 美女久久久久久| 欧美国产综合在线| 久久噜噜亚洲综合| 97超碰人人模人人人爽人人爱| 久久电影一区二区| 欧美巨大xxxx| 亚洲高清免费在线观看| 亚洲综合视频网| 三级在线视频| 91啪国产在线| 亚洲最黄网站| 在线日韩国产网站| 亚洲风情亚aⅴ在线发布| 高清av一区| 男人插女人视频在线观看| 国产精品亲子乱子伦xxxx裸| 欧美一区二区公司| 国产精品爽黄69| 国产精品美女久久久| 日本黄色免费片| 国产偷亚洲偷欧美偷精品| 日韩在线精品强乱中文字幕| 久久久精品在线视频| 亚洲在线视频免费观看| melody高清在线观看| 国产一区二区三区免费不卡|