精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大等意外發現:大模型不看圖也能正確回答視覺問題!

發布于 2024-4-7 10:05
瀏覽
0收藏

大模型不看圖,竟也能正確回答視覺問題?!


中科大、香港中文大學、上海AI Lab的研究團隊團隊意外發現了這一離奇現象。


他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態,竟然只根據在多模態基準MMMU測試中的問題和選項文本,就能獲得不錯的成績。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

△藍色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項文本的LLMs和LVLMs

(LLM:大語言模型;LVLMs:多模態大模型)不知道的還以為是大模型的隱藏技能被發現了。


有網友發出靈魂拷問:我們評估多模態模型的方法正確嗎?

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

這一結果也激起了研究者們的好奇,于是他們決定對此展開進一步探究。

大模型隱藏技能被發現?

針對現有的評估樣本和評估過程,研究人員認為造成這種現象的兩個主要問題。

第一,一些多模態評估樣本缺少對視覺內容的依賴性。


這種問題反映了現有的benchmark中的不合理之處。這個問題包含了兩種情況:


一種是有些評估樣本的答案可以被蘊含在了題目和選項中從而免去了看圖的必要。

比如會有這種問題,這個圓形土圈是什么形狀?

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

另外一種則是有些評估樣本可以直接被語言大模型利用嵌入的豐富世界知識進行解答而無需依賴圖片。


比如下圖中的問題:內布拉斯加州的首府是什么?

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

第二,現有評估過程未考慮語言和多模態大模型訓練過程中的數據泄露問題。


LVLM通常由一個vision encoder,一個語言模型基座,以及一個視覺-語言連接件組成。而且現有的多模態benchmark中有大量的評估樣本是從單模態的文本語料中轉化過來的(比如從考試題目中轉化而來)。


因此如果大語言模型的訓練數據中無意間泄露了多模態benchmark中轉化不充分的評估樣本,就會影響LVLMs之間的公平比較。


為了定量觀察大語言模型中廣泛存在的泄露現象,研究者們采用了22個大語言模型在6個公開benchmark上進行評估。


這些大語言模型包含了2個閉源模型(GPT4-Turbo以及GeminiPro)和20個大小、架構各異的開源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來減少拒絕回答的情況以及對齊回答的格式。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

結果看到,閉源模型GeminiPro和開源模型Qwen1.5-72B在極具挑戰性的MMMU基準上可以分別取得42.7和42.4的驚人成績,一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態模型在能看到圖片情況下的表現。


進一步的,他們還定量觀察多模態大模型在訓練過程中的數據泄露情況:屏蔽了LVLM的圖片輸入從而只根據文本問題和選項來進行評估(標記為LVLM-text)。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

可以看到,像Sphinx-X-MoE和Monkey-Chat經過多模態訓練后在不看圖的情況下相比原始大模型在MMMU基準上可以分別提升驚人的17.9和12.6,而它們即使進一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

GPT-4在新基準上沒有及格

為了解決上述問題從而進行更公平和準確的評估,研究者們設計了一個多模態評估基準MMStar——


包含了1,500個具有視覺依賴性的高質量評估樣本,涵蓋了樣本均衡的粗略感知、精細感知,實例推理、邏輯推理、科學技術、數學這六個核心能力以及18個詳細的能力維度。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個評估指標來反映出LVLMs在多模訓練過程中的真實性能增益和數據泄露程度。


中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

隨后,為了檢驗所提出的MMStar質量,他們進行了三項評估。


1)用22個大語言模型只根據MMStar中的問題和選型進行了評估,結果顯示,他們的表現都接近于隨機選擇,這表明MMStar在現有大模型訓練語料中有著很少的數據泄露。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

2)評估16個多模態模型在MMStar上的性能。


高分辨率設置下的GPT4V取得了57.1的最高平均性能(但還是沒有及格)。


開源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績,LLaVA-Next在數學維度上的表現要略優于GPT4V和GeminiPro-Vision。


值得注意的是,沒有多模態大模型能夠在精細感知(FP),邏輯推理(LR),科學技術(ST)以及數學(MA)上及格。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

3)用16個LVLMs在6個公開benchmark以及所提的MMStar上對MG和ML指標進行了廣泛評估。

中科大等意外發現:大模型不看圖也能正確回答視覺問題!-AI.x社區

可以看到,而MMStar展示出了最少的平均數據泄漏程度。


研究團隊相信,這種跨模型間的ML指標對社區之后檢驗新開發的多模態benchmarks也是有益的。


論文鏈接:
???https://arxiv.org/pdf/2403.20330.pdf???
項目鏈接:
???https://mmstar-benchmark.github.io/??

??https://huggingface.co/datasets/Lin-Chen/MMStar??

代碼鏈接:
???https://github.com/MMStar-Benchmark/MMStar??


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/mmNxJ-YOZx4Hpu8zSkfDGw??

收藏
回復
舉報
回復
相關推薦
日本高清久久久| 亚洲欧洲一区二区在线观看| 日本一区二区网站| 日韩超碰人人爽人人做人人添| 日韩欧美视频一区二区三区| 日韩性感在线| 国产男男gay网站| 欧美午夜a级限制福利片| av电影在线观看完整版一区二区| 九九精品在线视频| 青青草成人免费视频| 欧美极品影院| 国产黑丝在线一区二区三区| 韩国精品久久久999| 亚洲精品一区二区三区影院忠贞| 国产成人免费视频网站视频社区| 亚洲国产欧美日韩另类综合| 色一情一区二区三区四区| 免费在线观看黄网站| 国产综合久久久| 欧美变态tickling挠脚心| 女人另类性混交zo| 欧美videos另类精品| 91性感美女视频| 999热视频在线观看| 五月天免费网站| 里番精品3d一二三区| 69av一区二区三区| 免费在线观看的毛片| av不卡高清| 亚洲欧美视频在线观看| 日产中文字幕在线精品一区| 亚洲精品喷潮一区二区三区| 久久99精品国产麻豆婷婷洗澡| 97视频com| 久草视频精品在线| 亚洲欧洲日韩| 久久夜色撩人精品| 中文字幕第二区| 久操精品在线| 亚洲人在线观看| 日韩精品人妻中文字幕有码| 亚洲高清999| 欧美日韩亚州综合| 国产嫩草在线观看| 日韩视频网站在线观看| 欧美日韩国产丝袜另类| 日本欧美视频在线观看| 在线观看中文字幕的网站| 国产精品美女一区二区| 国产成人av在线播放| 久久久精品视频免费观看| 精品国模一区二区三区欧美| 91成人在线精品| 国产一区二区三区精彩视频| www.在线视频.com| 国产午夜精品一区二区三区四区 | 亚洲精品国产精品久久| 日本天堂在线| 久久久久久久综合日本| 蜜桃av色综合| 欧美69xxxxx| 国产亚洲欧美激情| 日韩中文字幕av在线| 国产精品一二三区视频| 国产欧美一区二区精品久导航| 欧美精品亚洲| 成人影视在线播放| 成人欧美一区二区三区白人| 天天干天天操天天干天天操| 亚洲av永久无码国产精品久久| 极品少妇一区二区三区精品视频| 91精品国产综合久久香蕉最新版| 国产巨乳在线观看| 国产九九视频一区二区三区| 国产精品制服诱惑| 日本福利午夜视频在线| 国产欧美一区二区精品仙草咪| 亚洲色图自拍| a级网站在线播放| 亚洲高清久久久| 无码人妻h动漫| 欧美videos粗暴| 精品国产电影一区| 白嫩少妇丰满一区二区| gogo大尺度成人免费视频| 欧美刺激午夜性久久久久久久| 老司机午夜免费福利| 亚洲图区在线| 日韩免费高清av| 亚洲久久久久久| av一级久久| 欧美大片国产精品| 美女被到爽高潮视频| 999久久久精品国产| 欧美精品18videosex性欧美| 国产又黄又粗又爽| 黄网站免费久久| 国产精品加勒比| 爱爱爱免费视频在线观看| 椎名由奈av一区二区三区| 天堂…中文在线最新版在线| 久久久人成影片一区二区三区在哪下载 | 亚洲欧美在线一区二区| 日韩欧美视频免费观看| 亚洲日本国产| 成人性生交大片免费看视频直播 | 999精品嫩草久久久久久99| 亚洲精品一区二区三区影院| 一级在线观看视频| 亚洲一级黄色| 成人av番号网| 精品三级久久久久久久电影聊斋| 亚洲黄色在线视频| 丰满少妇在线观看| 美女视频亚洲色图| 久热精品视频在线| 成年人视频免费| 成人高清在线视频| 日本免费在线视频观看| 欧美亚洲韩国| 日韩成人在线视频网站| 男女做暖暖视频| 青椒成人免费视频| 国产伦精品一区| h片在线播放| 欧美亚洲综合色| 荫蒂被男人添免费视频| 中文无码久久精品| 国产欧美va欧美va香蕉在| 日av在线播放| 性久久久久久久久久久久| 人妻换人妻仑乱| 日韩激情在线| 国产精品久久久久久久久影视| 天天干免费视频| 成人丝袜18视频在线观看| 国产精品区一区| 国产美女在线观看| 欧美偷拍一区二区| 精品人妻一区二区三区四区| 午夜亚洲福利在线老司机| 国产成人女人毛片视频在线| 精品黄色免费中文电影在线播放| 日本黄色一区二区| 深爱五月激情网| 亚洲人成高清| 久久久影院一区二区三区| 成人爽a毛片免费啪啪动漫 | 香蕉视频免费看| 亚洲成人一区二区在线观看| 亚洲精品乱码久久久久久9色| 久久高清精品| 91精品久久久久久久久青青 | 亚洲四区在线观看| 手机av在线免费| 亚洲成人二区| 91久久国产综合久久蜜月精品 | 先锋影音国产精品| 26uuu亚洲伊人春色| 日韩国产福利| 色婷婷综合在线| 懂色av粉嫩av浪潮av| 蜜桃精品视频在线观看| 一区二区三区国产福利| 四虎地址8848精品| 欧美高清一级大片| 天天插天天干天天操| 一本大道久久a久久综合婷婷| 真实乱视频国产免费观看| 日韩电影一二三区| 一区二区三区四区五区视频| 不卡一区视频| 久久久久久久久国产| 天堂av在线资源| 欧美中文字幕一区| 丝袜 亚洲 另类 欧美 重口 | 国产区二精品视| 国产大片在线免费观看| 欧美色窝79yyyycom| 1024手机在线视频| 91蝌蚪porny| 伊人影院综合在线| 亚洲性视频h| 日本欧洲国产一区二区| 黑人另类精品××××性爽| 亚洲国产日韩欧美在线动漫| 五月天婷婷激情| 国产精品自拍一区| 欧美一区二区中文字幕| 精品视频黄色| av一本久道久久波多野结衣| jk漫画禁漫成人入口| 日韩精品专区在线影院观看| 中文字幕一区二区三区精品| 欧美国产激情二区三区| 中文字幕1区2区| 久久久精品日韩| 妞干网这里只有精品| 亚洲系列另类av| 97久久人人超碰caoprom欧美| 韩国成人漫画| 久久99久久99精品中文字幕| 国产视频三级在线观看播放| 欧美电影精品一区二区| 免费在线不卡av| 性久久久久久久久久久久| 亚洲精品一区二区三区在线播放| av成人老司机| 色网站在线视频| 欧美亚洲免费| 国产精品69久久久| 999久久久亚洲| 欧美极品色图| 粉嫩精品导航导航| 高清亚洲成在人网站天堂| av网站在线播放| 亚洲国产欧美在线成人app| 国产精品一区二区免费视频| 91传媒视频在线播放| 91午夜视频在线观看| 亚洲视频免费在线| 美国黑人一级大黄| 91女厕偷拍女厕偷拍高清| 中国特级黄色片| 精品一区二区免费在线观看| 久久久久国产精品熟女影院 | 最近免费中文字幕中文高清百度| 欧美日韩国产在线一区| 影音先锋欧美在线| 成人在线免费观看91| 欧美动漫一区二区| 欧美1区2区3区4区| 国产伦精品一区二区三区照片| 成人av在线播放| 国产日韩在线看片| 成人mm视频在线观看| 国产suv精品一区二区| 绿色成人影院| 97精品国产97久久久久久| 黑人精品视频| 久久久视频精品| 久久www人成免费看片中文| 欧美疯狂性受xxxxx另类| 超碰人人在线| 欧美日韩福利视频| 午夜小视频福利在线观看| 精品国产免费视频| 国产激情无套内精对白视频| 欧美一区二区啪啪| 国产av一区二区三区| 欧美一区二区成人6969| 国产99视频在线| 日韩一区二区精品葵司在线| 国产成人久久精品77777综合 | 欧美洲成人男女午夜视频| 国产伦子伦对白在线播放观看| 国模视频一区二区| 在线能看的av网址| 日本欧美国产在线| 性高爱久久久久久久久| 国产精品美女www爽爽爽视频| 欧美精品高清| 国产在线视频不卡| 免费观看亚洲天堂| 国产成人免费电影| 免费成人结看片| 神马影院午夜我不卡| 99久久久久国产精品| 女人床在线观看| 一本久久知道综合久久| av动漫免费看| 精品综合免费视频观看| 中国特级黄色片| 久久精品夜夜夜夜久久| 在线观看天堂av| 亚洲影院免费观看| 久久久久久久黄色片| 欧美在线一区二区三区| 国产精品怡红院| 日韩av在线免费| 日本在线观看免费| 欧美激情精品久久久久久大尺度 | 黄色成人av网| 在线观看视频二区| 日韩欧美色综合| 欧美孕妇性xxxⅹ精品hd| 最新的欧美黄色| 国产精品一品| 国产噜噜噜噜噜久久久久久久久 | 精品久久人人做人人爽| 麻豆av电影在线观看| 久久久精品视频成人| 国产精品蜜芽在线观看| 国产精品综合久久久| 国产精品色呦| 一区视频二区视频| 99av国产精品欲麻豆| 一起操在线视频| 99久久er热在这里只有精品15| 国产午夜精品福利视频| 亚洲国产精品久久人人爱蜜臀| 无码人妻精品一区二区三区不卡| 欧美一区二区视频免费观看| 你懂得网站在线| 欧美国产激情18| 日韩毛片免费视频一级特黄| 久久综合久久久| 欧美另类视频| 亚洲综合色在线观看| 99精品视频中文字幕| 中文字幕电影av| 国产亚洲欧洲997久久综合 | 欧美在线三级| 国产视频一区二区三区在线播放| 岛国精品一区二区| 亚洲a∨无码无在线观看| 欧美日韩国产精品专区| 亚洲乱色熟女一区二区三区| 日韩在线观看免费av| 成人欧美一区二区三区的电影| 99影视tv| 一区二区日韩欧美| 亚洲欧美自偷自拍另类| 久久香蕉国产线看观看99| 国产在线拍揄自揄拍| 欧美一区三区四区| 免费**毛片在线| 欧美成人三级视频网站| yiren22亚洲综合| 成人天堂噜噜噜| 久久视频在线| 国产一级特黄a大片免费| 久久综合给合久久狠狠狠97色69| 国产真实夫妇交换视频| 日韩欧美成人一区二区| 成人短视频在线| 成人午夜激情免费视频| 国产精品久久久久久久免费观看 | 成人精品免费在线观看| 欧美成人三级在线| 性欧美ⅴideo另类hd| 99porn视频在线| 欧美欧美全黄| 欧美久久久久久久久久久| 成人免费视频app| 久久久久无码国产精品| 欧美大肚乱孕交hd孕妇| 9999在线视频| 久久久精品动漫| 亚欧成人精品| 国产av自拍一区| 欧美性三三影院| 欧美日本一道| 91在线精品播放| 欧美日韩国产一区精品一区| www.555国产精品免费| 亚洲不卡一区二区三区| 天天摸天天干天天操| 4444欧美成人kkkk| aiai在线| 日韩一级黄色片| 91中文在线| 国产精品一区二区在线观看| 夜夜夜久久久| 人妻熟女aⅴ一区二区三区汇编| 欧美午夜影院在线视频| 黄色片视频在线观看| 国产精品吴梦梦| 欧美a级片网站| 精品无码在线视频| 欧美在线不卡视频| 麻豆免费在线视频| 成人在线观看av| 久久精品日产第一区二区| 欧美黄色高清视频| 日韩一级欧美一级| 中文字幕 在线观看| 亚洲春色在线视频| 国产99久久精品| 日韩手机在线视频| 精品国产美女在线| 粉嫩av一区二区| 婷婷激情四射五月天| 一区二区在线观看不卡| 三级视频网站在线| 国产日产亚洲精品| 亚洲一级特黄| 国产精品18在线| 日韩国产一区三区| 视频欧美精品| 激情综合网婷婷| 亚洲美女少妇撒尿| 九色在线播放| 91在线在线观看| 天堂久久久久va久久久久| 青娱乐国产精品| 在线观看日韩www视频免费| 9999在线视频| 亚洲欧美日韩另类精品一区二区三区|