精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺問題!

人工智能 新聞
中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

想了解更多AIGC的內(nèi)容:

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://www.jxzklqfsx.com/aigc/

大模型不看圖,竟也能正確回答視覺問題?!

中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態(tài),竟然只根據(jù)在多模態(tài)基準(zhǔn)MMMU測(cè)試中的問題和選項(xiàng)文本,就能獲得不錯(cuò)的成績(jī)。

圖片

△藍(lán)色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項(xiàng)文本的LLMs和LVLMs

(LLM:大語言模型;LVLMs:多模態(tài)大模型)

不知道的還以為是大模型的隱藏技能被發(fā)現(xiàn)了。

有網(wǎng)友發(fā)出靈魂拷問:我們?cè)u(píng)估多模態(tài)模型的方法正確嗎?

圖片

這一結(jié)果也激起了研究者們的好奇,于是他們決定對(duì)此展開進(jìn)一步探究。

大模型隱藏技能被發(fā)現(xiàn)?

針對(duì)現(xiàn)有的評(píng)估樣本和評(píng)估過程,研究人員認(rèn)為造成這種現(xiàn)象的兩個(gè)主要問題。

第一,一些多模態(tài)評(píng)估樣本缺少對(duì)視覺內(nèi)容的依賴性。

這種問題反映了現(xiàn)有的benchmark中的不合理之處。這個(gè)問題包含了兩種情況:

一種是有些評(píng)估樣本的答案可以被蘊(yùn)含在了題目和選項(xiàng)中從而免去了看圖的必要。

比如會(huì)有這種問題,這個(gè)圓形土圈是什么形狀?

圖片

另外一種則是有些評(píng)估樣本可以直接被語言大模型利用嵌入的豐富世界知識(shí)進(jìn)行解答而無需依賴圖片。

比如下圖中的問題:內(nèi)布拉斯加州的首府是什么?

圖片

第二,現(xiàn)有評(píng)估過程未考慮語言和多模態(tài)大模型訓(xùn)練過程中的數(shù)據(jù)泄露問題。

LVLM通常由一個(gè)vision encoder,一個(gè)語言模型基座,以及一個(gè)視覺-語言連接件組成。而且現(xiàn)有的多模態(tài)benchmark中有大量的評(píng)估樣本是從單模態(tài)的文本語料中轉(zhuǎn)化過來的(比如從考試題目中轉(zhuǎn)化而來)。

因此如果大語言模型的訓(xùn)練數(shù)據(jù)中無意間泄露了多模態(tài)benchmark中轉(zhuǎn)化不充分的評(píng)估樣本,就會(huì)影響LVLMs之間的公平比較。

為了定量觀察大語言模型中廣泛存在的泄露現(xiàn)象,研究者們采用了22個(gè)大語言模型在6個(gè)公開benchmark上進(jìn)行評(píng)估。

這些大語言模型包含了2個(gè)閉源模型(GPT4-Turbo以及GeminiPro)和20個(gè)大小、架構(gòu)各異的開源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來減少拒絕回答的情況以及對(duì)齊回答的格式。

圖片

結(jié)果看到,閉源模型GeminiPro和開源模型Qwen1.5-72B在極具挑戰(zhàn)性的MMMU基準(zhǔn)上可以分別取得42.7和42.4的驚人成績(jī),一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態(tài)模型在能看到圖片情況下的表現(xiàn)。

進(jìn)一步的,他們還定量觀察多模態(tài)大模型在訓(xùn)練過程中的數(shù)據(jù)泄露情況:屏蔽了LVLM的圖片輸入從而只根據(jù)文本問題和選項(xiàng)來進(jìn)行評(píng)估(標(biāo)記為L(zhǎng)VLM-text)。

圖片

可以看到,像Sphinx-X-MoE和Monkey-Chat經(jīng)過多模態(tài)訓(xùn)練后在不看圖的情況下相比原始大模型在MMMU基準(zhǔn)上可以分別提升驚人的17.9和12.6,而它們即使進(jìn)一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

圖片

GPT-4在新基準(zhǔn)上沒有及格

為了解決上述問題從而進(jìn)行更公平和準(zhǔn)確的評(píng)估,研究者們?cè)O(shè)計(jì)了一個(gè)多模態(tài)評(píng)估基準(zhǔn)MMStar——

包含了1,500個(gè)具有視覺依賴性的高質(zhì)量評(píng)估樣本,涵蓋了樣本均衡的粗略感知、精細(xì)感知,實(shí)例推理、邏輯推理、科學(xué)技術(shù)、數(shù)學(xué)這六個(gè)核心能力以及18個(gè)詳細(xì)的能力維度。

圖片

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個(gè)評(píng)估指標(biāo)來反映出LVLMs在多模訓(xùn)練過程中的真實(shí)性能增益和數(shù)據(jù)泄露程度。

圖片

隨后,為了檢驗(yàn)所提出的MMStar質(zhì)量,他們進(jìn)行了三項(xiàng)評(píng)估。

1)用22個(gè)大語言模型只根據(jù)MMStar中的問題和選型進(jìn)行了評(píng)估,結(jié)果顯示,他們的表現(xiàn)都接近于隨機(jī)選擇,這表明MMStar在現(xiàn)有大模型訓(xùn)練語料中有著很少的數(shù)據(jù)泄露。

圖片

2)評(píng)估16個(gè)多模態(tài)模型在MMStar上的性能。

高分辨率設(shè)置下的GPT4V取得了57.1的最高平均性能(但還是沒有及格)。

開源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績(jī),LLaVA-Next在數(shù)學(xué)維度上的表現(xiàn)要略優(yōu)于GPT4V和GeminiPro-Vision。

值得注意的是,沒有多模態(tài)大模型能夠在精細(xì)感知(FP),邏輯推理(LR),科學(xué)技術(shù)(ST)以及數(shù)學(xué)(MA)上及格。

圖片

3)用16個(gè)LVLMs在6個(gè)公開benchmark以及所提的MMStar上對(duì)MG和ML指標(biāo)進(jìn)行了廣泛評(píng)估。

圖片

可以看到,而MMStar展示出了最少的平均數(shù)據(jù)泄漏程度。

研究團(tuán)隊(duì)相信,這種跨模型間的ML指標(biāo)對(duì)社區(qū)之后檢驗(yàn)新開發(fā)的多模態(tài)benchmarks也是有益的。

論文鏈接:https://arxiv.org/pdf/2403.20330.pdf
項(xiàng)目鏈接:https://mmstar-benchmark.github.io/

https://huggingface.co/datasets/Lin-Chen/MMStar

代碼鏈接:https://github.com/MMStar-Benchmark/MMStar


想了解更多AIGC的內(nèi)容:

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://www.jxzklqfsx.com/aigc/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-06-17 07:10:00

2024-12-02 10:40:00

AI模型

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-08-21 13:49:00

圖像技術(shù)

2025-04-18 09:13:00

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2013-06-19 11:32:32

計(jì)算性能ISCHPC

2023-03-17 07:59:57

AI數(shù)字化

2024-11-06 13:03:49

2012-11-23 10:15:55

SCC12全球超級(jí)計(jì)算大會(huì)

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2025-04-09 09:25:00

視頻模型AI

2024-11-04 13:30:00

模型AI

2025-08-28 09:09:00

AI強(qiáng)化學(xué)習(xí)模型

2025-09-01 08:51:00

2021-11-17 16:13:45

IBM 處理器量子

2025-05-26 09:41:26

2017-03-23 17:09:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

男人天堂视频网| 亚洲图片综合网| a黄色片在线观看| 粉嫩一区二区三区在线看| 欧美亚洲视频在线观看| 五月天精品在线| 给我免费播放日韩视频| 欧美在线视频日韩| 精品久久久无码人妻字幂| 婷婷在线免费观看| 国产原创一区二区| 全球成人中文在线| 少妇久久久久久被弄高潮| 亚洲人成网www| 欧美成人一级视频| 中文字幕 91| 欧美aa在线观看| 亚洲精品成a人| 日日骚一区二区网站| 黄色a在线观看| 欧美aⅴ一区二区三区视频| 欧美精品videossex性护士| 日韩av网站在线播放| 日韩精品导航| 亚洲爱爱爱爱爱| 天天操天天干天天做| 欧美日韩国产v| 亚洲高清三级视频| 大片在线观看网站免费收看| av在线播放网站| 91麻豆免费在线观看| 成人av资源网| 国产精品色综合| 日韩avvvv在线播放| 欧美与欧洲交xxxx免费观看| 久久网一区二区| 在线精品视频在线观看高清| 在线看日韩欧美| 欧美 日韩 国产 成人 在线观看| 国产精品45p| 精品sm在线观看| 国产成人精品综合久久久久99| 日韩av黄色| 精品视频1区2区| 日本888xxxx| 色成人免费网站| 色噜噜狠狠色综合中国| 国产成人a亚洲精v品无码| 黄毛片在线观看| 午夜精品成人在线| 国产在线精品91| 岛国av在线播放| 五月婷婷激情综合| 少妇人妻在线视频| 蜜桃视频在线观看播放| 五月天欧美精品| 尤物av无码色av无码| 国产夫妻在线| 色婷婷av一区二区三区大白胸| 青青草原av在线播放| 亚洲天堂资源| 在线这里只有精品| 亚洲欧美日韩三级| 免费观看性欧美大片无片| 日韩一区二区精品葵司在线| 黑人巨大猛交丰满少妇| 盗摄系列偷拍视频精品tp| 亚洲电影中文字幕| 加勒比一区二区| 日本午夜一区| 久久亚洲私人国产精品va| 少妇aaaaa| 尹人成人综合网| 欧美怡春院一区二区三区| 国产免费a视频| 久久99久久99| 国产高清自拍99| 亚洲 欧美 自拍偷拍| 国产亚洲制服色| 一区二区视频在线播放| av免费看在线| 疯狂欧美牲乱大交777| 污污的网站18| 精品久久国产一区| 亚洲老头同性xxxxx| 999久久久国产| 黄色av成人| 国产成人97精品免费看片| 国产露脸国语对白在线| 波多野结衣亚洲一区| 日韩激情视频| 欧美人与禽性xxxxx杂性| 欧美色道久久88综合亚洲精品| 婷婷激情四射五月天| 大桥未久女教师av一区二区| 一道本无吗dⅴd在线播放一区 | av不卡在线播放| 色噜噜色狠狠狠狠狠综合色一| 影音先锋男人资源在线| 一本色道久久综合亚洲91 | 97精品超碰一区二区三区| 亚洲春色在线视频| av免费在线视| 宅男噜噜噜66一区二区66| 国产美女喷水视频| 欧美日韩亚洲国产精品| 国产精品青草久久久久福利99| 亚洲va久久久噜噜噜无码久久| 久久蜜桃av一区精品变态类天堂| 欧美少妇一区二区三区| 丁香六月综合| 精品久久久久久无| 日本 欧美 国产| 久久久夜精品| 国产精品亚洲综合| h片在线免费| 欧美日韩一区成人| 中文字幕在线看高清电影| 欧美精品网站| 91精品国产自产在线观看永久| 你懂的在线看| 亚州成人在线电影| 免费黄色在线播放| 亚洲最新色图| 国产在线播放91| 国产三级在线免费观看| 日韩欧美在线字幕| 国产真实乱人偷精品| 精品成人一区| 99热国产免费| 亚洲大胆人体大胆做受1| 欧美日韩在线直播| 日本综合在线观看| 日韩—二三区免费观看av| 免费一区二区三区在在线视频| 都市激情久久综合| 精品欧美一区二区在线观看| 欧美片一区二区| 国产自产视频一区二区三区| 在线播放豆国产99亚洲| 热久久久久久| 久久久精品一区| 国产乱码一区二区| 亚洲欧美日韩电影| 特黄特黄一级片| 欧美一区亚洲| 成人av免费在线看| 1区2区在线| 亚洲精品国产成人| 美女又爽又黄免费视频| 91看片淫黄大片一级| 男人操女人免费软件| 亚洲三级精品| 国产精品日韩欧美| 毛片免费不卡| 日韩久久免费av| 在线看成人av| www欧美成人18+| 搡女人真爽免费午夜网站| 欧美色网址大全| 国产欧美日韩91| 久操视频在线免费播放| 日韩一区二区三区精品视频| 国产亚洲欧美久久久久| 97se狠狠狠综合亚洲狠狠| 国产成人无码一二三区视频| 欧洲三级视频| 91久久精品国产91性色| 欧美激情成人动漫| 亚洲国内高清视频| 天天干天天操天天操| 1024成人网色www| 国产视频精品视频| 石原莉奈在线亚洲二区| 咪咪色在线视频| 加勒比中文字幕精品| 国产成人欧美在线观看| 国产写真视频在线观看| 亚洲精品一区二区三区蜜桃下载| av网站中文字幕| 亚洲视频一区二区在线观看| 久久精品女同亚洲女同13| 视频一区中文字幕| 337p亚洲精品色噜噜狠狠p| 日韩欧美中文字幕电影| 国产日本欧美一区二区三区在线| 男人天堂亚洲| 中文字幕亚洲国产| 黄色一级大片在线免费看国产一| 色综合久久久网| 麻豆亚洲av熟女国产一区二| 久久影院午夜论| 色婷婷一区二区三区在线观看| 日韩亚洲国产精品| 在线观看欧美亚洲| 欧美男男freegayvideosroom| 国产精品美女久久久免费| 高清电影在线免费观看| 色悠悠久久久久| 特黄视频在线观看| 在线综合视频播放| wwwwww在线观看| 亚洲成人tv网| 国产传媒免费在线观看| 久久精品日韩一区二区三区| 国产又粗又猛又爽又黄| 日本欧美一区二区| 一区二区传媒有限公司| 亚洲一区二区日韩| 日韩精品久久久| 日韩最新在线| 91嫩草在线| 亚洲人成777| 国产精品久久久久久久久久久新郎 | 欧美极品xxx| 久久精品女同亚洲女同13| 国产一区二区三区黄视频| 日韩中文字幕二区| 国产精品社区| 国产高清www| 欧美激情五月| 黄瓜视频免费观看在线观看www| 九九热线有精品视频99| 久久99精品国产一区二区三区| 五月亚洲婷婷| 成人做爰www免费看视频网站| 电影天堂国产精品| 日本亚洲欧洲色| 色在线免费观看| 2019中文字幕免费视频| 成人在线黄色电影| 98精品在线视频| 91九色国产在线播放| 欧美福利视频网站| 亚洲妇熟xxxx妇色黄| 九九热这里只有精品免费看| 国产欧美黑人| 免费不卡欧美自拍视频| 综合久久2019| 欧美激情亚洲自拍| 好吊日av在线| 国模私拍视频一区| 99爱在线观看| 欧美性受xxx| 性欧美videohd高精| 秋霞成人午夜鲁丝一区二区三区| 日韩伦理在线| 日韩av免费在线观看| 综合在线影院| 国产欧美在线视频| 成人黄色理论片| 国产成人精品免费视频大全最热| 最新精品在线| 久久久久久九九九九| 午夜精品福利影院| 视频在线观看成人| 婷婷亚洲最大| 青青草综合视频| 精品91在线| 国产精品欧美激情在线观看| 视频一区欧美精品| 不卡中文字幕在线观看| 国产精品456| free性中国hd国语露脸| 久久精品一区四区| 国产三级aaa| 亚洲综合色噜噜狠狠| 韩国av中文字幕| 一本色道久久加勒比精品| 日本三级一区二区三区| 欧美一区二区大片| 天堂中文在线观看视频| 亚洲天堂男人天堂| 黄色在线免费| 668精品在线视频| 麻豆久久久久| 痴汉一区二区三区| 激情综合网五月| 精品日韩在线播放| 国产亚洲毛片在线| 亚洲精品视频三区| av在线一区二区三区| 91视频免费看片| 亚洲一区影音先锋| 337p粉嫩色噜噜噜大肥臀| 欧美一卡在线观看| 久久米奇亚洲| 欧美黑人狂野猛交老妇| 国产综合色区在线观看| 99re热精品| 波多野结衣在线观看一区二区| xxxxxx在线观看| 日韩精品一级二级| 国产国语老龄妇女a片| 中文字幕免费在线观看视频一区| 久久高清无码视频| 欧美三级午夜理伦三级中视频| 高清国产mv在线观看| 一区二区亚洲欧洲国产日韩| 黑人玩欧美人三根一起进| 国产欧美久久久久久| 亚洲人成网亚洲欧洲无码| 影音先锋成人资源网站| 日韩精品电影在线观看| 国产成人av片| 亚洲欧洲日韩综合一区二区| 亚洲视频 欧美视频| 日韩午夜小视频| 在线观看完整版免费| 2019亚洲男人天堂| gogo人体一区| 美国av在线播放| 日本sm残虐另类| 全黄一级裸体片| 亚洲国产日韩在线一区模特| 国产精品视频无码| 中文字幕欧美日韩va免费视频| 天堂网在线最新版www中文网| 99高清视频有精品视频| 99久久视频| 午夜激情av在线| 久久精品日产第一区二区三区高清版| 久久露脸国语精品国产91| 日韩亚洲欧美成人一区| 激情影院在线观看| 国产三级精品网站| 国产精品一区二区三区av麻| 国产a级片网站| 国产91综合一区在线观看| 少妇aaaaa| 欧美一区二区三区人| 精品黄色免费中文电影在线播放| 国产精品久久久久久五月尺| 欧洲grand老妇人| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 成人网视频在线观看| 清纯唯美亚洲综合| 免费看成人哺乳视频网站| 国产欧美在线一区| 久久精品一区二区三区不卡| av片免费观看| 国产婷婷成人久久av免费高清 | 成人av片网址| 激情久久久久久久| 欧美激情 亚洲| 午夜久久久影院| 日本韩国精品一区二区| 日本精品久久中文字幕佐佐木| 希岛爱理av免费一区二区| 色综合av综合无码综合网站| 久久精品亚洲一区二区三区浴池| 国产精品第6页| 日韩在线观看免费网站| 国产亚洲字幕| 久久人人爽人人爽人人av| 9色porny自拍视频一区二区| yjizz国产| 在线精品91av| 精品成人18| 131美女爱做视频| 久久久精品国产免大香伊 | 激情伊人五月天久久综合| 99视频只有精品| 日韩电影在线观看中文字幕| 欧美xxx网站| 椎名由奈jux491在线播放| 国产精品123| 亚洲天堂av片| 中文字幕在线日韩| 91成人精品在线| 精品人妻一区二区三区四区在线| 国产亚洲欧美色| 国产区精品在线| 欧美一级大片在线观看| 久久视频国产| 久久久久久久穴| 在线观看欧美日本| 18av在线播放| 蜜桃欧美视频| 精品午夜久久福利影院| 日韩欧美三级在线观看| 一区二区三区视频免费在线观看 | 精品久久久久久久久久久久包黑料 | 日韩中文字幕麻豆| tube国产麻豆| 亚洲欧美日韩国产中文| 国产亚洲高清一区| 国产女女做受ⅹxx高潮| 亚洲激情在线播放| 国产福利第一视频在线播放| 国产精品二区在线观看| 美女视频一区在线观看| 日本少妇性高潮| 久久精品视频免费播放| 色吊丝一区二区| 一级黄色大片免费看| 欧美午夜电影在线播放| 美女av在线免费看| 亚洲av综合色区| 中文字幕第一区二区|