精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

準確率不足20%,GPT-4V/Gemini竟看不懂漫畫!首個圖像序列基準測試開源

人工智能
馬里蘭大學聯合北卡教堂山發布首個專為多模態大語言模型(MLLM)設計的圖像序列的基準測試Mementos,涵蓋了真實世界圖像序列、機器人圖像序列,以及動漫圖像序列,用4761個多樣化圖像序列的集合,全面測試MLLM對碎散圖像序列的推理能力!

OpenAI的GPT-4V和谷歌最新的Gemini多模態大語言模型一經推出就得到業界和學界的熱切關注: 一系列工作都從多角度展示了這些多模態大語言模型對視頻的理解能力。人們似乎相信我們離通用人工智能artificial general intelligence (AGI) 又邁進了一大步!

可如果告訴你,GPT-4V連漫畫中的人物行為都會看錯, 試問:元芳,你怎么看?

我們來看看這幅迷你漫畫系列:

圖片圖片

如果讓生物界最高智能體——人類,也就是讀者朋友來描述, 你大概率會說:

圖片圖片

那我們來看看當機器界最高智能體——也就是GPT-4V來看這幅迷你漫畫系列的時候,它會這么描述呢?

圖片圖片

GPT-4V作為公認的站在鄙視鏈頂端的機器智能體,居然公然睜眼說瞎話。

還有更離譜的是,就算給GPT-4V實際的生活圖像片段,它也會把一個人上樓梯過程中與另一個人交談的行為也離譜的識別成兩個人手持「武器」相互打斗嬉鬧 (如下圖所示)。

圖片圖片

Gemini也不遑多讓,同樣的圖像片段,把這個過程看成了男子艱難上樓并與妻子爭吵被鎖在屋里。

圖片圖片

這些例子都來自于馬里蘭大學聯合北卡教堂山的研究團隊的最新成果,他們推出了一個專門為MLLM設計的圖像序列的推理基準測試——Mementos。

就像諾蘭的電影《Memento記憶碎片》重新定義了敘事方式,Mementos正在重塑測試人工智能的上限。

作為一個全新的基準測試,它挑戰的是人工智能對如記憶碎片般的圖像序列的理解。

圖片圖片

論文鏈接:https://arxiv.org/abs/2401.10529

項目主頁:https://mementos-bench.github.io 

Mementos是第一個專為MLLM設計的圖像序列推理的基準測試,主要關注大模型在連續圖像上的對象幻覺和行為幻覺。

其涉及的圖片類型多樣,涵蓋三大類別:真實世界圖像,機器人圖像,以及動漫圖像。

并且包含了4,761個不同長度的多樣化圖像序列,每個序列都配有人類注釋的主要對象及其在序列中的行為描述。

圖片圖片

目前數據已經開源,并且還在更新中。

幻覺類型

作者在論文中闡述了MLLM在Mementos中會產生的兩種幻覺:對象幻覺(object hallucination)和行為幻覺(behavior hallucination)。

顧名思義, 對象幻覺是幻想出不存在的對象(object), 而行為幻覺則是幻想出對象并沒有做出的動作與行為。

測評方式

對于如何準確的評估MLLM在Mementos上的行為幻覺和對象幻覺,研究團隊選擇了將MLLM產生的圖像描述和人標注的描述進行關鍵詞匹配。

為了自動化評測每一個MLLM的表現,作者采用了GPT-4輔助測試的方法來進行評估:

圖片圖片

1. 作者將圖像序列和提示詞作為輸入給MLLM,并生成與相應圖像序列對應的描述;

2. 請求GPT-4提取AI生成描述中的對象和行為關鍵詞;

3. 獲得兩個關鍵詞列表:AI生成的對象關鍵詞列表和AI生成的行為關鍵詞列表;

4. 計算AI生成的對象關鍵詞列表和行為關鍵詞列表和人的標注的關鍵詞表的召回率、準確率和F1指標。

測評結果

作者在Mementos上評估了MLLMs在序列圖像推理方面的表現,對包括GPT4V和Gemini在內的九種最新的MLLMs進行了細致的評估。

MLLM被要求來描述圖像序列中正在發生的事件,從而來測評MLLM對于連續圖像的推理能力。

結果發現,如下圖所示,GPT-4V和Gemini對于人物行為在漫畫數據集的正確率竟然不到20%。

圖片圖片

而在真實世界圖像和機器人圖像中,GPT-4V和Gemini的表現也不盡如人意:

圖片圖片

關鍵點

1. 在評估多模態大型語言模型時,GPT-4V和LLaVA-1.5分別是在黑盒和開源MLLMs中表現最好的模型。GPT-4V在理解圖像序列方面的推理能力優于其他所有MLLMs,而LLaVA-1.5在對象理解方面幾乎與黑盒模型Gemini相當或甚至超越。

2. 雖然Video-LLaMA-2和Chat-UniVi是為視頻理解設計的,但它們并沒有顯示出比LLaVA-1.5更好的優勢。

3. 所有MLLMs在圖像序列中對象推理的三個指標上表現顯著優于行為推理,表明當前MLLMs在從連續圖像中自主推斷行為的能力不強。

4. 黑盒模型在機器人領域的表現最佳,而開源模型在日常生活領域表現相對較好。這可能與訓練數據的分布偏移有關。

5. 訓練數據的局限性導致開源MLLMs的推理能力較弱。這表明了訓練數據的重要性以及它對模型性能的直接影響。

錯誤原因

作者對當前多模態大型語言模型在處理圖像序列推理時失敗的原因的分析,主要識別了三個錯誤原因:

1. 對象與行為幻覺之間的相互作用

研究假設,錯誤的對象識別會導致隨后的行為識別不準確。量化分析和案例研究表明,對象幻覺會在一定程度上導致行為幻覺。例如,當MLLM錯誤地將場景識別為網球場后,可能會描述人物正在打網球,即使這種行為在圖像序列中并不存在。

2. 共現對行為幻覺的影響

MLLM傾向于生成在圖像序列推理中常見的行為組合,這加劇了行為幻覺的問題。例如,在處理機器人領域的圖像時,MLLM可能錯誤地描述一個機器人手臂在“抓取把手”之后拉開抽屜,即使實際行為是“抓取抽屜的側面”。

3. 行為幻覺的雪球效應

隨著圖像序列的進行,錯誤可能會逐漸累積或加劇,這稱為雪球效應。在圖像序列推理中,如果早期出現錯誤,這些錯誤可能會在序列中積累和放大,導致對象和行為識別的準確性下降。

舉個例子

圖片圖片

從上圖可知,MLLM失敗原因包括對象幻覺以及對象幻覺與行為幻覺之間的相關性,以及共現行為。

例如,在出現「網球場」的對象幻覺后,MLLM隨后展現出「拿著網球拍」的行為幻覺(對象幻覺與行為幻覺之間的相關性)以及「似乎在打網球」的共現行為。

圖片圖片

觀察上圖中的樣本,可以發現MLLM錯誤地認為椅子再往后仰并且認為椅子碎掉了。

這一現象揭示了MLLM對于圖像序列中的靜止的對象,它也會產生這個對象發生了某些動作的幻覺。

圖片圖片

在上圖關于機械臂的圖像序列展示中,機械臂伸到了把手旁邊,MLLM就錯誤地認為機械臂抓住了把手,證明了MLLM會生成在圖像序列推理中常見的行為組合,從而產生幻覺。

圖片圖片

在上圖的案例中,老夫子并沒有牽著狗,MLLM錯誤地認為遛狗就要牽著狗,并且「狗的撐桿跳」被識別成了「創造了噴泉」。

大量的錯誤反映了MLLM對于漫畫領域的不熟悉,在二次元動漫領域,MLLM可能需要大幅度的優化和預訓練.

在附錄中,作者通過詳細展示了各主要類別中的失敗案例,并進行了深入的分析。

總結

近年來,多模態大型語言模型在處理各種視覺-語言任務上展現出了卓越的能力。

這些模型,如GPT-4V和Gemini,能夠理解和生成與圖像相關的文本,極大地推動了人工智能技術的發展。

然而,現有的MLLM基準測試主要集中于基于單張靜態圖像的推理,而對于從圖像序列中推斷,這對于理解我們不斷變化的世界至關重要,的能力研究相對較少。

為了解決這一挑戰,研究人員提出了一種新的基準測試「Mementos」,目的是評估MLLMs在序列圖像推理方面的能力。

Mementos包含了4761個不同長度的多樣化圖像序列。此外,研究團隊還采用了GPT-4輔助方法來評估MLLM的推理性能。

通過對九個最新的MLLMs(包括GPT-4V和Gemini)在Mementos上的仔細評估,研究發現這些模型在準確描述給定圖像序列的動態信息方面存在挑戰,常常導致對象及其行為的幻覺/誤表達。

量化分析和案例研究識別出三個關鍵因素影響MLLMs的序列圖像推理:

1. 對象和行為幻覺之間的相關性;

2. 共現行為的影響;

3. 行為幻覺的累積影響。

這一發現對于理解和提升MLLMs在處理動態視覺信息方面的能力具有重要意義。Mementos基準不僅揭示了當前MLLMs的局限性,也為未來的研究和改進提供了方向。

隨著人工智能技術的快速發展,MLLMs在多模態理解領域的應用將變得更加廣泛和深入。Mementos基準測試的引入,不僅推動了這一領域的研究,也為我們提供了新的視角,去理解和改進這些先進的AI系統如何處理和理解我們復雜多變的世界。

參考資料:

https://github.com/umd-huanglab/Mementos

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2023-10-31 12:23:17

GPT-4版本VLM

2023-12-01 12:32:04

數據訓練

2025-02-13 09:40:00

2025-05-26 08:33:00

2025-11-14 13:40:55

GPT-4oAI模型

2025-04-01 09:25:00

2024-07-23 09:48:59

2023-11-20 21:56:04

AI推理

2023-11-13 18:19:35

AI訓練

2023-12-29 09:55:03

視覺模型

2023-09-19 09:20:16

2019-12-09 08:29:26

Netty架構系統

2024-05-20 08:20:00

OpenAI模型

2023-10-19 09:32:45

自動駕駛技術

2024-06-20 10:43:15

2024-01-03 12:56:39

2023-10-14 17:24:49

2025-05-06 15:32:23

模型AI測試

2023-10-14 13:09:53

谷歌模型
點贊
收藏

51CTO技術棧公眾號

国产综合久久久久久久久久久久 | 国产精品三级电影| 国产成人aa精品一区在线播放| 亚洲AV无码国产成人久久| 亚洲毛片在线免费| 午夜av一区二区三区| 欧洲精品一区色| 91成人国产综合久久精品| 国产高清一区二区| 亚洲第一精品电影| 簧片在线免费看| 黄色污污视频在线观看| 成人午夜在线影视| 99久久亚洲精品蜜臀| 日韩无一区二区| 日本精品一区二区三区四区| 久草资源在线| 91原创在线视频| 成人免费在线网址| 五月婷婷色丁香| 欧美亚洲不卡| 色诱女教师一区二区三区| 在线观看免费视频国产| 国产成人免费精品| 精品国产户外野外| 国产911在线观看| 福利在线播放| 91欧美激情一区二区三区成人| 91在线播放国产| 日韩国产成人在线| 亚洲美女网站| 久久99热这里只有精品国产 | 少妇网站在线观看| 黄网页免费在线观看| 久久天天做天天爱综合色| 亚洲专区中文字幕| 日批视频免费观看| 天堂久久一区二区三区| 97不卡在线视频| 国产一级理论片| 欧美成人国产| 久久久999国产| 成人欧美一区二区三区黑人一| 久久精品亚洲成在人线av网址| 制服丝袜亚洲播放| 久久精品亚洲天堂| 国产不卡精品在线| 在线播放/欧美激情| 中文字幕国内自拍| 69堂精品视频在线播放| 日韩欧美在线免费| 成人精品视频一区二区| 37p粉嫩大胆色噜噜噜| 国产日产亚洲系列最新| 久久精品国产精品亚洲精品| 国产精品欧美激情| 国产一级片免费视频| 日韩在线一二三区| 国产精品成久久久久三级| 久久人妻免费视频| 爽好多水快深点欧美视频| 热久久视久久精品18亚洲精品| 国产第100页| 国产综合精品| 色综合久久天天综线观看| 黄色免费视频网站| 日韩精品福利一区二区三区| 精品国产凹凸成av人导航| 波多野结衣在线免费观看| av成人免费| 欧美午夜一区二区| 亚洲老女人av| 亚洲毛片在线免费| 五月精品视频| 欧美影院一区二区| 国产成人久久婷婷精品流白浆| av丝袜在线| 亚洲mv在线观看| 亚洲国产成人精品无码区99| 色婷婷av在线| 亚洲不卡av一区二区三区| 精品国偷自产一区二区三区| www555久久| 亚洲国产精品自拍| 任你操这里只有精品| 香蕉视频亚洲一级| 在线观看视频一区二区| 日本在线观看免费视频| 欧美视频免费看| 欧美丰满少妇xxxxx高潮对白| 久国产精品视频| 国产亚洲精aa在线看| 日韩精品一区在线观看| 成年女人免费视频| 亚欧日韩另类中文欧美| 日本精品影院| 欧美日韩国产精品自在自线| 国产乱码一区二区三区四区| 欧美日本三级| 欧美精品一区二区三区蜜臀| 网站免费在线观看| 美女久久久久| 日韩在线播放一区| 日韩激情在线播放| 日精品一区二区三区| 国产欧美精品一区二区| 国产区精品在线| 成人av在线一区二区| 蜜桃免费一区二区三区| а天堂8中文最新版在线官网| 中文字幕一区二区三区乱码在线 | 国产特黄在线| 日韩理论片一区二区| 日韩a级黄色片| 欧美电影免费观看| 欧美日韩一区二区三区视频播放| 欧美日韩国产a| 欧美日韩一区二区区| 黄色欧美网站| 日韩中文字幕第一页| 免费中文字幕在线观看| 麻豆成人精品| 不卡一卡2卡3卡4卡精品在| 四虎在线免费观看| 亚洲天堂免费看| 热久久最新地址| 日韩av影片| 91精品福利在线一区二区三区| 欧美一级片黄色| 久久综合88| 68精品国产免费久久久久久婷婷| 在线观看不卡的av| 人人澡人人添人人爽一区二区| av毛片久久久久**hd| 亚洲韩国在线| 国产精品25p| 91精品国产综合久久福利| 欧亚乱熟女一区二区在线| 日韩精品不卡一区二区| 久久久噜噜噜久久久| 在线免费a视频| 91免费观看视频| 嫩草影院中文字幕| 日韩美女在线| 亚洲天堂av高清| 日韩高清精品免费观看| 国产盗摄女厕一区二区三区 | 亚洲v在线看| 日本精品性网站在线观看| 亚洲AV无码精品色毛片浪潮| 亚洲欧洲av在线| 一区二区成人网| 自拍亚洲一区| 欧美自拍大量在线观看| 黄片毛片在线看| 亚洲精品成人精品456| 成人综合久久网| 婷婷亚洲五月色综合| 国产成一区二区| 国产视频福利在线| 四季久久免费一区二区三区四区| 亚洲一二三专区| 一级片黄色免费| 日韩情爱电影在线观看| 国产精品欧美久久久| 国产在线超碰| 欧美中文字幕不卡| 午夜国产福利视频| 久久99精品久久久久久动态图| 日韩高清国产精品| 欧美黄色三级| 中文日韩电影网站| 五月婷婷激情五月| 久久精品欧美一区二区三区不卡| 内射国产内射夫妻免费频道| 欧美调教在线| 欧美激情视频给我| 99riav国产| 亚洲精品国产成人久久av盗摄| www激情五月| 欧美激情aⅴ一区二区三区| 亚洲永久在线观看| 色www永久免费视频首页在线| 日韩一区二区免费在线电影| 久久视频免费观看| 激情五月婷婷小说| 免费人成精品欧美精品| 最近中文字幕免费mv| 国产精品18| 欧美激情精品久久久久久黑人| 男人天堂网在线视频| 亚洲成人午夜影院| 日韩人妻无码一区二区三区| 久久亚洲精品伦理| 亚洲一区二区三区免费看| 亚洲欧洲一二区| 欧美激情va永久在线播放| 欧美白人做受xxxx视频| 欧美亚洲高清一区二区三区不卡| 香蕉久久久久久久| 国产美女在线精品| 黄色动漫网站入口| 欧美亚洲高清| 97人人模人人爽人人喊38tv| 波多野结衣在线观看| 国产小视频国产精品| 正在播放木下凛凛xv99| 亚洲国产视频在线| 老牛影视av老牛影视av| 国产精品亚洲欧美在线播放| www.性欧美| 国产成人久久777777| 天天射—综合中文网| 国产传媒一区| 成人精品三级| 欧美精品激情blacked18| 天堂网在线资源| 91成人看片片| 国产在线欧美在线| 国产欧美一区二区精品性| 亚洲第一区第二区第三区| 国产日韩一区| 先锋影音男人资源| 亚洲深夜福利在线观看| 91精品久久久久久久久中文字幕| 天堂成人av| 国产一区二区黑人欧美xxxx| wwwav在线播放| 在线视频亚洲一区| 日本少妇激情视频| 国产精品萝li| 粉嫩av蜜桃av蜜臀av| 国产成人免费视频网站| 88av.com| 国产精品久久久免费 | 激情视频免费网站| 国产精品分类| 在线国产精品网| 蜜桃精品wwwmitaows| 成人在线免费观看一区| 国产精品99久久久久久董美香| 欧美尺度大的性做爰视频| 蜜桃视频网站在线| 日韩av中文字幕在线播放| 91精品人妻一区二区三区果冻| 在线观看日韩av先锋影音电影院| 久久成人国产精品入口| 亚洲国产精品t66y| 老牛影视av老牛影视av| av电影一区二区| 少妇熟女视频一区二区三区| 久久99久久99小草精品免视看| 看欧美ab黄色大片视频免费| 国产精品mm| 日韩国产精品毛片| 欧美高清视频手机在在线| 日韩欧美视频一区二区三区四区| 久久a爱视频| 国产精品久久久久免费| 日韩精品三级| 亚洲最大成人在线| 亚洲天堂久久新| 欧美人妖在线| 久久精品国产美女| 精品日产乱码久久久久久仙踪林| 99re在线观看| 亚洲一区二区三区免费| 99伊人久久| 国产一级成人av| 国产精品一级久久久| 免费日韩一区二区三区| 国产精品夜夜夜一区二区三区尤| www.神马久久| 精品国产免费久久久久久尖叫 | 欧美系列亚洲系列| 中文字幕第99页| 欧美日韩国产成人在线91| a级片免费视频| 欧美mv日韩mv国产网站app| 亚洲第一大网站| 亚洲国产精久久久久久| 五月婷婷久久久| 亚洲嫩模很污视频| av在线播放av| 精品国产一区二区三区在线观看| 影音先锋在线播放| 99久久夜色精品国产亚洲96| 国产在线视频欧美| 视频精品一区| 国产青春久久久国产毛片| 国产一区二区三区亚洲| 欧美精品国产精品久久久| 国产不卡一二三区| 一区二区三区四区不卡| 久久国产成人精品| 丁香六月激情婷婷| 亚洲综合二区| 91小视频在线播放| 成人综合在线视频| 这里只有久久精品| 国产精品久久久久久户外露出| 国产美女福利视频| 欧美色另类天堂2015| 中文字幕av免费观看| 日韩欧美在线123| 欧美高清电影在线| 久久夜色撩人精品| 日韩精品极品| 国产美女被下药99| 成人香蕉社区| 色一情一乱一伦一区二区三区丨| 91成人影院| 老头吃奶性行交视频| 国产 日韩 欧美大片| 男人操女人动态图| 一区二区三区在线视频播放| 国产精品无av码在线观看| 精品国产三区在线| 欧美国产一区二区在线| 亚洲深深色噜噜狠狠爱网站| 国产免费黄色av| 国产乱人伦精品一区二区在线观看| 国产制服丝袜在线| 中文字幕一区二区不卡| 亚洲天堂一区在线| 欧美一区二区三区婷婷月色| 欧美xxx.com| 久久久久久91| 中文.日本.精品| 欧美福利精品| 欧美另类综合| 最新天堂在线视频| 久久久久国产精品麻豆ai换脸| 精品国产乱码久久久久久鸭王1| 在线视频一区二区三区| 亚洲精品一区二区三区区别| 日韩视频在线一区| 暖暖成人免费视频| 国产青春久久久国产毛片| 中文字幕一区二区av | 日本在线观看大片免费视频| 国产欧美日韩中文| 国产日产一区| 男人插女人下面免费视频| 97久久超碰国产精品| 免费三片在线播放| 亚洲视频成人| 久久精品五月婷婷| 国语精品一区| 中文写幕一区二区三区免费观成熟| 国产精品三级av| 无码人妻精品一区二区| 在线视频中文亚洲| 亚洲成人短视频| 欧洲高清一区二区| 久久字幕精品一区| 影音先锋黄色资源| 精品欧美激情精品一区| 免费av一级片| 国内精品久久久久久久| y111111国产精品久久久| 路边理发店露脸熟妇泻火| 国产高清久久久久| 久久国产精品波多野结衣| 欧美本精品男人aⅴ天堂| 成人在线播放免费观看| 亚洲一区二区三区香蕉 | 伊人久久在线观看| 国产成人精品亚洲日本在线桃色| 久久国产精品国语对白| 日韩亚洲欧美在线| 91在线中文| 成人动漫视频在线观看免费| 久久久久久久久久久久久久久久久久| 中文字幕av一区二区三区人妻少妇| 一区二区三区在线视频免费观看 | 91麻豆精品国产91久久久久久| 成年人免费看毛片| 国产电影一区二区三区| 五月天丁香激情| 亚洲精品动漫100p| 性欧美18xxxhd| 欧美日韩综合久久| 日韩专区在线视频| 任你操精品视频| 欧美精品成人一区二区三区四区| 特级毛片在线| 久久久精彩视频| 琪琪一区二区三区| 免费在线观看h片| 日韩欧美亚洲国产另类| 性欧美xxx69hd高清| 亚洲精品影院| 成人小视频在线观看| 超碰超碰超碰超碰| 亚洲色图在线观看| 亚洲超碰在线观看| 免费在线a视频| 中文字幕欧美国产| 国产肥老妇视频|