精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌Gemini扳回一局!多模態能力和GPT-4V不分伯仲|港中文128頁全面測評報告

人工智能 新聞
在多模態專有基準MME上,Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

谷歌扳回一局!

在Gemini開放API不到一周的時間,港中文等機構就完成評測,聯合發布了多達128頁的報告,結果顯示:

在37個視覺理解任務上,Gemini-Pro表現出了和GPT-4V相當的能力

在多模態專有基準MME上,Gemini-Pro的感知和認知綜合表現則直接獲得了1933.4的高分,超越GPT-4V(1926.6)。

圖片

此前,CMU測評發現Gemini-Pro的綜合能力居然和GPT-3.5差不多。

現在,在多模態這個一大主推的賣點上,Gemini-Pro可算是扳回一局。

那么具體如何?

測評報告一共128頁,咱們就挑重點來看。

圖片

Gemini-Pro的首份多模態能力報告來了

這份測評主要是對Gemini-Pro的視覺理解能力進行評估。

一共涵蓋基礎感知、高級認知、挑戰性視覺任務和各種專家能力四大領域,在37個細分任務項上進行定性比較。

定量評估則在專為多模態大語言模型專門設計的評測基準MME上展開。

首先來看定量測試結果。

MME上綜合表現比GPT-4V強

MME基準包含兩大類任務。

一個是感知,涵蓋目標存在性判斷、物體計數、位置關系、顏色判斷、OCR識別、海報識別、名人識別、場景識別、地標識別和藝術品識別等。

一個是認知,涵蓋常識推理、數值計算、文本翻譯和代碼推理等。

結果如下:

可以看到Gemini-Pro和GPT-4V可謂“各有所長”。

圖片

而計分顯示,Gemini-Pro的總分為1933.4,比GPT-4V(1926.6)要高那么一點點。

圖片

具體來看:

1、Gemini-Pro在文本翻譯、顏色/地標/人物識別、OCR等任務中表現突出;

2、GPT-4V在名人識別任務上的得分為0,主要是因為拒絕回答名人相關的問題;

3、無論是Gemini還是GPT-4V在位置識別任務上表現都不佳,表明他們對空間位置信息不敏感;

4、開源模型SPHINX在感知任務上與GPT-4V以及Gemini平齊甚至更優,但認知和兩者有較大差距。

下面就是四大項任務上的定性結果了。

基礎感知

感知能力直接影響模型在高階任務中的能力,因為它決定了模型獲取和處理原始視覺輸入的準確性和有效性。

報告中分別測試了模型的對象級感知能力、場景級感知能力和基于知識的感知能力。

具體一共10個細分任務:

圖片

鑒于篇幅有限,我們在此只展示其中5個:

1、空間關系

都不分左右。但GPT-4V可以通過上下文少樣本學習這項任務,然后做出正確回答。

圖片

2、物體計數

簡單樣例整體還OK,但復雜一點的全軍覆沒。不過在數NBA籃球運動員時,Gemini-Pro的答案已經相當接近了(正確為42個)。

圖片

3、視覺錯覺

左側樣例中,兩個梨實際上具有相同的亮度。Gemini Pro正確識別,而GPT-4V和SPHNIX被欺騙。

圖片

4、場景理解

模型都能夠描繪場景中的關鍵視覺元素。相比之下,GPT-4V顯示出優越的性能,描述更加詳細,并且幻覺的實例也更少。

圖片

5、視頻場景理解

從視頻中抽取三個時刻的關鍵幀,Gemini Pro能夠將不同幀的信息整合成一個連貫的場景描述。

而GPT-4V只是逐幀描述圖像的內容。相比之下,SPHNIX的描述并沒有表現出對圖像序列的全面理解。

圖片

高級認知

這類任務需要模型進行深入的推理、解決問題和決策。

在此,報告中分別測試了模型的富含文本的視覺推理能力、抽象視覺推理能力、解決科學問題能力、情感分析能力、智力游戲能力。具體包括13項細分任務,同樣限于篇幅我們只展示其中幾項。

圖片

1、代碼生成

將結構化視覺內容轉換為相應的代碼是多模態大模型的一項重要技能,在此分別測試了模型識別公式生成LaTex代碼和識別網頁生成HTML代碼的能力。

Gemini Pro和GPT-4V在公式識別上表現出更好的結果,但仍然會錯誤識別一些小字符或符號。

圖片

三個模型的識別網頁生成相應HTML代碼的能力仍然存在很大的改進空間。

圖片

2、抽象視覺刺激

對抽象視覺刺激和符號的理解和推理是人類智能的一項基本能力。GPT-4V展示了最好的抽象性能,提供了對象如何由形狀組成的詳細描述。Gemini Pro能識別一些簡單的抽象模式。

圖片

3、圖像情感分析

模型都可以很好地描繪視圖,并提供其中可能的情感。GPT-4V觀察是中立的,強調情緒是主觀的,同時給出了更全面的分析。Gemini Pro傾向于直接輸出情感偏好。

圖片

4、情感調節輸出

情感調節輸出是讓多模態大模型描述以預定義情感為條件的視覺上下文。

雖然Gemini Pro和GPT-4V能夠正確地將相應的情感注入到生成的文本中,但它們都遇到了幻覺問題。

圖片

5、數獨游戲

如果僅以圖像作為輸入,盡管Gemini Pro嘗試在輸出矩陣內提供答案,但無法正確識別空白位置,而GPT-4V和SPHNIX則無法進行第一步 光學字符識別。此外,給定相應的文本輸入,Gemini Pro和GPT-4V都可以給出正確的答案。

圖片

挑戰性視覺任務

評估多模態大模型在超出標準視覺問答范圍的各種具有挑戰性的視覺任務中的性能。

需要模型具有深厚的視覺感知和理解能力,評估這類表現將有助于深入了解模型在多領域應用的可行性。

報告中分別測試了模型在圖像視覺任務和時序視覺任務中的性能。具體包括以下7個細分任務:

圖片

在此我們展示3個。

1、指稱表達式理解

Gemini Pro和GPT-4V都能夠識別指稱對象的大致位置,但它們很難提供精確的坐標和框大小。而SPHNIX展示了提供引用對象的準確位置和大小的能力。

圖片

2、目標跟蹤

Gemini Pro和GPT-4V都能夠描繪出要跟蹤的目標的細節,但它們隨后兩幀圖像中提供了錯誤的邊界框。

圖片

3、視覺故事生成

任務要求模型完全理解圖像中的信息,并在生成的故事中對其進行邏輯組織。

Gemini Pro和SPHNIX提供了連貫的故事,但卻和沒有十分貼近漫畫劇情。

GPT-4V為每個插圖提供了精確的描述,卻未能根據任務要求將它們編織成一個有凝聚力的故事。

圖片

各種專家能力

專家能力衡量多模態大模型將其學到的知識和技能應用于不同專業領域的泛化能力。除了上述的感知和認知任務外,多模態大模型在專門和獨特場景下的魯棒性通常具有更實際的參考意義。也是7個細分任務:

圖片

在此我們同樣展示3個:

1、缺陷檢測

缺陷檢測需要高精度和對細節的關注。對于缺陷明顯的圖像,模型都可以提供正確答案,其中GPT-4V輸出更詳細的原因和描述。

對于下圖中的螺紋損壞的樣例,Gemini Pro給出了過于籠統的答案,SPHNIX錯誤地描述了外觀,而GPT-4V給出了標準答案。

圖片

2、經濟分析

報告展示了兩個用于回答問題的股價走勢圖。Gemini Pro擅長專家級金融知識,能夠給出正確答案。GPT-4V由于安全風險而沒有給出明確答案。SPHNIX由于缺乏相關訓練數據無法理解此類問題。

圖片

3、機器人運動規劃

機器人規劃要求機器人能夠確定如何在給定情況下采取行動以實現特定目標。

Gemini Pro和GPT-4V都可以提供有條理且詳細的步驟,并且GPT-4V似乎比Gemini Pro給出了更合理的決定,例如電池的安裝順序,但SPHNIX無法完成手機的組裝,說明其泛化能力有限。

圖片

總結評價:都是“半斤八兩”

鑒于其卓越的多模態推理能力,Gemini確實是GPT-4V的有力挑戰者。

在大多數情況下,與GPT-4V相比,Gemini的回答準確性具有競爭力,并展示了不同的回答風格和偏好。

GPT-4V傾向于生成對感知任務更詳細的描述,并為認知任務提供深入的分析和逐步的中間推理,而Gemini更喜歡對答案提供直接而簡潔的回應,這有助于用戶快速找到相關信息。

不過,兩個模型也存在一定的共性問題,比如空間感知能力不強,復雜OCR和抽象視覺理解不理想,推理過程可能存在不自洽結果,對提示設計的魯棒性不足……在很多情況下仍然陷入困境。

所以,從現階段成果來看,兩者都點“半斤八兩”的意思。

作者最后的結論就是:

大模型的多模態能力總的來說都還有很長的路要走。

具體往哪走?

三個方面:視覺表示編碼(細粒度外觀、空間關系感知)、多模態對齊(減輕幻覺、OCR準確性)以及模型推理能力(定量處理、邏輯一致性)。

關于Gemini Pro與GPT-4V、SPHNIX的更多評估比較,請查看原論文。

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-05 15:13:38

AI測評

2023-12-20 15:32:02

模型數據

2023-10-17 12:34:04

2023-12-29 09:55:03

視覺模型

2009-06-26 15:09:57

.NET開發者AjaxjQuery

2023-10-04 18:42:30

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2024-02-02 21:53:58

AI訓練

2023-11-13 18:19:35

AI訓練

2023-11-20 13:53:00

數據訓練

2023-10-17 13:36:00

人工智能數據

2023-09-15 13:32:00

AI模型

2023-12-08 13:07:49

GeminiGPT-4人工智能

2024-04-14 19:53:44

2024-05-20 08:20:00

OpenAI模型

2023-10-12 13:05:00

谷歌AI

2024-05-11 07:00:00

GPT4VGemini大模型

2024-07-23 09:48:59

2025-06-03 08:22:00

模型評估視頻

2023-10-10 13:42:56

訓練數據
點贊
收藏

51CTO技術棧公眾號

日韩激情欧美| 国产网站在线免费观看| 国产亚洲精品bv在线观看| 亚洲精品资源美女情侣酒店| 手机看片福利日韩| 二区在线播放| 99九九99九九九视频精品| 国产精品国内视频| 欧美三级 欧美一级| 另类春色校园亚洲| 欧美日韩亚洲综合在线| 无码日本精品xxxxxxxxx| 神马亚洲视频| 另类成人小视频在线| 欧美精品精品精品精品免费| 国产精品无码午夜福利| 国产一区二区三区免费在线| 好吊成人免视频| 国产三级中文字幕| 头脑特工队2在线播放| 精品一二三四区| 欧美影院在线播放| 欧美三级小视频| 精品盗摄女厕tp美女嘘嘘| 日韩一级精品视频在线观看| 欧美日韩在线免费播放| 麻豆av在线播放| 国产精品美女久久久久久2018| 亚洲精品国产suv| 日本人69视频| 成人欧美大片| 中文字幕日本乱码精品影院| 久久精品中文字幕一区二区三区 | 日本成人精品| 色婷婷av一区| 免费毛片小视频| 国产91足控脚交在线观看| 中文字幕在线不卡国产视频| 美女被啪啪一区二区| 国产精品羞羞答答在线| 日本最新不卡在线| 欧美一级电影免费在线观看| 久热这里只有精品在线| 在线免费观看日本欧美爱情大片| 精品国模在线视频| 午夜啪啪免费视频| 国产一二在线观看| av网站免费线看精品| 91超碰rencao97精品| 亚洲影视一区二区| 七七婷婷婷婷精品国产| 国产成人激情视频| 国产污视频网站| 亚洲欧美日韩国产综合精品二区| 亚洲欧美综合区自拍另类| 中文字幕一区二区人妻电影丶| av成人 com a| 亚洲一本大道在线| 日韩精品综合在线| av在线网页| 香蕉乱码成人久久天堂爱免费| 久久亚洲高清| 五月婷婷免费视频| 91亚洲精品久久久蜜桃网站| 久久国产精品99久久久久久丝袜| 91久久国语露脸精品国产高跟| 激情久久一区| 国内精品视频在线| 天天综合网久久综合网| 99精品国产一区二区青青牛奶| 色噜噜狠狠狠综合曰曰曰| 婷婷色一区二区三区| 欧美精品一区二区三区精品| 中文字幕亚洲欧美日韩2019| 99热在线观看精品| 中文在线播放一区二区| 久久久久免费视频| 在线观看亚洲天堂| 日本va欧美va精品| 91探花福利精品国产自产在线| 久久久久久少妇| 久久电影一区| 国产欧美日韩高清| 亚洲国产精品欧美久久| 99国产精品国产精品毛片| 日本一区二区三区四区在线观看 | 国产一区在线观| 三级在线播放| 国产精品久久免费看| 日韩视频在线观看视频| 草草影院在线| 在线免费观看日本欧美| 黄色a级三级三级三级| 精品淫伦v久久水蜜桃| 一区二区三区高清国产| 免费成年人视频在线观看| 欧美性色综合| 国产精品高清网站| 精品久久久久久亚洲综合网站| 欧美aa在线视频| 99精彩视频| 日韩一级片免费看| 国产精品久久久久天堂| 欧美一级免费播放| 久久亚洲国产精品尤物| 欧美精品一区视频| 羞羞在线观看视频| 国产精品毛片在线看| 国产在线观看91精品一区| 欧美 日韩 国产 精品| 国产精品系列在线| www.com毛片| 欧美久久一区二区三区| 国产一区二区三区毛片| 欧美亚洲天堂网| 精品在线播放午夜| 久久精品国产理论片免费| 成人看av片| 91久久线看在观草草青青| 在线播放av网址| 国产大片一区| 国产精品18久久久久久首页狼 | 国产日韩亚洲| 亚洲精品日韩av| 一广人看www在线观看免费视频| 国产精品水嫩水嫩| 奇米影视亚洲色图| 久久久精品区| 日韩中文字幕在线看| 亚洲 欧美 成人| av电影在线观看不卡| 成人一区二区av| 亚洲久草在线| 色噜噜亚洲精品中文字幕| 潘金莲一级淫片aaaaaa播放| www.欧美色图| 免费拍拍拍网站| 日本亚洲视频| 欧美成人激情图片网| 一级久久久久久久| 国产精品污网站| 国产天堂在线播放| 精品久久美女| 国产精品wwww| av在线中文| 欧洲国内综合视频| 欧美波霸videosex极品| 久久久久久穴| 日韩国产伦理| 播放一区二区| 日韩中文字幕视频| 国产乱叫456在线| 国产精品高清亚洲| 日本免费色视频| 欧美电影免费播放| 91精品视频在线播放| av在线下载| 日韩美一区二区三区| 久久久久成人片免费观看蜜芽| 美女黄网久久| 青青草成人激情在线| 欧美精品高清| 三级精品视频久久久久| 中文字幕a级片| 亚洲天堂2016| 在线观看欧美一区二区| 激情欧美一区| 欧美日韩视频在线一区二区观看视频| 欧美69xxxx| 91精品国产91久久久久久最新毛片 | 五月天免费网站| 精品一区二区三区欧美| 成人高清dvd| 日韩大胆成人| 国产精品va在线播放| a√资源在线| 欧美一区二区三区在线视频 | 神马久久久久久久久久| 欧美日韩国产中字| 黑人巨大精品欧美| 美女诱惑一区二区| 高清无码视频直接看| 麻豆精品少妇| 国产狼人综合免费视频| 免费看电影在线| 国产香蕉一区二区三区在线视频| 亚洲综合一二三| 国产亚洲成aⅴ人片在线观看 | 在线heyzo| 日韩精品极品视频| 国产有码在线观看| 精品国产户外野外| 强制高潮抽搐sm调教高h| 国产suv精品一区二区6| www国产精品内射老熟女| 成人情趣视频网站| 国产精品久久久久久久免费大片 | 亚洲一区二区三区精品在线| 国产a级黄色片| 蜜臀久久99精品久久久久宅男| 日本视频一区二区在线观看| 高清久久一区| 国产高清在线不卡| 日本在线观看高清完整版| 亚洲精品国产精品国产自| 夜夜躁很很躁日日躁麻豆| 亚洲高清三级视频| 国产一区在线观看免费| 99riav久久精品riav| 中文字幕在线视频一区二区三区| 91影院成人| 精品产品国产在线不卡| 精品一区二区三区中文字幕在线| 精品中文字幕在线观看| 欧洲天堂在线观看| 欧美va天堂va视频va在线| 亚洲午夜在线播放| 黄色精品在线看| 国产精品 欧美激情| 国产欧美视频一区二区三区| 最新版天堂资源在线| 精品系列免费在线观看| 国产裸体免费无遮挡| 亚洲制服av| 丰满少妇大力进入| 欧美在线二区| 亚洲美女自拍偷拍| 成人精品影院| 日本精品一区二区| 九九热爱视频精品视频| 国产一区免费在线观看| 97久久综合精品久久久综合| 成人一区二区电影| 欧美成人家庭影院| 国产精品久久色| 日韩精选视频| 国产精国产精品| 日韩不卡免费高清视频| 欧美一级成年大片在线观看| 久久久男人天堂| 91国产精品电影| 国产在线观看www| 97视频网站入口| 欧美少妇网站| 26uuu国产精品视频| 午夜影院在线观看国产主播| 7777kkkk成人观看| 激情黄产视频在线免费观看| 韩国国内大量揄拍精品视频| av福利导福航大全在线| 97在线视频免费播放| 在线一区av| 国产精品盗摄久久久| 韩国精品主播一区二区在线观看| 久久不射热爱视频精品| av免费在线免费观看| 欧美大片在线看免费观看| 久久精品视频观看| 操人视频在线观看欧美| 色www永久免费视频首页在线 | 国产亚洲激情| 日本毛片在线免费观看| 久久先锋资源| 亚洲欧美偷拍另类| 国产精品中文有码| 在线看黄色的网站| av成人老司机| 91视频在线网站| 国产精品网站导航| 国产精品九九九九九九| 亚洲亚洲人成综合网络| 亚洲另类在线观看| 欧美日韩国产综合久久| av免费观看在线| 亚洲精品国产福利| 永久av在线| 97国产一区二区精品久久呦| 视频二区不卡| 亚洲aⅴ男人的天堂在线观看| 日韩色淫视频| 69堂成人精品视频免费| 女同久久另类99精品国产| 日本一区二区三区www| 亚洲精品a级片| 国产精品国三级国产av| 国产精品永久| 久久久久久综合网| 99久久免费视频.com| 91制片厂在线| 精品美女国产在线| 中文字幕码精品视频网站| 日韩片之四级片| 成人资源www网在线最新版| 久久影视电视剧免费网站清宫辞电视 | 日韩精品中文字| 成黄免费在线| 国内外成人免费激情在线视频 | 欧美系列电影免费观看| 久久精品在线免费视频| 亚洲专区一区| 色黄视频免费看| 久久久久久久久久久99999| 国产女人被狂躁到高潮小说| 欧美视频中文在线看| 国产超碰人人模人人爽人人添| 欧美日韩视频在线观看一区二区三区 | 91社区在线观看| 久久久久这里只有精品| 成人在线视频播放| 国产精品精品软件视频| 久久久国产精品| www.日本xxxx| 99精品欧美一区二区三区综合在线| 国产麻豆xxxvideo实拍| 国产精品久久久久久久久久免费看| 亚洲精品自拍视频在线观看| 激情成人中文字幕| 国产美女主播在线观看| 国产一区二区三区直播精品电影| 国产私人尤物无码不卡| 国内精品久久影院| 91成人在线精品视频| 欧美日韩视频免费在线观看| 日韩va欧美va亚洲va久久| 无码人妻精品一区二区三| 亚洲男人的天堂网| 中文字幕视频免费观看| 亚洲人av在线影院| 蜜桃av在线| 精品综合在线| 亚洲天堂男人| 日本少妇xxxx软件| 亚洲欧美日韩在线播放| 国产精品久久久久久久一区二区| 日韩欧美国产三级| 精品自拍一区| 成人免费大片黄在线播放| 日韩大片在线| 麻豆三级在线观看| 国产精品网站导航| 中文字幕人妻色偷偷久久| 亚洲性av在线| 欧美与亚洲与日本直播| 日韩成人av网站| 日韩成人精品在线观看| 99久久99久久精品免费看小说.| 亚洲精品乱码久久久久久久久| 日本一级淫片色费放| 日韩精品一区二| 久草在线视频资源| 国产精品久久久久久久天堂第1集| 狠狠做六月爱婷婷综合aⅴ | 狠狠久久婷婷| 日本久久久久久久久久| 一区二区三区不卡在线观看 | 一色桃子av在线| 99久久无色码| 黄色成人在线网站| 男女性杂交内射妇女bbwxz| 午夜精品在线视频一区| 天堂√在线中文官网在线| 日本精品在线视频 | 日一区二区三区| 极品蜜桃臀肥臀-x88av| 欧美中文字幕一二三区视频| 69视频在线| 超碰97国产在线| 在线一区视频| 欧洲性xxxx| 日韩一区二区三| 乱人伦视频在线| 视频一区二区三| 国内外成人在线| 日韩 欧美 精品| 亚洲最新av在线| 亚州一区二区| 无码人妻丰满熟妇区五十路百度| 粉嫩aⅴ一区二区三区四区| 精品少妇一二三区| 亚洲男人天堂手机在线| 欧美性生活一级| 国产av人人夜夜澡人人爽麻豆| 国内不卡的二区三区中文字幕| 瑟瑟视频在线观看| 精品视频1区2区| 不卡av免费观看| 欧美午夜视频在线| 国产主播一区二区| 日产精品久久久| 久久精品2019中文字幕| 美女主播精品视频一二三四| 制服丝袜综合网| 亚洲r级在线视频| 五月婷婷在线视频| 精品久久久久久中文字幕动漫| 亚洲国产专区| 手机免费观看av| 亚洲激情视频网站| 四虎视频在线精品免费网址| www.av中文字幕|