精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

模型更新,評測集優化:多模態大模型評測升級!

發布于 2024-7-1 11:12
瀏覽
0收藏

先放結論

如果你想為你的項目挑選合適的圖文多模態模型,以下是一些可供參考的模型性能 (括號內為評測分數):

已測性能最強的閉源模型

  • GPT-4o(海外 API 模型,69.9
  • GLM-4v(國內 API 模型,60.8

已測位于 "參數量-性能" 前沿上的開源模型

  • InternVL-v1.5 (26B, 61.7)
  • MiniCPM-Llama3-V2.5 (8B, 58.8)
  • InternLM-XComposer2-7B-4KHD (7B, 58.8)
  • ?Mini-InternVL (4B, 56.2; 2B, 49.8)


模型更新,評測集優化:多模態大模型評測升級!-AI.x社區

本期的多模態模型性能榜單

1.多模態大模型評測榜單構成更新


在 4 月底,司南多模態大模型評測榜單由 12 個數據集上的分數計算平均分得到。在 5 月至 6 月,基于精簡評測集的目的,我們對榜單構成進行了如下變動:

  • 將 MMBench 更新到了 v1.1 版本 (數據質量有所提升),同時將其中英文版本合為一個分數,以避免占據過高權重;
  • 移除多個與 MMBench 相似定位的評測集,僅保留 MMBench v1.1版本
  • 移除 LLaVABench(因數據量小,測試方差太大)

目前,司南多模態大模型榜單共包含 8 個 benchmark 的分數及其平均分:MMBench v1.1 (客觀綜合),MMStar (數據污染),MMMU (多模態考試),MathVista (多模態數學),HallusionBench (幻覺),AI2D (圖表理解),OCRBench (OCR 能力),MMVet (主觀綜合)

大家仍可在 Open VLM Leaderboard 訪問全部的測試結果 (超過 20 個 benchmark):

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

2.新增模型及性能表現

新增 API 模型

我們更新了大量 API 模型的評測結果,其中包括:GPT-4o (低/高分辨率),GPT-4v (0409,高分辨率), GLM-4v,Gemini-1.5-Pro,RekaFlash / RekaCore。

  • GPT-4o(低/高分辨率), GPT-4v(0409,高分辨率)

GPT-4o 是 OpenAI 于 5 月 13 日發布的最新人工智能模型,代表了GPT系列的一個重要升級。其中,“o” 代表“Omni”,意為“全能”,凸顯了其多功能特性。GPT-4o 具有支持音頻、圖像等多種模態的任意組合作為輸入,能夠進行快速推理、實時響應等主要特點。我們在 VLMEvalKit 所支持的圖文多模態任務上對其進行了評測,其高分辨率版本最終取得了 69.9 分的平均分數,占據總分第一并大幅領先于第二超過 5 分。同時,基于 GPT-4o, GPT-4v 的高低分辨率性能對比,我們發現高分辨率版本相比低分辨率版本帶來約 3.5 分的平均分提升,對于 MMMU,OCRBench 等評測集的提升會更加顯著。

  • Gemini-1.5-Pro

Gemini-1.5-Pro 是 Google 于 4 月 12 日發布一款強大的AI模型,具有多模態理解和超長上下文處理等能力。我們對其的評測基于 Google 的 Vertex 平臺。我們基于 VLMEvalKit 所支持的圖文多模態任務上對其進行了評測。這一模型最終取得了 64.4 分的平均分數,居于總分第二。

  • GLM-4v

GLM-4v 是智譜AI推出的一款多模態大語言模型,支持視覺問答、圖像字幕、視覺定位和復雜目標檢測等各類圖像理解任務。經過測試,GLM-4v 取得了 60.8 分的平均分數,居于總分第五。

  • RekaFlash / RekaEdge

RekaFlash / RekaEdge 是 Reka.ai 推出的中/輕量級多模態大模型,支持多種輸入模態及 128k 上下文長度。其中 RekaFlash 曾在主觀評測榜單 VisionArena 中取得過第一的成績 (目前也僅弱于 GPT-4o/4v)。我們對其客觀性能進行了測試,但發現他們的客觀性能并不理想:RekaFlash / RekaEdge 僅取得 53.9/46.7 的平均分數,分列榜單的第 18 與 32 名。

整體上,目前的多模態榜單上閉源模型仍處于領先地位,尤其是 GPT-4o 會大幅度領先于其他模型。需要注意的是,由于模型廠商會對 API 模型施加各種拒答策略作為限制,可能導致我們現在對于各個 API 模型的性能依然有所低估。我們會在近期對這一現象進行定量分析。

新增開源模型

相比較 API 模型,我們在同期內新增的開源模型數量更多,比如有:

  • MiniCPM-Llama3-V2.5 (OpenBMB)
  • Mini-InternVL-[2B/4B] (Shanghai AI Lab)
  • InternLM-XComposer2-[1.8B / 7B-4KHD] (Shanghai AI Lab)
  • WeMM (WeChat AI)
  • CogVLM2-19B (Zhipu AI)
  • Phi-3-Vision (Microsoft)
  • XVERSE-V-13B (XVERSE)
  • 360VL-70B (360)
  • PaliGemma-3B (Google)
  • Bunny-LLaMA-3-8B (BAAI)

模型更新,評測集優化:多模態大模型評測升級!-AI.x社區

  • MiniCPM-Llama3-V2.5

作為一個 8B 量級的模型,它的整體性能超越了 Qwen-VL-Max、Gemini-1.0-Pro 等開源模型,以 58.8 的平均分位列榜單第 7 (開源模型第 2)。同時,該模型還具備一些特色能力,例如支持德語、法語、西班牙語等30+種語言的多模態能力,以及具備增強的OCR和指令跟隨能力,可以處理高達180萬像素的圖像。

模型更新,評測集優化:多模態大模型評測升級!-AI.x社區

  • Mini-InternVL

作為 4B/2B 大小的小模型,Mini-InternVL 的性能測試結果均位于 參數量-性能 前沿上,分別位列榜單的第 14 及 24 名 (開源模型第 7 及 11 名),優于基于相同語言模型的其他多模態大模型。

3.新增評測集

除了 MMBench v1.1 外,我們還新增了 POPE 與 SEEDBench2_Plus 兩個評測集。其中 POPE 評測集主要用于檢測多模態大模型的物體相關幻覺,SEEDBench2-Plus 評測集主要專注于結構化圖文理解。

此外,MMT-Bench,SEEDBench2,Video-MME 等評測集也正在支持過程中。

模型更新,評測集優化:多模態大模型評測升級!-AI.x社區


POPE:用以檢測多模態大模型的物體相關幻覺

模型更新,評測集優化:多模態大模型評測升級!-AI.x社區


SEEDBench2-Plus:一個專注于結構化圖文理解的多模態評測集

4.結 語

在多模態評測方面,我們注重評測數據集 - 評測工具 - 開放榜單的三位一體建設,同時也會進行多模態學習及評測的研究工作(近期會陸續公開一些研究成果)。

本文轉載自 司南評測體系,作者: 司南 OpenCompass

收藏
回復
舉報
回復
相關推薦
日韩在线视频在线观看| 国产一区二区三区四区五区在线| www在线观看免费视频| 久久av影院| 夜夜精品浪潮av一区二区三区| 国产福利一区二区三区在线观看| 黄色一级片免费在线观看| 精品久久久中文字幕| 欧美一区二区在线播放| 97国产精东麻豆人妻电影| av中文字幕一区二区三区| 国产精品18久久久| 国产精品久久久久久亚洲影视| 日本午夜在线观看| 夜夜躁狠狠躁日日躁2021日韩| 欧美丝袜丝交足nylons| 2018日日夜夜| 午夜伦全在线观看| 91亚洲国产成人精品一区二区三 | 第一次破处视频| 国产在线一区不卡| 色噜噜狠狠一区二区三区果冻| 黄色影视在线观看| 国产午夜精品一区理论片| 国产二区国产一区在线观看| 国产精品视频网站| 狠狠人妻久久久久久综合| 欧美午夜免费影院| 久久精品国产精品亚洲| 日韩人妻无码精品综合区| av日韩在线播放| 91精品国产综合久久久蜜臀图片| 日本免费黄视频| 男人添女人下部高潮视频在线观看| 国产精品欧美一区喷水| 欧美三级网色| 奇米影视888狠狠狠777不卡| 成人av手机在线观看| 亚洲自拍偷拍福利| 国产精品国产av| 日本系列欧美系列| 国产成人亚洲精品| 亚洲不卡在线视频| 久久久久久久欧美精品| 国内精品一区二区三区四区| 久久久久久久久久一区二区三区 | www.日本在线视频| 在线中文字幕电影| 亚洲天堂2016| 中文字幕免费高| 欧美日韩欧美| 中文字幕一区二区三区四区| 亚洲制服欧美久久| 免费网站看v片在线a| 国产精品萝li| 综合久久国产| 中文在线免费| 亚洲制服丝袜av| 成人免费看片'免费看| 伊人精品影院| 亚洲高清不卡在线观看| 亚洲色成人www永久在线观看| 欧美人与性动交α欧美精品济南到| 亚洲靠逼com| 成人短视频在线观看免费| 欧美人与禽猛交乱配| 亚洲国产va精品久久久不卡综合| 欧美一级视频在线播放| 成人三级高清视频在线看| 亚洲成人av中文| 国模无码视频一区二区三区| 成人免费网站视频| 欧美网站一区二区| 国产乱码一区二区三区四区| 香蕉大人久久国产成人av| 亚洲激情第一页| 91精品久久久久久久久久久久| 成人av二区| 久久亚洲精品一区| 国产精品6666| 男人操女人的视频在线观看欧美| 国产日韩在线看片| 国产 欧美 精品| 久久久久久久久久久久久久久99| 欧美日韩在线高清| 国产精品久久麻豆| 偷窥国产亚洲免费视频| 日本一本二本在线观看| 国产第一精品| 精品国产凹凸成av人导航| 瑟瑟视频在线观看| 91成人观看| 97av在线视频| 一级黄色大片网站| www.日韩精品| 一本久道久久综合| aaa在线播放视频| 在线观看91视频| 久草免费资源站| 精品视频97| 久久久久久久一| 日本黄色中文字幕| 国产成人免费视频| 五月天色一区| 国内高清免费在线视频| 在线看日韩精品电影| 精品国产乱码久久久久久1区二区 91网址在线观看精品 | 亚洲综合在线电影| 欧美一区二区三区免费观看视频 | 欧美国产欧美亚洲国产日韩mv天天看完整| 国产成人无码精品久在线观看| 麻豆精品在线视频| 欧美精彩一区二区三区| 污视频网站在线免费| 欧洲精品中文字幕| 中文字幕在线免费看线人| 久久精品亚洲人成影院 | 国产精品一区二区6| 精久久久久久久久久久| 日本精品一区二区三区视频 | 日本高清不卡的在线| 国内老熟妇对白hdxxxx| 中文字幕精品在线不卡| 日韩精品一区二区三区久久| 视频在线观看免费影院欧美meiju| 亚洲一级免费视频| 中文字幕亚洲精品在线| 国产精品99精品久久免费| 日韩一本精品| 国产91足控脚交在线观看| 91精品国产综合久久精品麻豆| 神马久久久久久久久久久| 久久国产66| 好吊妞www.84com只有这里才有精品| 精品视频在线一区二区| 欧美日韩一区三区| 精品无码人妻一区二区免费蜜桃 | 久久最新网址| 2019av中文字幕| 视频一区二区免费| 亚洲福利一区二区| 91九色蝌蚪porny| 黄色成人精品网站| 成人资源视频网站免费| 在线观看免费视频你懂的| 欧美一区二区视频观看视频| 国产午夜精品理论片| 久久精品国产**网站演员| 视频一区视频二区视频三区视频四区国产| 在线观看的黄色| 亚洲激情免费观看| 国产成人综合欧美精品久久| 久久影院午夜论| 日韩免费毛片视频| 久久综合色占| 国产精品免费一区豆花| av基地在线| 777奇米成人网| 色在线观看视频| 国产精品 欧美精品| 青青草综合视频| 伊人精品综合| 97国产精品视频| 日本大臀精品| 欧美三级在线播放| 五月天婷婷色综合| 成人听书哪个软件好| 你懂的av在线| 成人精品天堂一区二区三区| 国产在线精品一区免费香蕉 | 欧美性视频精品| 国产免费视频在线| 欧美另类z0zxhd电影| 唐朝av高清盛宴| www.日本不卡| 久久99999| 综合久久99| 久久99国产精品99久久| 免费污视频在线一区| 欧美成人亚洲成人| 欧美男男激情freegay| 欧美日韩一卡二卡三卡| 欧美精品一级片| 99精品桃花视频在线观看| www.精品在线| 精品动漫3d一区二区三区免费版| 久久久水蜜桃| 精品一区二区三区视频在线播放 | 亚洲欧美成人一区| 91精品尤物| 国产精品igao视频| 在线观看男女av免费网址| 精品视频久久久久久| 国产又粗又长视频| 色综合网色综合| 国产美女久久久久久| 99riav久久精品riav| 色91精品久久久久久久久| 激情综合在线| 亚洲欧美精品| 欧美三级午夜理伦三级小说| 成人黄色大片在线免费观看| 在线手机中文字幕| 色综合视频网站| 国产h视频在线观看| 精品日产卡一卡二卡麻豆| 国产91av在线播放| 午夜婷婷国产麻豆精品| www.com.av| 久久夜色精品一区| 黄色国产在线视频| 国产一区二区福利视频| 亚洲欧美激情网| 国产日韩欧美一区在线 | 欧美一级一区| 99久久久精品视频| 久久在线视频| 日韩欧美电影一区二区| 国产精品久久久久av蜜臀| 成人免费视频在线观看超级碰| 黄色亚洲网站| 69久久夜色精品国产69乱青草| а√资源新版在线天堂| 中文字幕精品一区久久久久 | 中文字幕一区二区三区中文字幕 | 日韩成人在线看| 国产欧美精品xxxx另类| 最新中文字幕在线播放| 国外成人性视频| 91小视频xxxx网站在线| 日韩有码视频在线| yjizz视频网站在线播放| 亚洲欧美一区二区三区四区| 天天干视频在线| 精品国产一区二区亚洲人成毛片| 国产女人18毛片18精品| 在线播放视频一区| 97久久人国产精品婷婷| 欧美午夜寂寞影院| 在线观看中文字幕码| 欧美制服丝袜第一页| 亚洲第一网站在线观看| 欧美性猛交xxxx乱大交极品| 亚洲伊人成人网| 欧美色播在线播放| 国产一级精品视频| 欧美日韩免费在线观看| 一区二区三区视频免费看| 午夜精品久久久久久久蜜桃app| 精品亚洲永久免费| 亚洲国产精品一区二区久久| 欧美日韩激情在线观看| 亚洲一区欧美一区| 国产精品白浆一区二小说| 偷窥少妇高潮呻吟av久久免费| 国产午夜视频在线播放| 精品久久久久久久久久久久久| www.国产成人| 天天做天天摸天天爽国产一区| 亚洲天堂日韩av| 欧美视频在线免费| 亚洲视频一区二区三区四区| 欧美日韩成人一区| www.xxx国产| 亚洲精品99久久久久| 日韩欧美亚洲系列| 一区二区三区久久精品| 精品国产丝袜高跟鞋| 色综合久久88色综合天天看泰| www在线观看黄色| 欧美中文在线免费| 国产第一亚洲| 国产精品久久久久久久久久久久午夜片 | 女性生殖扒开酷刑vk| 久久久亚洲欧洲日产国码αv| 特级西西www444人体聚色| 亚洲欧美在线另类| 国产稀缺真实呦乱在线| 日本福利一区二区| 国产精品人人爽| 亚洲福利精品在线| 国产亚洲依依| 欧美成人午夜激情在线| 中老年在线免费视频| 国产欧美亚洲精品| 澳门精品久久国产| 先锋影音亚洲资源| 一区在线视频观看| 毛片毛片毛片毛片毛片毛片毛片毛片毛片 | 免费看久久久| 在线视频不卡国产| 亚洲欧美日韩专区| 91丨porny丨九色| 久久网站最新地址| www.av视频| 欧美在线制服丝袜| 黄色小视频免费观看| 中文字幕亚洲无线码a| 国产精品蜜芽在线观看| 91精品国产自产在线观看永久| 欧美国产极品| 2021狠狠干| 奇米四色…亚洲| 在线观看成人动漫| 综合色中文字幕| 在线精品免费视| 日韩免费成人网| 欧美激情二区| 国产99久久精品一区二区| www.丝袜精品| 一级特黄妇女高潮| 蜜臂av日日欢夜夜爽一区| 久久久精品人妻无码专区| 伊人开心综合网| 在线观看免费中文字幕| 亚洲欧美国产va在线影院| 亚洲奶水xxxx哺乳期| 91精品免费久久久久久久久| 国产区精品区| 久久综合色视频| 粉嫩久久99精品久久久久久夜| 中文字幕在线观看二区| 日韩欧美在线观看| 蜜桃av噜噜一区二区三区麻豆| 久久这里有精品| 国产一区二区色噜噜| 欧美日韩一区在线视频| 亚洲一区二区动漫| 538国产视频| 亚洲成在线观看| 高清一区二区三区四区| 欧美区在线播放| 亚洲午夜免费| 国产亚洲精品久久久久久久| 国产精品一区二区果冻传媒| 性生交大片免费全黄| 欧美精品一二三区| 日本中文字幕在线视频| 国产美女精品免费电影| 国产一区二区三区日韩精品| 欧美日韩二三区| 91欧美激情一区二区三区成人| 男女啊啊啊视频| 日韩精品中文字幕视频在线| 超碰高清在线| 精品乱色一区二区中文字幕| 在线播放精品| 91玉足脚交白嫩脚丫| 无吗不卡中文字幕| 色视频免费在线观看| 欧美亚洲国产另类| 精品国产一区二区三区噜噜噜| 亚欧在线免费观看| 国产精品色呦呦| 国产欧美第一页| 欧美福利在线观看| 偷拍一区二区| 成年人视频在线免费| 国产欧美一区二区精品忘忧草| 中文字幕在线观看1| 日韩一区二区久久久| 精品国产麻豆| 久久99久久久久久| 久久久五月婷婷| 伊人色综合久久久| 欧美床上激情在线观看| 福利电影一区| 欧美成人xxxxx| 国产女主播视频一区二区| 国产精品一区二区av白丝下载 | 日韩一级完整毛片| 国产盗摄精品一区二区酒店| 蜜桃av久久久亚洲精品| 青椒成人免费视频| 久久久久成人精品无码| 日韩国产精品视频| 岛国精品在线| 国产在线视频综合| 久久蜜桃av一区二区天堂| 97超碰人人模人人人爽人人爱| 欧美成在线观看| 亚洲自拍电影| 男人的天堂最新网址| 亚洲国产成人av网| www视频在线观看免费| 动漫3d精品一区二区三区 | 国产91成人在在线播放| 999国产精品永久免费视频app| 日批视频免费看| 欧美性猛交一区二区三区精品| 中文字幕免费高清电视剧网站在线观看| 精品国产乱码久久久久| 久久电影网站中文字幕| 福利一区二区三区四区| 神马久久久久久| 欧美黑白配在线| 亚洲国产综合av| 色婷婷综合中文久久一本| h视频在线免费观看| 奇米精品在线|