精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)大模型能力測評:Bard 是你需要的嗎?

人工智能 新聞
為了對多模態(tài)大模型的能力進行全面、系統(tǒng)的測評,來自上海 AI Lab、香港大學(xué)、北京大學(xué)、香港中文大學(xué)的多位研究者聯(lián)合提出了全面評估框架 LVLM-eHub 和 Tiny LVLM-eHub。

繼 ChatGPT 之后,OpenAI 直播展示了 GPT-4 強大的支持 visual input 的多模態(tài)能力,雖然視覺輸入目前還沒大規(guī)模開放使用。隨后學(xué)術(shù)界和工業(yè)界也紛紛把目光聚焦到多模態(tài)大模型(主要是視覺語言模型)上,比如學(xué)術(shù)界的 LLaMA-Adapter 和 MiniGPT-4,以及工業(yè)界最具代表的來自谷歌的 Bard,而且 Bard 已經(jīng)后來居上開放大規(guī)模用戶使用。但是學(xué)術(shù)界發(fā)布的模型大多只在部分多模態(tài)能力(少數(shù)相關(guān)數(shù)據(jù)集)上進行了評估,而且也缺少在真實用戶體驗上的性能對比。Bard 開放視覺輸入之后也沒有給出官方的多模態(tài)能力報告。

在此背景下,我們首先提出了多模態(tài)大模型多模態(tài)能力的全面評估框架 LVLM-eHub,整合了 6 大類多模態(tài)能力,基本涵蓋大部分多模態(tài)場景,包括了 47 + 個相關(guān)數(shù)據(jù)集。同時發(fā)布了模型間能力對比的眾包式用戶評測平臺多模態(tài)大模型競技場,讓真實用戶來提問和投票哪個模型表現(xiàn)得更好。

  • LVLM-eHub 論文地址:https://arxiv.org/abs/2306.09265
  • Multi-Modality Arena:https://github.com/OpenGVLab/Multi-modality-Arena
  • 項目網(wǎng)址:http://lvlm-ehub.opengvlab.com/

在此基礎(chǔ)上我們還將原有每個數(shù)據(jù)集精簡到 50 個樣本(隨機采樣),推出 Tiny LVLM-eHub,便于模型快速評估和迭代。設(shè)計了更加準確穩(wěn)健并且與人類評估結(jié)果更加一致的評估方法,集成多樣評估提示詞下的 ChatGPT 評估結(jié)果(多數(shù)表決)。最后同時加入了更多多模態(tài)大模型,其中谷歌的 Bard 表現(xiàn)最為出色。

  • Tiny LVLM-eHub 論文地址:https://arxiv.org/abs/2308.03729
  • Multimodal Chatbot Arena:http://vlarena.opengvlab.com

多模態(tài)能力與數(shù)據(jù)集

我們整合了 6 大類多模態(tài)能力:

a. 視覺感知(visual perception)

b. 視覺信息提取(visual knowledge acquisition)

c. 視覺推理(visual reasoning)

d. 視覺常識(visual commonsense)

e. 具身智能(Embodied intelligence)

f. 幻覺(Hallucination)

前兩類涉及到基礎(chǔ)的感知能力,中間兩類上升到高層的推理,最后兩類分別涉及到將大模型接入機器人后的更高層的計劃和決策能力,和在大語言模型(LLM)上也很危險和棘手的幻覺問題。

具身智能是大模型能力的應(yīng)用和拓展,未來發(fā)展?jié)摿薮螅瑢W(xué)術(shù)界和工業(yè)界方興未艾。而幻覺問題是在將大模型推廣應(yīng)用過程中眾多巨大風(fēng)險點之一,需要大量的測試評估,以協(xié)助后續(xù)的改善和優(yōu)化。

六大多模態(tài)能力結(jié)構(gòu)圖

多模態(tài)大模型競技場

多模態(tài)大模型競技場是一個模型間能力對比的眾包式用戶評測平臺,與上述的在傳統(tǒng)數(shù)據(jù)集上刷點相比,更能真實反映模型的用戶體驗。用戶上傳圖片和提出相應(yīng)問題之后,平臺從后臺模型庫中隨機采樣兩個模型。兩個模型分別給出回答,然后用戶可以投票表決哪個模型表現(xiàn)更佳。為確保公平,我們保證每個模型被采樣的幾率是相同的,而且只有在用戶投票之后,我們才展示被采樣模型的名稱。流程樣例見下圖。

多模態(tài)大模型競技場示意圖

評估方法

評估方法示意圖

LVLM-eHub 默認使用 word matching(只要真實答案出現(xiàn)在模型輸出中,即判斷為正確)來做快速自動評估。特別地,對于 VCR 數(shù)據(jù)集,為了更好地評估模型性能,我們采用了 multi-turn reasoning 評估方法:類似 least-to-most 提示方法,首先經(jīng)過多輪的 ChatGPT 提出子問題和待評估模型給出回答,最后再回答目標問題。另外對于具身智能,我們目前完全采用人工的方式,從 Object Recognition、Spatial Relation、Conciseness、Reasonability 和 Executability 五個維度進行了全方位評估。

多提示詞投票評估方法

Tiny LVLM-eHub 設(shè)計并采用了多提示次投票評估 評估方法,可以克服詞匹配評估方法的缺陷,具體來說,詞匹配在以下兩個場景下都會失效:(1)模型輸出中可能出現(xiàn)包括真實答案在內(nèi)的多個答案;(2)模型輸出與問題的參考答案在語義上是相同的,只是表述不同。

基于 ChatGPT 的多指令集成評估方法示意圖

另外我們通過實驗(結(jié)果見下表)發(fā)現(xiàn)我們提出的評估方法與人類評估結(jié)果更加一致。

圖片

CEE 評估方法和詞匹配方法與人類評估一致性的比較

評估結(jié)果

在傳統(tǒng)標準數(shù)據(jù)集(除了具身智能的其他 5 大類多模態(tài)能力)上,評估結(jié)果顯示 InstructBLIP 表現(xiàn)最佳。通過對比模型訓(xùn)練數(shù)據(jù)集之間的差異,我們猜測這很可能是因為 InstructBLIP 是在 BLIP2 的基礎(chǔ)上再在 13 個類似 VQA 的數(shù)據(jù)集上微調(diào)得到的,而這些微調(diào)數(shù)據(jù)集與上述 5 類多模態(tài)能力相應(yīng)的數(shù)據(jù)集在任務(wù)和具體數(shù)據(jù)形式和內(nèi)容上有很多相同點。反觀在具身智能任務(wù)上,BLIP2 和 InstructBLIP 性能最差,而 LLaMA-Adapter-v2 和 LLaVA 表現(xiàn)最好,這很大程度上是因為后者兩個模型都使用了專門的視覺語言指令遵循數(shù)據(jù)集進行指令微調(diào)。總之,大模型之所以在眾多任務(wù)上泛化性能很好很大程度上是因為在訓(xùn)練或微調(diào)階段見過相應(yīng)任務(wù)或者相似數(shù)據(jù),所以領(lǐng)域差距很小;而具身智能這種需要高層推理、計劃乃至決策的任務(wù)需要 ChatGPT 或 GPT-4 那種邏輯性、計劃性和可執(zhí)行性更強的輸出(這一點可以在下面 Bard 的評估結(jié)果上得到印證:Bard 的具身智能能力最好)。

LVLM-eHub 中八大模型在六大多模態(tài)能力上的性能圖

截止目前,我們在多模態(tài)大模型競技場平臺收集了 2750 個有效樣本(經(jīng)過過濾),最新的模型分數(shù)和排名見下表。從真實用戶體驗上來看,InstructBLIP 雖然在傳統(tǒng)標準數(shù)據(jù)集(除了具身智能的其他 5 大類多模態(tài)能力)上表現(xiàn)最好,但在 Elo 排名欠佳,而且 BLIP2 的用戶評價最差。相應(yīng)地,在經(jīng)過 ChatGPT 優(yōu)化過的指令遵循數(shù)據(jù)集上微調(diào)之后,模型輸出更受用戶青睞。我們看到,在高質(zhì)量數(shù)據(jù)上指令微調(diào)后的模型 Otter-Image 居于榜首,在 Otter 模型的基礎(chǔ)上實現(xiàn)了質(zhì)的飛躍。

圖片

多模態(tài)競技場模型排行榜

在 Tiny LVLM-eHub 上,Bard 在多項能力上表現(xiàn)出眾,只是在關(guān)于物體形狀和顏色的視覺常識和目標幻覺上表現(xiàn)欠佳。Bard 是 12 個模型中唯一的工業(yè)界閉源模型,因此不知道模型具體的大小、設(shè)計和訓(xùn)練數(shù)據(jù)集。相比之下,其他模型只有 7B-10B。當然我們目前的測試大都是單輪問答,而 Bard 支持多輪對話。相信 Bard 的能力不止于此,仍需要挖掘。

圖片


Bard Demo

Bard 很好地理解了圖像的不尋常之處,擁有類似于人類的理解能力。它甚至可以根據(jù)圖像做出關(guān)聯(lián),指出生活與藝術(shù)之間的關(guān)系。

圖片

Bard 相對較好地理解了復(fù)雜的食物鏈,并且回答了問題(在圖中以藍色標出),同時給出了超出問題范圍的對食物鏈的更詳細解釋。

圖片

Bard 具有一定的多模態(tài)推理能力,可以正確回答那些需要根據(jù)圖表(藍色部分)進行一些推理的問題,但在準確識別圖片中的詳細信息方面仍然存在一些問題(紅色部分)。

圖片

Bard 可以相對準確地以文字的形式生成目標檢框。

圖片

與 GPT-4 類似,Bard 具有將手繪的網(wǎng)頁設(shè)計轉(zhuǎn)化為 HTML 代碼的能力,并且更準確地識別網(wǎng)頁的布局,甚至成功地將 “照片” 部分識別為需要導(dǎo)入圖像的區(qū)域。

圖片

對于小學(xué)數(shù)學(xué)問題,Bard 錯誤地理解了問題,并且盡管之后的計算過程是正確的,但它還是給出了錯誤的答案。

圖片

Bard 仍然容易受到幻覺問題的影響。我們發(fā)現(xiàn),如果在提示中提供了某些虛假的線索,Bard 仍然會在其基礎(chǔ)上胡言亂語。

圖片

我們手動在圖像上添加了一條紅色的對角十字,然而 Bard 回答說圖片中沒有紅色的物體。此外,奇怪的是,Bard 回答這個問題時好像完全忽略了我們添加的紅色十字標記。

圖片

未來工作

盡管在 (Tiny) LVLM-eHub 中的評估是全面的,但我們僅評估了各種 LVLM 的多模態(tài)能力邊界。事實上,LVLM 的評估還必須考慮其他關(guān)鍵因素,如內(nèi)容安全、偏見和種族歧視等。由于這些模型生成的有偏見或有害內(nèi)容可能造成潛在危害,因此必須徹底評估 LVLM 生成安全和無偏見內(nèi)容的能力,以避免持續(xù)傳播有害刻板印象或歧視態(tài)度。特別是,在進一步探索 LVLM 的發(fā)展時,應(yīng)考慮如何增強對視覺常識的理解,并減輕幻覺問題。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-08 08:21:16

2025-05-21 08:47:00

2023-10-17 12:34:04

2025-09-16 09:35:52

2025-11-05 08:51:33

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-05-17 16:02:00

2023-05-08 10:14:07

模型AI

2024-09-25 14:53:00

2024-05-10 06:59:06

2025-07-29 08:40:00

模型AILLM

2025-05-20 13:02:23

2024-11-12 10:20:00

模型數(shù)據(jù)

2024-11-11 15:11:23

2023-07-03 16:21:25

數(shù)據(jù)模型

2024-03-25 12:40:19

訓(xùn)練模型
點贊
收藏

51CTO技術(shù)棧公眾號

亚洲最大在线| 国产精品av一区二区三区 | 亚洲欧美日本在线| 成人久久18免费网站漫画| 日本五十熟hd丰满| 国产欧美亚洲精品a| 69av一区二区三区| 欧美色图色综合| 成年人视频免费在线观看| 国产一区二区伦理| 91精品国产高清久久久久久久久| 国产在线综合视频| aaa国产精品视频| 在线观看国产精品网站| 8x8ⅹ国产精品一区二区二区| 色视频免费在线观看| 狠狠色综合播放一区二区| 午夜精品免费视频| 久久精品一区二区三区四区五区| 久久黄色影视| 337p亚洲精品色噜噜狠狠| 男女高潮又爽又黄又无遮挡| 黄色精品免费看| 久久久久久久久99精品| 99超碰麻豆| 一级aaaa毛片| 噜噜噜在线观看免费视频日韩| 久久网福利资源网站| 免费在线观看你懂的| 亚洲一区二区电影| 制服丝袜激情欧洲亚洲| 日韩一级免费在线观看| а√天堂资源官网在线资源| 最近日韩中文字幕| 日韩尤物视频| 欧美成人片在线| 99麻豆久久久国产精品免费| 亚洲最大福利网站| 97精品人妻一区二区三区| 丝瓜av网站精品一区二区| 97人洗澡人人免费公开视频碰碰碰| 中文字幕求饶的少妇| 欧美系列电影免费观看| 亚洲免费伊人电影在线观看av| 伦伦影院午夜理论片| 男人的天堂av网| 欧美大波大乳巨大乳| 日韩在线观看中文字幕| 欧美情侣在线播放| 日日噜噜夜夜狠狠| 希岛爱理一区二区三区av高清| 天天色天天爱天天射综合| 久久国产精品网| 蜜桃成人365av| 一区二区三区影院| 在线观看精品视频| 无遮挡的视频在线观看 | 色老头在线观看| 亚洲色图一区二区| 桥本有菜av在线| 黄色免费网站在线| 亚洲狼人国产精品| 亚洲黄色网址在线观看| 成人午夜在线影视| 亚洲男女毛片无遮挡| 午夜啪啪福利视频| 色婷婷av在线| 亚洲国产精品久久久久秋霞影院| 天堂а√在线中文在线| 三级资源在线| 亚洲高清久久久| 日本日本19xxxⅹhd乱影响| 美女91在线看| 欧美性一级生活| gogogo高清免费观看在线视频| 亚洲午夜国产成人| 欧美一区二区精品久久911| 古装做爰无遮挡三级聊斋艳谭| 亚洲日本一区二区三区在线| 亚洲精品www久久久久久广东| 在线观看国产网站| 欧美一区二区性| 日韩一区二区三区在线播放| 激情五月婷婷小说| 国产亚洲精品v| 国产精品久久77777| 国产一区二区三区三州| 国产传媒一区在线| 美女一区视频| 黄视频网站在线看| 亚洲午夜激情网页| 成人免费观看视频在线观看| 国产一区二区三区影视| 91精品午夜视频| 国产中文字幕一区二区| 色婷婷热久久| 97精品伊人久久久大香线蕉| 精品无码一区二区三区的天堂| 麻豆精品视频在线观看| 国产九色精品| 黄色av免费在线看| 亚洲自拍偷拍麻豆| 中文字幕在线观看第三页| 精品视频在线播放一区二区三区 | 国产一区成人| 国产日韩在线亚洲字幕中文| 国产伦精品一区二区三区免.费| 成人国产一区二区三区精品| 亚洲v国产v| 99riav视频在线观看| 欧美色网一区二区| 网站免费在线观看| 亚洲女同另类| 国产精品久久久久影院日本| 欧美一级性视频| 中文字幕一区二| 日本wwww视频| 警花av一区二区三区| 亚洲午夜国产成人av电影男同| 青春草免费视频| 麻豆精品国产91久久久久久| 久久久精品动漫| 日本欧美电影在线观看| 欧美三级视频在线| 亚洲一区二区三区蜜桃| 激情六月综合| 91在线|亚洲| 成人免费在线观看| 丁香五六月婷婷久久激情| 91精产国品一二三| 图片小说视频色综合| 国产精品av网站| 亚洲区小说区图片区| 亚洲国产成人高清精品| 亚洲精品在线视频播放| 久久国产亚洲精品| 国产精品jvid在线观看蜜臀| 香蕉视频911| 亚洲国产成人高清精品| 欧美日韩一区二区区别是什么| 久久综合av| 国产精品人人做人人爽| 国产成人天天5g影院在线观看| 婷婷六月综合亚洲| 中文字幕第九页| 欧美日韩国产探花| 91精品视频专区| 麻豆tv在线| 在线成人免费观看| 蜜桃av免费在线观看| 久久一区视频| 日本在线一区| 欧美电影免费观看高清完整| 精品香蕉在线观看视频一| 日韩精品乱码久久久久久| 成人网页在线观看| 成人在线国产视频| 国产精品白丝av嫩草影院| 欧美风情在线观看| 好吊色在线观看| 五月婷婷综合激情| 免费的av网站| 久久尤物视频| 无遮挡亚洲一区| 欧美一级在线| 操日韩av在线电影| 精品女同一区二区三区| 亚洲午夜一二三区视频| 三级电影在线看| 日韩国产在线观看一区| 亚洲国产欧美不卡在线观看| 国精品产品一区| 日韩一区二区精品视频| 成人黄色免费视频| 亚洲h在线观看| 91精彩刺激对白露脸偷拍| 免费不卡在线观看| 可以免费看的黄色网址| 国产成人澳门| 日韩av黄色在线观看| 137大胆人体在线观看| 91精品国产色综合久久不卡电影| 久久久久无码国产精品| 91在线丨porny丨国产| 日韩中文字幕三区| 日韩av在线播放网址| 亚洲qvod图片区电影| 国产网站在线| 色yeye香蕉凹凸一区二区av| aaa国产视频| 黑人极品videos精品欧美裸| 国产黄色片在线| 99在线精品观看| 激情黄色小视频| 伊人成人在线| 天天爽天天狠久久久| 日韩精品一区国产| 国产精品白嫩初高中害羞小美女 | 亚洲av综合色区无码一区爱av| 亚洲www啪成人一区二区麻豆| 亚洲图片另类小说| 国产suv精品一区二区三区| 无码人妻丰满熟妇区五十路百度| 国产大片一区| 久久99精品国产一区二区三区| 久久国产三级| 欧美综合在线观看| 在线网址91| 中文字幕亚洲自拍| 天天干视频在线| 欧美一级片在线| 亚洲黄网在线观看| 亚洲国产日产av| 日本黄色免费片| 久久久激情视频| 小毛片在线观看| 国产一区二区伦理| 亚欧美在线观看| 视频一区二区三区在线| av免费观看国产| 欧美日本一区二区视频在线观看 | 中文字幕乱码一区| 狠狠色狠狠色综合系列| 99re在线视频免费观看| 亚洲激情午夜| 蜜桃视频一区二区在线观看| 日韩精品dvd| 日本午夜一区二区三区| 日本午夜精品久久久| 99视频在线| 久久久久亚洲精品中文字幕| 国产日韩欧美在线播放| 人人鲁人人莫人人爱精品| 91成品人片a无限观看| 国产探花视频在线观看| 九九久久国产精品| 福利视频在线| 久久国产精品久久久久| 欧美13一16娇小xxxx| 色婷婷**av毛片一区| 黄色影院在线播放| 国产一区二区三区网站| 每日更新在线观看av| 日韩av在线最新| 婷婷国产在线| 日韩成人久久久| 深夜福利在线观看直播| 日韩精品在线播放| 日韩精品视频无播放器在线看| 亚洲精品第一国产综合精品| 欧美 日韩 国产 在线| 精品美女在线播放| 黄色av中文字幕| 亚洲国产高清高潮精品美女| 国产成人三级在线观看视频| 亚洲第一黄色网| 亚洲欧美综合在线观看| 亚洲伦理中文字幕| 国产在线视频网址| 这里精品视频免费| 欧美成人二区| 欧美人交a欧美精品| 91九色国产在线播放| 97婷婷涩涩精品一区| 亚洲天堂电影| 国产精品久久不能| 亚洲日本中文| 国产精品一 二 三| 啪啪激情综合网| 日韩精品极品视频在线观看免费| 国产麻豆一区二区三区精品视频| 神马影院一区二区三区| 国产精品x453.com| 久久综合亚洲精品| 亚洲激情不卡| 日本中文字幕高清| 国产在线看一区| 精品少妇人妻av一区二区三区| 97久久久精品综合88久久| 国产传媒国产传媒| 亚洲视频小说图片| 日本黄色片视频| 欧美亚洲免费在线一区| 99久久精品日本一区二区免费 | 色综合 综合色| 一卡二卡三卡在线观看| 精品国产一区二区亚洲人成毛片| 免费理论片在线观看播放老| www.日韩视频| 九九色在线视频| 国产成人精品久久| 精品视频在线一区| 欧美凹凸一区二区三区视频| 99视频精品全国免费| 日韩av片在线看| 韩日欧美一区二区三区| 水蜜桃av无码| 中文字幕一区在线观看| 日韩成人一区二区三区| 欧美日韩在线播放一区| 日本精品一二区| 日日噜噜噜夜夜爽亚洲精品| 激情黄产视频在线免费观看| 91九色国产视频| 红桃成人av在线播放| 日韩人妻无码精品久久久不卡| 欧美aⅴ一区二区三区视频| 稀缺小u女呦精品呦| 亚洲欧洲美洲综合色网| 国产无遮挡呻吟娇喘视频| 日韩一区二区在线观看视频播放| 精品成人一区二区三区免费视频| 欧美激情videoshd| 欧美极品在线| 就去色蜜桃综合| 国产一区二区三区四区老人| 欧美成人三级在线播放| 26uuu色噜噜精品一区| 欧美日韩成人免费观看| 精品1区2区3区| 酒色婷婷桃色成人免费av网| 久久青草福利网站| 经典三级久久| 一区高清视频| 日本大胆欧美人术艺术动态| 黄色a一级视频| 亚洲高清免费在线| 国产哺乳奶水91在线播放| 色噜噜久久综合伊人一本| gogo亚洲高清大胆美女人体| 久久99精品久久久久久秒播放器| 欧美日韩影院| 日韩精品――色哟哟| 有码一区二区三区| 国产口爆吞精一区二区| 色哟哟入口国产精品| 成人激情视屏| 午夜精品一区二区三区四区| 视频在线观看国产精品| 四虎永久免费在线观看| 欧美色videos| 丝袜视频国产在线播放| 韩国欧美亚洲国产| 国产精品久av福利在线观看| 日本a在线天堂| 国产精品99久久久久| 日韩a级片在线观看| 91精品久久久久久久91蜜桃| 日本最黄一级片免费在线| 国产精品日韩在线一区| 欧美一区二区三区激情视频| www.亚洲高清| 亚洲天堂2014| av网站在线观看免费| 欧美激情一区二区久久久| 一区二区三区视频播放| 欧美一级欧美一级| 99久久99久久久精品齐齐| 国产成人在线观看网站| 精品一区二区亚洲| 欧美大片免费观看网址| 亚洲国产婷婷香蕉久久久久久99| 日本成人在线一区| 国产一区二区精彩视频| 日韩亚洲欧美综合| av今日在线| 日韩精品欧美专区| 精品一区二区三区在线视频| 动漫性做爰视频| 亚洲国产精品大全| 高潮一区二区| 日本一区二区免费高清视频| 国产伦精品一区二区三区免费| 久久午夜无码鲁丝片午夜精品| 亚洲精品理论电影| 欧美不卡高清一区二区三区| 伊人久久青草| 成人h动漫精品一区二区| 二区视频在线观看| 日韩在线视频网| silk一区二区三区精品视频 | 少妇熟女一区二区| 国产91精品一区二区麻豆网站| 欧美在线观看不卡| 社区色欧美激情 | 凹凸av导航大全精品| 黄色一级免费大片| 一区二区理论电影在线观看| 视频一区二区三区国产| 成人免费网站在线| 日韩香蕉视频| 天堂а√在线中文在线鲁大师| 欧美精品一区二区精品网| 亚洲成人av观看| 激情六月天婷婷| 国产午夜精品一区二区三区嫩草| 国产人妖一区二区| 日韩av123| 欧美特黄视频| 亚洲ⅴ国产v天堂a无码二区|