多模態(tài)大模型能力測評：Bard 是你需要的嗎？

作者：機器之心 2023-08-30 13:23:00

為了對多模態(tài)大模型的能力進行全面、系統(tǒng)的測評，來自上海 AI Lab、香港大學(xué)、北京大學(xué)、香港中文大學(xué)的多位研究者聯(lián)合提出了全面評估框架 LVLM-eHub 和 Tiny LVLM-eHub。

繼 ChatGPT 之后，OpenAI 直播展示了 GPT-4 強大的支持 visual input 的多模態(tài)能力，雖然視覺輸入目前還沒大規(guī)模開放使用。隨后學(xué)術(shù)界和工業(yè)界也紛紛把目光聚焦到多模態(tài)大模型（主要是視覺語言模型）上，比如學(xué)術(shù)界的 LLaMA-Adapter 和 MiniGPT-4，以及工業(yè)界最具代表的來自谷歌的 Bard，而且 Bard 已經(jīng)后來居上開放大規(guī)模用戶使用。但是學(xué)術(shù)界發(fā)布的模型大多只在部分多模態(tài)能力（少數(shù)相關(guān)數(shù)據(jù)集）上進行了評估，而且也缺少在真實用戶體驗上的性能對比。Bard 開放視覺輸入之后也沒有給出官方的多模態(tài)能力報告。

在此背景下，我們首先提出了多模態(tài)大模型多模態(tài)能力的全面評估框架 LVLM-eHub，整合了 6 大類多模態(tài)能力，基本涵蓋大部分多模態(tài)場景，包括了 47 + 個相關(guān)數(shù)據(jù)集。同時發(fā)布了模型間能力對比的眾包式用戶評測平臺多模態(tài)大模型競技場，讓真實用戶來提問和投票哪個模型表現(xiàn)得更好。

LVLM-eHub 論文地址：https://arxiv.org/abs/2306.09265
Multi-Modality Arena：https://github.com/OpenGVLab/Multi-modality-Arena
項目網(wǎng)址：http://lvlm-ehub.opengvlab.com/

在此基礎(chǔ)上我們還將原有每個數(shù)據(jù)集精簡到 50 個樣本（隨機采樣），推出 Tiny LVLM-eHub，便于模型快速評估和迭代。設(shè)計了更加準確穩(wěn)健并且與人類評估結(jié)果更加一致的評估方法，集成多樣評估提示詞下的 ChatGPT 評估結(jié)果（多數(shù)表決）。最后同時加入了更多多模態(tài)大模型，其中谷歌的 Bard 表現(xiàn)最為出色。

Tiny LVLM-eHub 論文地址：https://arxiv.org/abs/2308.03729
Multimodal Chatbot Arena：http://vlarena.opengvlab.com

多模態(tài)能力與數(shù)據(jù)集

我們整合了 6 大類多模態(tài)能力：

a. 視覺感知（visual perception）

b. 視覺信息提取（visual knowledge acquisition）

c. 視覺推理（visual reasoning）

d. 視覺常識（visual commonsense）

e. 具身智能（Embodied intelligence）

f. 幻覺（Hallucination）

前兩類涉及到基礎(chǔ)的感知能力，中間兩類上升到高層的推理，最后兩類分別涉及到將大模型接入機器人后的更高層的計劃和決策能力，和在大語言模型（LLM）上也很危險和棘手的幻覺問題。

具身智能是大模型能力的應(yīng)用和拓展，未來發(fā)展?jié)摿薮螅瑢W(xué)術(shù)界和工業(yè)界方興未艾。而幻覺問題是在將大模型推廣應(yīng)用過程中眾多巨大風(fēng)險點之一，需要大量的測試評估，以協(xié)助后續(xù)的改善和優(yōu)化。

六大多模態(tài)能力結(jié)構(gòu)圖

多模態(tài)大模型競技場

多模態(tài)大模型競技場是一個模型間能力對比的眾包式用戶評測平臺，與上述的在傳統(tǒng)數(shù)據(jù)集上刷點相比，更能真實反映模型的用戶體驗。用戶上傳圖片和提出相應(yīng)問題之后，平臺從后臺模型庫中隨機采樣兩個模型。兩個模型分別給出回答，然后用戶可以投票表決哪個模型表現(xiàn)更佳。為確保公平，我們保證每個模型被采樣的幾率是相同的，而且只有在用戶投票之后，我們才展示被采樣模型的名稱。流程樣例見下圖。

多模態(tài)大模型競技場示意圖

評估方法

評估方法示意圖

LVLM-eHub 默認使用 word matching（只要真實答案出現(xiàn)在模型輸出中，即判斷為正確）來做快速自動評估。特別地，對于 VCR 數(shù)據(jù)集，為了更好地評估模型性能，我們采用了 multi-turn reasoning 評估方法：類似 least-to-most 提示方法，首先經(jīng)過多輪的 ChatGPT 提出子問題和待評估模型給出回答，最后再回答目標問題。另外對于具身智能，我們目前完全采用人工的方式，從 Object Recognition、Spatial Relation、Conciseness、Reasonability 和 Executability 五個維度進行了全方位評估。

多提示詞投票評估方法

Tiny LVLM-eHub 設(shè)計并采用了多提示次投票評估評估方法，可以克服詞匹配評估方法的缺陷，具體來說，詞匹配在以下兩個場景下都會失效：（1）模型輸出中可能出現(xiàn)包括真實答案在內(nèi)的多個答案；（2）模型輸出與問題的參考答案在語義上是相同的，只是表述不同。

基于 ChatGPT 的多指令集成評估方法示意圖

另外我們通過實驗（結(jié)果見下表）發(fā)現(xiàn)我們提出的評估方法與人類評估結(jié)果更加一致。

CEE 評估方法和詞匹配方法與人類評估一致性的比較

評估結(jié)果

在傳統(tǒng)標準數(shù)據(jù)集（除了具身智能的其他 5 大類多模態(tài)能力）上，評估結(jié)果顯示 InstructBLIP 表現(xiàn)最佳。通過對比模型訓(xùn)練數(shù)據(jù)集之間的差異，我們猜測這很可能是因為 InstructBLIP 是在 BLIP2 的基礎(chǔ)上再在 13 個類似 VQA 的數(shù)據(jù)集上微調(diào)得到的，而這些微調(diào)數(shù)據(jù)集與上述 5 類多模態(tài)能力相應(yīng)的數(shù)據(jù)集在任務(wù)和具體數(shù)據(jù)形式和內(nèi)容上有很多相同點。反觀在具身智能任務(wù)上，BLIP2 和 InstructBLIP 性能最差，而 LLaMA-Adapter-v2 和 LLaVA 表現(xiàn)最好，這很大程度上是因為后者兩個模型都使用了專門的視覺語言指令遵循數(shù)據(jù)集進行指令微調(diào)。總之，大模型之所以在眾多任務(wù)上泛化性能很好很大程度上是因為在訓(xùn)練或微調(diào)階段見過相應(yīng)任務(wù)或者相似數(shù)據(jù)，所以領(lǐng)域差距很小；而具身智能這種需要高層推理、計劃乃至決策的任務(wù)需要 ChatGPT 或 GPT-4 那種邏輯性、計劃性和可執(zhí)行性更強的輸出（這一點可以在下面 Bard 的評估結(jié)果上得到印證：Bard 的具身智能能力最好）。

LVLM-eHub 中八大模型在六大多模態(tài)能力上的性能圖

截止目前，我們在多模態(tài)大模型競技場平臺收集了 2750 個有效樣本（經(jīng)過過濾），最新的模型分數(shù)和排名見下表。從真實用戶體驗上來看，InstructBLIP 雖然在傳統(tǒng)標準數(shù)據(jù)集（除了具身智能的其他 5 大類多模態(tài)能力）上表現(xiàn)最好，但在 Elo 排名欠佳，而且 BLIP2 的用戶評價最差。相應(yīng)地，在經(jīng)過 ChatGPT 優(yōu)化過的指令遵循數(shù)據(jù)集上微調(diào)之后，模型輸出更受用戶青睞。我們看到，在高質(zhì)量數(shù)據(jù)上指令微調(diào)后的模型 Otter-Image 居于榜首，在 Otter 模型的基礎(chǔ)上實現(xiàn)了質(zhì)的飛躍。

多模態(tài)競技場模型排行榜

在 Tiny LVLM-eHub 上，Bard 在多項能力上表現(xiàn)出眾，只是在關(guān)于物體形狀和顏色的視覺常識和目標幻覺上表現(xiàn)欠佳。Bard 是 12 個模型中唯一的工業(yè)界閉源模型，因此不知道模型具體的大小、設(shè)計和訓(xùn)練數(shù)據(jù)集。相比之下，其他模型只有 7B-10B。當然我們目前的測試大都是單輪問答，而 Bard 支持多輪對話。相信 Bard 的能力不止于此，仍需要挖掘。

Bard Demo

Bard 很好地理解了圖像的不尋常之處，擁有類似于人類的理解能力。它甚至可以根據(jù)圖像做出關(guān)聯(lián)，指出生活與藝術(shù)之間的關(guān)系。

Bard 相對較好地理解了復(fù)雜的食物鏈，并且回答了問題（在圖中以藍色標出），同時給出了超出問題范圍的對食物鏈的更詳細解釋。

Bard 具有一定的多模態(tài)推理能力，可以正確回答那些需要根據(jù)圖表（藍色部分）進行一些推理的問題，但在準確識別圖片中的詳細信息方面仍然存在一些問題（紅色部分）。

Bard 可以相對準確地以文字的形式生成目標檢框。

與 GPT-4 類似，Bard 具有將手繪的網(wǎng)頁設(shè)計轉(zhuǎn)化為 HTML 代碼的能力，并且更準確地識別網(wǎng)頁的布局，甚至成功地將 “照片” 部分識別為需要導(dǎo)入圖像的區(qū)域。

對于小學(xué)數(shù)學(xué)問題，Bard 錯誤地理解了問題，并且盡管之后的計算過程是正確的，但它還是給出了錯誤的答案。

Bard 仍然容易受到幻覺問題的影響。我們發(fā)現(xiàn)，如果在提示中提供了某些虛假的線索，Bard 仍然會在其基礎(chǔ)上胡言亂語。

我們手動在圖像上添加了一條紅色的對角十字，然而 Bard 回答說圖片中沒有紅色的物體。此外，奇怪的是，Bard 回答這個問題時好像完全忽略了我們添加的紅色十字標記。

未來工作

盡管在 (Tiny) LVLM-eHub 中的評估是全面的，但我們僅評估了各種 LVLM 的多模態(tài)能力邊界。事實上，LVLM 的評估還必須考慮其他關(guān)鍵因素，如內(nèi)容安全、偏見和種族歧視等。由于這些模型生成的有偏見或有害內(nèi)容可能造成潛在危害，因此必須徹底評估 LVLM 生成安全和無偏見內(nèi)容的能力，以避免持續(xù)傳播有害刻板印象或歧視態(tài)度。特別是，在進一步探索 LVLM 的發(fā)展時，應(yīng)考慮如何增強對視覺常識的理解，并減輕幻覺問題。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練