視覺語言模型能夠“看見”嗎?
來自奧本大學(xué)和阿爾伯塔大學(xué)的研究人員發(fā)現(xiàn),最先進(jìn)的具有視覺能力的大型語言模型(VLMs)在理解涉及基本幾何形狀的空間信息方面表現(xiàn)得非常糟糕,例如判斷兩個圓是否重疊。他們提出了一個名為BlindTest的新基準(zhǔn)測試,包括7項簡單任務(wù),這些任務(wù)在互聯(lián)網(wǎng)上自然語言中不太可能有現(xiàn)成答案,以測試VLM像人類一樣“看見”圖像的能力。
現(xiàn)有的VLM基準(zhǔn)(如MMMU和ChartQA)涵蓋了廣泛的主題,但輸入圖像并非總是回答問題所必需的,即答案可能僅從文本問題和答案選擇中推斷出來,或由模型從互聯(lián)網(wǎng)規(guī)模的訓(xùn)練中記住。出于這個差距并受到驗光師對人類進(jìn)行視覺敏銳度測試的啟發(fā),作者設(shè)計了7個涉及二維幾何原型的低級視覺任務(wù)。然后他們測試了在現(xiàn)有多模態(tài)視覺基準(zhǔn)中排名最高的四個VLM——GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。對于每個任務(wù),他們用兩個語義上等同得不同問題提示VLM。任務(wù)和結(jié)果如下:
1、計數(shù)線的交叉點
在150張包含兩條有顏色的圖像中,它們恰好在0、1或2點相交,最佳準(zhǔn)確率是77.33%(Sonnet-3.5),最差是48.67%(GPT-4o)。

2、兩個圓重疊或接觸
在672張兩個大小相等的圓重疊、相切或分離(具有方向和大小變化)的圖像中,最佳準(zhǔn)確率是92.78%(Gemini-1.5),最差準(zhǔn)確率是72.69%(依然是GPT-4o)。此外,當(dāng)兩個圓靠得很近時,性能往往會下降。
3、字符串中的帶圓圈字母
一個紅色橢圓疊加在字符串中的某個字母上。作者測試了三個字符串——Acknowledgement、Subdermatoglyphic和一個隨機(jī)字符串tHyUiKaRbNqWeOpXcZvM。Gemini-1.5(92.81%準(zhǔn)確率)和Sonnet-3.5(89.22%準(zhǔn)確率)比GPT-4o和Sonnet-3高出近20個百分點。除了GPT-4o,所有模型在兩個英文單詞上的表現(xiàn)略優(yōu)于隨機(jī)字符串,這表明知道單詞可能有助于VLM做出更好的猜測。
4、計數(shù)重疊形狀
N個重疊的、同樣大小的圓(N=5,6,7,8,9)像奧運會標(biāo)志一樣排列成兩排。性能范圍從20.83%(Gemini-1.5)到44.16%(Sonnet-3.5)。重復(fù)相同排列的五邊形,性能差異更大,從9.16%(Gemini-1.5)到75.83%(Sonnet-3.5)。所有四個模型在計數(shù)5個圓時都100%準(zhǔn)確,但在計數(shù)5個五邊形時表現(xiàn)不佳(除Sonnet-3.5外)。
5、計數(shù)嵌套正方形
2到5個正方形嵌套在一起,每個形狀完全在另一個形狀內(nèi)部。Sonnet-3.5的最佳準(zhǔn)確率為87.5%。GPT-4o和Sonnet-3在計數(shù)僅2或3個正方形時就表現(xiàn)不佳。

6、計算網(wǎng)格的行數(shù)和列數(shù)
VLM很難計算空網(wǎng)格中的確切行數(shù)和列數(shù),最好的模型(Sonnet-3.5)準(zhǔn)確率為59.84%,其余模型的準(zhǔn)確率為25-26%。然而,在每個單元格中添加一個單詞顯著提高了所有模型的性能。例如,GPT-4o的準(zhǔn)確率從26%提高到53%,提高了一倍多。
7、跟蹤單一顏色的路徑
最后一個任務(wù)要求模型計算簡化地鐵圖中兩站之間獨特顏色路徑的數(shù)量。“令人震驚”的是,作者發(fā)現(xiàn)即使只有一條路徑時,也沒有模型達(dá)到100%準(zhǔn)確率。隨著地圖復(fù)雜性的增加,大多數(shù)VLM的表現(xiàn)更差。

總體而言,BlindTest基準(zhǔn)測試首次為VLM提供了低級視覺健全性檢查。它們在這些簡單(對人類而言)的無需任何先驗知識的任務(wù)上的表現(xiàn)令人失望,與它們在現(xiàn)有視覺基準(zhǔn)上的令人印象深刻的表現(xiàn)形成對比,這些基準(zhǔn)存在數(shù)據(jù)泄漏問題。解決VLM的這些局限性可能是一項不小的挑戰(zhàn),并且可能有助于解決多模態(tài)模型已知的其他視覺缺陷,如理解物體的方向。
本文轉(zhuǎn)載自MoPaaS魔泊云,作者: JAYMEE SHENG ?

















