精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這屆出題太難了!新基準讓多模態模型集體自閉,GPT-4o都是零分

人工智能 新聞
對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。

眼下最頂尖的一批 LMM 是哪些?你可能想到了無所不能的 GPT-4o、Gemini 2 Flash 等等……

但這些大模型,遇到一個名為「ZeroBench」的視覺基準之后,紛紛敗下陣來。

20 多個知名模型,首次作答成績如下,全部是零分:

震驚之后,我們仔細研究了這個 ZeroBench 基準里的問題。

對于大模型來說,許多現有的基準已經沒有任何挑戰性,也失去了作為衡量大模型真實視覺理解能力標準的價值。ZeroBench 的出現,顯然打破了這個局面。

ZeroBench 包含 100 個具有挑戰性的全新問題,具體多有挑戰性呢?請聽題:

第題:不用優惠,菜單上每款點一個,總共需要多少港幣?

好家伙,這菜單上下顛倒就算了,還反光看不清字,讓在其中找到每道菜的價格,再做加法,這不是為難我胖虎嗎?

對于需要更多步驟才能得到答案的多模態模型來說,可能它也需要:「服務器繁忙,請稍后再試」。

問題 2:(i) 計算壺鈴的總重量?(ii) 計算重量在 5 至 15 磅之間(含 5 磅和 15 磅)的啞鈴總重量,單位為磅。(iii) 估計每個綠色壺鈴的重量,單位為磅。

知識面不夠寬,還真做不了這題。不光要算總重量,還得挑出綠色的,還得分類統計......

多模態模型見了這題都要暗地里蛐蛐:我連自己重多少斤都不知道,您這讓我數啞鈴?

問題 3:你正試圖破解一個保險箱,需要一個 6 位數密碼。根據失主留下的線索和物品,請推理出完整密碼。

這是在考眼力,考數學,還是在拍《達芬奇密碼》?

看來,ZeroBench 對多模態模型確實很高,不僅得明察秋毫,還得擁有福爾摩斯般的推理能力。

問題 4:在八方位指南針上,身體朝南的鵝占總數的百分比是多少?請精確到小數點后一位。

想要判斷鵝的身體是否朝南,首先得知道這張圖的南在哪邊?接下來還需要考慮冬季夏季,南北半球,上午下午?

停停,在高中畢業之后,我就停止如此深度地使用自己的大腦了。

GPT-4o 做了這道題,分析了半天,最后擺爛了,讓我們重新上傳圖片,「以便它從頭開始處理。」可能它也要停下來發一句:鵝太南(難)了。

問題 5:

(1)現在是英國牛津的傍晚,這個時鐘是根據物品使用方向來安裝的。距離正午大約過去了多少小時?

(2)這個時鐘是用一個八人賽艇隊員的裝備制成的,他的隊伍使用標準裝備。他可能坐在哪些座位?把座位號加起來等于多少?

(3)如果將圖像水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度,時針最接近哪個整點?

(4)把前三個答案相乘等于多少?

「從這塊只有指針的表判斷距離正午的時間」、「表皮是由賽艇隊員的裝備做成的,他的座位號是多少?」,「水平翻轉一次,垂直翻轉一次,然后順時針旋轉 90 度......」

如果說前幾題查查資料,努努力還能寫出來,現在已經來到連題目都讀不懂的境地了。

看完這些題目,不難理解為什么它叫 ZeroBench —— 因為 AI 做完這些題后,自信可能就歸零了!

想來出題人也是頗費了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團隊組織了一個 20 多人的專家出題組,每道題都是手工高定。

由于很難事先知道一個問題對多模態模型來說有多難,因此在開發過程中,出題人還會拿最新、最好的模型來「試水」。發現題目太簡單就加料,發現還能做出來就繼續加料,直到調節到「難度適中」。

ZeroBench 概述

項目主頁: https://zerobench.github.io/

論文地址:  https://arxiv.org/pdf/2502.09696

數據集構建

伴隨著大模型能力的不斷進化,想要創建一個難度足夠高的問題集越來越難。

ZeroBench 中的每個問題是由 20 多位人類問題創建者手工定制的。為了增加問題的多樣性,對問題創建者的指導還是比較寬泛的:(1)包含對回答問題至關重要的困難視覺元素,(2)包含多步驟推理,(3)盡可能具有挑戰性。

由于很難事先知道一個問題對 LMM 來說有多難,因此在開發過程中,研究者鼓勵問題創建者在一些前沿模型上對候選問題進行評估,衡量其難度并相應地調整問題。

在獲得了 140 個候選問題后,研究者使用了以下由 4 個部分組成的篩選流程,最終選出了 100 個問題用于 ZeroBench:

  • 反饋。對候選問題進行篩選,必要時通過反復審查和反饋進行改進。
  • 初步評估。為了衡量難度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)對問題進行了初步評估。
  • 審查。在初步評估的基礎上,對每個候選問題都進行了全面審查,以確保這些問題可以回答、格式和注釋正確、難度足夠且簡明扼要。審查人員的分配確保了出題者不會審查到自己的試題。許多試題也被修改了,旨在增加難度。此外,為了降低正確答案被猜中的可能性,必要時還對問題進行了修改,以確保答案范圍足夠廣泛。這就排除了二進制、多項選擇或答案為小整數(即小于 10)的問題。不符合要求的問題都被過濾掉了,因此第一次就有了 106 個合適的問題。
  • 對抗過濾。研究者使用貪婪解碼對每個 LMM 基線的剩余問題進行了評估,并刪除了任何一個模型都能正確回答的問題。每個模型能正確回答的問題差異很大,表現最好的模型也只能得到 4/106 分。有些問題只有一個相對較弱的模型能正確回答。研究者認為這是一種將問題分布與當前模型能力相聯系的有效方法。

經過反復推敲,研究者最終確定了共 100 個問題。為了在評估過程中區分模型性能,他們在審查過程中為每個問題創建了一個或多個子問題。子問題(圖 6)由明確的問題子部分、自然推理步驟或與得出最終答案相關的其他數量生成。

統計

表 1 顯示了 ZeroBench 的核心統計數據,其中包括 100 個主問題和 334 個子問題,在單幅和多幅圖像設置中包含自然圖像和合成圖像。

如圖 4 所示,主問題的文本長度分布廣泛,最長可達 2k 字符;在子問題中,短問題的比例明顯較高。問題中圖片的平均大小(圖 5)分布較為均勻。ZeroBench 中的問題以難度為優先考慮因素,大多數問題都包含多個步驟,需要不同的視覺能力。同樣,問題的背景也往往是混合的,需要不同領域的知識。因此,為每個問題或子問題指定不同的類別是不可行的。

評估

研究者在 ZeroBench 主問題和子問題上對 20 個 LMM 進行了評估,結果見表 2。從中可以得出幾個結論:

對于當下 LMM 的水準而言,ZeroBench 是不可能挑戰成功的。在可重現的環境中,研究者發現所有模型在該基準測試中都只有 0% 的及格率。

有些問題是可以回答的,大多數模型的得分都不是零。表現最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分達到了 7%(正確回答 7 個問題);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現也相對較好,正確回答了 3 個問題。

子問題區分開了模型的性能。這部分問題對模型的挑戰性較小,所有模型的得分都不為零。雖然與主問題相比,推理模型的難度要低得多,但總體而言,這些模型仍然難以正確回答這些小問題,其中絕大多數都太難了。推理模型在推理過程中通常會產生一個擴展的思維鏈,允許它們在得出最終解決方案之前探索多種路徑。然而,在 ZeroBench 上,此類模型與傳統模型相比似乎并無明顯優勢。

在主問題上,開放源代碼和封閉源代碼模型的表現仍然很差,沒有明顯的區別。不過,通過比較子問題的得分,可以發現兩者的性能差距很大,領先的開源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 個百分點。

錯誤分析

圖 7 展示了在 ZeroBench 子問題中經常出現的視覺解讀錯誤,例如錯誤地計算物體數量、無法「看到」細微細節或準確提取信息,以及難以理解空間關系。更多例子可參考附錄。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-19 09:04:00

2024-06-28 18:13:05

2024-06-27 12:45:30

2025-08-15 12:50:19

2024-05-20 08:20:00

OpenAI模型

2025-05-26 08:33:00

2024-06-12 11:50:23

2025-01-02 11:01:45

2024-10-06 09:00:00

AI訓練數據

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2025-09-16 09:13:00

2025-05-15 09:10:00

2024-05-14 11:29:15

2025-06-04 09:05:18

2024-12-19 09:00:00

模型數學訓練

2024-08-30 14:35:00

2025-05-27 15:59:41

AI工具模型

2025-05-28 11:55:28

模型AI評估

2025-04-01 09:25:00

2025-08-07 14:05:40

OpenAI大模型開源
點贊
收藏

51CTO技術棧公眾號

欧美激情三区| 国产精品视频a| 极品束缚调教一区二区网站 | 手机亚洲第一页| 亚洲免费精品| 亚洲精品大尺度| 白嫩少妇丰满一区二区| 国产精品秘入口| 美日韩一区二区三区| 久久亚洲精品视频| 天天做天天干天天操| 自由的xxxx在线视频| 久久精品国产77777蜜臀| 色噜噜国产精品视频一区二区 | 亚洲精品一线| 26uuu亚洲| 国产精品视频自在线| 欧美视频www| 老汉色老汉首页av亚洲| 91极品美女在线| 亚洲春色综合另类校园电影| 国产视频在线观看视频| 日韩午夜电影| 日韩在线免费视频观看| 欧产日产国产精品98| 欧美韩国亚洲| 夜夜精品视频一区二区 | 国产成人精品久久| 国产亚洲欧美精品久久久久久| 欧美日韩激情在线一区二区三区| 亚洲第一免费网站| 一级片免费在线观看视频| 五月激情久久| 欧美性生交大片免网| 福利视频免费在线观看| 国产婷婷视频在线| 中文字幕av一区二区三区免费看| 久久资源av| 天天干,夜夜操| 成人激情综合网站| 51精品国产人成在线观看| 这里只有久久精品视频| 欧美亚洲自偷自偷| 欧美亚洲国产视频| 日韩少妇高潮抽搐| 国产精品mm| 久久综合久中文字幕青草 | 亚洲精品视频在线观看免费| 亚洲精品影院| 91精品国产综合久久久久久豆腐| 2021久久国产精品不只是精品| 国产伦精品一区二区三区免| 亚洲成a人片在线| 国产精品亚洲第一区在线暖暖韩国| 国产精品日韩在线观看| 乱子伦一区二区三区| 久久综合九色| 国产精品aaaa| 真实的国产乱xxxx在线91| 日韩经典一区二区| 国产精品美女网站| 中文字幕在线播放日韩| 精品中文字幕一区二区| 91精品视频在线看| av免费在线不卡| 国产成人av电影在线| 96久久精品| 内射无码专区久久亚洲| av中文字幕在线不卡| 精品一区二区久久久久久久网站| 深爱五月激情五月| www国产精品av| 性欧美videosex高清少妇| 爱爱爱免费视频在线观看| 国产精品久久久久久亚洲伦| 大桥未久一区二区三区| 午夜成年人在线免费视频| 亚洲一区二区五区| 黄色动漫网站入口| jizzjizz少妇亚洲水多| 欧美一区二区三区视频在线观看| 一区二区在线免费观看视频| 国产乱人伦精品一区| 亚洲精品资源在线| 国产第一页精品| 欧美在线日韩| 性欧美xxxx交| 中文字幕日本人妻久久久免费| 激情久久五月天| 国产精品制服诱惑| 国内在线精品| 亚洲精品va在线观看| 69堂免费视频| 午夜不卡一区| 日韩av影视在线| 久久一级免费视频| 亚洲国内精品| 国产精品视频精品| 成人毛片视频免费看| 欧美国产一区视频在线观看| 日韩一级片一区二区| 都市激情综合| 日韩美女视频在线| 中文字幕免费高清| 欧美视频网站| 国产精品自产拍高潮在线观看| 丰满人妻一区二区三区免费| 欧美韩国日本一区| a在线视频观看| 懂色av色香蕉一区二区蜜桃| 日韩黄色高清视频| 清纯粉嫩极品夜夜嗨av| 日韩av电影天堂| 国产伦精品一区二区三区视频免费| 69av亚洲| 91福利视频在线| 日本少妇xxxx软件| 99久久久久国产精品| 97精品视频在线观看| 国产伦精品一区二区三区四区 | av成人 com a| 91精品国产福利| 91资源在线播放| 销魂美女一区二区三区视频在线| 91丨九色丨国产| 色网站在线看| 欧洲一区二区av| 亚洲专区区免费| 亚洲欧洲综合| 高清日韩一区| 伊人精品影院| 91精品国产麻豆| 四虎影视1304t| 日韩电影在线免费| 欧美中日韩一区二区三区| brazzers在线观看| 精品国产乱码久久久久久1区2区| 亚洲欧美另类日本| 日本中文字幕不卡| 欧美裸体网站| 超级碰碰久久| 日韩av中文字幕在线| 国产大片中文字幕| 成人免费视频播放| 无码中文字幕色专区| 国产日韩三级| 久久免费国产视频| 亚洲国产精品视频在线| 一区二区在线观看视频在线观看| 黄色一级片免费播放| 66视频精品| 亚洲影视九九影院在线观看| 国产黄a三级三级三级av在线看| 欧美日韩www| chinese全程对白| 精品一二三四在线| 亚洲精品少妇一区二区| 88久久精品| 57pao国产成人免费| 亚洲 欧美 精品| 色综合 综合色| 亚洲女优在线观看| 久久精品久久综合| 毛片在线视频观看| 国产精品videossex| 4444欧美成人kkkk| 黄色毛片在线看| 欧美精品久久一区二区三区| 欧美特级一级片| 成人国产精品免费观看| 成人久久久久久久久| 欧美精品乱码| 亚洲一区二区在线播放| 国产蜜臀av在线播放| 亚洲精品视频在线播放| 中文字幕久久久久| 亚洲激情网站免费观看| 精品熟女一区二区三区| 日韩黄色在线观看| 中文字幕综合在线观看| www.神马久久| 国产精品久久久久久久久久久新郎| 麻豆tv在线| 精品盗摄一区二区三区| 色av性av丰满av| 亚洲欧美偷拍另类a∨色屁股| 中文字幕永久免费| 日日摸夜夜添夜夜添精品视频| 中文字幕日韩精品一区二区| 国产福利一区二区精品秒拍| 国产精品极品在线| 午夜影院免费在线| 国产一区二区三区在线视频| 国内精品偷拍视频| 一本色道久久综合狠狠躁的推荐| 91嫩草丨国产丨精品| 99re成人在线| 日韩精品aaa| 亚洲欧美日本国产专区一区| 免费观看国产视频在线| 羞羞答答一区二区| 99视频日韩| 欧美jizz18| 69视频在线播放| 大地资源网3页在线观看| 亚洲欧美日韩国产中文| jlzzjlzz亚洲女人18| 欧美亚洲愉拍一区二区| 日韩欧美亚洲国产| 亚洲欧美国产三级| 免费一级黄色录像| aaa欧美色吧激情视频| 韩国一区二区在线播放| 久久性色av| 日韩av高清在线看片| 久久精品亚洲人成影院| 日产精品一线二线三线芒果| 久久99精品国产自在现线| 国产欧美一区二区三区在线看| 黄色羞羞视频在线观看| 久久亚洲私人国产精品va| 经典三级在线| 精品视频偷偷看在线观看| 亚洲AV无码乱码国产精品牛牛 | www.51色.com| 蜜桃久久精品一区二区| 97在线播放视频| 亚洲精品四区| wwwwww欧美| 亚洲综合色站| 97超碰免费观看| 97在线精品| 一区二区三区四区不卡| 精品久久久久中文字幕小说| 欧美lavv| 国产亚洲一卡2卡3卡4卡新区| 国偷自产av一区二区三区小尤奈| 亚洲国产高清在线观看| 91夜夜未满十八勿入爽爽影院| 国模私拍国内精品国内av| 国产精品第一第二| 精品成人av| 日韩免费高清在线观看| 成人免费直播| 欧美在线一区二区视频| 2020国产在线| 97香蕉超级碰碰久久免费软件| 美足av综合网| 久久久久久综合网天天| 欧美人与禽性xxxxx杂性| 欧美大奶子在线| 五月婷婷视频在线观看| 欧美激情一二三| av最新在线| 欧美一级大片在线观看| 三级中文字幕在线观看| 欧美中文字幕在线播放| 刘亦菲一区二区三区免费看| 国产成人精品国内自产拍免费看| 日韩在线免费| 成人精品视频99在线观看免费 | 疯狂撞击丝袜人妻| 亚洲三级视频在线观看| 男女免费视频网站| 香港成人在线视频| 精品人妻一区二区三区潮喷在线| 在线亚洲精品福利网址导航| 中文字幕视频免费观看| 在线观看91av| 成人久久久精品国产乱码一区二区| 亚洲国产欧美一区| 福利视频在线播放| 日韩中文字幕网址| 欧美78videosex性欧美| 91精品国产乱码久久久久久久久 | 色老头在线观看| 国内伊人久久久久久网站视频| xxxxx性欧美特大| 国产欧美日韩中文| 成人知道污网站| 欧美伦理一区二区| 中文字幕午夜精品一区二区三区 | 久久成人av少妇免费| 国偷自产av一区二区三区麻豆| 91麻豆免费观看| 97精品在线播放| 亚洲18色成人| 在线观看免费黄色小视频| 精品美女一区二区三区| 黄色小视频在线观看| 九九九久久久久久| 日韩精品专区| 99精品欧美一区二区三区| 国产探花一区二区| 国产av熟女一区二区三区 | 男人操女人下面视频| 91视频在线观看免费| 国精产品久拍自产在线网站| 天天免费综合色| 国产剧情精品在线| 亚洲视频在线免费看| www.久久ai| 国产精品入口日韩视频大尺度| 国产精品香蕉| 99re99热| 奇米在线7777在线精品| 2一3sex性hd| 亚洲激情图片小说视频| 在线免费观看中文字幕| 亚洲精品中文字幕有码专区| 欧美日韩经典丝袜| 91香蕉亚洲精品| 精品视频亚洲| 丝袜老师办公室里做好紧好爽 | 国产高清一区视频| 日韩理论电影大全| 日韩 欧美 高清| 成人aa视频在线观看| 免费三级在线观看| 欧美特级限制片免费在线观看| 少妇一区二区三区四区| 欧美激情中文字幕在线| 欧洲美女精品免费观看视频 | av女优在线| 人妖精品videosex性欧美| 精品视频高潮| 亚洲精品蜜桃久久久久久| 国产一区二区毛片| 日韩欧美视频免费观看| 欧美制服丝袜第一页| 日本一二三区在线视频| 高清欧美性猛交| 国产亚洲精品美女久久| 男人添女荫道口喷水视频| 国产精品99久久久久久有的能看 | 97视频精品| 日本高清久久久| 国产精品区一区二区三区| 日本精品入口免费视频| 国产一区二区三区在线免费观看| 成人免费看黄| 日本一区高清在线视频| 日韩福利视频网| 欧美成人国产精品一区二区| 色综合天天做天天爱| 牛牛热在线视频| 国产精品av网站| 奇米影视亚洲| 九九九九九国产| 成人免费在线播放视频| 97精品人妻一区二区三区| 久久精品视频免费播放| 玖玖玖视频精品| 青青青在线观看视频| 丁香婷婷综合网| 亚洲第一在线播放| 亚洲美女免费精品视频在线观看| 色戒汤唯在线观看| 欧美日韩在线观看一区| 日本在线不卡视频| 午夜激情福利电影| 日韩一区二区免费在线观看| 色av手机在线| 精品视频一区二区三区四区| 久久亚洲一区| 免费精品在线视频| 精品久久久三级丝袜| 日韩大片免费观看| 午夜精品区一区二区三 | 亚洲av成人片无码| 日韩欧美国产视频| 日本在线视频网| 91久久精品www人人做人人爽| 日韩午夜精品| 国产毛片欧美毛片久久久| 欧美嫩在线观看| 精品一性一色一乱农村| 欧美精品一区三区在线观看| 蜜臀av亚洲一区中文字幕| 中文字幕在线观看成人| 日韩av在线天堂网| 国产亚洲精彩久久| 99热久久这里只有精品| 国产欧美日本一区视频| 精品人妻一区二区三区四区不卡| 97人人爽人人喊人人模波多| 成人国产精品一级毛片视频| 色哟哟在线观看视频| 欧美日韩亚洲激情| 欧美激情视频在线播放| 国产伦理一区二区三区| 麻豆精品国产传媒mv男同| 久久精品美女视频| 丝袜情趣国产精品| 韩国精品福利一区二区三区 | 国产亚洲精彩久久| 久久久久免费看黄a片app| 国产精品免费av| 日韩欧美在线番号| 成人免费在线看片|