精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次

發(fā)布于 2024-6-28 13:51
瀏覽
0收藏

大模型性能哪家強?GPT-4一家常霸榜。


基準測試全擅長,競技場上見真章。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過近日,谷歌的Gemini終于揚眉吐氣了一把,在全新的、更復(fù)雜的多模態(tài)考試中大獲全勝,全面超越了GPT-4o。


Jeff Dean表示:已閱,很贊。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)


首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

這就是來自中科大,廈大,港大,北大,港中文和華師大的研究者聯(lián)合奉獻的,世界上首個多模態(tài)LLM視頻分析綜合評估基準——Video-MME。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

論文地址:https://arxiv.org/pdf/2405.21075

項目地址:https://video-mme.github.io/


在前往AGI的道路上,多模態(tài)大語言模型(MLLM)顯然成為當(dāng)前的焦點。

不久前出世的GPT-4o,就在多模態(tài)的表現(xiàn)上技驚四座;同時,偏愛谷歌「雙子座」的網(wǎng)友也不在少數(shù)。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過之前的相關(guān)基準測試,主要關(guān)注LLM在靜態(tài)圖像理解方面的能力。


而對于現(xiàn)實世界來說,處理連續(xù)視覺數(shù)據(jù),也就是視頻的能力,是至關(guān)重要的。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME是有史以來第一個為視頻分析精心設(shè)計的,綜合多模態(tài)基準測試,幫助我們?nèi)嬖u估MLLM捕捉現(xiàn)實世界動態(tài)性質(zhì)的能力。


Video-MME涵蓋了廣泛的視覺域、時長和數(shù)據(jù)模式,包括900個視頻,總時長256小時,還人工注釋了2700個高質(zhì)量的問答對(多項選擇題,每個視頻3個)。


下圖是其中一個例子:


準確回答該問題需要同時從視頻幀、字幕or語音中同時獲取信息,并且信息直接的跨度達30分鐘

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

在時間維度上,Video-MME中收集了各種不同時長的視頻。


包括短視頻(< 2分鐘)、中視頻(4分鐘~15分鐘)和長視頻(30分鐘~60分鐘),總體時長從11秒到1小時不等。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

從視頻類型多樣性來看,Video-MME跨越了6個主要視覺領(lǐng)域:知識、影視、體育比賽、生活記錄和多語言,包含有30個子領(lǐng)域,以確保廣泛的場景泛化性。


在數(shù)據(jù)模式的廣度上,Video-MME整合了視頻幀以外的多模態(tài)輸入,包括字幕和音頻,以評估MLLM的全方位能力。


此外,Video-MME中所有數(shù)據(jù)都是由人類新收集和標注,而不是來自任何現(xiàn)有的視頻數(shù)據(jù)集,以確保數(shù)據(jù)的多樣性和質(zhì)量。


研究人員使用Video-MME,對各種最先進的MLLM進行了基準測試,包括GPT-4V、GPT4o和Gemini 1.5 Pro,以及開源圖像模型InternVL-Chat-V1.5和視頻模型LLaVA-NeXT-Video等。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

實驗表明,Gemini 1.5 Pro是目前性能最高的商用MLLM,平均準確率為75%,GPT系列的最好成績是GPT-4o的71.9%。


相比之心,開源MLLM仍有巨大差距,表現(xiàn)最好的VILA-1.5以及LLaVA-NeXT-Video的總體準確率分別只有59和52%,開源社區(qū)還有相當(dāng)大的提升空間。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

此外,通過將輸入擴展到多幀圖像,Video-MME也可用來評估基于圖像的MLLM,例如Qwen-VL-Max和InternVL-Chat-V1.5。


兩種模型的準確度均達到51%左右,接近視頻專用模型LLaVA-NeXT-Video,這表明圖像理解是視頻理解的基礎(chǔ),所以Video-MME在MLLM評估領(lǐng)域具有廣泛的適用性。


下面,換個視角,看看這些MLLM在不同任務(wù)類型下的表現(xiàn):

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

——Gemini 1.5 Pro 最終還是壓制住了 GPT-4o!


我們再把Gemini 1.5 Pro單獨拉出來開個小灶,詳細給出不同視頻時長和不同視頻類型下的評估結(jié)果:

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

通過對上表的進一步觀察,我們還可以發(fā)現(xiàn),整合字幕和音頻可以顯著增強LLM的視頻理解能力。


Gemini 1.5 Pro在加入字幕和音頻之后,準確度分別提高了6.2%和4.3%,長視頻則更為明顯。


對任務(wù)類型的細粒度分析表明,字幕和音頻對于需要大量領(lǐng)域知識的視頻特別有益。

當(dāng)然了,隨著視頻長度的增加,MLLM性能普遍下降,所以處理長視頻仍然是件困難的事情。


下面給出Gemini 1.5 Pro在不同視頻子類型上的評估結(jié)果,包括天文學(xué)、技術(shù)、紀錄片、新聞報道、電子競技、魔術(shù)表演和時尚等30個子類別。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME

數(shù)據(jù)集構(gòu)建

Video-MME的數(shù)據(jù)集構(gòu)建過程包括視頻采集、問答對標注、質(zhì)量審核三個步驟。

視頻采集

為了全面覆蓋不同的視頻類型,研究人員創(chuàng)建了一個域?qū)哟谓Y(jié)構(gòu),用于從網(wǎng)絡(luò)上收集原始視頻。


首先定義6個關(guān)鍵領(lǐng)域:知識、電影和電視、體育比賽、生活記錄和多語言。


每個領(lǐng)域進一步劃分為詳細的標簽,例如體育比賽包含足球和籃球,從而產(chǎn)生總共30個細粒度的視頻類。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

對于每個類型,收集不同持續(xù)時間的視頻:短視頻(少于2分鐘)、中視頻(4-15分鐘)和長視頻(30-60分鐘)。


此外,還會獲取相應(yīng)的元信息,例如字幕和音頻,用于進一步研究。最終的數(shù)據(jù)集由900個視頻組成,這些視頻跨越各個領(lǐng)域,持續(xù)時間長度相對平衡。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答標注

在收集原始視頻數(shù)據(jù)后,研究者對以問答對的形式對其進行注釋,以評估MLLM在解釋視頻內(nèi)容方面的熟練程度。


這里采用多項選擇題的QA格式,參與標注的作者都精通英語,在視覺語言學(xué)習(xí)方面具有豐富的研究經(jīng)驗。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

標注者通過反復(fù)觀看視頻來提出3個相關(guān)的問題,每個問題有4個潛在選項。這2700個QA對包含12種任務(wù)類型,比如感知、推理和信息概要。

質(zhì)量審核

為了保證數(shù)據(jù)集的質(zhì)量,作者還進行了嚴格的人工審查流程。


首先,指派不同的標注者來檢查每個QA對,確保語言表達正確且明確,以及問題可回答(候選選項和正確選項都是合理的)。


此外,為了確保問題足夠具有挑戰(zhàn)性,要求多模態(tài)模型看了視頻才能回答,研究人員向Gemini 1.5 Pro提供了純文本問題,并過濾掉可以僅根據(jù)文本問題回答的QA對。


最后,Gemini 1.5 Pro在僅使用文本提問的情況下,準確率低于 15%。

數(shù)據(jù)集統(tǒng)計

視頻和元信息

Video-MME總共包含900個視頻、713個字幕和869個音頻文件。


從任務(wù)類型的分布來看,較短的視頻主要涉及與感知相關(guān)的任務(wù),例如動作和物體識別。

相比之下,較長的視頻主要以與時間推理相關(guān)的任務(wù)為特色。從下表中可以看到,Video-MME的有效時長(Certificate Length準確回答問題所需的時間跨度)非常長,表明了其挑戰(zhàn)性。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答數(shù)據(jù)

關(guān)于問題和答案的語言多樣性,下表列出了數(shù)據(jù)集中文本字段的平均字數(shù)。


問題、選項和答案的字數(shù)在不同視頻長度上顯示出顯著的一致性,這表明Video-MME中的QA對風(fēng)格一致。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

另一方面,字幕的字數(shù)隨著視頻長度的增加而顯著增加,短視頻的平均字數(shù)為198.6,而長視頻子集的字數(shù)高達6.5K。這一趨勢表明,較長的視頻包含的信息更多。


此外,問題對應(yīng)的正確答案選項(A/B/C/D)的分布接近均勻(25.2%/27.2%/25.2%/22.3%),確保了無偏的評估。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/fVoIEp64VePfN_e7C9CfCw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
日韩精品免费电影| 亚洲妇女屁股眼交7| 成人在线视频网| 久久黄色免费视频| 一区二区三区韩国免费中文网站| 色一情一乱一乱一91av| 在线视频91| 日本激情视频网站| 蜜桃av噜噜一区| 久久免费观看视频| 网站永久看片免费| 欧洲亚洲视频| 69成人精品免费视频| 无码中文字幕色专区| 香蕉视频网站在线观看| 成人黄色在线看| 91精品久久久久久久久中文字幕| 日韩免费不卡视频| 久久精品影视| 亚洲天堂免费在线| 性色av蜜臀av浪潮av老女人 | 久久97精品久久久久久久不卡| 波多野结衣加勒比| 国产精品**亚洲精品| 色婷婷国产精品| 欧美中文字幕在线观看视频| 在线免费观看黄| 久久色成人在线| 国产伦精品一区二区三毛| 91久久久久国产一区二区| 亚洲综合不卡| 性色av一区二区三区免费| 青青青视频在线播放| 亚洲国产合集| 日韩成人在线视频观看| 欧美xxxx日本和非洲| 一区二区三区日本视频| 欧美性做爰猛烈叫床潮| 国产成人精品无码播放| 蜜桃视频www网站在线观看| 一区二区三区精品| 日本xxx免费| 美女黄视频在线观看| 国产性色一区二区| 欧美精品免费观看二区| 欧美一区二区在线观看视频| 国产精品一区三区| 91在线播放国产| 国产又黄又爽视频| 麻豆精品国产传媒mv男同| 国产91九色视频| 国产性猛交╳xxx乱大交| 欧美三级乱码| 精品中文字幕在线2019| 男人的天堂久久久| 亚洲人与黑人屁股眼交| 欧美日韩爱爱| 亚洲人成网站在线播| 精品夜夜澡人妻无码av| 欧美三级自拍| 日韩精品亚洲元码| 国产精品亚洲无码| 国产欧美日韩| 伊人伊人伊人久久| 激情高潮到大叫狂喷水| 911久久香蕉国产线看观看| 美日韩精品免费观看视频| 午夜精品一区二区三区视频| 一区二区三区四区日韩| 欧美成人免费全部观看天天性色| 欧美色图亚洲视频| 欧美日韩网站| 久久久久久久久久久av| 国产一级精品视频| 久久久水蜜桃av免费网站| 国产成人高潮免费观看精品| 亚洲视屏在线观看| 国模一区二区三区白浆| 99久热re在线精品视频| 日本韩国免费观看| 国产亚洲成av人在线观看导航| 日韩高清av电影| 91caoporn在线| 综合亚洲深深色噜噜狠狠网站| 超碰10000| 三级在线看中文字幕完整版| 欧美视频在线一区二区三区| 在线观看网站黄| 卡通动漫国产精品| 在线观看国产成人av片| 免费无遮挡无码永久在线观看视频| 亚洲国产高清一区| 国产精品露脸av在线| 亚洲天堂一二三| www.亚洲色图| 这里只有精品66| a天堂资源在线| 欧美日韩精品欧美日韩精品| 色哟哟在线观看视频| 妖精一区二区三区精品视频| 久久精品免费播放| 国产精品久久久免费视频| 卡一卡二国产精品| 精品一区二区国产| 视频三区在线观看| 亚洲精品免费在线播放| wwwxxx黄色片| 大陆精大陆国产国语精品| 视频一区视频二区国产精品| 国产成人免费观看视频| 狠狠狠色丁香婷婷综合激情| 麻豆成人在线播放| 超碰公开在线| 在线免费观看日韩欧美| 女女调教被c哭捆绑喷水百合| 欧美理论视频| 57pao国产成人免费| 国产黄色片av| 国产精品久久久久久久久动漫 | 黄色网页在线看| 91高清视频在线| 国产伦精品一区三区精东| 日韩欧美自拍| 欧美在线视频观看免费网站| 亚洲国产精品18久久久久久| 国产精品视频九色porn| 日本福利视频在线| av毛片精品| 欧美剧在线观看| 在线观看黄色网| 久久久久久影视| 欧美一级视频免费看| 日本久久伊人| 久久成人精品视频| 国产伦精品一区二区三区视频痴汉 | 婷婷激情5月天| 精品国产一级毛片| 欧美在线视频一区| 亚洲欧美一区二区三| 亚洲一级在线观看| 日本wwww色| 国产综合精品| 粉嫩精品一区二区三区在线观看| 免费观看在线午夜影视| 欧美日韩一卡二卡三卡| 少妇av片在线观看| 日韩电影在线观看一区| 日本一区高清不卡| 日韩视频网站在线观看| 一区二区三区回区在观看免费视频| 中文字幕精品三级久久久| 91在线国内视频| 成年人免费大片| 奇米影视亚洲| 成人午夜黄色影院| caoporm免费视频在线| 日韩一级片在线观看| 国产亚洲精品av| 9i在线看片成人免费| 精品99在线视频| 欧美天天综合| 亚洲aⅴ日韩av电影在线观看| av大大超碰在线| 精品剧情在线观看| 国产成人精品片| 国产偷国产偷亚洲高清人白洁| 噼里啪啦国语在线观看免费版高清版| 精品久久久久久久久久久下田| 国产精品久久国产精品99gif| 岛国大片在线观看| 欧美久久久久免费| 欧美日韩精品在线观看视频| 成人av在线观| 久久精品免费网站| 亚洲精品午夜av福利久久蜜桃| 成人动漫在线视频| 五月天av在线| 日韩在线观看免费网站| 亚洲AV无码乱码国产精品牛牛| 五月婷婷欧美视频| 欧美日韩国产黄色| 国产精品一区二区你懂的| 欧美日韩性生活片| 日韩在线观看| 国产精品免费视频一区二区| 黑人精品一区| 欧美成人h版在线观看| 手机亚洲第一页| 制服.丝袜.亚洲.另类.中文| 久草视频在线资源| 国产亚洲精品7777| 伊人av在线播放| 丝袜诱惑制服诱惑色一区在线观看 | 欧美在线视频你懂得| 久久久久亚洲AV成人| 久久久久久久久97黄色工厂| 天天色天天干天天色| 久久精品123| 久久综合久久网| 日韩精品一卡| 欧美激情专区| 亚洲精品a区| 国产欧美精品在线| 日韩av一卡| 欧美黑人性视频| 香蕉视频免费在线播放| 亚洲黄色成人网| 国产情侣在线播放| 在线日韩av片| 五月婷婷色丁香| 亚洲一卡二卡三卡四卡 | 精品久久av| 欧美精品一区二区三区一线天视频| 一级一级黄色片| 大荫蒂欧美视频另类xxxx| 欧美在线视频第一页| 国产女人水真多18毛片18精品视频 | 亚洲综合影院| 国产精品羞羞答答| 欧洲精品一区二区三区| 91爱视频在线| 波多野结衣在线高清| 久久综合免费视频影院| 99中文字幕一区| 亚洲无线码在线一区观看| 日本人妻丰满熟妇久久久久久| 91精品国产综合久久福利软件 | 亚洲精品一区二区久| 日本高清视频免费观看| 日韩欧美美女一区二区三区| 一区二区美女视频| 欧美日韩在线不卡| 免费观看日批视频| 色综合激情五月| 中文字幕精品三级久久久| 精品露脸国产偷人在视频| 久久久久久天堂| 亚洲五码中文字幕| 久久久久久久久久久久久久久久久 | 欧美aaaaaa| 国产精品美乳一区二区免费| 黑人巨大精品| 国产精品美乳在线观看| 久久xxx视频| 国产玖玖精品视频| 午夜不卡一区| 91欧美激情另类亚洲| 国产精品成人**免费视频| 亚洲999一在线观看www| 精品一区二区三区四区五区| 亚洲在线www| 亚洲精品a区| 国产一区二区三区奇米久涩 | 亚洲欧洲一区二区福利| 成人3d精品动漫精品一二三| 神马影院我不卡| 91欧美在线| 欧美日韩午夜爽爽| 亚洲第一毛片| 中文字幕乱码人妻综合二区三区 | 日韩免费观看视频| 高清成人在线| 91午夜在线播放| 成人看片黄a免费看视频| 国产伦理久久久| 亚洲欧洲美洲国产香蕉| 日韩视频在线播放| 国产精品精品| 久久久久99精品成人片| 性欧美长视频| 中文字幕22页| 成人免费视频网站在线观看| 一级国产黄色片| 欧美极品另类videosde| 爱爱视频免费在线观看| 午夜天堂影视香蕉久久| 亚洲精品国产精品国自产网站按摩| 欧美久久久久久久久中文字幕| 亚洲国产精品二区| 亚洲三级黄色在线观看| 精品黄色免费中文电影在线播放| 欧美日本高清视频| 丝袜诱惑一区二区| 国产精品视频免费在线观看| 综合成人在线| 欧美在线播放一区| 欧美福利专区| 国产a级片免费观看| 国产一区二区三区不卡在线观看| 一区二区免费在线观看视频| 中国色在线观看另类| 免费一级黄色大片| 欧美性大战久久久| 亚洲第一色网站| 一区二区三区动漫| av影院在线| 国产自产女人91一区在线观看| 欧美91在线| 视频一区二区视频| 久久久久国产一区二区| 中文字幕在线播放一区二区| 久久亚洲综合色| 亚洲天堂黄色片| 懂色aⅴ精品一区二区三区蜜月| 97在线播放免费观看| 日韩精品中文字幕在线| a级毛片免费观看在线| 日韩av免费在线| 国产精品白丝av嫩草影院| 视频在线99| 一区二区高清| 中文字幕无码毛片免费看| 日本一区二区三区久久久久久久久不 | 香蕉视频网站在线| 精品中文字幕乱| 亚洲人成网站在线在线观看| 欧美美乳视频网站在线观看| 影音先锋久久资源网| 一级 黄 色 片一| 欧美高清在线一区| 中文字幕一区二区人妻电影| 精品粉嫩aⅴ一区二区三区四区| 蜜桃视频网站在线观看| 国产精品99久久久久久人| 欧美三级电影在线| 九一国产精品视频| 成人白浆超碰人人人人| 精品99久久久久成人网站免费| 制服丝袜国产精品| 99免在线观看免费视频高清| 日本欧美在线视频| 日韩av系列| 国产一区二区网| 99精品久久只有精品| 日韩三级一区二区三区| 亚洲精品一区二区三区福利| 大桥未久在线播放| 成人欧美视频在线| 国产一区亚洲| 四虎永久免费观看| 亚洲一区二区三区四区在线免费观看 | 日韩女优毛片在线| 成人福利在线观看视频| 亚洲a成v人在线观看| 国产精品久久天天影视| 九九久久久久久| 伊人婷婷欧美激情| 精品国产免费无码久久久| 欧美另类在线播放| 2020最新国产精品| 免费一级特黄毛片| 99精品欧美一区二区三区小说| 国产午夜免费福利| 一区二区三区黄色| 亚洲精品tv| 国产又粗又大又爽的视频| 国产精品18久久久久| 精品一区二区三区四| 亚洲精品v天堂中文字幕| 制服丝袜专区在线| 色婷婷精品国产一区二区三区| 日本中文字幕一区二区视频| 在线视频这里只有精品| 日韩欧美中文字幕精品| 91高清视频在线观看| 免费观看国产成人| 免费视频最近日韩| 老女人性淫交视频| 亚洲高清色综合| 日韩精品影片| www亚洲国产| 国产91丝袜在线18| 亚洲精品男人的天堂| 影音先锋日韩有码| 久久9999免费视频| 国产一级爱c视频| 国产欧美日产一区| 国产精品怡红院| 5566成人精品视频免费| 999久久久91| 国产精品久久久久久久无码| 在线观看网站黄不卡| 手机在线免费看av| 欧洲精品亚洲精品| 国产伦精品一区二区三区在线观看| 欧美日韩中文视频| 尤物九九久久国产精品的特点 | 精品蜜桃一区二区三区| 免费看黄色91| 日本少妇在线观看| 在线观看欧美日韩| 高潮按摩久久久久久av免费| 五月婷婷深爱五月| 亚洲一区免费在线观看| www.在线播放| 精品在线视频一区二区| 国产一区在线观看麻豆| 加勒比在线一区| 欧美多人爱爱视频网站| 成人羞羞网站|