精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破短視頻局限!MMBench 團隊構建中長視頻開放問答評測基準,全面評估多模態(tài)大模型視頻理解能力

人工智能 新聞
MMBench-Video是一個針對視頻理解任務設計的全新長視頻、多鏡頭基準,涵蓋了廣泛的視頻內容和細粒度能力評估。

GPT-4o 四月發(fā)布會掀起了視頻理解的熱潮,而開源領軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準上狠狠秀了一把肌肉。

但當前的大部分評測基準仍然具有以下幾個缺陷:

  • 多注重于短視頻,視頻長度或視頻鏡頭數(shù)不足,難以考察到模型的長時序理解能力;
  • 對模型的考察局限在部分較為簡單的任務,更多細粒度的能力未被大部分基準所涉及到
  • 現(xiàn)有的基準仍可以僅憑單幀圖像以獲取較高的分數(shù),說明問題和畫面的時序性關聯(lián)不強
  • 對開放性問題的評估仍舊采用較舊的GPT-3.5,打分和人類偏好有較大的偏差且并不準確,容易高估模型性能。

針對這些問題,有沒有對應的基準能夠較好解決這些問題呢?

在最新的NeurIPS D&B 2024中由浙江大學聯(lián)合上海人工智能實驗室,上海交通大學和香港中文大學提出的MMBench-Video打造了一個全面的開放性視頻理解評測基準,并針對當前主流MLLM構建了開源的視頻理解能力評估榜單。

圖片

全能力鏈條覆蓋高質量數(shù)據(jù)集

圖片

MMBench-Video這一視頻理解評測基準采取全人工標注,歷經(jīng)一次標注和二次質量核驗,視頻種類豐富且質量高,問答涵蓋模型能力全面,準確回答問題需要橫跨時間維度對信息進行提取,更好的考察了模型的時序理解能力。

圖片

與其他數(shù)據(jù)集相比,MMBench-Video具有如下幾個突出特點:

視頻時長跨度較廣,鏡頭數(shù)多變:采集的視頻時長從30秒到6分鐘不等,避免了過短視頻語意信息簡單,過長視頻評測帶來的資源消耗大等問題。同時視頻涵蓋的鏡頭數(shù)整體呈長尾分布,一個視頻最多具有210個鏡頭,包含了豐富的場景與語境信息。

圖片

全方位能力大考,感知與推理的全面挑戰(zhàn):模型的視頻理解能力主要包含感知推理兩個部分,每個部分能力可以再額外進行細化。受MMBench啟發(fā)并結合視頻理解所涉及到的具體能力,研究者建立了一個包含26個細粒度能力的綜合能力譜系,每個細粒度能力都用數(shù)十到數(shù)百個問答對進行評估,且并不為現(xiàn)有任務的集合。

視頻種類豐富,問答語言多樣性強:覆蓋了人文、體育、科教、美食、金融等16個主要領域,每個領域視頻均占到5%以上。同時問答對相比傳統(tǒng)VideoQA數(shù)據(jù)集有了進一步的長度及語意豐富度提升,不局限于’what’’when’等簡單問題類型。

圖片

時序獨立性佳,標注質量高:在研究中發(fā)現(xiàn),大部分VideoQA數(shù)據(jù)集能夠僅通過視頻內的1幀獲得充足的信息,從而進行準確的回答。這可能是因為視頻內前后畫面變化較小,視頻鏡頭少,也可能是因為問答對質量較低。研究者將這一情況稱之為數(shù)據(jù)集的時序獨立性較差。與他們相比,MMBench-Video由于在標注時給出了詳細的規(guī)則限制,且問答對經(jīng)過二次核驗,具有顯著較低的時序獨立性,能夠更好的考察模型的時序理解能力。

圖片

主流多模態(tài)大模型成績單

為了更加全面評估多個模型的視頻理解性能,MMBench-Video選取了11個代表性的視頻語言模型,6個開源圖文多模態(tài)大模型及GPT-4o等5個閉源模型進行全面的實驗分析。

圖片

在所有模型當中,GPT-4o在視頻理解方面表現(xiàn)突出,同時Gemini-Pro-v1.5也展現(xiàn)出了出眾的模型性能。

令人訝異的是,現(xiàn)有的開源圖文多模態(tài)大模型在MMBench-Video上表現(xiàn)整體優(yōu)于經(jīng)過視頻-問答對微調的視頻語言模型,最優(yōu)的圖文模型VILA1.5在整體性能上超出最優(yōu)的視頻模型LLaVA-NeXT-Video近40%。

圖片

經(jīng)過進一步探究發(fā)現(xiàn),圖文模型之所以在視頻理解上表現(xiàn)更優(yōu),可能歸因于它們在處理靜態(tài)視覺信息時的精細化處理能力更強,而視頻語言模型在面向靜態(tài)圖像的感知及推理性能均有不足,進而面對更復雜的時序推理和動態(tài)場景時顯得力不從心。

這種差異揭示了現(xiàn)有視頻模型在空間和時間理解上的顯著不足,尤其是在處理長視頻內容時,其時序推理能力亟待提升。此外,圖文模型通過多幀輸入在推理上的性能提升表明,它們有潛力進一步拓展至視頻理解領域,而視頻模型則需要在更廣泛的任務上加強學習,以彌補這一差距。

視頻長度和鏡頭數(shù)量被認為是影響模型性能的關鍵因素

實驗結果表明,隨著視頻長度的增加,GPT-4o在多幀輸入下的表現(xiàn)有所下降,而開源模型如InternVL-Chat-v1.5和Video-LLaVA的表現(xiàn)相對穩(wěn)定。相比視頻長度,鏡頭數(shù)量對模型性能的影響更為顯著

當視頻鏡頭超過50個時,GPT-4o的性能下降至原始得分的75%。這表明,頻繁的鏡頭切換使得模型更難以理解視頻內容,導致其表現(xiàn)下降。

圖片

除此之外,MMBench-Video還借助接口獲取到了視頻的字幕信息,從而通過文字引入了音頻模態(tài)。

在引入后,模型在視頻理解上的表現(xiàn)得到了顯著提升,當音頻信號與視覺信號結合時,模型能夠更加準確地回答復雜問題。這一實驗結果表明,字幕信息的加入能極大豐富模型的上下文理解能力,尤其是在長視頻任務中,語音模態(tài)的信息密度為模型提供了更多線索,幫助其生成更精確的回答。然而,需要注意的是,雖然語音信息可以提升模型性能,但同時也可能增加生成幻覺內容的風險。

圖片

在裁判模型選擇方面,實驗顯示GPT-4具備更為公正和穩(wěn)定的評分能力,其抗操縱性強,評分不偏向于自己的回答,能夠更好地與人工評判對齊。

相比之下,GPT-3.5在評分時容易出現(xiàn)偏高的問題,導致最終結果的失真。與此同時,開源的大語言模型,如Qwen2-72B-Instruct,也展現(xiàn)了出色的評分潛力,其在與人工評判的對齊度上表現(xiàn)突出,證明其有望成為一種高效的評估模型工具。

使用VLMEvalKit一鍵評測

MMBench-Video目前支持在VLMEvalKit中一鍵評測。

VLMEvalKit是一個專為大型視覺語言模型評測設計的開源工具包。它支持在各種基準測試上對大型視覺語言模型進行一鍵評估,無需進行繁重的數(shù)據(jù)準備工作,使評估過程更加簡便。VLMEvalKit適用于圖文多模態(tài)模型及視頻多模態(tài)模型的評測,支持單對圖文輸入、圖文交錯輸入及視頻-文本輸入。它實現(xiàn)70多個基準測試,覆蓋了多種任務,包括但不限于圖像描述、視覺問答、圖像字幕生成等。所支持的模型及評測基準正在不斷更新中。

同時基于現(xiàn)有視頻多模態(tài)模型的評測結果較為分散,難以復現(xiàn)等現(xiàn)實,團隊還建立了OpenVLM Video Leaderboard這一針對模型的綜合視頻理解能力評測榜單。OpenCompass VLMEvalKit團隊將持續(xù)更新最新多模態(tài)大模型及評測benchmark,打造主流,開放,便捷的多模態(tài)開源評測體系。

圖片

最后總結一下,MMBench-Video是一個針對視頻理解任務設計的全新長視頻、多鏡頭基準,涵蓋了廣泛的視頻內容和細粒度能力評估。

基準測試包含從YouTube收集的600多個長視頻,涵蓋新聞、體育等16個主要類別,旨在評估MLLMs的時空推理能力。與傳統(tǒng)的視頻問答基準不同,MMBench-Video通過引入長視頻和高質量的人工標注問答對,彌補了現(xiàn)有基準在時序理解和復雜任務處理方面的不足。

通過GPT-4評估模型的答案,該基準展現(xiàn)了更高的評估精度和一致性,為視頻理解領域的模型改進提供了有力的工具。

MMBench-Video 的推出為研究人員和開發(fā)者提供了一個強大的評估工具,幫助開源社區(qū)深入理解和優(yōu)化視頻語言模型的能力。

論文鏈接:https://arxiv.org/abs/2406.14515
Github鏈接:https://github.com/open-compass/VLMEvalKit
HomePage:https://mmbench-video.github.io/
MMBench-Video LeaderBoard:https://huggingface.co/spaces/opencompass/openvlm_video_leaderboard

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-17 18:06:17

2025-06-03 08:22:00

模型評估視頻

2025-09-30 08:54:00

2024-11-11 08:30:00

2024-08-05 08:46:00

模型測評

2024-12-20 12:30:00

模型AI數(shù)據(jù)

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-05-20 13:02:23

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡

2025-05-15 09:10:00

2025-05-21 08:47:00

2025-04-03 09:51:20

2025-04-07 07:55:00

視頻訓練生成

2025-11-05 08:51:33

2025-02-27 10:08:19

2025-01-02 11:01:45

2025-11-17 08:49:00

2017-06-27 11:42:53

互聯(lián)網(wǎng)
點贊
收藏

51CTO技術棧公眾號

正在播放亚洲一区| 国产精品女上位| 清纯唯美亚洲综合| 国产精品视频在| 国产精品1区| 欧美视频在线观看 亚洲欧| 无码免费一区二区三区免费播放| 精品国产av 无码一区二区三区 | 亚洲美女在线观看| 91亚洲免费视频| 国产丝袜在线播放| 国产精品午夜久久| 国产综合第一页| 99久久久无码国产精品免费| 久久一区中文字幕| 欧美黄色性视频| 午夜国产福利视频| 国产不卡一区| 亚洲第一网站免费视频| 在线观看免费不卡av| 在线观看特色大片免费视频| 亚洲男人的天堂av| 午夜视频久久久| 日本一区高清| 成人免费毛片高清视频| 成人有码视频在线播放| 久久人人爽人人爽人人片av免费| 亚洲国产第一| 欧美超级乱淫片喷水| 美国黄色特级片| 亚洲精品国产setv| 日韩禁在线播放| 午夜福利三级理论电影| 精品亚洲二区| 67194成人在线观看| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| av影片在线| 亚洲国产综合人成综合网站| 成人国产一区二区三区| 中文在线观看免费| 亚洲特级片在线| 亚洲欧美国产精品桃花| 国产三级在线看| 久久久久久久精| 免费在线观看一区二区| 色网站在线免费观看| av中文字幕一区| 国产精品日韩欧美一区二区| 亚洲经典一区二区| 高清国产一区二区| 国产精品久久九九| 欧美 日韩 国产 成人 在线| 国产黄色91视频| 99r国产精品视频| av手机免费看| 成人精品视频.| 国产日韩欧美综合精品| 天天射,天天干| 99热国产精品| 欧美日韩天天操| 91吃瓜网在线观看| 日韩美女精品在线| 91免费版看片| av资源网在线播放| 日韩欧美国产中文字幕| 又色又爽又高潮免费视频国产| 成人免费网站www网站高清| 91福利社在线观看| 加勒比av中文字幕| 日韩精品中文字幕吗一区二区| 精品国产91乱码一区二区三区| 中国免费黄色片| 久久av资源| 最近2019中文字幕第三页视频| 久久国产精品国语对白| 韩日视频一区| 日本一区二区不卡| 一级黄色大片免费| 国产成人综合亚洲网站| 九九九九九精品| 在线激情网站| 亚洲影视在线观看| 久久精品网站视频| 精品一区二区三区亚洲| 日韩av最新在线| 萌白酱视频在线| 国产综合网站| 国产精品第一页在线| 国产精品久久久久久免费播放| 成人爽a毛片一区二区免费| 日本精品视频一区| 日韩特级毛片| 欧美亚洲国产bt| 中国男女全黄大片| 精品国产乱码久久久久久1区2匹| 欧美成人精品一区二区| 日本a级c片免费看三区| 国产精品91一区二区| 三区精品视频| 国产高清自产拍av在线| 欧美日韩国产经典色站一区二区三区 | 日韩精品一区二区三区在线视频| 日韩视频三区| 成人免费观看网址| 激情福利在线| 亚洲午夜精品17c| 日本肉体xxxx裸体xxx免费| 国产精品视屏| 精品国内自产拍在线观看| 国产真人真事毛片| 九色|91porny| 日韩欧美在线观看强乱免费| 黄频免费在线观看| 日韩三级高清在线| 国产wwwwxxxx| 日韩高清不卡一区二区三区| 韩国成人一区| 麻豆福利在线观看| 91精品欧美福利在线观看| 国产人妻大战黑人20p| 99香蕉国产精品偷在线观看| 91一区二区三区| 免费观看久久久久| 欧美私模裸体表演在线观看| 中文精品在线观看| 9国产精品视频| 国产精品久久久久久久天堂第1集| 毛片免费不卡| 欧美少妇xxx| 91成年人网站| 翔田千里一区二区| 久久亚洲免费| 英国三级经典在线观看| 日韩高清有码在线| 日韩 欧美 综合| 成人污污视频在线观看| 男人添女荫道口女人有什么感觉| 午夜精品久久久久久毛片| 亚洲丝袜一区在线| 在线免费观看av网址| 久久伊99综合婷婷久久伊| 久久综合九色综合88i| 国产另类在线| 26uuu亚洲伊人春色| 亚洲av片在线观看| 欧美日韩激情小视频| 久久午夜夜伦鲁鲁片| 午夜在线观看免费一区| 欧美精品v日韩精品v国产精品| 川上优av中文字幕一区二区| 亚洲精品国产精品乱码不99按摩 | 媚黑女一区二区| 日本日本精品二区免费| 日韩一区二区三区免费| 中文字幕亚洲第一| 国产伦一区二区| 一区二区在线电影| 亚洲啪av永久无码精品放毛片 | 国产精品麻豆视频| 亚洲涩涩在线观看| 欧美日韩国产亚洲一区| 国内精品久久国产| 美女福利一区二区三区| 影音先锋日韩有码| 国产女人爽到高潮a毛片| 亚洲激情在线激情| 亚洲制服丝袜在线播放| 日日骚欧美日韩| 亚洲资源视频| 我要色综合中文字幕| 91精品国产99久久久久久| 九色在线观看视频| 欧美男女性生活在线直播观看| 日本妇女毛茸茸| 91尤物视频在线观看| 午夜宅男在线视频| 国内精品美女在线观看| 茄子视频成人在线观看| 成人日韩视频| 欧美在线国产精品| 秋霞成人影院| 亚洲电影天堂av| 伊人网av在线| 精品久久久久久电影| 国产3级在线观看| 成人精品小蝌蚪| www亚洲成人| 精品成人一区| 亚洲视频sss| 国产精品高潮呻吟久久久久 | 欧美久久亚洲| 国产精品 欧美在线| 宅男网站在线免费观看| 亚洲欧美在线免费观看| 国产女人高潮时对白| 日韩人体视频一二区| 美女福利视频在线观看| 久久精品综合网| 日本精品一二三| 日韩和欧美一区二区三区| 青青草视频国产| 日韩在线欧美| 久久久综合亚洲91久久98| 国产精品视频首页| 国产精品精品久久久久久| 大香伊人久久| 在线精品国产| 日韩免费观看视频| 久草在线视频福利| 久久精品中文字幕电影| 日韩专区一区二区| 精品国产三级a在线观看| 在线观看国产成人| 色老汉av一区二区三区| 日韩经典在线观看| 一区二区三区小说| 亚洲综合第一区| 国产亚洲美州欧州综合国| 中文字幕一区二区人妻电影丶| 国产美女精品一区二区三区| 妓院一钑片免看黄大片| 亚洲专区一区| 欧美成人精品免费| 欧美特黄一区| 日本高清xxxx| 99精品电影| 亚洲人成网站在线观看播放| 美女毛片一区二区三区四区| 精品国产综合| 欧美美女在线直播| 国产伦精品一区二区三区视频黑人| 精品亚洲a∨一区二区三区18| 成人国产精品av| 亚洲精品字幕在线| 国内成人精品2018免费看| 日韩中文字幕三区| 国产欧美精品| 大肉大捧一进一出好爽视频| 亚洲欧洲另类| 亚洲不卡中文字幕无码| 亚洲精一区二区三区| 亚洲熟妇av日韩熟妇在线| 亚洲小说欧美另类婷婷| 无码人妻少妇伦在线电影| 亚洲国产网站| 中文字幕无码精品亚洲35| 亚洲一区区二区| 18禁男女爽爽爽午夜网站免费| 久久av一区| 国产一级特黄a大片免费| 日韩高清国产一区在线| 黄色永久免费网站| 开心九九激情九九欧美日韩精美视频电影| 超碰av在线免费观看| 麻豆成人在线观看| 五月天婷婷在线观看视频| 国产成人综合视频| 少妇户外露出[11p]| 久久久久9999亚洲精品| 日韩女同一区二区三区| 日韩美女视频一区| 国产真实的和子乱拍在线观看| 五月激情六月综合| 国产字幕在线观看| 7777精品伊人久久久大香线蕉超级流畅 | 日本一区二区在线视频观看| 女女色综合影院| 最近中文字幕一区二区三区| 一区二区黄色片| 国产精品久久久久久久久免费相片| 午夜精品一区二区三级视频| 一卡二卡三卡日韩欧美| 你懂的国产视频| 91官网在线观看| 国产91视频在线| 精品视频www| 欧美一区二区三区在线观看免费| 欧美夫妻性视频| 在线观看的黄色| 成人免费看黄网站| 国产精品极品国产中出| 日韩资源av在线| 欧美精品1区| www.亚洲天堂网| 国产一本一道久久香蕉| 亚洲专区区免费| 一区二区三区四区av| 日批视频免费在线观看| 日韩亚洲欧美在线| 久久精品蜜桃| 欧美精品在线第一页| 美女福利一区二区| 99久久99久久精品国产片| 亚洲欧美成人vr| 8x8ⅹ国产精品一区二区二区| 久久久亚洲人| 国产精品久久77777| 牛牛精品一区二区| 国产综合视频在线观看| 久久91精品| 福利视频免费在线观看| 美女在线一区二区| 精品中文字幕在线播放| 亚洲欧美日韩国产综合在线 | 黄页网站大全在线免费观看| 国产精品久久久| 欧美一级二级三级视频| 亚洲五码在线观看视频| 免费xxxx性欧美18vr| 97人妻天天摸天天爽天天| 亚洲欧美激情小说另类| 亚洲 小说区 图片区| 精品一区电影国产| 黄色影院在线看| 91九色国产在线| 日韩激情免费| 草草草在线视频| 91片黄在线观看| 天海翼一区二区| 日韩免费性生活视频播放| 国产区在线观看| 国产精品亚洲片夜色在线| 欧美猛男做受videos| av之家在线观看| 大桥未久av一区二区三区中文| 国产老熟妇精品观看| 亚洲精品18| 看欧美日韩国产| 日韩天天综合| 国产精品成人99一区无码| 一区二区三区91| www.色亚洲| 欧美日韩高清区| 一区二区三区免费在线看| 国产又粗又硬又长| 国内成+人亚洲+欧美+综合在线| 亚洲色图27p| 欧美喷水一区二区| 午夜毛片在线| 国产日韩在线免费| 手机在线一区二区三区| 成年人三级黄色片| 亚洲天天做日日做天天谢日日欢| 888奇米影视| 久久综合伊人77777尤物| 日本一区二区三区视频在线看| 中文字幕色呦呦| 懂色av中文字幕一区二区三区| 精品在线视频观看| 亚洲精品一区在线观看| 大桥未久在线视频| 欧美日韩免费观看一区| 日韩精品一级二级| 女教师淫辱の教室蜜臀av软件| 欧美日韩成人一区| 国产激情小视频在线| 99理论电影网| 99人久久精品视频最新地址| 短视频在线观看| 欧美在线观看视频在线| 五月香视频在线观看| 亚洲一区二区三区香蕉| 伊人天天综合| 人妻视频一区二区| 91麻豆精品国产91久久久| 日本在线观看高清完整版| 久久综合一区| 美女视频黄频大全不卡视频在线播放 | 国产精品97在线| 中文字幕av一区二区三区| 精品人妻少妇嫩草av无码专区| 97成人超碰免| 日韩精品1区| 久久久久久久穴| 一本大道久久a久久精二百| 日韩毛片久久久| 国产伦视频一区二区三区| 日韩二区在线观看| 在线免费观看亚洲视频| 精品无人区太爽高潮在线播放| 精品亚洲美女网站| 波多野结衣与黑人| 国产亚洲综合性久久久影院| www.亚洲天堂.com| 国产精品99久久99久久久二8| 中文字幕av亚洲精品一部二部| 亚洲欧美在线不卡| 欧美另类久久久品| 国产精品vvv| 黄色免费高清视频| 久久先锋影音av| 亚洲国产精品18久久久久久| 国产精品爱啪在线线免费观看| 欧美激情成人在线| 久操视频在线观看免费| 精品欧美一区二区在线观看| 免费一级a毛片夜夜看| 午夜精品久久久久久久久久| 婷婷成人激情| 免费精品视频一区|