精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架

發布于 2024-6-21 09:27
瀏覽
0收藏

測試Gemini1.5 Pro、GPT-4o等多模態大模型的新基準來了,針對視頻理解能力的那種。

直接在視頻內容中插入多個無關的圖像或文本“針”,嚴格評估模型對時間理解的能力。


來看下面的栗子。


比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

這就是來自中科院、人大、百川的研究團隊聯合提出的利用合成視頻構建視頻理解測試基準的方法。


該方法名為VideoNIAH,可以解耦視頻內容與其對應的查詢-響應對,通過插入無關的圖像或文本“針”來生成測試數據,既保證了視頻來源的多樣性和查詢響應的多樣性,還通過插入多個針來嚴格評估模型對時間理解的能力。


此外,使用與現實視頻內容相對應的查詢-響應對可能存在數據泄露風險,影響基準測試的公平性,使用合成視頻生成方法可以有效避免這一問題。


研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準VNBench,包含1350個樣本。

隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進行了測試,并分析了一系列結果。


研究團隊發現,即使是GPT-4o等最先進的專有模型,在需要檢測和追蹤視頻中特定空間區域內的“針”等計數任務上的表現也不理想;在排序任務上,專有模型與開源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

VNBench更多細節以及更多實驗結果我們接著往下看。

用VideoNIAH構建新基準

隨著視頻中心的MLLMs模型的提出,需要有更全面的基準測試來評估這些模型在視頻理解方面的能力,包括細粒度理解時空建模以及長上下文處理等。


傳統的視頻基準測試通常需要基于目標能力精心選擇視頻,并進行繁瑣的查詢-響應對標注,以匹配特定視頻內容。這個過程不僅挑戰重重,而且資源消耗巨大。

為了開發和評估視頻理解模型,需要一個既能夠擴展到不同視頻源和長度,又能夠高效運行的基準測試框架。


研究團隊提出了VideoNIAH。


如前文所述,VideoNIAH(Video Needle In A Haystack)創新性地將測試視頻內容與其查詢-響應對解耦,通過在原始視頻中插入無關的圖像/文本“針”(needles),并僅從這些針生成注釋。


這種方法不僅確保了視頻來源的多樣性和查詢響應的多樣性,還通過插入多個針來嚴格評估模型對時間理解的能力。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

利用VideoNIAH,研究者們構建了一個全面的視頻基準測試VNBench,包括檢索、排序和計數等任務。VNBench能夠有效評估視頻模型的細粒度理解能力和時空建模能力,同時支持長上下文評估。


VNBench的特點主要表現在以下三個方面:

“針”類型(Needle Type)的多樣性

  • 編輯內幀(Edit):使用人為添加的字幕作為”針”,這些字幕被嵌入到視頻幀中,模擬了在視頻中尋找特定文本信息的場景。
  • 插入幀間(Insert):使用圖像作為”針”,這些圖像作為靜態片段插入到視頻幀之間,考察模型對視頻中靜態圖像的識別和記憶能力。
  • 級別劃分:根據圖像的可識別性分為兩個級別,第一級使用常見物體(如水果圖像),第二級使用更具挑戰性的地標圖像/物體圖像,增加了任務的難度。

?

視頻”干草堆”(Video Haystack)的多樣性

  • 時間分布:VNBench使用的視頻”干草堆”來自不同的數據源,視頻時長從10秒到180秒不等,覆蓋了短、中、長三種不同的視頻長度,以評估模型對不同視頻長度的適應能力。
  • 內容覆蓋:視頻內容包含多種場景,確保了評估的廣泛性和視頻源的多樣性。

?

查詢(Query)的多樣性

  • 檢索任務:要求模型從視頻中檢索出特定的”針”,考察模型的細粒度理解和信息提取能力。
  • 排序任務:要求模型識別并排序視頻中所有插入”針”的時間順序,考察模型對視頻時間動態和事件序列的理解能力。
  • 計數任務:要求模型計算視頻中特定對象的出現次數,包括對單個幀內和跨幀的重復模式的識別和追蹤,考察模型在時空維度上的理解能力。
  • 任務分類:VNBench的三個任務類型分別對應不同的視頻理解能力評估,檢索任務評估信息檢索能力,排序任務評估時間推理能力,計數任務評估對視頻內容的長期記憶和模式識別能力。


通過這些設計,VNBench能夠全面地評估視頻理解模型在多樣化的視頻內容和查詢條件下的性能,為視頻理解技術的研究提供了一個有力的基準測試工具。

實驗及分析結果

在論文中,通過VNBench對視頻理解多模態大語言模型(MLLMs)進行了一系列評估,分析結果揭示了以下幾個關鍵點:

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

首先是專有模型與開源模型的性能差異


專有模型(如Gemini 1.5 Pro和GPT-4系列)在大多數VNBench任務上的表現優于開源模型。這表明專有模型可能擁有更優越的視頻理解能力,這可能歸功于更大的模型參數和更全面的訓練過程。


其次是任務難度與模型表現


模型在單針短依賴任務(檢索任務)上的表現普遍優于多針長依賴任務(排序和計數任務)。這表明當前的視頻模型在處理需要長期依賴信息的任務時仍然面臨挑戰。


排序任務的性能差距方面,在排序任務上,專有模型與開源模型之間的性能差距尤為顯著。大多數開源模型在排序任務上幾乎無法完成任務,這可能是由于它們在訓練過程中忽視了時間序列建模的能力。


然后是計數任務的困難。即使是最先進的專有模型,在計數任務上的表現也不理想。特別是在需要檢測和追蹤視頻中特定空間區域內的“針”時(Counting-E-2任務),所有模型的表現都很差,這表明當前的視頻模型在理解和建模視頻中的細粒度時空關系方面仍有不足。


此外,視頻上下文長度的影響方面,隨著視頻處理時長的增加,開源模型的性能顯著下降,而專有模型由于具有更長的上下文處理窗口,性能波動不大。這表明當前模型在處理長視頻內容時的能力有限。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

“針”位置的影響方面,通過改變“針”在視頻中的位置,研究發現專有模型由于其較長的上下文窗口,能夠準確回憶所有插入的信息,而開源模型則表現出在長序列中對中間信息的回憶不足。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

這些分析結果不僅揭示了當前視頻理解模型的優勢和局限性,而且為未來的研究提供了寶貴的見解,有助于指導視頻理解技術的發展和改進。


論文鏈接:https://arxiv.org/abs/2406.09367
項目鏈接:https://videoniah.github.io/


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/HZZQ8Rp4xPmJGzhB238hOw??

收藏
回復
舉報
回復
相關推薦
国产精品第一视频| 欧美精品一区二区三区久久久| 日韩亚洲欧美精品| 中文字幕制服诱惑| 99久久亚洲精品| 56国语精品自产拍在线观看| 欧美在线观看视频免费| 婷婷在线免费观看| 天堂影院一区二区| 日韩在线不卡视频| 中文字幕99页| 在线看片国产福利你懂的| 国产·精品毛片| 欧美亚洲第一区| 色婷婷粉嫩av| 国内精品偷拍| 欧美日韩一区二区在线观看视频| 黑人巨大国产9丨视频| 成人毛片在线精品国产| 国产精品日韩| 精品国产美女在线| 中文字幕一区二区三区乱码不卡| 欧美裸体视频| 中文字幕一区二区三区四区| 国产精品一级久久久| 中文字幕乱伦视频| 欧美视频四区| 中文字幕不卡av| 99久久久无码国产精品性波多 | 理论片一区二区在线| 91国偷自产一区二区使用方法| av电影一区二区三区| 四虎影视精品成人| 国产一区二区三区高清播放| 91精品国产高清自在线| 在线观看免费小视频| 一区二区三区欧洲区| 在线视频一区二区三区| 欧美日韩在线一| 精品美女在线观看视频在线观看| 成人国产精品免费观看动漫 | 欧美6一10sex性hd| 国产欧美日韩另类视频免费观看| 豆国产97在线| 国产精品无码白浆高潮| 久久亚洲综合| 精品少妇v888av| 中文字幕求饶的少妇| 五月激激激综合网色播| 亚洲大胆美女视频| 色悠悠在线视频| 91精品尤物| 欧美成人性战久久| 日本女人性视频| 欧美视频三区| 精品欧美一区二区三区精品久久| 午夜影院免费版| 免费观看性欧美大片无片| 91麻豆精品国产91久久久使用方法| av免费网站观看| 69堂精品视频在线播放| 欧美视频完全免费看| www.色偷偷.com| 黑人一区二区三区| 欧美久久久久久久久久| 在线一区二区不卡| 欧美成人一级| 精品久久一区二区| 亚洲国产精品自拍视频| 欧亚精品一区| 国产亚洲欧美日韩一区二区| 我不卡一区二区| 久久香蕉国产| 欧美伦理91i| 欧美性在线观看| 国产成人精品视频免费| 欧美岛国激情| 欧美激情精品久久久久| 久草国产精品视频| 三级欧美在线一区| 91精品国产综合久久久久久久久| 国产喷水福利在线视频| 丰满放荡岳乱妇91ww| 国产一区二区三区奇米久涩| 日本大片在线观看| 国产精品色在线观看| 免费看污污视频| 国产自产自拍视频在线观看| 色婷婷亚洲精品| 亚洲天堂网站在线| 欧美人体视频| 色七七影院综合| 国产在线拍揄自揄拍| 蜜桃视频一区| 亚洲一区中文字幕在线观看| 天天摸夜夜添狠狠添婷婷| 国产调教视频一区| 欧美黄网在线观看| 成人免费短视频| 69堂成人精品免费视频| 国产免费a级片| 欧美日韩国产在线观看网站| 欧美成人中文字幕| 天堂а√在线中文在线新版| 久草中文综合在线| 裸模一区二区三区免费| 国产原创视频在线观看| 欧美日韩中文字幕| 日韩av加勒比| 免费成人网www| 久久99热精品这里久久精品| 无码人妻精品一区二区50| 国产一区在线不卡| 日本在线高清视频一区| av老司机免费在线| 欧美日本一区二区三区四区| 免费在线观看成年人视频| 91tv精品福利国产在线观看| 日本精品久久久| www.av在线.com| 国产精品国产三级国产有无不卡| 337p粉嫩大胆噜噜噜鲁| 国产欧美视频在线| 中文字幕国产亚洲| 在线能看的av| 成人久久视频在线观看| 最新视频 - x88av| 国产精品伊人| 一区二区三区国产视频| 久热这里只有精品6| 国产福利一区二区三区视频在线| 亚洲成人第一| 天天免费亚洲黑人免费| 日韩成人激情视频| 精品视频久久久久| 国产成人综合网| 国产手机视频在线观看| 开心久久婷婷综合中文字幕| 国产亚洲欧美aaaa| 自拍偷拍校园春色| 91色在线porny| 精品久久一二三| 国内精品麻豆美女在线播放视频| 欧美日韩国产成人在线| 国产人妖一区二区三区| 综合久久综合久久| 色姑娘综合天天| 欧美 日韩 国产一区二区在线视频| 国产精品色午夜在线观看| 成人av一区| 欧美网站大全在线观看| 日韩毛片无码永久免费看| 视频一区在线播放| 欧美日韩视频在线一区二区观看视频 | 免费不卡在线观看| 视频一区二区三区免费观看| 日韩av首页| 国产亚洲精品成人av久久ww| 无码人妻精品一区二区三区蜜桃91 | 国产精品中文字幕在线| av网站在线播放| 欧美裸体一区二区三区| 男女性高潮免费网站| 国产福利一区在线| 久在线观看视频| 猛男gaygay欧美视频| 国产成人精品免高潮在线观看| 国产高清在线看| 911精品国产一区二区在线| 99精品久久久久| 成人国产精品免费| 日韩精品一区二区三区久久| 国产一区二区三区日韩精品| 国产精品视频在线播放| 成人在线播放免费观看| 精品国产麻豆免费人成网站| 国产一级精品视频| 国产精品婷婷午夜在线观看| 在线观看日本www| 在线免费高清一区二区三区| 欧美精品七区| 99久久99九九99九九九| 久久久久久这里只有精品| 五月婷婷激情在线| 欧美日韩国产免费一区二区 | 丰满人妻一区二区三区免费视频棣| 夜久久久久久| 伊人久久大香线蕉av一区| 试看120秒一区二区三区| 91av在线免费观看| 日本黄色片在线观看| 欧美电影免费提供在线观看| 国产无人区码熟妇毛片多| 国产精品黄色在线观看| 稀缺呦国内精品呦| 热久久国产精品| 亚洲国产成人精品无码区99| 北条麻妃国产九九九精品小说| 97在线中文字幕| 日韩高清在线| 欧美精品福利视频| 伊人免费在线| 日韩www在线| 国产999久久久| 色狠狠av一区二区三区| 欧美丰满艳妇bbwbbw| 国产亚洲一区字幕| 大桥未久恸哭の女教师| 美国毛片一区二区| 日韩欧美一区二| 亚洲成av人片乱码色午夜| 麻豆视频成人| 成人18夜夜网深夜福利网| 国产欧美亚洲精品| 91精品论坛| 久久久噜噜噜久久中文字免| 日本在线免费| 一区二区三区回区在观看免费视频| 亚洲美女福利视频| 91精品国产综合久久精品麻豆| 9i精品福利一区二区三区| 一区二区三区日韩欧美| 污污视频网站在线免费观看| 久久综合色之久久综合| 精品1卡二卡三卡四卡老狼| 国产一区二区三区黄视频 | 日本免费成人网| 日韩欧美大片| 天堂√在线观看一区二区| 日本成人7777| 久久综合九色综合网站| 北条麻妃一区二区三区在线| 亚洲精品日韩av| 国产精品欧美一区二区三区不卡| 国产精品自拍视频| 8av国产精品爽爽ⅴa在线观看 | 自拍偷拍亚洲色图欧美| 国产欧美日韩精品高清二区综合区| 久中文字幕一区| 丝袜连裤袜欧美激情日韩| 超碰97在线资源| 亚洲精品国产九九九| 91久久国产婷婷一区二区| 四虎在线精品| 成人免费xxxxx在线观看| 亚洲a成人v| 91日韩在线视频| 年轻的保姆91精品| 亚洲最大av在线| 亚洲无线观看| 国产无套精品一区二区| 久久悠悠精品综合网| 国产在线一区二| 亚洲色图美女| 视频一区三区| 欧美激情理论| 国产在线视频综合| 一区在线观看| 欧在线一二三四区| 日本不卡一区二区三区| 婷婷中文字幕在线观看| 国产精品2024| 菠萝菠萝蜜网站| 国产喂奶挤奶一区二区三区| 麻豆一区在线观看| 一区二区三区欧美视频| 日韩欧美大片在线观看| 欧美性色视频在线| 亚洲香蕉在线视频| 欧美一区二区大片| 神马午夜一区二区| 亚洲最新av在线网站| 黄色网在线看| 久久久久久午夜| 日本成人福利| 91在线看网站| 欧美美女在线观看| 少妇熟女一区二区| 亚洲国产裸拍裸体视频在线观看乱了中文| 熟女少妇在线视频播放| 美女高潮久久久| 亚洲少妇一区二区三区| 国产亚洲欧洲997久久综合| 日本一级片免费| 懂色av影视一区二区三区| 羞羞色院91蜜桃| 精品国免费一区二区三区| 你懂的在线免费观看| 久久精品精品电影网| 三级在线观看视频| 成人性生交大片免费看小说 | 先锋欧美三级| 91久久大香伊蕉在人线| 偷拍亚洲色图| 91网站在线观看免费| 三级影片在线观看欧美日韩一区二区 | 台湾成人av| 1024日韩| 欧洲美女亚洲激情| 久久久美女毛片| 久久亚洲av午夜福利精品一区| 欧美性大战久久久久久久蜜臀| 亚洲国产视频一区二区三区| 国产一区二区三区视频| av在线不卡免费| 91热福利电影| 精品久久网站| 91视频最新入口| 国产成人免费av在线| 99久久99久久精品免费看小说.| 亚洲午夜免费视频| 国产精品久久久久久无人区| 日韩毛片在线看| 女同一区二区免费aⅴ| 国产精品一区久久久| 偷拍亚洲精品| 黄页免费在线观看视频| 国产精品一区二区不卡| 国产黄色片在线| 色偷偷久久一区二区三区| 好男人www在线视频| 最新亚洲国产精品| 成人欧美大片| 久久久久久久免费| 亚洲午夜极品| 亚洲乱妇老熟女爽到高潮的片| 中文字幕一区二区5566日韩| 日韩黄色片网站| 亚洲美女免费精品视频在线观看| 97超碰资源站在线观看| 成人福利网站在线观看| 色天天久久综合婷婷女18| av观看免费在线| 26uuu欧美日本| 日本特级黄色片| 日韩激情视频在线| 在线观看欧美日韩电影| 久久精品国产精品青草色艺| 精品91久久久久| 国产日韩视频一区| 亚洲成人免费av| 日韩一区免费视频| 久久免费视频在线| 理论片一区二区在线| 成年人午夜视频在线观看| 成人av综合在线| 91浏览器在线观看| 日韩精品极品毛片系列视频| 色在线中文字幕| 久久精品日产第一区二区三区 | 日韩在线不卡一区| 国产精品国产自产拍高清av| 国产精品国产一区二区三区四区| www.久久色.com| 日韩欧美中文在线观看| 国产精品久久久久久久乖乖| 成人高清视频在线| 欧美在线观看不卡| 国产亚洲欧美一区| 亚洲欧美综合久久久久久v动漫| www.午夜色| 国产91在线|亚洲| 日本污视频在线观看| 日韩精品在线观看一区| 欧美xxxx做受欧美护士| 视频一区三区| 国产高清在线观看免费不卡| 日本网站免费观看| 亚洲免费一在线| 看片一区二区| 国产片侵犯亲女视频播放| 91在线一区二区三区| 黄色av网站免费| 欧美富婆性猛交| 伊人久久大香线蕉| 999久久久精品视频| 亚洲国产一区二区视频| 欧美人体大胆444www| 国产日韩中文在线| 精品999日本| 美女av免费看| 精品国产精品一区二区夜夜嗨| 成人免费看黄| 国产日产欧美一区二区| 91丨九色丨国产丨porny| 在线观看国产精品入口男同| 久久99久国产精品黄毛片入口| 亚洲人成伊人成综合图片| 中文字幕1234区| 欧美色道久久88综合亚洲精品| 亚洲搞黄视频| 精品无码久久久久国产| 久久精品国产免费| 毛片基地在线观看| 免费91麻豆精品国产自产在线观看| 秋霞影视一区二区三区| 国产农村妇女精品久久| 色网综合在线观看| 黄页网站在线| 在线观看欧美一区|