精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最強o1也剛剛及格!中科大等團隊測試視頻CoT推理能力:多數模型不及格

人工智能 新聞
中科大等團隊提出了評估基準——VCR-Bench,里面包含七個獨立評估維度的任務框架,每個維度針對性地考察模型的不同能力(如時空推理、因果推斷等)。

視頻理解的CoT推理能力,怎么評?

中科大等團隊提出了評估基準——VCR-Bench,里面包含七個獨立評估維度的任務框架,每個維度針對性地考察模型的不同能力(如時空推理、因果推斷等)。為確保評估的全面性和可靠性,每個維度都設計了100余條高質量樣本。

圖片圖片

結果發現當前多模態模型在視頻復雜推理任務上表現普遍不佳——

最優模型o1僅獲得62.8的CoT得分和56.7%的準確率,大多數模型兩項指標均低于40分,且閉源模型優于開源模型,大模型優于小模型。

具體來看。

多模態視頻理解

在多模態研究領域,視頻數據因其豐富的語義信息和全面的場景細節,為構建復雜的思維鏈(Chain-of-Thought,CoT)推理任務提供了理想載體。

然而,當前多模態研究社區面臨一個關鍵挑戰:

缺乏系統化的評估方法來驗證模型在視頻理解中的CoT推理能力,這嚴重制約了視頻復雜推理任務的研究進展。

針對這一研究空白,中科大等的研究團隊創新性地提出了首個面向視頻CoT推理過程的多模態評估基準(Benchmark)。

圖片

該基準通過建立標準化的評估體系,顯著提升了視頻理解任務中推理能力的驗證效度。

此項工作自發布以來獲得了學術界的高度關注,在HuggingFace的4月11日Daily Papers評選中榮登榜單第二位,展現了其重要的學術價值和應用前景。

圖片

研究者認為,當前視頻理解領域的評測基準主要存在兩個關鍵性局限:

首先,現有方法普遍僅關注模型輸出的最終結果,而忽視了對推理過程的評估。這種評估方式可能導致”假陽性”現象——即便模型在理解或推理環節存在錯誤,仍可能通過猜測或巧合獲得正確的最終答案。

其次,現有基準缺乏對模型推理能力的多維度解構,無法精準識別模型在復雜推理任務中的能力瓶頸(如視覺感知不足與邏輯推理缺陷的區分)。

這兩個局限性嚴重制約了對視頻理解模型真實推理能力的科學評估。而針對這些問題所提出的VCR-Bench,則能夠很好的實現視頻CoT過程評估,填補現有不足。

圖片

△圖1結果評估的局限性

首個面向視頻CoT推理的Benchmark

具體而言,研究團隊首先構建了包含七個獨立評估維度的任務框架,每個維度針對性地考察模型的不同能力(如時空推理、因果推斷等)。

為確保評估的全面性和可靠性,每個維度精心設計了100余條高質量樣本,最終形成包含859個精選視頻和1034組問答對的大規模數據集。

這種多維度的評估體系能夠對模型的綜合推理能力進行全面診斷,不僅覆蓋了視頻理解的各個關鍵環節,還能有效揭示模型在不同能力維度上的強弱項。

圖片圖片

△圖2不同維度樣例

其次,對于數據集中的每一條樣本,研究團隊不僅提供了標準問答對,還額外標注了經過人工驗證的詳細CoT推理步驟作為參考標準。

在評估過程中,首先對被測模型生成的推理內容進行結構化解析,將其分解為離散的推理步驟。隨后,基于預先定義的能力維度框架,包括視覺感知(perception)和邏輯推理(reasoning)兩大類別,對這些步驟進行分類標注。為保障評估的客觀性,采用GPT-4o作為自動評分器,通過比對模型生成的推理步驟與人工標注的黃金標準,分別計算步驟類別的召回率(Recall)和精確率(Precision),最終以F1分數作為模型CoT得分。這一評估方案既保證了評分的可解釋性,又能有效反映模型在不同推理維度上的真實表現。

最后,采用GPT4o從模型的輸出內容中提取出最終結果,并于正確結果進行匹配,從而得到模型在VCR-Bench上推理的結果準確性。

圖片圖片

△圖3VCR-Bench的評估過程

研究者在VCR-Bench上進行了大量實驗,驗證了其評估體系的有效性,并得到了多條富有啟發意義的結論:

  • 當前多模態模型在視頻復雜推理任務上表現普遍不佳,最優模型o1僅獲得62.8的CoT得分和56.7%的準確率,大多數模型兩項指標均低于40分,且閉源模型優于開源模型,大模型優于小模型。
  • 通過對感知能力和推理能力的對比分析發現,大多數測試模型的視覺感知得分都低于其推理能力得分,特別是在性能較差的模型中,這種差距表現得更為顯著。這一規律清晰地表明,視覺感知能力的不足已經成為制約多模態模型性能提升的首要因素。

圖片

△圖4不同模型在VCR-Bench中的CoT得分

  • 模型在時空定位(TSG)維度表現最差,多數模型無法正確回答相關問題,顯示出處理時空變化任務的嚴重不足。圖片

△圖5不同模型在VCR-Bench上的準確率結果

圖片

△圖6TSG任務樣例

  • 模型的CoT得分和準確率呈現高度正相關(r=0.89),說明正確有效的CoT的推理步驟能夠幫助模型更好的回答對問題。
  • 部分模型如LLaVA系列雖然能達到尚可的準確率,但其CoT得分卻明顯偏低,深入分析發現這些模型存在指令遵循不充分的問題,其輸出內容往往過于簡略,缺乏必要的推理步驟;相比之下,Qwen2.5-VL等表現較好的模型能夠嚴格遵循指令要求,生成更加完整、細致的推理過程,因而獲得更高的CoT評分。
  • 模型在中等長度視頻上表現最佳,短視頻和長視頻相對較差。長視頻因內容復雜度高帶來理解挑戰;而短視頻對于人類標注員而言也較容易理解,能夠標注出更有深度的問題,此外一些特殊的維度(TSG)以短視頻為主,也是造成短視頻性能不佳的原因。這一現象凸顯了模型對不同時長視頻的適應能力仍需提升。

圖片

△圖7更多實驗結果展示。

(左側:模型在不同時長視頻上的準確率;右上:模型在不同實驗設置下的準確率;右下:模型CoT得分與準確率的相關性統計)

Paper: https://arxiv.org/abs/2504.07956

Project Page: https://vlm-reasoning.github.io/VCR-Bench/

Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code: https://github.com/zhishuifeiqian/VCR-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-30 09:17:00

2024-11-21 12:43:06

2024-07-16 13:24:38

2024-04-07 09:00:00

數據模型

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2024-09-24 11:01:03

2024-09-13 06:32:25

2025-01-23 10:45:52

2023-06-15 13:45:41

模型AI

2025-05-23 08:47:00

2017-04-11 09:33:12

JS面試題應聘者

2023-08-21 13:49:00

圖像技術

2025-02-08 14:10:00

模型系統AI

2025-04-15 09:22:00

AI訓練模型

2024-11-06 13:03:49

2025-06-10 09:07:00

2021-05-07 09:34:20

量子芯片計算機

2024-06-17 07:10:00

點贊
收藏

51CTO技術棧公眾號

亚洲一区二区五区| 久久久久久久欧美精品| 666欧美在线视频| 超碰成人在线免费观看| 国产免费黄色片| 欧美日韩国产免费观看| 亚洲国产日韩欧美在线动漫| 2022亚洲天堂| porn亚洲| 久久精品国产亚洲aⅴ| 久久精品一偷一偷国产| 国模大尺度视频| 最爽无遮挡行房视频在线| 不卡一二三区首页| 国产精品久久久av久久久| 欧美肥妇bbwbbw| 狼人天天伊人久久| 欧美无砖砖区免费| 一级性生活视频| 日韩av资源| 国产一区激情在线| 欧美在线播放视频| 国产jizz18女人高潮| 亚洲人成777| 午夜免费久久看| 亚洲免费久久| 亚洲高清视频在线播放| 老**午夜毛片一区二区三区| 久久夜色精品亚洲噜噜国产mv| 亚洲高清无码久久| 国产在视频一区二区三区吞精| 一区二区三区自拍| 亚洲精品一区二区三区av| 亚洲成a人片在线| 美日韩一区二区| 欧美成人激情视频| 色一情一交一乱一区二区三区| 九九热这里有精品| 精品久久久香蕉免费精品视频| 亚洲欧洲久久| 亚洲精品一区二区三区区别| 麻豆一区二区三| 91国产视频在线| 五月综合色婷婷| 成人免费a**址| 亚洲电影天堂av| 国产午夜福利视频在线观看| 色老头在线观看| 亚洲国产成人午夜在线一区| 激情视频在线观看一区二区三区| 国产精品无码免费播放| 久久综合图片| 欧美整片在线观看| 国产乡下妇女做爰毛片| 婷婷成人影院| 亚洲第一精品久久忘忧草社区| 图片区乱熟图片区亚洲| 免费日韩成人| 欧美视频在线一区二区三区| 午夜精品久久久久久久无码| 午夜影院免费在线| 综合中文字幕亚洲| 中文字幕中文字幕在线中心一区| 国产永久av在线| 久久久久久久综合日本| 久久久久久久久久码影片| 污视频在线免费观看| 激情亚洲综合在线| 国产这里只有精品| 亚洲中文字幕在线观看| 麻豆国产一区二区| 国产精品一区电影| 瑟瑟视频在线免费观看| 日韩成人一级大片| 欧美在线激情网| 黑人精品无码一区二区三区AV| 亚洲深爱激情| 欧洲精品毛片网站| 国产三级精品三级在线观看| 欧美成人国产| 97国产精品视频| 久久久久亚洲av成人毛片韩| 亚洲少妇一区| 国产精品久久久久久久久免费看| 97人妻精品视频一区| 久久精品国产亚洲一区二区三区| 成人在线中文字幕| 国产巨乳在线观看| 国产suv一区二区三区88区| 国产91亚洲精品一区二区三区| 亚洲精品97久久中文字幕| 成人精品视频.| 欧美大香线蕉线伊人久久| 国产精品天堂| 国产视频一区二区在线观看| 亚洲精品国产一区| а√天堂8资源在线官网| 一区二区三区国产豹纹内裤在线| 黄页免费在线观看视频| 欧美色片在线观看| 欧美年轻男男videosbes| 视频区 图片区 小说区| 美女精品视频在线| 亚洲白虎美女被爆操| 免费a级黄色片| 日韩av专区| 欧美夫妻性生活xx| 久久久久久不卡| 日韩成人一级大片| 亚洲综合第一页| 亚洲人视频在线观看| 欧美极品另类videosde| 天天想你在线观看完整版电影免费| 懂色av一区| 日本精品视频一区二区三区| 在线观看中文av| 日韩深夜影院| 久久精品国产亚洲精品| 免费一级全黄少妇性色生活片| 久久成人在线| 青青在线视频一区二区三区| 国产精品永久久久久久久久久| 99精品久久久久久| 99热这里只有精品7| av资源一区| 欧美日韩国产一级二级| 久久精品女同亚洲女同13| 99久久九九| 欧美一区三区三区高中清蜜桃| 国产精品国产精品国产| bt欧美亚洲午夜电影天堂| 亚洲欧洲久久| 污污在线观看| 欧美日韩免费一区二区三区| 国产+高潮+白浆+无码| 日韩一区二区在线| 国产综合在线视频| 国产乱码精品一区二区三区精东| 26uuu国产在线精品一区二区| 国产精品igao激情视频| 日韩色性视频| 神马国产精品影院av| 中文字幕在线观看视频网站| 国产不卡视频一区二区三区| mm131午夜| 婷婷久久免费视频| 一区二区三区美女xx视频| 800av免费在线观看| 成人av在线播放网站| 国产日韩欧美大片| 成人亚洲网站| 日韩av综合网站| 国产一级在线播放| 国产不卡一区视频| 国产成人亚洲综合无码| 伊人成人免费视频| 国产色噜噜噜91在线精品| 久久国产精品视频| 国产福利第一页| 亚洲激情在线激情| 国产日韩视频一区| 免费一区视频| 亚洲欧美日韩精品久久久| 国产成人福利夜色影视| 久久精品视频在线播放| av中文字幕免费| 亚洲国产视频在线| 亚洲乱码国产乱码精品精大量| 亚洲欧美日韩国产一区二区| 欧美一二三区| 99综合久久| 性色av香蕉一区二区| 免费国产在线视频| 欧美日韩久久久一区| 欧美成人精品一区二区免费看片| 国产**成人网毛片九色| 97超碰青青草| 日韩在线二区| 成人三级视频在线观看一区二区| 国产偷倩在线播放| 亚洲精品视频在线观看视频| 丰满熟女人妻一区二区三| 亚洲激情图片小说视频| 国产精品无码永久免费不卡| 轻轻草成人在线| 六月婷婷激情网| 欧美日韩导航| 成人国产精品久久久久久亚洲| 制服丝袜在线播放| 亚洲精品自拍视频| 国产精品国产av| 午夜激情综合网| 亚洲精品一区二区三区在线播放| 成人久久18免费网站麻豆| av视屏在线播放| 午夜激情一区| 神马影院我不卡| 国产精品毛片视频| 91精品国产综合久久香蕉的用户体验| 成年女人在线看片| www.色综合| 黄色av网站在线看| 欧美成人bangbros| 亚洲中文一区二区三区| 欧美日韩在线视频一区| 战狼4完整免费观看在线播放版| 成人免费视频一区| 色啦啦av综合| 久久久久久黄| 水蜜桃色314在线观看| 亚洲成av人电影| 日本一区二区三区在线视频| 中文在线综合| 成人h视频在线| 亚洲四虎影院| 欧美中文字幕视频| 美女精品视频| 久久av在线播放| av在线免费观看网| 精品无人国产偷自产在线| 亚洲精品久久久蜜桃动漫| 欧美日韩黄色影视| 欧美男人天堂网| 欧美日韩亚洲精品内裤| 久久免费视频精品| 亚洲欧洲日本在线| 国产传媒在线看| 久久婷婷国产综合精品青草 | 黄网站在线播放| 亚洲性猛交xxxxwww| 婷婷视频在线观看| 亚洲精品在线电影| 午夜精品一区二区三| 欧美福利一区二区| 一区二区日韩在线观看| 欧美三级日本三级少妇99| 亚洲婷婷综合网| 色综合色综合色综合 | 国产美女诱惑一区二区| 男女视频网站在线观看| 亚洲啪啪91| 久久99久久久久久| 精品91久久久久| 欧美中日韩在线| 亚洲国产黄色| 国产原创中文在线观看| 亚洲免费在线| 日韩手机在线观看视频| 久久午夜精品| 超碰在线97免费| 精品综合免费视频观看| 中文字幕永久有效| 国产一区二区三区香蕉| 真实乱偷全部视频| 成人丝袜高跟foot| 少妇户外露出[11p]| 91女厕偷拍女厕偷拍高清| 久久国产精品影院| 国产午夜精品久久久久久免费视| 国产精品久久免费观看| ...xxx性欧美| 国产亚洲欧美精品久久久久久| 亚洲高清免费观看 | a天堂中文在线官网在线| 久久在线免费观看视频| 性xxxxfjsxxxxx欧美| 国内精品免费午夜毛片| www.精品| 91色p视频在线| 在线精品自拍| 免费亚洲一区二区| 午夜欧美在线| 欧美 日韩 国产在线观看| 日韩经典中文字幕一区| 特级黄色片视频| 99视频在线精品| 日本成人免费视频| 自拍偷拍亚洲综合| 久久久久噜噜噜亚洲熟女综合| 五月天中文字幕一区二区| 一级黄色在线观看| 7777精品伊人久久久大香线蕉经典版下载 | 国产美女视频免费观看下载软件| 久久这里只有精品首页| 少妇视频在线播放| 亚洲图片自拍偷拍| 久久人人爽人人爽人人片av免费| 91精品国产一区二区人妖| 色呦呦中文字幕| 这里只有精品在线观看| 神马午夜伦理不卡| 国产精品成人一区二区| 日韩一区二区三区色| 欧美精品一区二区三区四区五区| 四虎成人av| a级黄色一级片| 激情小说亚洲一区| 91成年人网站| 亚洲午夜精品17c| 一区不卡在线观看| 日韩精品在线播放| 性欧美1819sex性高清大胸| 国产精品狠色婷| 国产精品男女| 18视频在线观看娇喘| 丝袜诱惑亚洲看片| 日韩Av无码精品| 亚洲男女毛片无遮挡| 亚洲第一区av| 亚洲精品综合久久中文字幕| 男女免费观看在线爽爽爽视频| 国产精品偷伦视频免费观看国产 | 日韩区国产区| 99热在线精品观看| 欧美一级大片免费看| 国产精品美女一区二区| 亚洲图片在线视频| 亚洲成**性毛茸茸| 日日夜夜天天综合入口| 91精品国产综合久久香蕉最新版 | 26uuu精品一区二区| 久久久久久久福利| 欧美一级一级性生活免费录像| 高清美女视频一区| 人人澡人人澡人人看欧美| 欧美精品中文| 三上悠亚久久精品| 成人午夜激情片| 久草免费新视频| 日韩一区二区三区四区五区六区 | 日韩有码一区| r级无码视频在线观看| 国产精品888| 国产高潮流白浆| 91精品麻豆日日躁夜夜躁| 日本中文字幕电影在线免费观看 | 激情久久免费视频| 自拍亚洲欧美老师丝袜| 久久成人羞羞网站| 国内毛片毛片毛片毛片毛片| 欧美色欧美亚洲另类二区| 成人在线免费公开观看视频| 国产精品美女网站| 欧美hentaied在线观看| 亚洲美女性囗交| 亚洲女性喷水在线观看一区| 精品久久国产视频| 欧美裸体xxxx极品少妇| 亚洲经典视频| 日韩一级性生活片| 91女人视频在线观看| 无码视频在线观看| 中文字幕日韩欧美在线视频| 99久久er| 黄色a级在线观看| 国产激情视频一区二区三区欧美 | 国产美女99p| 精品成人国产| 国产一级二级在线观看| 色综合天天综合色综合av| 国产高清一级毛片在线不卡| 国产精品色婷婷视频| 99久久99久久精品国产片桃花 | 日本韩国欧美超级黄在线观看| 国产原创中文在线观看| 国产偷国产偷亚洲高清人白洁| 五月婷婷六月婷婷| 久久久精品在线观看| 97人人澡人人爽91综合色| 91丨porny丨探花| 久久人人97超碰com| 最新黄色网址在线观看| 欧美成人精品影院| 乱中年女人伦av一区二区| 中文字幕在线观看第三页| 亚洲欧美一区二区三区孕妇| 免费观看黄一级视频| 日本久久精品视频| 性欧美69xoxoxoxo| 国产精品久久无码| 欧美亚洲一区二区在线观看| 亚洲小说区图片区都市| 久久精品丝袜高跟鞋| 久久99国产精品麻豆| 国产精品 欧美 日韩| 国产一区二区三区在线视频| 国产日韩一区二区三免费高清| 日本中文字幕网址| 中文字幕日韩av资源站| 偷拍自拍在线| 成人免费网站在线| 欧美一级久久| 久视频在线观看| 亚洲人午夜色婷婷| 国产+成+人+亚洲欧洲在线 | 玖玖玖视频精品| 成年人在线看片| 亚洲一区二区三区四区在线观看| h视频在线观看免费| 久久精品人人做人人爽电影|