精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek、OpenAI、Kimi視覺推理到底哪家強?港中文MMLab推出推理基準MME-COT

人工智能 新聞
這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。

OpenAI o1和DeepSeek-R1靠鏈式思維(Chain-of-Thought, CoT)展示了超強的推理能力,但這一能力能多大程度地幫助視覺推理,又應該如何細粒度地評估視覺推理呢?

為此,來自港中文MMLab的研究者們提出了MME-CoT。

這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數學、科學、OCR、邏輯、時空和通用場景。

MME-CoT與之前的LMM的Benchmark最大的區別在于,提出了一個嚴格且多方面的評估框架,細粒度地研究視覺CoT的不同方面,評估其推理的質量、魯棒性和效率。

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進行了測試。同時,研究者們還把圖片轉成caption之后測試了最近爆火的DeepSeek-R1以及o3-mini。

基于實驗結果,文章中得到了很有價值的結論:

  • CoT質量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
  • CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
  • CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

值得一提的是,DeepSeek-R1的文本推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過真實看到圖片的GPT-4o。最后的CoT質量也與GPT-4o僅有1.9%之差。

其次,反思能力的引入顯著提升了CoT質量,所有具備反思能力的LMM都實現了較高的CoT質量表現。例如QVQ達到了62.0%的F1分數,大幅超過Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達到最佳質量。

在魯棒性方面,團隊發現大多數早期模型在感知任務中都受到CoT的負面影響,表現出有害的過度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務中應用CoT后性能下降了6.8%,這嚴重制約了將CoT推理作為默認操作的可行性。

最后,關于CoT效率,團隊觀察到輸出長CoT的模型普遍存在步驟的相關性不足的問題。模型容易被圖像內容分散注意力,過度關注圖像而忽視了對題目的解答,尤其是在處理通用場景、時空和OCR任務時。實驗結果顯示,約30%到40%的反思步驟未能有效協助問題解答,這暴露出當前模型反思能力的重要缺陷。

測評指標設計與數據組成

目前絕大多數的LMM的Benchmark都只評估最終答案的正確性,忽視了LMM整個的CoT的推理過程。為了能全面地了解視覺CoT的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力于回答一個關鍵的問題:

1、CoT的質量:每個CoT步驟是否有用且準確,不存在幻覺?

只評估回答的結果忽略了模型通過錯誤的邏輯或隨機猜測得出正確答案的情況。這往往造成了模型推理能力被夸大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標來評估CoT的質量:

  • 召回率 (Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標是用來量化推理的步驟是否能對于得到正確答案有幫助,以及推理鏈是否完整。匹配的過程由GPT-4o完成。
  • 精確率 (Precision):評估模型回答的每一步的準確程度來考查模型的幻覺以及邏輯的準確性。為了評估這一指標,研究者們首先使用GPT-4o將模型的回復切分成不同類型的步驟:背景知識、圖片描述以及邏輯推理。然后繼續對圖片描述以及邏輯推理步驟判定每步是否正確。

2、CoT的魯棒性:CoT是否干擾感知任務,它在多大程度上增強了推理任務?

現有研究主要關注CoT對推理任務帶來的性能改進,卻往往忽視了CoT是否會無意中破壞模型對于僅需要感知的任務的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的默認的推理策略。然而,模型無法提前預知用戶提出的問題類型,也不確定使用CoT來回答是否比直接給出答案會有更高的準確率。因此,在目前的時間點上,CoT在不同類型任務下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個任務類別:感知任務和推理任務,以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。

  • 穩定性 (Stability):檢查CoT是否對模型在感知任務上的表現產生負面影響
  • 有效性 (Efficacy):檢查CoT是否真的幫助模型提高在復雜推理任務上的表現

3、CoT的效率:使用CoT的推理效率是怎么樣的?

最近的o1類模型通過采用超長的CoT和反思步驟而取得了非常好的效果。這提出了一個關鍵的權衡問題:這種方法是否在準確性和計算成本之間取得了最佳平衡?為了研究這一點,研究者們首次對LMMs中CoT的效率進行研究,使用了兩個關鍵指標評估效率:

  • 相關比例 (Relevance Rate):評估模型回答中與解決問題有關的比例。
  • 反思質量 (Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗證了目前結論的正確性。

4、MME-CoT測試集

與純文本推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的范圍。有了圖像輸入,模型需要根據當前的推理進度頻繁查看圖像以獲取相關信息。描述感興趣的圖像區域成為了思維鏈(CoT)過程中的關鍵部分。因此,除了需要嚴格邏輯的復雜問題外,通用場景中的許多問題也構成了具有挑戰性的推理問題。

考慮到這一點,MME-CoT測試集構建起了一個覆蓋專業領域與常識場景的全景視覺推理評估體系,共包括6大領域以及17個子類。為了保持對推理過程的關注,研究者們排除了需要復雜領域特定定理或專業知識的問題。

MME-CoT中分為感知任務以及推理任務,現有的Benchmark往往混淆這兩類任務,使得這兩類經常出現在相同類別中。為了解決這個問題,研究者們首先使用GPT-4o以及Qwen2-VL來進行預判,通過對比直接作答與CoT作答的表現差異,初步劃分這兩種不同類型的任務。接著,專業的標注團隊逐題審核,確保分類的準確性。

為了便于CoT的評估,標注團隊為所有推理問題都給出了必要的推理步驟的Ground Truth標注。對于多解的問題,標注者被要求給出了每種可能的解法。最后,MME-CoT得到了1130道精選的問題以及3865個關鍵步驟標注。

實驗分析與結論

研究者們在MME-CoT Benchmark上測評了13個現有的LMM以及2個最先進的具有超強推理能力的LLM:DeepSeek-R1以及o3-mini。對于LLM,研究者們將圖片轉化為詳細的caption之后再輸入到模型。

實驗結果如下:

基于測評,還得到了如下的發現與結論:

1. 長CoT不一定涵蓋關鍵步驟

盡管長思維鏈模型具有更高的精確率,但每個步驟的信息量并不能得到保證。團隊觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢和它們最終能否正確解答推理任務的表現(即在使用CoT的prompt時,模型在推理任務的最終答案準確率,對應表格中的CoT Reasoning列)不一致。具體來說,雖然Virgo和QVQ在僅評估最終答案的正確性上都優于GPT-4o,但它們在召回率上落后。這表明長CoT模型有時會在跳過中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進一步研究。

2. 更多參數使模型更好地掌握推理能力

團隊發現參數量更大的模型往往獲得更高的有效性(Efficacy)分數。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應用于推理任務時顯示出4.8%的性能下降,但其更大的對應模型Qwen2-VL-72B展示出2.4%的改進。這種差異表明,在相同的訓練范式下,具有更多參數的模型能夠更好地掌握推理能力。這一發現也某種程度上驗證了R1論文中的關鍵發現:同等訓練setting下,更大參數量的模型往往能更好地學習到推理的能力。

3. 模型的反思的錯誤涵蓋多種類型

四種主要錯誤類型是:

  • 無效反思:模型得出錯誤結論,在反思時,繼續做出錯誤的調整。這是最常見的錯誤類型,也是最頻繁出現的。
  • 不完整:模型提出新的分析方法但未執行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重復:模型重述先前的內容或方法,沒有引入新的見解。
  • 干擾:模型最初達到正確結論,但反思卻引入了錯誤。

理解和消除反思中的這些錯誤對于提高LMM的推理效率以及可靠性是至關重要的。

展望未來,MME-CoT不僅為評估LMM的推理能力提供了系統化的基準,更為該領域的研究指明了關鍵發展方向。通過揭示現有模型在推理質量、魯棒性和計算效率等方面的不足,這項工作為后續研究奠定了重要基礎。這些發現將推動LMM實現更強大以及可靠的視覺推理能力。

論文:https://arxiv.org/pdf/2502.09621
主頁:https://mmecot.github.io
代碼:https://github.com/CaraJ7/MME-CoT
數據集:https://huggingface.co/datasets/CaraJ/MME-CoT

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 04:00:00

2024-01-29 07:15:00

模型數據

2016-11-21 17:27:04

Android 推送

2025-11-19 08:51:13

2021-12-01 10:05:12

模型人工智能計算

2025-05-19 08:37:00

2025-01-15 13:01:07

2025-04-11 09:10:00

模型開源AI

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2023-01-05 09:33:37

視覺模型訓練

2024-11-12 13:40:00

2025-05-13 13:54:41

R1MMLabAI

2025-07-17 09:21:11

2025-08-29 09:09:00

AI模型數據

2025-11-04 09:00:00

2025-08-13 10:21:50

2025-04-14 00:10:00

人工智能AIAI 模型

2025-04-30 09:19:32

點贊
收藏

51CTO技術棧公眾號

国产精品欧美激情| 在线成人免费视频| 久久综合精品一区| 少妇一级淫片日本| 99久久夜色精品国产亚洲96| 欧美久久久一区| 四虎免费在线观看视频| 免费观看a视频| 久久国产日本精品| xxxxx91麻豆| 超碰caoprom| 123成人网| 亚洲综合成人在线视频| 日本亚洲自拍| 亚洲高清视频在线播放| 日本欧美一区二区| 久久久久久久999精品视频| 人妻少妇无码精品视频区| 日韩精品成人| 欧美怡红院视频| 欧美这里只有精品| 幼a在线观看| www.欧美色图| 成人自拍性视频| 香蕉影院在线观看| 国产精品a级| 日韩在线视频播放| 成人午夜福利一区二区| 亚洲第一二区| 在线播放欧美女士性生活| 99热在线这里只有精品| 成人video亚洲精品| 久久久精品天堂| 国产女主播一区二区| 97成人免费视频| 午夜影院黄色片| 日韩精品三区| 高跟丝袜一区二区三区| 国产精品三级一区二区| 麻豆网站在线观看| 国产日本欧美一区二区| 免费国产一区二区| 人妻丰满熟妇av无码区hd| 国产在线视频一区二区| 国产日韩在线播放| 日本三级一区二区三区| 久久久人人人| 日本欧美中文字幕| 制服.丝袜.亚洲.中文.综合懂色| 欧美日韩亚洲一区二区三区在线| 中文字幕一精品亚洲无线一区| 久久亚洲AV成人无码国产野外| 动漫av一区| 精品久久久久久久人人人人传媒 | 1000部精品久久久久久久久| 美日韩在线视频| 成熟的女同志hd| 国产精品久久久久久久| 最近更新的2019中文字幕 | 亚洲AV无码国产精品| 最新国产精品精品视频| 精品人伦一区二区色婷婷| 中文字幕1区2区| 91精品日本| 亚洲成人精品av| 日韩www视频| 台湾色综合娱乐中文网| 精品亚洲永久免费精品| 国精品无码人妻一区二区三区| 亚洲大片精品免费| 亚洲视频在线免费观看| 日日碰狠狠添天天爽| 欧美在线色图| 久久国产加勒比精品无码| 欧美日韩在线视频免费| 伊人激情综合| 青青在线视频一区二区三区| 欧美国产一级片| 精品亚洲成a人| www国产亚洲精品| 五月婷中文字幕| 国产三级三级三级精品8ⅰ区| 少妇免费毛片久久久久久久久 | 欧美韩日一区二区| 国产第一页第二页| 久久av一区| 91精品久久久久| www三级免费| 91免费国产在线观看| 午夜精品一区二区在线观看 | 午夜精品福利在线观看| 国产字幕在线观看| 国产呦萝稀缺另类资源| 狠狠色综合网站久久久久久久| 麻豆导航在线观看| 国产精品久久久久9999吃药| 久久这里只有精品8| 唐人社导航福利精品| 91精品免费在线| 日本免费福利视频| 性xxxx欧美老肥妇牲乱| 992tv成人免费影院| 亚洲视频久久久| 粉嫩aⅴ一区二区三区四区| 欧美黄色直播| 亚洲羞羞网站| 欧美色精品天天在线观看视频| 伊人五月天婷婷| 亚洲成a人片77777在线播放| 久久精品亚洲热| 亚洲国产成人无码av在线| 国产麻豆成人精品| 日韩免费av一区二区三区| 黄页网站在线观看免费| 欧美日韩你懂的| 欧美精品欧美极品欧美激情| 国产精品久久久久久久免费观看| 91产国在线观看动作片喷水| 国产视频一二三四区| 久久久久国产精品麻豆ai换脸| 国产成人生活片| 国产香蕉久久| 亚洲欧美制服中文字幕| 国产午夜视频在线| 国产在线一区观看| 亚洲精品一卡二卡三卡四卡| 小h片在线观看| 亚洲国产高清福利视频| 看片网站在线观看| 精品一区二区三区在线播放视频| 欧美裸体网站| 九色porny自拍视频在线播放| 日韩三级.com| 麻豆明星ai换脸视频| 日韩精品午夜视频| 欧美一区二区视频17c | 国产精品一区二区三区久久| 欧洲毛片在线| 精品成人av一区| 无码国产69精品久久久久网站 | 2023国产一二三区日本精品2022| 久久亚洲a v| 精品国产亚洲一区二区在线观看| 丝袜亚洲另类欧美重口| 中文天堂在线资源| 日本一区二区三区视频视频| 色诱视频在线观看| 狠狠做六月爱婷婷综合aⅴ| 91精品国产乱码久久久久久久久| 男人的天堂a在线| 亚洲一级电影视频| 日本黄色大片在线观看| 午夜精品影院| caoporen国产精品| av免费不卡国产观看| 亚洲国产精彩中文乱码av| 精品无码人妻一区二区三区品 | 欧美熟妇激情一区二区三区| 噜噜噜91成人网| 欧美久久久久久久| 成人啊v在线| 中文字幕久热精品在线视频| 亚洲无码精品在线观看| 中文字幕日韩欧美一区二区三区| 91福利免费观看| 国产精品久久久久蜜臀 | 久久久久久久久久久av| 亚洲av无码一区二区乱子伦| 亚洲一区二区三区四区在线| 国产免费一区二区三区最新6| 亚洲日本久久| 欧美日韩一区二| 国产精品天堂蜜av在线播放 | 超级白嫩亚洲国产第一| 日韩精品高清在线观看| 精品视频一二三区| 中文字幕在线一区| 国产xxx在线观看| 国产日韩1区| 亚洲高清资源综合久久精品| 懂色av色香蕉一区二区蜜桃| 欧美日韩成人在线观看| 天堂网在线播放| 欧美中文字幕一区二区三区| 波多野结衣久久久久| 成人精品小蝌蚪| 久久婷婷国产精品| 68国产成人综合久久精品| 亚洲伊人第一页| 色网在线免费观看| 日韩亚洲欧美中文高清在线| 亚洲免费不卡视频| 91久久免费观看| 免费看一级大片| 久久午夜电影网| 精品人妻一区二区三| 一区二区三区四区五区精品视频 | 欧美日本久久| 欧美一区二区三区四区在线观看地址| 亚洲日本免费电影| 97在线视频免费播放| 日本精品一区二区三区在线播放| 日韩精品一区二区三区视频| 久草视频在线免费| 亚洲电影中文字幕在线观看| 青娱乐国产视频| 成人av资源在线观看| av亚洲天堂网| 香蕉亚洲视频| 日本免费a视频| 日韩成人综合| 鲁丝片一区二区三区| 欧美成人精品一级| 国产精品偷伦免费视频观看的| 超碰成人av| 欧美乱大交xxxxx另类电影| 国产小视频在线观看| 精品国产区一区| 国产影视一区二区| 欧美中文字幕不卡| 精品成人av一区二区在线播放| 亚洲天堂福利av| 国产精品免费无码| 91免费版在线看| av av在线| 国产精品123| 中日韩av在线播放| 视频在线观看国产精品| 欧美视频在线观看视频| 欧美在线亚洲| 中文字幕超清在线免费观看| 日韩亚洲一区在线| 日韩福利视频| 综合国产视频| 久久亚裔精品欧美| 天堂综合网久久| 精品日本一区二区三区| 亚洲无线观看| 不卡视频一区| 香蕉免费一区二区三区在线观看 | 中文字幕视频一区| 影音先锋男人看片资源| 欧美激情一区二区三区在线| 色欲av无码一区二区三区| 97精品国产97久久久久久久久久久久| 中文字幕制服丝袜| 国产成人av电影在线| 巨乳女教师的诱惑| 国产成人av电影在线观看| 国产chinesehd精品露脸| 国产不卡免费视频| 久久久无码人妻精品无码| 国产成人免费网站| 亚洲美女精品视频| 99免费精品视频| 右手影院亚洲欧美| 国产偷国产偷精品高清尤物| av黄色在线免费观看| 中文字幕精品一区二区三区精品| 亚洲第一综合网| 一区精品在线播放| 中文字幕手机在线观看| 亚洲国产精品自拍| 欧美特黄aaaaaa| 欧美亚男人的天堂| 97人妻人人澡人人爽人人精品 | 国产精品看片资源| 91精品亚洲一区在线观看| 96sao精品视频在线观看| 2020最新国产精品| 久久久久久国产精品免费免费| 国产欧美日韩| 中国成人在线视频| 狠狠噜噜久久| 国内外免费激情视频| 久久99精品国产麻豆婷婷| 九九九久久久久久久| 99久久精品免费看国产| 在线免费看黄视频| 亚洲视频狠狠干| 1级黄色大片儿| 欧美三区免费完整视频在线观看| 国产精品探花视频| 日韩成人av在线| 98在线视频| 欧美精品18videosex性欧美| 另类专区亚洲| 92看片淫黄大片欧美看国产片| 日韩精品社区| 国产成年人在线观看| 一本色道精品久久一区二区三区 | 国产精品99| 国产精品乱子乱xxxx| 欧美裸体在线版观看完整版| 国产激情片在线观看| 久久久久国内| 一区二区三区人妻| 国产亚洲va综合人人澡精品| 欧美日韩精品一区二区三区视频播放| 欧美日韩国产中文精品字幕自在自线| 中文天堂在线播放| 亚洲精品国产品国语在线| 午夜在线视频| 国产91精品不卡视频| 九九99久久精品在免费线bt| 欧美亚洲精品日韩| 欧美体内she精视频在线观看| 日韩一级免费在线观看| 国产成人av影院| jizz18女人高潮| 欧美日韩激情小视频| 精品二区在线观看| 影音先锋欧美精品| 日本乱码一区二区三区不卡| 亚洲aaaaaa| 成人精品亚洲| 播放灌醉水嫩大学生国内精品| 国产福利一区在线| 国产jizz18女人高潮| 日本精品一区二区三区高清| 狠狠人妻久久久久久综合麻豆| www.xxxx精品| 青青热久免费精品视频在线18| 国产成人免费电影| 欧美国内亚洲| 人人爽人人爽av| 国产精品毛片大码女人| 日韩在线播放中文字幕| 亚洲第一页中文字幕| 免费在线国产视频| 亚洲综合在线做性| 亚洲精品二区三区| 日本中文字幕二区| 国产精品天天看| 欧美一级做a爰片免费视频| 亚洲免费电影在线观看| 欧美男人天堂| 久久久综合亚洲91久久98| 日韩午夜一区| 欧美xxxx×黑人性爽| 亚洲777理论| 天天操天天射天天舔| 久久久久久午夜| 超碰精品在线| 国产精品入口芒果| 成人avav在线| 久久一区二区三区视频| 日韩成人在线播放| 中文字幕成在线观看| 欧美二级三级| 日日夜夜精品免费视频| 日本人亚洲人jjzzjjz| 欧美在线你懂的| 91亚洲欧美| 成人淫片在线看| 欧美暴力喷水在线| 中文字幕制服丝袜| 欧美日韩国产精品一区二区三区四区| 日韩一级中文字幕| 欧美一级黑人aaaaaaa做受| 久久99影视| www午夜视频| 亚洲精品精品亚洲| 粉嫩小泬无遮挡久久久久久| 97精品国产97久久久久久免费| 欧美黑人做爰爽爽爽| caopor在线视频| 亚洲欧洲美洲综合色网| 精品人妻一区二区三区日产乱码 | 国产综合色区在线观看| 四虎一区二区| 国产米奇在线777精品观看| 久久久久久国产精品免费播放| 亚洲电影成人av99爱色| 在线看片福利| 在线观看免费91| 盗摄精品av一区二区三区| 亚洲va在线观看| 日韩综合中文字幕| 99香蕉久久| 久久婷婷国产91天堂综合精品| 中文字幕日韩av资源站| 欧美 日韩 国产 在线| 日本国产欧美一区二区三区| 欧美成人精品一区二区三区在线看| 国产精品探花在线播放| 亚洲电影激情视频网站| 91社区在线观看播放| 999视频在线免费观看| 久久精品30| 美女福利视频在线观看| 亚洲女人天堂网| 日韩一区二区三区色| 美女福利视频在线| 亚洲蜜桃精久久久久久久| 欧美一区二区三区少妇| 亚洲jizzjizz日本少妇| 天堂在线一区二区| 久久久久久久久久久97| 揄拍成人国产精品视频|