精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI集體“聽不懂”!MMAR基準(zhǔn)測試揭示音頻大模型巨大短板

人工智能 新聞
這一全新基準(zhǔn)測試MMAR來自上海交通大學(xué)、 南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動、2077AI開源基金會等研究機構(gòu)。

用AI來整理會議內(nèi)容,已經(jīng)是人類的常規(guī)操作。

不過,你猜怎么著?面對1000道多步驟音頻推理題時,30款A(yù)I模型竟然幾乎全軍覆沒,很多開源模型表現(xiàn)甚至接近瞎猜。

就連表現(xiàn)最好的開源模型Qwen-2.5-Omni,準(zhǔn)確率也只有56.7%;而閉源選手Gemini 2.0 Flash則以65.6%的成績一騎絕塵,遙遙領(lǐng)先全場。

這一全新基準(zhǔn)測試MMAR來自上海交通大學(xué)、 南洋理工大學(xué)、倫敦瑪麗皇后大學(xué)、字節(jié)跳動、2077AI開源基金會等研究機構(gòu)。

圖片

MMAR 是什么?它有多難?

MMAR全稱是:A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix。

簡單來說,它是一個包含1000個高質(zhì)量問題的音頻理解評估基準(zhǔn),每個問題都要求模型具備多步驟的深度推理能力。

我們先來看個例子:

問題是:理發(fā)師能否聽懂英文?

在這段音頻中,被理發(fā)的人用英語反復(fù)強調(diào)自己想要的理發(fā)效果,另一個人將其翻譯成中文來幫助他強調(diào),這說明理發(fā)師不能聽懂英文,需要旁人翻譯為中文。這個問題考察音頻大模型對于多說話人交互和復(fù)雜語義的理解和推理能力,屬實不易。

而這樣的例子有整整1000題,由標(biāo)注者們頭腦風(fēng)暴并精心標(biāo)注,還通過了嚴(yán)格的審核程序。其他的例子包括:

  • “根據(jù)聲音,判斷哪次尺子伸出桌子外的長度更長?”
  • “根據(jù)石頭落井的回聲,判斷井深度?”
  • “這三段音樂的作曲家的親子關(guān)系?”
  • “有幾個人在學(xué)說中文?”
    圖片

△MMAR基準(zhǔn)測試中的例子

這些問題覆蓋了四個層級的推理能力:

層級

簡單解釋

信號層(Signal)

聲音的基本屬性,比如頻率、波形、節(jié)奏等

感知層(Perception)

識別聲音種類、來源、方向等

語義層(Semantic)

理解音頻內(nèi)容所表達(dá)的意義

文化層(Cultural)

結(jié)合文化背景、常識、風(fēng)格等進(jìn)行深層次解讀

而且,每個任務(wù)都需要多步推理,其中一些任務(wù)甚至需要極富挑戰(zhàn)性的感知技能和領(lǐng)域特定知識,音頻包含真實場景的語音、音樂、環(huán)境事件聲音和他們的混合,相當(dāng)?shù)挠须y度。

圖片

△MMAR音頻數(shù)據(jù)的語音、音樂、環(huán)境事件聲音和他們混合的類別分布

圖片

△MMAR的推理層級和任務(wù)類別分布

測試結(jié)果:AI 在“聽”方面到底怎么樣?

研究團隊一口氣測試了30款音頻相關(guān)模型,包括 LALMs(大型音頻語言模型)、LARMs(大型音頻推理模型)、OLMs(全能型多模態(tài)模型)等等。結(jié)果讓人有點哭笑不得:

  • 開源模型中,最強的是Qwen-2.5-Omni(7B),但平均準(zhǔn)確率也僅為56.7%,這說明MMAR的難度遠(yuǎn)超預(yù)期;
  • 而閉源模型Gemini 2.0 Flash直接飆到了65.6%,甩開其他選手一大截;
  • 更夸張的是:大部分開源模型的表現(xiàn),幾乎跟瞎猜差不多

這說明了什么?

說明當(dāng)前大多數(shù)開源模型,在面對復(fù)雜音頻推理任務(wù)時,還遠(yuǎn)遠(yuǎn)沒達(dá)到實用水平。

圖片

△泊松二項分布展示了隨機猜測下準(zhǔn)確率的P值

更令人驚訝的是,在音樂相關(guān)的任務(wù)中,幾乎所有模型都“掉了鏈子”。這說明當(dāng)前模型在識別旋律、節(jié)奏結(jié)構(gòu)、作曲風(fēng)格等深層次音頻信息方面仍存在巨大挑戰(zhàn)。

圖片

△五類模型在MMAR基準(zhǔn)上的結(jié)果

其次,具有顯式推理能力的模型始終優(yōu)于不具備顯式推理能力的模型。例如,Audio-Reasoner的表現(xiàn)優(yōu)于Qwen2-Audio和Qwen2-Audio-Instruct,而音頻摘要+ DeepSeek-R1 的表現(xiàn)優(yōu)于音頻摘要+ DeepSeek-V3。

圖片

△MMAR基準(zhǔn)上的性能比較:使用噪聲替換音頻作為輸入的影響

研究團隊還做了一個“靈魂拷問”實驗——把輸入音頻換成噪聲。

結(jié)果發(fā)現(xiàn),模型性能都大幅下降,證明它們確實在“聽”音頻,而不是靠文本先驗瞎猜。不過,Qwen-2.5-Omni在噪聲輸入下依然略高于隨機猜測 ,暴露出潛在的語言先驗偏差問題。

此外,研究人員測試了多種級聯(lián)模型組合(如音頻摘要+LLM推理)。

結(jié)果顯示,更換更強的音頻理解模型或推理模型都能帶來性能提升,說明感知能力和推理能力是相輔相成的。

總體來看,當(dāng)前大多數(shù)開源模型在面對MMAR這樣的深度音頻推理任務(wù)時,表現(xiàn)仍然不盡人意。

AI 到底哪里“聽不懂”?

為了搞清楚模型失敗的原因,研究人員對提供思維鏈的Audio-Reasoner模型的錯誤進(jìn)行了分類,發(fā)現(xiàn)主要有以下幾類:

錯誤類型

占比

舉例說明

感知錯誤(Perceptual Errors)

37%

分不清是鋼琴還是吉他、聽不出是雨聲還是鼓聲

推理錯誤(Reasoning Errors)

20%

推理鏈條斷裂、邏輯跳躍失誤

知識錯誤(Knowledge Gaps)

9%

缺乏對某種音樂流派或文化背景的理解

其他錯誤(Others)

34%

包括生成崩潰、指令誤解、最終答案與推理結(jié)果不一致等

也就是說,現(xiàn)在的 AI 不僅“耳朵不好使”,“腦子也不太靈光”。

總結(jié)與展望

通過MMAR的測試可得以下幾個關(guān)鍵結(jié)論:

  1. 當(dāng)前開源音頻大模型在音頻推理上表現(xiàn)不佳,亟需數(shù)據(jù)與算法協(xié)同創(chuàng)新;
  2. 模型是否具備推理能力,直接影響性能表現(xiàn);
  3. 閉源模型能力遠(yuǎn)遠(yuǎn)超過開源模型,開源社區(qū)需努力追趕;
  4. 近期的音視頻全模態(tài)大模型的音頻能力高于之前的音頻大模型。

在這個開創(chuàng)性項目中,各參與機構(gòu)發(fā)揮了獨特的優(yōu)勢和作用。來自香港科技大學(xué)和倫敦瑪麗皇后大學(xué)的音樂科技工作者對專業(yè)的音樂題目進(jìn)行收集和標(biāo)注;2077AI的研究員提供了數(shù)據(jù)處理與標(biāo)注平臺銜接的重要保障。此外,整數(shù)智能數(shù)據(jù)工程平臺提供了專業(yè)的支持,平臺的多輪審核機制和協(xié)同標(biāo)注功能為數(shù)據(jù)質(zhì)量提供了強有力的保障。

研究人員希望,隨著更多研究者加入這一領(lǐng)域,人們在未來會看到真正“聽得懂”的AI:不僅能聽清你在說什么,還能聽出你在想什么。

文章: https://arxiv.org/abs/2505.13032

代碼(GitHub):https://github.com/ddlBoJack/

MMAR數(shù)據(jù)集(HuggingFace):https://huggingface.co/datasets/BoJack/MMAR

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-04-01 08:00:00

AI模型

2025-04-14 00:10:00

人工智能AIAI 模型

2025-10-28 09:16:38

2025-05-26 08:33:00

2025-05-21 08:47:00

2025-05-23 08:47:00

2025-05-28 10:31:13

2025-10-15 09:08:27

AI大模型智能體

2025-05-30 03:10:00

AISeePhys多模態(tài)短板

2023-11-07 07:00:37

2023-01-20 17:53:37

云原生K8sRancher

2024-04-08 13:29:52

2025-10-20 09:12:00

2023-10-28 13:29:27

2025-07-17 10:47:33

2023-07-05 09:57:11

2013-05-07 09:47:30

測試MySQLMySQL測試

2024-04-15 13:51:03

模型LLMLLMs

2025-10-15 14:02:29

AI模型自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號

欧美精品一区二区蜜桃| 久久精品亚洲天堂| 国产最新视频在线| 秋霞影院一区二区| 久久久精品999| 91传媒理伦片在线观看| 在线天堂资源www在线污| 国产亚洲制服色| 91免费国产视频| 一级片免费网址| 亚洲欧美日韩第一页| 美女航空一级毛片在线播放| 久久综合久久综合久久综合| 成人av在线亚洲| 国产乱码久久久久久| 精品理论电影在线| 欧美草草影院在线视频| 韩国一区二区av| 日韩免费影院| 欧美高清一级片在线观看| 亚洲已满18点击进入在线看片 | 久久亚洲精品国产亚洲老地址| 天天躁日日躁狠狠躁av| 国产成人精品一区二区三区在线| 午夜精品福利一区二区三区蜜桃| 在线观看日韩羞羞视频| 欧美69xxxxx| 国产成人av一区二区| 国产精品视频播放| 日本一区二区三区精品| 黄色亚洲免费| 久久久国产在线视频| 精品人妻中文无码av在线| 极品束缚调教一区二区网站 | 亚洲天堂网一区| 老牛影视精品| 亚洲人成在线播放网站岛国 | 日本黄色www| 亚洲成人va| 色婷婷综合久久久中文一区二区| 日本大胆人体视频| 好操啊在线观看免费视频| 国产亚洲美州欧州综合国| 国产精品一区二区三区观看| 国产哺乳奶水91在线播放| 美腿丝袜亚洲三区| 自拍偷在线精品自拍偷无码专区| 久久国产一区二区三区| 性欧美一区二区| 台湾佬综合网| 亚洲免费av片| 波多野结衣福利| 任你弄精品视频免费观看| 精品久久99ma| 亚洲少妇中文字幕| 午夜视频一区二区在线观看| 日韩三级高清在线| 国产黑丝在线视频| 日本高清精品| 日韩欧美区一区二| av电影中文字幕| 91成人午夜| 亚洲国产另类久久精品| 日本性生活一级片| 精品三级av| 亚洲九九九在线观看| 女人被狂躁c到高潮| 国产三级精品三级在线观看国产| 精品国产乱码久久久久久久| 一级黄色电影片| 国产主播性色av福利精品一区| 精品福利二区三区| 国产精品久久AV无码| 亚洲美女15p| 中文日韩电影网站| 老熟妇高潮一区二区三区| 亚洲女同中文字幕| 久久久爽爽爽美女图片| www.国产色| 美女视频免费一区| 成人av播放| 四虎在线观看| 国产精品久久久久四虎| 99中文字幕在线观看| 毛片大全在线观看| 五月婷婷激情综合| 黄色一级免费大片| 91精品视频一区二区| 日韩欧美的一区| 久久精品老司机| 亚洲欧美日韩综合在线| 欧美一区二区三区高清视频| 伊人亚洲福利一区二区三区| 精品国产精品国产精品| 99精品国产福利在线观看免费| 国产99久久久欧美黑人 | 巨乳诱惑日韩免费av| 成人福利在线观看| 国产综合视频在线| 国产日韩欧美a| 白白操在线视频| 国产精品高清乱码在线观看 | 日韩美女毛茸茸| a网站在线观看| 91麻豆国产福利在线观看| 亚洲一区三区在线观看| 24小时免费看片在线观看| 日本高清不卡在线观看| 91精品人妻一区二区三区蜜桃2 | 国产亚洲欧洲高清一区| 欧美精品成人久久| 免费看黄色91| 国产乱码精品一区二区三区中文| 岛国最新视频免费在线观看| 亚洲国产日韩一级| 欧美wwwwwww| 美女网站色精品尤物极品姐弟| 综合网日日天干夜夜久久| 久久久美女视频| 久久国产夜色精品鲁鲁99| 韩国成人动漫在线观看| 99在线播放| 欧美亚男人的天堂| 亚洲麻豆一区二区三区| 亚洲精品91| 国产精品网红直播| 同心难改在线观看| 亚洲一区二区四区蜜桃| 午夜国产福利在线观看| 欧美精品一区二区三区中文字幕| 国内精品视频久久| 精品人妻aV中文字幕乱码色欲 | 午夜激情久久| 日韩一区二区福利| 国产性生活视频| 91视频你懂的| 欧美国产亚洲一区| theporn国产在线精品| 美日韩精品视频免费看| 国产一区二区波多野结衣| 国产视频亚洲色图| 四虎永久在线精品无码视频| 女人抽搐喷水高潮国产精品| 欧美极品少妇与黑人| 亚洲av无码国产精品永久一区| 亚洲欧美日韩国产手机在线| 色播五月综合网| 精品国产中文字幕第一页 | dy888午夜| 亚洲人成777| 久久精品国产一区二区电影| 国产一区二区三区四区视频| 国产精品久久国产精麻豆99网站| 国产九九在线视频| 久久免费av| 成人黄色免费在线观看| 免费观看在线午夜影视| 欧美日韩专区在线| 成人精品一二三区| 激情文学综合丁香| 日韩中文字幕亚洲精品欧美| 亚洲精品18| 久久久久中文字幕2018| 特黄视频在线观看| 色综合天天综合给合国产| 日本xxxxxxxxx18| 日本中文一区二区三区| 曰韩不卡视频| 免费观看在线一区二区三区| 欧美国产日韩一区二区在线观看| 丰满人妻一区二区三区四区53| 午夜av一区二区三区| 日韩av在线看免费观看| 麻豆专区一区二区三区四区五区| 中文字幕一区二区三区最新 | 欧美电视剧在线看免费| 国产在线视频在线观看| www久久精品| 99热这里只有精品在线播放| 精品人妻一区二区三区浪潮在线| 黄色工厂这里只有精品| 国产一级特黄a大片99| 国产激情在线播放| 亚洲欧美三级在线| 日本视频一区二区在线观看| 日本免费视频在线观看| 欧美一级片免费看| 日韩xxxxxxxxx| 久久久久久久久99精品| 欧美日韩精品区别| 在线观看的日韩av| 日韩免费电影一区二区三区| 成人综合日日夜夜| 91极品女神在线| 成a人v在线播放| 日韩精品一区国产麻豆| 99久久久久久久久| 亚洲日本韩国一区| 国产偷人妻精品一区| 免费视频一区二区| 缅甸午夜性猛交xxxx| 日本大胆欧美| 国产伦视频一区二区三区| 欧美精选视频一区二区| 欧美黄色www| www.亚洲免费| 亚洲激情成人网| 国产女人18毛片18精品| 日韩欧美成人免费视频| 成人免费黄色小视频| 久久日韩精品一区二区五区| 国产精品探花在线播放| 水蜜桃久久夜色精品一区的特点| 97免费视频观看| 久久亚洲国产| 欧美一级片免费观看| 伊人久久影院| 国产日韩精品视频| 一本大道色婷婷在线| 欧美成人午夜免费视在线看片 | 中文字幕综合一区| 三级在线视频| 欧美精品一区二区三区一线天视频 | 日韩欧美国产精品综合嫩v| 国产九色精品| 婷婷综合国产| 国产在线一区二区三区| 在线成人视屏| 青草青草久热精品视频在线网站 | 亚洲主播在线播放| 国产精品人成电影在线观看| 国产黄色在线播放| 亚洲精品按摩视频| 精品二区在线观看| 欧美日韩成人在线一区| 日韩xxx视频| 色婷婷亚洲精品| 九九精品免费视频| 欧美日韩免费看| 日韩成人在线免费视频| 一区二区三区不卡视频在线观看| 午夜精品久久久久99蜜桃最新版 | 开心九九激情九九欧美日韩精美视频电影| 免费看日本毛片| 亚洲视屏一区| 久青草视频在线播放| 欧美91精品| 2022中文字幕| 伊人成人网在线看| 被灌满精子的波多野结衣| 欧美日韩国产精品一区二区亚洲| 黄色www在线观看| 91精品国产乱码久久久久久久| 一区二区在线观| 久久精品免费一区二区三区| 男人的天堂成人| 自由日本语亚洲人高潮| 粉嫩av一区二区三区天美传媒| 五月天久久久| 青青草免费在线视频观看| 女人天堂亚洲aⅴ在线观看| 久久久久久久久久久久久国产| 亚洲天堂免费| 无码熟妇人妻av在线电影| 99热这里只有精品8| 欧美激情 国产精品| 午夜亚洲影视| 亚洲性生活网站| 精品一区二区在线播放| 亚洲精品免费一区亚洲精品免费精品一区 | 久久久综合九色合综国产精品| 无码人妻aⅴ一区二区三区69岛| 欧美国产一区视频在线观看| 免费成人深夜夜行网站| 一区二区三区不卡在线观看| 国产微拍精品一区| 在线免费观看日本欧美| 91禁在线观看| 精品黑人一区二区三区久久| 天堂91在线| 日韩在线观看免费高清完整版| 在线中文免费视频| 98精品在线视频| 成人影院在线免费观看| 1卡2卡3卡精品视频| 美国成人xxx| 欧美日韩国产成人| 亚洲二区在线播放| 国产精品久久看| 免费在线观看av网址| 欧美午夜视频一区二区| 亚洲综合免费视频| 精品日产卡一卡二卡麻豆| 飘雪影院手机免费高清版在线观看| 中文字幕亚洲图片| 欧美videossex| 国产成人午夜视频网址| 久久久91麻豆精品国产一区| 久久亚洲免费| 一本一道久久a久久精品蜜桃| 女人喷潮完整视频| 国产麻豆成人传媒免费观看| 久久无码人妻精品一区二区三区| 成人欧美一区二区三区1314| 手机看片久久久| 91精品在线一区二区| 日本护士...精品国| 欧美成人剧情片在线观看| 亚洲一二三四| 国产精品毛片va一区二区三区| 欧美丝袜一区| 日韩av新片网| 狠狠网亚洲精品| 精品少妇一区二区三区免费观| 亚洲免费观看高清完整| 国产一级片av| 亚洲成人网在线观看| 好了av在线| 国产精品女主播视频| 亚洲瘦老头同性70tv| 日本久久久网站| 狠狠色丁香婷婷综合久久片| 女女互磨互喷水高潮les呻吟 | 国产一区二区视频免费| 精品1区2区在线观看| 亚洲大胆人体大胆做受1| 国产欧美一区二区三区久久人妖| 亚洲欧洲av| 热99这里只有精品| 成人免费视频国产在线观看| 极品久久久久久| 91精品国产91综合久久蜜臀| 在线观看av黄网站永久| 国产精品男女猛烈高潮激情| 九九热线有精品视频99| 欧美日韩国产精品激情在线播放| 成人免费电影视频| 免费网站看av| 精品国内片67194| 欧美xxxxhdvideosex| 国产v亚洲v天堂无码| 在线观看亚洲| 中文字幕在线视频播放| 亚洲国产va精品久久久不卡综合| 亚洲黄色a级片| 欧美极品欧美精品欧美视频| 97se亚洲国产一区二区三区| 日本精品久久久久久久久久| 不卡高清视频专区| 日韩av无码中文字幕| 亚洲精品按摩视频| 中文字幕影音先锋| 成人免费不卡视频| 久久99久久98精品免观看软件| 日韩一级二级三级| 暖暖在线中文免费日本| 国产乱人伦精品一区二区| 伊人成人在线| 四季av综合网站| 午夜欧美2019年伦理| 手机看片福利永久| 欧美一级淫片aaaaaaa视频| 精品一区91| www.亚洲成人网| 成人免费毛片嘿嘿连载视频| 日韩 欧美 综合| 日韩精品欧美国产精品忘忧草 | 国产日韩在线看| 欧美激情偷拍自拍| 精品人妻一区二区三| 亚洲精品国产一区二区精华液| 国产精品无码在线播放| 久久成人国产精品| 日韩在线视频一区二区三区| 日本中文字幕网址| 26uuu精品一区二区在线观看| 亚洲高清视频免费观看| 最好看的2019年中文视频| 久久99成人| www成人免费| 91麻豆精品一区二区三区| 丰满人妻老熟妇伦人精品| 亚洲图片欧美午夜| 国产一区二区三区亚洲综合| 大胆欧美熟妇xx| 国产欧美一区二区精品久导航 | 国产精品yjizz视频网| 国产精品果冻传媒潘| 日韩avvvv在线播放| 蜜桃视频最新网址| 精品国产一二三区| 中文不卡1区2区3区| 色呦呦网站入口| 成人激情小说乱人伦| 欧美人一级淫片a免费播放| 久久久av一区| 国产不卡av一区二区| 午夜不卡福利视频| 亚洲电影一级黄| 国产片在线观看|