精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為防AI刷題,Nature等頂刊最新封面被做成數(shù)據(jù)集,考驗(yàn)?zāi)P涂茖W(xué)推理能力|上海交通大學(xué)

人工智能 新聞
上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合,提出了MAC(多模態(tài)學(xué)術(shù)封面)基準(zhǔn):既然科學(xué)知識(shí)本身在不斷演進(jìn),為什么不用最新的科學(xué)內(nèi)容來測試AI呢?

近年來,以GPT-4o、Gemini 2.5 Pro為代表的多模態(tài)大模型,在各大基準(zhǔn)測試(如MMMU)中捷報(bào)頻傳,紛紛刷榜成功。

然而,這些令人矚目的進(jìn)展也帶來了一個(gè)愈發(fā)嚴(yán)峻的問題:當(dāng)現(xiàn)有的“題庫”逐漸被提前預(yù)訓(xùn)練進(jìn)模型,我們?nèi)绾尾拍艹掷m(xù)、準(zhǔn)確地評估這些頂尖AI的真實(shí)能力?

為了應(yīng)對這一挑戰(zhàn),上海交通大學(xué)王德泉教授課題組巧妙地將“動(dòng)態(tài)基準(zhǔn)”這一理念與不斷更新的科學(xué)前沿相結(jié)合,提出了MAC(多模態(tài)學(xué)術(shù)封面)基準(zhǔn):既然科學(xué)知識(shí)本身在不斷演進(jìn),為什么不用最新的科學(xué)內(nèi)容來測試AI呢?

研究團(tuán)隊(duì)利用《Nature》《Science》《Cell》等188種頂級期刊的最新封面作為測試素材,從超過25,000個(gè)圖文對中構(gòu)建測試集。這些期刊每周或每月都會(huì)發(fā)布新刊,每期封面都經(jīng)過頂尖科學(xué)家和專業(yè)編輯精心打造,蘊(yùn)含著最前沿、最復(fù)雜的科學(xué)概念,從而評測多模態(tài)大模型是否能夠理解藝術(shù)化表達(dá)的視覺元素與科學(xué)概念之間的深層關(guān)聯(lián)。

結(jié)果發(fā)現(xiàn),包括GPT-5-thinking在內(nèi)的頂尖模型在面對這些最新科學(xué)內(nèi)容時(shí)表現(xiàn)出了令人意外的局限性。表現(xiàn)最好的Step-3,準(zhǔn)確率也僅為79.1%,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%

這項(xiàng)研究將發(fā)表在2025年語言模型大會(huì)(COLM)上。

測試設(shè)計(jì):精心設(shè)計(jì)的”語義陷阱”

MAC的核心挑戰(zhàn)在于:如何確保AI不能通過膚淺的視覺特征“蒙對”答案,而是更加深入的建立科學(xué)概念的理解。

研究者們設(shè)計(jì)了兩種測試任務(wù):

  • 看圖選文:給出期刊封面,從四個(gè)封面故事中選出對應(yīng)的文本;
  • 看文選圖:給出封面故事,從四張封面中選出最匹配的圖片。

關(guān)鍵在于“陷阱”的設(shè)計(jì),為了防止AI通過膚淺特征作答,研究者們利用先進(jìn)的嵌入模型(如CLIP)精心篩選出三個(gè)“語義干擾項(xiàng)”,從而使得它們在表面上與正確答案極為相似,只有真正理解科學(xué)概念的AI才能做出正確選擇。

舉個(gè)例子,如果正確的封面故事是關(guān)于“癌癥耐藥性機(jī)制”,那么干擾項(xiàng)可能是“癌癥產(chǎn)生機(jī)理”或“癌細(xì)胞”——都與癌癥相關(guān),但科學(xué)概念完全不同。

盡管頂尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能準(zhǔn)確識(shí)別出選項(xiàng)圖片中的“藥丸”和“處方單”等視覺元素,但它們都未能將這些元素與封面故事中核心的“耐藥性”或“癌癥治療機(jī)制”等科學(xué)概念聯(lián)系起來,最終導(dǎo)致選擇錯(cuò)誤。

此外,研究者們還構(gòu)建了MAC-2025年度快照,專門選取2024年1月至2025年2月發(fā)布的最新期刊內(nèi)容,并計(jì)劃每年更新,從而盡可能減少評估中的數(shù)據(jù)污染問題,確保即使對最新的模型也能保持足夠的挑戰(zhàn)性。

頂尖AI也會(huì)“理解偏差”

研究團(tuán)隊(duì)使用MAC-2025測試集,對包括GPT-4o和Step-3在內(nèi)的業(yè)界領(lǐng)先模型進(jìn)行了全面評估。

結(jié)果令人意外:即便是表現(xiàn)最強(qiáng)的Step-3,準(zhǔn)確率也僅為79.1%,這與它們在其他基準(zhǔn)上近乎完美的表現(xiàn)形成了鮮明對比。更有趣的是,開源模型Qwen2.5-VL-7B準(zhǔn)確率僅為56.8%。

同時(shí),GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出當(dāng)前多模態(tài)AI的一個(gè)關(guān)鍵局限:雖然在視覺識(shí)別方面已經(jīng)相當(dāng)出色,但在需要跨模態(tài)深層推理的科學(xué)理解任務(wù)上,距離人類水平還有相當(dāng)差距。

DAD方法:讓AI學(xué)會(huì)“分步思考”

面對這一挑戰(zhàn),研究團(tuán)隊(duì)沒有止步于發(fā)現(xiàn)問題,而是進(jìn)一步提出了DAD的解決方案。

DAD的核心思想是“分工協(xié)作”:

  • 描述階段:讓多模態(tài)大模型(如GPT-4o)對封面圖片進(jìn)行詳細(xì)的視覺描述,并生成偽思維鏈;
  • 推理階段:將描述結(jié)果和原始問題一起交給專門的語言推理模型,由它進(jìn)行高層分析并做出最終選擇。

這種結(jié)構(gòu)化的兩步法顯著提升了模型表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,使用DAD方法后,多個(gè)模型的準(zhǔn)確率都獲得了明顯提升,證明了推理時(shí)間擴(kuò)展在多模態(tài)科學(xué)理解任務(wù)中的有效性。

有趣的是,這種”先看再想”的方式,某種程度上模擬了人類專家在面對復(fù)雜科學(xué)問題時(shí)的思維過程——先仔細(xì)觀察現(xiàn)象,再結(jié)合背景知識(shí)進(jìn)行深入分析。

雙重動(dòng)態(tài)機(jī)制:確保持續(xù)挑戰(zhàn)性

傳統(tǒng)基準(zhǔn)測試的最大問題是“一次性”——發(fā)布后內(nèi)容固定,很快就會(huì)被模型“學(xué)會(huì)”。MAC通過動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)問題構(gòu)建兩種機(jī)制提出了一種動(dòng)態(tài)基準(zhǔn)構(gòu)建范式:

動(dòng)態(tài)數(shù)據(jù):時(shí)間推進(jìn)帶來的自然難度提升

研究團(tuán)隊(duì)做了一個(gè)巧妙的對比實(shí)驗(yàn):讓模型分別在早期期刊數(shù)據(jù)(MAC-Old)和最新數(shù)據(jù)(MAC-2025)上測試。結(jié)果發(fā)現(xiàn),所有模型在處理新知識(shí)時(shí)都表現(xiàn)出明顯的性能下降

這說明科學(xué)知識(shí)的自然演進(jìn)本身就能為基準(zhǔn)測試提供持續(xù)的挑戰(zhàn)性。隨著新理論、新發(fā)現(xiàn)、新技術(shù)的不斷涌現(xiàn),期刊封面所展現(xiàn)的科學(xué)概念也在持續(xù)更新,自然而然地對AI模型形成新的考驗(yàn)。

動(dòng)態(tài)問題構(gòu)建:利用最新AI技術(shù)提升測試難度

更有意思的是第二種機(jī)制:研究者們保持MAC-2025的題目內(nèi)容不變,僅使用更強(qiáng)的嵌入模型(如與論文同期發(fā)布的SigLip2)重新生成語義干擾項(xiàng)。

結(jié)果顯示,所有模型的準(zhǔn)確率都出現(xiàn)了進(jìn)一步的下滑。這揭示了一個(gè)有趣的現(xiàn)象:AI領(lǐng)域的進(jìn)步不僅能提升模型能力,也能同步提升測試難度

當(dāng)我們有了更好的語義理解工具時(shí),就能構(gòu)造出更加精妙的“陷阱”,讓基準(zhǔn)測試始終保持在技術(shù)發(fā)展的前沿。這兩種機(jī)制的結(jié)合,確保了MAC能夠與科學(xué)發(fā)展和AI技術(shù)發(fā)展“齊頭并進(jìn)”,避免了傳統(tǒng)靜態(tài)基準(zhǔn)容易過時(shí)的問題。

展望未來,MAC基準(zhǔn)有望發(fā)展成為一個(gè)更加完善的評估平臺(tái)。研究團(tuán)隊(duì)計(jì)劃不僅擴(kuò)展到更多科學(xué)期刊,還將考慮加入其他形式的動(dòng)態(tài)科學(xué)內(nèi)容,如最新的學(xué)術(shù)會(huì)議論文、科學(xué)新聞等。

同時(shí),隨著AI技術(shù)的快速發(fā)展,MAC基準(zhǔn)本身也需要通過年度為周期的持續(xù)發(fā)布,來實(shí)現(xiàn)基準(zhǔn)測試的持續(xù)演進(jìn)。

當(dāng)AI的能力不斷逼近人類時(shí),我們需要的正是這樣能夠與科學(xué)發(fā)展和技術(shù)進(jìn)步一同演進(jìn)的“試金石”,讓我們更真實(shí)地理解AI的能力邊界,也更清晰地看到通往真正智能的道路。

作者簡介

論文第一作者是上海交通大學(xué)博士研究生蔣沫晗。他的研究方向包括多模態(tài)大模型,大模型智能體等。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉,他本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。他的研究工作發(fā)表在CVPR、ICCV、ECCV、ICLR、ICML、ICRA、IROS等國際頂級會(huì)議,近五年論文谷歌學(xué)術(shù)總引用次數(shù)12000余次,H-index23。

項(xiàng)目鏈接:https://github.com/mhjiang0408/MAC_Bench

論文地址:https://arxiv.org/pdf/2508.15802

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-17 08:43:00

模型推理訓(xùn)練

2024-08-14 14:00:00

模型框架

2021-12-02 15:57:46

AI 數(shù)據(jù)人工智能

2022-09-19 15:53:20

AI圖片

2010-02-06 09:15:14

ACMICPC

2025-04-25 10:57:39

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-08-11 17:58:00

AI圖像生成數(shù)據(jù)

2021-07-08 15:30:21

AI 計(jì)算人工智能

2025-07-02 08:50:00

AI智能體模型

2025-05-30 09:10:00

2025-04-25 09:22:44

2025-02-03 12:21:51

2024-09-09 08:30:00

2025-07-28 09:06:00

2023-09-05 17:42:18

2015-03-16 11:54:55

云計(jì)算

2023-06-05 10:01:18

模型測評

2024-04-16 12:17:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

免费看欧美美女黄的网站| 9999久久久久| 亚洲欧美一区二区三区极速播放 | 欧美办公室脚交xxxx| 久久久欧美精品sm网站| 国产在线观看一区二区三区| 黄视频网站免费看| 啪啪激情综合网| 欧美日韩亚洲国产综合| 免费在线观看视频a| 91啦中文在线| 成人av电影在线| 国产精品无码专区在线观看 | 在线亚洲一区二区| 日韩中文字幕亚洲精品欧美| 嫩草精品影院| 国产成人精品一区二区三区网站观看| 欧美一区深夜视频| 国产一区二区视频在线观看免费| 亚洲大片精品免费| 精品免费国产二区三区 | www.国产高清| 欧美国产激情| 日韩在线免费观看视频| 亚洲第一黄色网址| 视频二区欧美毛片免费观看| 欧美熟乱第一页| 国产99久久九九精品无码| 91高清在线观看视频| 国产精品美女一区二区在线观看| 日本视频中文字幕一区二区三区| 一区二区三区高清国产| 手机免费看av片| 国产成人免费视频网站视频社区| 欧洲生活片亚洲生活在线观看| aa在线观看视频| 国产第一页在线视频| 综合久久久久久| 亚洲欧洲精品一区二区| 都市激情在线视频| 2014亚洲片线观看视频免费| 国产精品免费一区二区| 国产高清精品软件丝瓜软件| 麻豆精品一区二区三区| 国产精品美女www| 91video| 伊人精品在线| 久久久亚洲成人| 精品爆乳一区二区三区无码av| 91精品国产自产在线观看永久∴| 色悠悠久久久久| av免费播放网站| 欧美日韩水蜜桃| 在线日韩中文字幕| 黄色激情小视频| 91亚洲人成网污www| 最新的欧美黄色| 精品国产一区二区三区久久久 | 欧美三级在线观看视频| 在线中文免费视频| 亚洲一区免费在线观看| 国产肉体ⅹxxx137大胆| 国产色婷婷在线| 午夜私人影院久久久久| 男人的天堂狠狠干| 亚洲天堂导航| 在线观看视频91| 欧美美女一级片| 国产免费av国片精品草莓男男| 欧美一区二区三区视频| 日本少妇激三级做爰在线| 日韩三级精品| 亚洲福利在线视频| 国产 欧美 在线| 欧美中文一区二区| 久久综合久久八八| 日本少妇做爰全过程毛片| 国产日韩欧美一区| 国产精品久久久久久av福利软件| 国产精品爽爽久久久久久| 国产精品一区二区视频| 国产一级特黄a大片99| 日本护士...精品国| 国产亚洲欧美日韩在线一区| 亚洲精品乱码视频| 国产一二区在线| 欧美日韩加勒比精品一区| 不卡av免费在线| 午夜免费欧美电影| 国产丝袜一区视频在线观看 | 一区二区三区影院| 黄色影院一级片| 福利一区二区三区视频在线观看| 日韩一区二区麻豆国产| 久久久久国产精品区片区无码| 精品久久中文| 欧美日韩高清区| 日本熟妇一区二区三区| 国产精品亚洲综合一区在线观看| 蜜桃免费一区二区三区| 欧美成人三区| 欧美日韩国产在线播放| 午夜激情影院在线观看| 亚洲人成网站77777在线观看| 久久亚洲春色中文字幕| 久久久久99精品成人片我成大片 | 男人天堂久久久| 婷婷综合另类小说色区| 久久久久久综合网| 综合伊思人在钱三区| 九九精品视频在线| 日韩乱码一区二区三区| 不卡一区中文字幕| 黄频视频在线观看| 欧美日韩美女| 亚洲国产高清自拍| 欧美一区免费观看| 日韩1区2区日韩1区2区| 激情久久av| a级网站在线播放| 在线观看www91| 午夜剧场免费看| 欧美一区在线看| 国产日产久久高清欧美一区| 青青草手机在线| 亚洲国产成人av| 美女被爆操网站| 久久精品影视| 91精品免费久久久久久久久| 久蕉在线视频| 色综合天天综合网天天狠天天| 久久久久无码国产精品一区李宗瑞| 日韩欧美视频在线播放| 国产精品第一页在线| 无码国产色欲xxxx视频| 亚洲午夜影视影院在线观看| 黄色片子免费看| 亚洲女同一区| 91在线视频免费| 激情在线小视频| 777午夜精品视频在线播放| 少妇视频在线播放| 免费观看久久久4p| 亚洲精品tv久久久久久久久| 催眠调教后宫乱淫校园| 亚洲精品合集| 人人做人人澡人人爽欧美| 亚洲色图 校园春色| 精品国产乱码久久久久久虫虫漫画| 久久久久无码国产精品一区李宗瑞 | 麻豆天美蜜桃91| 九九国产精品视频| 熟女熟妇伦久久影院毛片一区二区| 欧美高清xxx| 久久香蕉国产线看观看网| 国产精品无码在线播放| 亚洲免费在线看| 国产chinesehd精品露脸| 国一区二区在线观看| 国精产品一区二区| 裤袜国产欧美精品一区| 在线观看亚洲视频| 一区二区三区午夜| 亚洲蜜臀av乱码久久精品蜜桃| 日本黄色www| 在线不卡亚洲| 久久婷婷人人澡人人喊人人爽| 亚洲国产欧美日本视频| 亚洲午夜小视频| 国产精品毛片一区二区在线看舒淇| 亚洲六月丁香色婷婷综合久久 | ...xxx性欧美| 久久人妻少妇嫩草av蜜桃| 伊人久久大香线蕉综合热线 | 亚洲av成人精品一区二区三区| 日韩一区二区免费看| 欧美午夜视频在线| 成人在线视频免费| 欧美夫妻性生活视频| 手机亚洲第一页| 欧美日韩国产免费| 日本网站免费观看| 国产精品青草综合久久久久99| 亚洲第一成肉网| 亚洲一区观看| 一区在线电影| 欧美一区二区三区久久| 国产精品一区久久久| 麻豆av在线免费观看| 亚洲天堂av在线免费| 99热这里只有精品5| 欧美性猛交xxxx富婆弯腰| 欧美手机在线观看| 久久一留热品黄| 日本高清免费观看| 久久成人亚洲| 菠萝蜜视频在线观看入口| 国产成人1区| 成人av蜜桃| 国产精品.xx视频.xxtv| 97在线观看视频国产| 求av网址在线观看| 日韩极品精品视频免费观看| 国产一区二区在线视频聊天| 精品成人av一区| 免费在线黄色网| 国产日产欧美一区| 尤物网站在线观看| 韩国av一区二区三区| 欧美视频免费播放| 黄色一区二区三区四区| 日本一区二区免费高清视频| 神马久久影院| 国产富婆一区二区三区| 亚洲a成人v| 国产精品成熟老女人| 日本不卡免费高清视频在线| 久久91超碰青草是什么| 日韩av中文| 亚洲全黄一级网站| 天堂中文在线观看视频| 欧美xfplay| 999国产精品视频免费| 欧美日韩国产区一| 中文字幕一区二区三区免费看| 欧美日韩视频在线| 国产一级一片免费播放| 亚洲美女在线一区| 精品无码久久久久成人漫画| 中文一区二区完整视频在线观看| www.狠狠爱| 久久久国产综合精品女国产盗摄| aaaa黄色片| 成人一区二区在线观看| 成人高清在线观看视频| 韩国欧美国产一区| 黄色小视频免费网站| 麻豆成人久久精品二区三区红| 国产福利影院在线观看| 麻豆精品91| 女性隐私黄www网站视频| 久久亚洲视频| 国产精品无码av无码| 日韩国产欧美三级| 亚洲xxxx2d动漫1| 久久精品国产亚洲高清剧情介绍| 欧美三级理论片| 日韩精品成人一区二区在线| 国产又粗又长又大的视频| 日本va欧美va精品| 人人干人人干人人| 久久99久久99精品免视看婷婷| 国产一区二区在线免费播放| 理论片日本一区| 伊人国产精品视频| 懂色av一区二区三区蜜臀 | 精品淫伦v久久水蜜桃| 国产亚洲一区二区三区在线播放| 牛牛精品成人免费视频| 日本高清不卡一区二区三| 精品久久电影| 不卡中文字幕在线| 欧美三级午夜理伦三级中文幕| 青青草精品视频在线| 欧美专区在线| 57pao国产成永久免费视频| 国产成人在线视频网址| 性久久久久久久久久久| 久久久www成人免费毛片麻豆| 国产视频不卡在线| 亚洲一区二区视频在线观看| 国产午夜在线播放| 在线精品视频一区二区| 夜夜爽8888| 亚洲成年人在线播放| 黄色软件在线| 久久久精品影院| 国产理论在线| 国产精品入口福利| 久久国产精品免费一区二区三区| 国产乱码精品一区二区三区不卡| 米奇777超碰欧美日韩亚洲| 亚洲精品久久区二区三区蜜桃臀| 欧美日韩免费| 久久久久久久久久久久久久国产| 国产一区二区三区免费在线观看| 欧美肉大捧一进一出免费视频| 久久久久9999亚洲精品| 我家有个日本女人| 欧美性猛交xxxx黑人| 99热在线只有精品| 亚洲人成网7777777国产| 国产在线看片| 国产va免费精品高清在线观看| 国产午夜久久av| 色噜噜色狠狠狠狠狠综合色一| 欧美三区美女| 欧美精品aaaa| 99久久精品费精品国产一区二区| 国产成人免费在线观看视频| 性做久久久久久久久| 亚洲天堂国产精品| 亚洲毛片一区二区| 日本片在线观看| 国产中文欧美精品| 中文精品一区二区| 日本一级黄视频| 精品一区二区成人精品| 精品人妻无码一区二区三区| 亚洲激情中文1区| 中文字幕无线码一区| 亚洲精品中文字| 波多野结衣中文字幕久久| 国产在线日韩在线| av永久不卡| 国产在线精品91| 国产91色综合久久免费分享| 69xxx免费| 欧美性一区二区| 人人九九精品| 欧美性视频精品| 国产成人精品亚洲线观看| 中国一级黄色录像| 麻豆成人av在线| 少妇太紧太爽又黄又硬又爽小说| 色综合久久综合网| 五月婷婷六月丁香| 韩国v欧美v日本v亚洲| 亚洲日本va| 日韩视频在线免费播放| 久久99精品久久只有精品| 日本一二三不卡视频| 91九色02白丝porn| 麻豆app在线观看| 国产999在线观看| 九九综合在线| 丰满少妇被猛烈进入高清播放| www.欧美日韩| 国产黄色片免费看| 日韩精品在线免费| 天堂а√在线最新版中文在线| 精品亚洲欧美日韩| 99国产精品久久久久久久成人热| 精品视频站长推荐| 欧美日韩亚洲视频一区| 天堂中文资源在线| 欧美在线一区二区视频| 国产在视频线精品视频www666| 日本成人在线免费视频| 97精品国产露脸对白| 激情五月婷婷网| 国产亚洲欧美另类中文| 91九色综合| 天堂av免费看| 国产suv一区二区三区88区| 国产一级二级三级视频| 日韩国产欧美精品一区二区三区| 最新欧美色图| 亚洲精品中文字幕在线| 国模大尺度一区二区三区| 免费网站观看www在线观| 亚洲成**性毛茸茸| 手机在线理论片| 日韩欧美三级电影| 精品一区二区免费在线观看| 中文字幕av免费在线观看| 亚洲国产精品电影在线观看| 在线观看福利电影| 亚洲精品中字| 成人在线视频一区| 伊人久久久久久久久久久久| 中文字幕一区二区精品| 91精品久久久久久综合五月天 | 日本免费久久| 中文字幕剧情在线观看一区| 国产成人啪午夜精品网站男同| 国产高潮久久久| 久久久国产成人精品| 人人网欧美视频| 免费一区二区三区在线观看| 一区二区三区四区亚洲| 国产小视频免费在线观看| 成人久久18免费网站图片| 一本色道久久综合亚洲精品高清| 国产一二三av| 日韩经典一区二区三区| 99久热在线精品视频观看| heyzo亚洲| 中文字幕中文字幕一区| 五月婷婷六月丁香| 成人信息集中地欧美| 中文高清一区| 亚洲AV成人无码精电影在线| 亚洲福利在线播放| 亚洲在线资源| 女人另类性混交zo| 亚洲永久免费av| 日本不卡三区| 久久一区二区精品| 大桥未久av一区二区三区中文|