精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn),能力涌現(xiàn)怕不是檢索題庫

人工智能 新聞
斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

只是換一下數(shù)學(xué)題的變量名稱,大模型就可能集體降智??

斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

也就是說,大模型的數(shù)學(xué)推理能力并不是真正掌握了解題邏輯,很可能只是檢索已存儲(chǔ)的題目……

圖片

即使是表現(xiàn)最好的o1-preview,它的成績也從50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也幾乎是全軍覆沒。

圖片

要知道,模型推理能力的穩(wěn)健性可是非常重要的指標(biāo),能代表他們是否真正掌握了解決方法:

圖片

有網(wǎng)友銳評(píng)到:o1的o不會(huì)是overfitting的o吧?(doge)

圖片

還有熱心網(wǎng)友做了解釋,他認(rèn)為模型的搜索空間會(huì)隨著深度指數(shù)級(jí)增長,搜索時(shí)間越長,搜索的難度也會(huì)更高。

圖片
圖片

全新無污染的數(shù)學(xué)測試基準(zhǔn)

LLM在復(fù)雜數(shù)學(xué)問題上的推理能力逐漸成為模型發(fā)展的關(guān)鍵挑戰(zhàn),然而現(xiàn)有的評(píng)估基準(zhǔn),如MMLU、MMMU、GSM8K和MATH等卻面臨著很多問題。

一方面,數(shù)據(jù)污染可能導(dǎo)致模型在評(píng)估中表現(xiàn)虛高,因?yàn)槟P涂赡茉谟?xùn)練過程中接觸到了評(píng)估基準(zhǔn)中的問題。

另一方面,最先進(jìn)的模型在許多現(xiàn)有基準(zhǔn)上已經(jīng)達(dá)到或超過人類水平,這使得這些基準(zhǔn)失去了應(yīng)有的評(píng)估價(jià)值。

對(duì)此,斯坦福研究團(tuán)隊(duì)提出了Putnam-AXIOM基準(zhǔn),專用于評(píng)估模型在解決復(fù)雜數(shù)學(xué)問題上的能力。

圖片

該基準(zhǔn)的原始數(shù)據(jù)集涵蓋了1985-2023年William Lowell Putnam數(shù)學(xué)競賽的236個(gè)問題。

隨便舉個(gè)例題大家感受一下:

圖片

這些題目涵蓋了11個(gè)不同數(shù)學(xué)領(lǐng)域的問題,團(tuán)隊(duì)也進(jìn)行了篩選,確保能產(chǎn)生便于自動(dòng)化評(píng)估的\boxed{}答案。

同時(shí),他們還借鑒MATH數(shù)據(jù)集的方法進(jìn)行模型評(píng)估,并設(shè)計(jì)了一個(gè)等價(jià)函數(shù),可以解決字符串不一致問題、和復(fù)雜的數(shù)學(xué)等價(jià)同質(zhì)化問題。

除此之外,為防止模型在訓(xùn)練過程中遇到Putnam原問題而出現(xiàn)評(píng)估偏差,團(tuán)隊(duì)還引入了功能變異構(gòu)建變異數(shù)據(jù)集。

變異分為變量變化(僅改變量名)和常數(shù)變化(修改數(shù)值屬性)兩類,能生成無限多相同難度的新問題,而且這些問題在互聯(lián)網(wǎng)上沒有現(xiàn)成的答案。

具體的變化形式就像這樣:

圖片

在實(shí)驗(yàn)中,研究人員將1985-2023年的競賽中的236個(gè)問題整理成標(biāo)準(zhǔn)化格式,使用LM Harness評(píng)估框架對(duì)多個(gè)開源模型的SOTA LLMs進(jìn)行評(píng)估。

樣本包括236個(gè)原始問題和52個(gè)變異問題,參與測試的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多種模型。

題目一變,模型集體懵

實(shí)驗(yàn)結(jié)果有些令人意外,模型們的表現(xiàn)都不太樂觀。

首先來看看模型們?cè)谠紨?shù)據(jù)集上的表現(xiàn)。

多數(shù)模型的準(zhǔn)確率都低于10%,曾獲AI數(shù)學(xué)奧林匹克競賽冠軍的NuminaMath僅為4.66%,可見Putnam-AXIOM數(shù)據(jù)集難度真的很高。

圖片

而在變異數(shù)據(jù)集上,模型們的準(zhǔn)確率則顯著下降。

比如在原始數(shù)據(jù)集上表現(xiàn)最好的o1-preview,準(zhǔn)確率為50%,而在變異數(shù)據(jù)集中則降到了33.96%。

也就是說,o1-preview模型在原始問題上表現(xiàn)可能虛高,之前的得分主要是依賴記憶而非真正的推理能力。

排名第二的Claude在原始數(shù)據(jù)集上的準(zhǔn)確率為26.40%,而在變異數(shù)據(jù)集上的準(zhǔn)確率降至18.86%,其他模型的分?jǐn)?shù)也基本都下降了。

圖片

團(tuán)隊(duì)還進(jìn)一步對(duì)OpenAI o1-preview和GPT-4o的答案進(jìn)行了分析。

結(jié)果發(fā)現(xiàn)它們的錯(cuò)誤都比較嚴(yán)重,在邏輯推理和數(shù)學(xué)嚴(yán)謹(jǐn)性方面存在著明顯的缺陷。

下面一起康康幾個(gè)例子。

比如o1-preview在解答問題時(shí)就沒能提供充分的證明,它聲稱m的最大可能值是n,理由是m的上界是2n,但它沒有說明為什么m的值介于n和2n之間不可行。

圖片

而GPT-4o則存在邏輯跳躍和不連貫的推理,比如在下面這道題中,它從邏輯上直接跳轉(zhuǎn)到面積最小的幾何形狀是矩形這一觀點(diǎn),但并沒有證明這一說法的合理性,而是將其默認(rèn)為事實(shí)。

圖片

DeepSeek的模型也在關(guān)鍵步驟思維發(fā)生了跳躍,導(dǎo)致最終結(jié)果失誤。

圖片

看來,提升大模型的數(shù)學(xué)能力還是任重道遠(yuǎn)呀!

不過斯坦福大學(xué)這篇文章中的Putnam-AXIOM基準(zhǔn)的確緩解了現(xiàn)有基準(zhǔn)飽和的問題。

它不僅為評(píng)估模型的數(shù)學(xué)推理能力提供了一個(gè)非常有挑戰(zhàn)性的新方法,還實(shí)現(xiàn)了完全自動(dòng)化評(píng)估、并提供了豐富多樣的變體數(shù)據(jù)集。

團(tuán)隊(duì)也表示,雖然目前變體數(shù)據(jù)集生成過程復(fù)雜耗時(shí),但未來如果能優(yōu)化變體生成方法,將更有助于加速關(guān)于人工推理的研究。

圖片

論文:https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代碼:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-20 13:08:25

2023-12-08 13:22:00

數(shù)據(jù)模型

2023-05-04 12:32:28

模型研究

2024-11-07 15:40:00

2025-01-20 09:28:00

AI工具模型

2024-09-19 17:44:04

2025-01-08 13:08:55

2024-12-31 09:55:23

2024-09-13 09:26:17

2023-06-25 13:28:21

2024-09-24 11:01:03

2024-09-18 09:17:00

OpenAI模型開源

2022-07-14 15:08:23

AI模型

2025-01-13 12:30:58

2024-10-05 00:00:00

2025-07-07 08:38:00

模型推理AI

2024-04-24 09:47:36

2013-01-31 09:45:14

斯坦福超級(jí)電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久蜜臀国产一区二区| 九九热精品视频在线观看| 国产精品传媒入口麻豆| 91色视频在线导航| 久久久精品人妻一区二区三区四| 第一区第二区在线| 色天使色偷偷av一区二区| 亚洲欧美日韩精品久久久 | 五月天综合视频| 亚洲综合视频| 亚洲成人福利片| 五月婷婷一区| 殴美一级特黄aaaaaa| 日本不卡一二三区黄网| 色综合91久久精品中文字幕| 日本黄色特级片| 精品国产亚洲一区二区三区大结局| 五月婷婷激情综合| 中文字幕免费高| 香港一级纯黄大片| 国产精品一区二区在线观看网站 | 国产美女久久| 婷婷久久综合九色综合绿巨人| 亚洲国产日韩欧美| 三级视频在线播放| 国产成人av电影在线观看| 国产精品1234| 少妇一级淫片免费放中国 | 国产淫片av片久久久久久| 中文字幕有码在线观看| 亚洲国产精品黑人久久久| 国产一区二区高清不卡 | 欧美变态口味重另类| 国产wwwxx| 夜鲁夜鲁夜鲁视频在线播放| 一级精品视频在线观看宜春院 | 日本不卡在线| 国产精品污污网站在线观看| 久久另类ts人妖一区二区| www日本高清视频| 狠狠色综合日日| 国产欧美一区二区三区在线看| 精品国产午夜福利| 亚洲一区二区三区高清| 久久免费视频在线观看| 久久久国产精品黄毛片| 这里只有精品在线| 久久精品最新地址| 狂野欧美性猛交| 少妇精品久久久一区二区三区| 亚洲激情成人网| 日韩av手机在线播放| 欧美视频精品全部免费观看| 7777精品伊人久久久大香线蕉| 亚洲激情在线观看视频| 91精品韩国| 欧日韩精品视频| 好男人www社区| 性感美女一区二区在线观看| 日韩欧美在线播放| 国产v亚洲v天堂无码久久久| 欧美xxx性| 欧美在线观看视频一区二区 | 九七影院97影院理论片久久| 91久久免费观看| 色噜噜狠狠永久免费| 成人精品三级| 欧美丰满一区二区免费视频| 免费黄频在线观看| 日韩在线视频一区二区三区| 日韩欧美高清dvd碟片| 精品1卡二卡三卡四卡老狼| 大型av综合网站| 亚洲深夜福利网站| 老司机深夜福利网站| 久久久久久免费视频| 色综合色综合网色综合| 久久久久性色av无码一区二区| 亚洲福利免费| 国产成人综合亚洲| 91午夜交换视频| 福利一区在线观看| 免费看成人午夜电影| 午夜在线播放| 一区二区理论电影在线观看| 男人添女人下面高潮视频| 成人日韩精品| 日韩一区二区高清| 免费看黄色aaaaaa 片| 国内精品久久久久久久久电影网| zzijzzij亚洲日本成熟少妇| 91porn在线视频| 国产精品毛片| 91丨九色丨国产在线| 丰满人妻一区二区三区四区53| 91啪亚洲精品| 免费成人深夜夜行网站视频| 嗯啊主人调教在线播放视频 | 国产精品专区h在线观看| 99久久婷婷国产一区二区三区| 粉嫩欧美一区二区三区高清影视| 欧美激情专区| 青草青在线视频| 91久久久免费一区二区| 极品白嫩的小少妇| 日韩精品1区| 午夜精品在线观看| 国产免费高清视频| 久久精品亚洲一区二区三区浴池| 天天想你在线观看完整版电影免费| 性国裸体高清亚洲| 这里只有精品99re| 美女脱光内衣内裤| 最新国产乱人伦偷精品免费网站| 国产精品一区二区三区毛片淫片| 日韩在线观看视频网站| 最新国产の精品合集bt伙计| 国产精品视频一区二区三区四区五区| 久久久久九九精品影院| 亚洲天堂av女优| 国产精品老女人| 国产91综合一区在线观看| 五月天综合网| 户外露出一区二区三区| 亚洲国产精品久久久久秋霞蜜臀| 精品国产精品国产精品| 男人的j进女人的j一区| 久久久久久亚洲精品不卡4k岛国| 国语对白在线刺激| 欧美一级欧美三级| www.av免费| 蜜桃精品视频在线观看| 欧美日韩视频在线一区二区观看视频| heyzo在线| 精品久久人人做人人爱| a在线视频播放观看免费观看| 日本午夜一本久久久综合| 久久久久久草| 岛国av在线播放| 亚洲第一精品夜夜躁人人躁| 日韩av免费在线观看| 日本一区二区欧美| 床上的激情91.| 久久久天堂国产精品| 午夜不卡一区| 日韩专区中文字幕| 一级特黄aaa大片| 中文成人综合网| 国产免费又粗又猛又爽| 精品久久久久久久| 国产精品a久久久久久| 国产人成在线视频| 色婷婷亚洲精品| 中国女人特级毛片| 蜜臀av国产精品久久久久| 性欧美videosex高清少妇| 日韩免费小视频| а√天堂中文资源在线bt| 国产劲爆久久| 欧美另类极品videosbest最新版本 | 二区视频在线观看| 26uuu成人网一区二区三区| 中文字幕无码精品亚洲35| 日韩激情网站| 国产成人在线一区| 欧洲美女少妇精品| 欧美一区二区精品| 麻豆成人在线视频| 不卡欧美aaaaa| 国产欧美高清在线| 99国产精品免费视频观看| 国产日产久久高清欧美一区| 国产黄色在线观看| 精品国产凹凸成av人导航| 日韩xxx高潮hd| 久久精品亚洲麻豆av一区二区| 天天插天天操天天射| 久久久久久美女精品| 国产精品久久精品视| 国产精品迅雷| 久久精品在线视频| 天堂中文在线资源| 欧美性猛交xxxx乱大交退制版| 乱老熟女一区二区三区| 成人免费视频一区二区| 亚洲 中文字幕 日韩 无码| 久久久久久久久久久9不雅视频 | 国产极品jizzhd欧美| 国内精品久久久久久野外| 亚洲成人在线网| 中国女人一级一次看片| 亚洲一区影音先锋| 少妇无套高潮一二三区| 国产91高潮流白浆在线麻豆| 人妻有码中文字幕| 影音先锋成人在线电影| 国产亚洲一区在线播放 | 巨乳诱惑日韩免费av| 欧美 日韩 国产 在线观看| 麻豆成人入口| 91久久中文字幕| 亚洲欧洲自拍| 欧美人与物videos| 爱爱爱免费视频在线观看| 精品国产百合女同互慰| 国产精品久久久久毛片| 日韩欧美国产网站| 国产无套粉嫩白浆内谢| 国产精品护士白丝一区av| www.男人天堂| 国产麻豆精品一区二区| 国产成人av影视| 国产情侣一区| 97干在线视频| 91精品国产乱码久久久久久久 | 第一页在线观看| 亚洲国产精品高清久久久| 国产精品久久久久久久久毛片| 欧美日韩亚洲天堂| 麻豆一区二区三区精品视频| 亚洲欧洲在线观看av| 中文字幕在线1| 99久久精品国产毛片| 欧美污在线观看| 久久国产视频网| 亚洲激情在线观看视频| 久久蜜桃资源一区二区老牛| 水蜜桃色314在线观看| 一区二区三区在线观看免费| 亚洲自拍的二区三区| 欧美日韩国产免费观看视频| 久久综合伊人77777麻豆| 黄色成人美女网站| 高清国产一区| 欧美区一区二区| 97人人澡人人爽| 精品久久国产一区| 91亚洲一区精品| 国产一区 二区| 成人黄色av播放免费| 国产91欧美| 国产精品美女无圣光视频| 日本免费久久| 国产成人精品免费视频| 456亚洲精品成人影院| 国产ts一区二区| 蜜桃精品在线| 国产噜噜噜噜久久久久久久久| 主播大秀视频在线观看一区二区| 国产精品狠色婷| a成人v在线| 91精品视频在线免费观看| 一区二区三区| 91超碰在线免费观看| 日韩在线成人| 精品人伦一区二区三区| 香蕉久久夜色精品国产更新时间| 欧美一级片免费观看| 欧美一二区在线观看| 一区二区免费在线视频| 99久久www免费| 热久久最新地址| 激情综合亚洲| 日韩免费毛片视频| 美女视频黄频大全不卡视频在线播放| 日韩av在线中文| 国产乱人伦偷精品视频不卡| 99riav国产精品视频| 91在线码无精品| 美国黄色特级片| 亚洲欧美偷拍卡通变态| 国产真实乱人偷精品视频| 大桥未久av一区二区三区| 亚洲av无码精品一区二区| 欧美日韩夫妻久久| 性色av蜜臀av| 日韩久久午夜影院| 在线播放日本| 高清欧美电影在线| 日本电影欧美片| 亚洲一区二区三区久久| 久久91在线| 亚洲bbw性色大片| 欧美精品aa| 麻豆av免费在线| 亚洲精品网站在线| 国产美女av一区二区三区| 亚洲精品鲁一鲁一区二区三区| 99国产精品国产精品久久| 免费网站在线高清观看| 亚洲精品水蜜桃| 精品成人av一区二区在线播放| 欧美日韩美女一区二区| 国精产品一品二品国精品69xx| 亚洲网在线观看| 电影k8一区二区三区久久| 国产精品69久久| 国产精品一区二区三区在线播放| 中文天堂在线视频| 7777精品伊人久久久大香线蕉经典版下载| www久久久com| 国产三级久久久| 久久国产精品国语对白| 欧美天堂在线观看| 国产av无码专区亚洲av| 亚洲人成电影网站色| 免费av不卡在线观看| 国产精品手机播放| 欧美调教网站| 久久久久久久久影视| 视频精品一区二区| 97人妻精品一区二区三区免费| 国产精品伦一区| 亚洲精品中文字幕乱码三区91| 日韩欧美中文字幕精品| www.av在线| 热久久这里只有| 国产欧美精品久久久| 日韩av免费| 国产精品一区在线播放| 婷婷综合伊人| 九色91popny| 91丨porny丨蝌蚪视频| 好吊色视频在线观看| 欧美日韩五月天| 国产小视频在线观看| 欧美一乱一性一交一视频| av综合网址| 四虎4hu永久免费入口| 久久er精品视频| 亚洲一区二区三区日韩| 懂色av中文一区二区三区天美| 蜜桃视频污在线观看| 九九视频直播综合网| 国产精品成人**免费视频| 亚洲资源在线网| 激情深爱一区二区| 成人黄色短视频| 欧美人与性动xxxx| 美女羞羞视频在线观看| 国产精品免费一区二区三区都可以| 女厕嘘嘘一区二区在线播放 | 精品视频一区二区三区免费| 国产精品天堂| 国产精品男人爽免费视频1| 欧美影院三区| 国产区二区三区| 国产精品国产三级国产三级人妇 | 蜜臀av国产精品久久久久| 懂色av粉嫩av浪潮av| 欧美日韩亚洲另类| 黄视频在线观看网站| 97人人干人人| 亚洲精品字幕| 精品久久久久久中文字幕人妻最新| 天天综合日日夜夜精品| 青青青免费视频在线2| 国产成人精品国内自产拍免费看| sdde在线播放一区二区| 亚洲精品www.| 亚洲免费在线视频一区 二区| 亚洲精品国产精品乱码不卡| 久久免费在线观看| 国产毛片一区二区三区| 女同激情久久av久久| 亚洲一区二区视频在线| 天堂网在线资源| 国产精品第10页| 欧美在线高清| 在线视频 日韩| 欧美性猛片xxxx免费看久爱| 在线免费观看a视频| 精品免费日产一区一区三区免费| 久久九九电影| 91高清免费看| 精品无码久久久久久国产| 国产成人77亚洲精品www| 992tv快乐视频| 91免费小视频| 一级全黄少妇性色生活片| 高清亚洲成在人网站天堂| 你懂的视频欧美| 国产伦精品一区二区三区妓女下载| 婷婷国产在线综合| 免费在线观看黄| 久久精品国产一区二区三区不卡| 免费观看30秒视频久久| 欧美激情视频在线观看| 亚洲一区电影| 欧美成人免费高清视频| 一区二区三区在线视频观看 | 91成人小视频| 少妇人妻无码专区视频| 国产精品沙发午睡系列990531| 亚洲欧美国产高清va在线播放| 国产91精品在线播放| 欧美日本亚洲韩国国产| 国产三级av在线播放| 精品久久国产老人久久综合| 精品国产欧美日韩一区二区三区|