精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI七個月突破數學家“圍剿”反超人類!14位數學家深挖原始推理token:不靠死記硬背靠直覺

人工智能 新聞
FrontierMath官方Epoch AI邀請14位數學家,深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄。

從只能答對2%的題目,到在超難數學題集中刷下22%得分,甚至超過人類團隊平均水平,大模型需要多長時間?

現在,令數學家們都驚訝的結果已經塵埃落定:

7個月

圖片

發生在大名鼎鼎的“專為為難大模型而生的”FrontierMath基準測試上的這一幕,在激起熱議同時,也引發了新的思考:

大模型們是怎么做到的?

FrontierMath:包含300個數學問題,難度范圍覆蓋本科高年級到菲爾茲獎得主都說難的水平。

最新進展是,FrontierMath官方Epoch AI邀請14位數學家,深入分析了o3-mini-high在應對這些數學難題時產生的29條原始推理記錄

他們發現:

  • o3-mini-high絕非靠死記硬背解題,相反,它表現出了極強的知識儲備;
  • o3-mini-high的推理更多依靠直覺,而非精確的證明。

同時,他們也挖掘出了大模型當前的局限性,比如,缺乏創造力和理解深度。

官方是這樣總結的:

o3-mini-high可以被概括為:一款博學但以直覺為基礎的推理機,但缺乏職業數學家的創造力和形式感,并且往往絮絮叨叨啰啰嗦嗦。

基于直覺的歸納推理機

具體來說,在29條推理記錄中,有13次o3-mini-high得到了正確的結論,剩下的16條則導向了失敗的結果。

先來看o3-mini-high是如何成功的。

數學家們發現,一個關鍵因素是o3-mini-high極其博學

它正確地擴展了問題的數學背景,其中涉及到非常高級的概念。

問題涉及的一般知識,以及對問題的理解,對o3-mini-high而言不構成解題的瓶頸。

這并不是說o3-mini-high靠的是死記硬背

相反,數學家們發現,即使題目故意掩蓋了解決問題所需的技巧,o3-mini-high依然能夠很好地利用正確的定理來獲取進展——

在大概三分之二的問題上,o3-mini-high在相關數學文獻調用方面,都取得了至少3分(滿分5分)的成績。

圖片

另外一個有意思的發現是,相比于精確的推導,o3-mini-high看上去更依賴直覺,“具有數學家一樣的好奇心”。

一位數學家指出:

該模型的思維方式顯得有點非正式。一開始的思路表述通常比較粗糙,語言不夠嚴謹,并且存在一些不符合數學論文要求的corner case。

也就是說,o3-mini-high往往不會像數學家們一樣,對數學問題進行形式化的、嚴謹的論證,而是跳過一大串步驟直接猜測最終答案。

舉個例子,在一道題中,數學家們發現o3-mini-high通過非正式推理得出了一個正確猜想,但它并沒有去證明這個猜想,還直接把這個猜想拿來解決問題了。

雖然最終答案正確,但在數學家們看來,這是在“作弊”。

圖片

為何如此?官方認為原因并不是簡簡單單的“模型偷懶”:有數學家指出,必要時模型并不害怕計算和編寫代碼,盡管它總體上還是“基于直覺”。

一種可能性是,預訓練階段,在“形式推理”方面,模型被投喂的訓練數據并不充足。

模型局限性

寫完解直接給答案,讓人有點聯想到那個男人——

圖片

咳咳,不過事實上,缺乏形式精確性也正是導致o3-mini-high在許多情況下解題失敗的原因。

比如,有時候o3-mini-high大體上思路是正確的,卻因為未能建立最后的關鍵聯系而推理失敗。

在一道分割理論問題中,它距離答案只有一步之遙。出題者指出:

要是它能把從n=0到[已編輯]的輸出求和,答案就會是正確的。

而在更多情況下,o3-mini-high的想法距離正確解題方案相差甚遠。

圖片

更重要的是,數學家們認為,o3-mini-high最大的局限性在于缺乏創造力和理解深度

該模型像一個博覽群書的研究生,能夠列舉許多研究成果和研究者。這乍一看令人印象深刻,但行家很快就會發現,這位研究生并沒有深度消化吸收這些材料,所做的只是復述。

該模型的行為模式類似于:擅長識別相關材料,但無法以新穎的方式擴展或應用這些知識。

還有參與研究的數學家指出:

o3-mini-high只嘗試應用了少數幾個它最喜歡的想法。

一旦這些想法用盡,它就得不到任何真正的進展了。

甚至:

對于AI來說,解決8年級奧數問題(需要新思路),可能比計算大有限域上某條超橢圓曲線上的點數更困難。

圖片

另外,幻覺也是個問題。

分析結果顯示,約75%推理記錄中包含模型幻覺:

o3-mini-high經常會記錯數學術語和公式,在調用庫和聯網搜索等工具時,也會出現胡編亂造的現象。

所以,o3-mini-high究竟能不能像人類數學家一樣進行推理呢?

來看數學家們的評分:

圖片

1分表示完全不像人類,5分表示與人類數學家難以區分。

總的來說,還是得具體情況具體分析。官方認為,o3-mini-high擁有多樣化的能力。一方面,它似乎能夠像人類一樣推理問題,表現出好奇心,并探索解決問題的不同思路。

另一方面,它又表現出缺乏創造性和正式性,還傾向于“想太多”,顯得啰里啰嗦,還偶爾出現自我懷疑的現象——不斷重復已經完成的句子、重復進行一些數學運算……

“超越世界上大多數數學研究生”

o3-mini-high這樣的模型為什么沒有辦法更有效地利用豐富的數學知識,這個問題仍然有待進一步的研究。

但無論如何,7個月,從2%到22%,已經足夠令數學家們驚嘆。

事實上,從2024年9月FrontierMath項目啟動,到2025年5月,官方組織8支人類“數學天團”和大模型同場競技,FrontierMath本身的難度也在持續進化。

從1-3級——涵蓋本科生、研究生和研究級別的挑戰,到現在已經進入第4級別:加入對數學家來說也具有挑戰性的問題。

在5月中旬,Epoch AI還舉辦了線下會議,邀請30位知名數學家設計自己能夠解決、但會讓AI犯難的問題。

而大模型們的表現有些讓數學家們目瞪口呆。

比如,弗吉尼亞大學數學家小野健提出了一個“博士級別”的數論問題。僅僅10分鐘,o4-mini就給出了一個正確又有趣的解決方案。

小野健表示:

我不想加劇恐慌。但在某些方面,大語言模型的表現已經超越了世界上大多數最優秀的研究生。

數學家們開始思考,人工智能能否攻克“第五層”問題,即最優秀的數學家也尚未解決的問題——

“如果人工智能達到這個水平,數學家的角色將發生巨大的變化。”

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-20 15:40:00

AI數學

2022-05-16 15:23:46

人工智能工具科學計算

2024-11-04 14:20:00

AI訓練

2025-05-28 10:30:41

AI陶哲軒模型

2024-08-26 09:15:00

數學黑洞

2011-06-20 09:15:20

面向對象算法數學

2024-02-26 08:30:00

2012-10-22 10:36:29

數學家輪盤程序

2015-04-02 16:20:05

2019-11-14 21:32:51

計算機數據科學數據

2023-07-03 16:01:51

AI數學

2022-10-20 09:33:09

AI算法

2024-07-29 14:39:39

2021-08-09 10:24:21

技術分類數學

2019-01-14 11:10:43

機器學習人工智能計算機

2025-02-24 09:25:00

2013-05-29 10:44:11

2009-06-08 09:59:24

谷歌俄羅斯方塊版權

2021-02-04 15:19:22

AI 數據人工智能

2009-01-16 09:57:48

點贊
收藏

51CTO技術棧公眾號

99re在线国产| 久久伊人免费视频| 国产v亚洲v天堂无码久久久| h视频网站在线观看| 极品尤物av久久免费看| 久久免费视频网| 东方伊人免费在线观看| 日韩三级av高清片| 欧美三级xxx| 在线一区高清| 人成在线免费视频| 国内一区二区在线| 欧美中在线观看| 五月天婷婷色综合| 亚洲尤物av| 日韩精品在线一区| 中文av一区二区三区| 国模私拍视频在线播放| 国产精品无圣光一区二区| 国产精品三区www17con| 亚洲视频在线免费播放| 亚洲欧美激情诱惑| 色综合91久久精品中文字幕| 日韩女同一区二区三区| 黑人久久a级毛片免费观看| 欧洲国内综合视频| 无码人妻丰满熟妇区96| 在线观看中文字幕的网站| 国产日本欧美一区二区| 高清av免费一区中文字幕| 伊人成人在线观看| 亚洲一区二区网站| 九九热最新视频//这里只有精品| 99精品全国免费观看| 欧美男男freegayvideosroom| 777亚洲妇女| 亚洲免费一级视频| 裤袜国产欧美精品一区| 亚洲成av人片一区二区三区| 日本大胆人体视频| 91在线中文| 亚洲日本成人在线观看| 欧美日韩最好看的视频| 人成网站在线观看| 国产999精品久久久久久| 亚洲www在线观看| 91麻豆成人精品国产| 免费欧美在线视频| 国产精品99免视看9| 五月婷婷视频在线| 亚洲男女自偷自拍| 97在线视频免费播放| 国产精品美女毛片真酒店| 午夜视频精品| 久久91亚洲精品中文字幕奶水| 无码黑人精品一区二区| 久久久久久久久99精品大| 中文字幕日韩专区| 国产在视频线精品视频| 色综合色综合| 精品国内自产拍在线观看| 美国一级片在线观看| 我不卡神马影院| 久久九九国产精品怡红院| 老熟妻内射精品一区| 欧美日韩国产综合网| 久久久噜噜噜久久久| 国产一级视频在线| 国产亚洲亚洲| 国产精品v片在线观看不卡| 最近国语视频在线观看免费播放| 蜜臀av性久久久久av蜜臀妖精| 成人久久18免费网站图片| 国产精品久久久久久69| 丁香婷婷综合激情五月色| 国产精品一区二区三区免费| 色视频在线观看免费| 久久九九久精品国产免费直播| 先锋影音日韩| 影院在线观看全集免费观看| 午夜av一区二区三区| 激情综合网婷婷| 69堂免费精品视频在线播放| 欧美高清视频在线高清观看mv色露露十八| 欧美视频国产视频| 哺乳挤奶一区二区三区免费看 | 在线观看免费高清视频| 国产精品一区在线观看乱码| 国产伦精品一区二区三区视频孕妇| 亚洲色图21p| 国产精品免费视频网站| 欧美图片激情小说| 午夜欧美巨大性欧美巨大 | 91av视频在线观看| 中文字幕视频免费观看| 国产九色精品成人porny| 精品国产一二| 欧美成人二区| 高潮白浆女日韩av免费看| 色播五月综合网| 国产精品x8x8一区二区| 综合国产在线视频| 国产精品第108页| 裸体在线国模精品偷拍| 精品一区二区三区日本| 秋霞a级毛片在线看| 午夜精品久久久久久久| 欧美精品久久久久久久久25p| 澳门精品久久国产| 日韩中文综合网| 影音先锋亚洲天堂| 精品一区二区成人精品| 欧美日韩免费观看一区| 国产经典三级在线| 欧美美女一区二区在线观看| 人妻精品久久久久中文字幕 | 欧美老妇交乱视频| 无码人妻精品一区二区50| 国产精品亚洲人在线观看| 人禽交欧美网站免费| 亚洲丝袜一区| 精品视频1区2区3区| 波多野结衣影院| 一区二区影视| 国产精品色婷婷视频| 日本在线丨区| 五月天欧美精品| aaaaa黄色片| 偷偷www综合久久久久久久| 26uuu亚洲国产精品| 蜜桃91麻豆精品一二三区| 国产精品久久久久久久久果冻传媒| 成人综合视频在线| 亚洲一区二区三区四区电影| 久久久999国产| 免费看av在线| 国产午夜精品一区二区| 日韩av资源在线| 丝袜美腿一区二区三区动态图| 欧美激情精品久久久久久黑人| 国产精品久久久久久无人区 | 国产成人免费视频一区| 在线精品日韩| 亚洲伦理一区二区| 色偷偷亚洲男人天堂| 久久人人爽人人爽人人片av免费| 久久免费国产精品| 国产真实乱子伦| 私拍精品福利视频在线一区| 91av成人在线| 你懂的在线视频| 欧美日韩亚洲系列| 国产精品无码永久免费不卡| 亚洲免费网站| 色播五月综合| 亚洲青青一区| 欧美日本在线视频中文字字幕| 99在线精品视频免费观看软件| 亚洲青青青在线视频| 欧美性受xxxx黒人xyx性爽| 亚洲高清资源在线观看| 91嫩草在线| 极品在线视频| 亚洲欧美日韩精品久久亚洲区 | 成人a区在线观看| 人妻无码久久一区二区三区免费| 国偷自产av一区二区三区| 2018日韩中文字幕| 黄色在线免费观看大全| 欧美日韩在线播放三区四区| 亚洲AV成人无码精电影在线| 国内精品国产成人| 久久人人爽人人爽人人av| 麻豆一区二区| 国产日韩亚洲欧美| 亚洲按摩av| 亚洲欧美另类自拍| 国产又粗又大又爽| 亚洲在线免费播放| 成人午夜福利一区二区| 国产综合久久久久久鬼色 | 国产亚av手机在线观看| 日韩精品视频免费专区在线播放| 天天射天天干天天| 一区二区中文字幕在线| 亚洲欧美高清在线| 日韩国产欧美一区二区三区| 亚洲av综合色区| 色老板在线视频一区二区| 国产精品久久电影观看| 亚洲小说区图片| 亚洲午夜精品久久久久久性色| 国产草草影院ccyycom| 精品人伦一区二区三区蜜桃网站| 国产三级在线观看完整版| 成人午夜伦理影院| 中文字幕在线观看第三页| 欧美激情四色| 日本一区二区三区视频免费看| 国产亚洲久久| 国产成人精品久久久| 青春草视频在线| 中文字幕国产精品久久| 三级网站在线看| 欧美巨大另类极品videosbest | 欧美一区二不卡视频| 欧美伊人久久久久久久久影院| 精品处破女学生| 国产精品国产馆在线真实露脸 | 一级黄色电影片| 理论电影国产精品| 日韩欧美亚洲天堂| 久久久久久久久国产一区| 区一区二区三区中文字幕| 国产精品网址| 91精品国产综合久久久久久丝袜| 日韩高清在线| 91成人福利在线| 久久久123| 欧美成aaa人片在线观看蜜臀| 成人jjav| 亚洲人成网站999久久久综合| 动漫av一区二区三区| 欧美精品乱码久久久久久| 国产伦精品一区二区三区视频我 | 日韩国产亚洲欧美| 亚洲成a人片综合在线| 在线观看亚洲网站| 国产精品视频第一区| 能免费看av的网站| 99精品偷自拍| 亚洲激情 欧美| 成人免费视频app| 四虎成人免费视频| 国产麻豆精品95视频| 亚洲精品永久视频| 久久国产免费看| 亚洲精品久久久久久宅男| 日本强好片久久久久久aaa| 亚洲午夜无码av毛片久久| 亚洲少妇在线| 国产一区二区网| 国产精品女主播一区二区三区| 国产va亚洲va在线va| 亚洲高清免费| 久久成人福利视频| 一本色道久久精品| 免费成人午夜视频| 亚洲一区二区网站| 黄色片视频在线播放| 久久久久综合| 天天插天天操天天射| 麻豆精品一区二区三区| 九九热99视频| 韩国女主播成人在线观看| 又色又爽又黄视频| 国产乱对白刺激视频不卡| 亚洲成人福利视频| 成人听书哪个软件好| 中文乱码人妻一区二区三区视频| 91免费看`日韩一区二区| 亚洲黄色在线网站| 国产日韩影视精品| 五月天婷婷丁香网| 亚洲婷婷综合色高清在线| 91aaa在线观看| 亚洲成精国产精品女| 亚洲成人第一网站| 欧美色网站导航| 国产高清免费观看| 亚洲国产福利在线| 久久久久久久影视| 日韩天堂在线视频| 日韩免费影院| 日韩免费在线看| 国产免费av国片精品草莓男男| 99久久免费国| 欧美禁忌电影网| 午夜在线视频免费观看| 亚洲精品视频啊美女在线直播| 北条麻妃视频在线| 韩国v欧美v亚洲v日本v| 日b视频在线观看| 中文字幕av一区二区三区| 超碰手机在线观看| 欧美特黄级在线| 国产伦精品一区二区三区四区 | 91九色露脸| 四虎884aa成人精品最新| 亚洲欧美日韩精品在线| 影院欧美亚洲| 性chinese极品按摩| 成人一区二区三区中文字幕| 亚洲成人黄色av| 一区二区三区在线观看视频| 亚洲毛片一区二区三区| 欧美一级二级三级乱码| 国产中文在线| 欧美激情第一页xxx| 成人自拍视频网| 国产精品一区在线观看| 欧美电影三区| 干日本少妇首页| 国产高清在线精品| av网站免费在线看| 亚洲自拍欧美精品| 少妇又紧又色又爽又刺激视频 | 岛国视频一区| 成人羞羞视频在线看网址| 大陆av在线播放| 国产美女精品一区二区三区| 国产精品高清无码在线观看| 夜夜嗨av一区二区三区四季av| 中文字幕1区2区3区| 日韩精品中文字幕在线观看| 欧洲成人综合网| 国产日韩av在线播放| 视频一区中文| 日本网站免费在线观看| 高清免费成人av| 天堂网中文在线观看| 欧美性极品少妇精品网站| www.黄色小说.com| 色yeye香蕉凹凸一区二区av| 在线看片福利| 久久精品日产第一区二区三区| 午夜亚洲福利| 爱情岛论坛亚洲自拍| 中文字幕中文字幕一区| 狠狠狠狠狠狠狠| 亚洲人成电影网| 欧美a级在线观看| av日韩中文字幕| 欧美暴力喷水在线| 夜夜爽久久精品91| ㊣最新国产の精品bt伙计久久| 亚洲天堂国产精品| 最近2019免费中文字幕视频三| se01亚洲视频| 亚洲国产精品日韩| 日韩高清欧美激情| 国产毛片欧美毛片久久久| 日本精品视频一区二区| 精品久久av| 国产精品第8页| 日韩午夜电影网| 国产精品v日韩精品v在线观看| 日本一二三不卡| 在线观看免费黄色小视频| 中文字幕亚洲色图| 日日夜夜精品| 日本三级中文字幕在线观看| 国产很黄免费观看久久| 久久97人妻无码一区二区三区| 亚洲精品在线网站| а√天堂8资源在线| 精品久久久久久中文字幕动漫| 在线午夜精品| 国产精品高清无码在线观看| 欧美日韩午夜影院| 麻豆视频在线观看免费| 91高跟黑色丝袜呻吟在线观看| 国内一区二区三区| 成年人网站免费看| 在线观看不卡视频| 日本在线免费看| 成人av免费电影| 久久久久久穴| 国产精品视频看看| 日韩精品一区国产麻豆| 92久久精品| 日韩高清国产精品| 激情久久五月天| 日韩手机在线观看| 国产一区二区三区在线看| 中文字幕成人| 欧美一区二区中文字幕| 国产日韩精品一区二区三区| 国产精品视频在线观看免费| 欧美激情二区三区| 亚洲精品国产精品粉嫩| 天天爱天天操天天干| 亚洲精品精品亚洲| 三级无遮挡在线观看| 国产日韩欧美影视| 亚洲高清在线| 乱老熟女一区二区三区| 亚洲大尺度美女在线| 日韩欧美一区二区三区免费观看 | 日本不卡影院| 丝袜足脚交91精品| 国产99精品国产| 中国黄色一级视频| 欧美黑人xxx| 欧美丝袜激情| 麻豆短视频在线观看| 欧美日韩卡一卡二| 欧美男男激情videos| 日韩视频在线观看视频| 久久久久久久久久电影|