精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o1/Claude集體翻車!陶哲軒等60+頂尖數學家合力提出新數學基準,大模型正確率通通不足2%

人工智能 新聞
獲大神卡帕西力薦,大模型新數學基準來勢洶洶—— 一出手,曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來

讓大模型集體吃癟,數學題正確率通通不到2%!

獲大神卡帕西力薦,大模型新數學基準來勢洶洶——

一出手,曾在國際數學奧賽中拿下83%解題率的o1模型就敗下陣來,并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%這一防線。

圖片

所以,新挑戰者到底啥來頭??

一打聽,這個新數學基準名為FrontierMath,由Epoch AI這家非營利研究機構號召陶哲軒在內的60多位頂尖數學家提出。

圖片

這群人這次鐵了心要給AI上難度,直接原創了數百道極具挑戰性的數學問題——

從數論中計算密集型問題到代數幾何和范疇論中的抽象問題,涵蓋了現代數學的大多數主要分支。

圖片

這些題有多難呢?按數學大佬陶哲軒對這項研究的評價說:

大模型們,至少需要再戰個幾年吧。

圖片

同時,卡帕西也表示非常喜歡這一新基準,甚至樂于見到大模型們“吃癟”:

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準

圖片

FrontierMath:評估AI高級數學推理能力的新基準

今年以來,大語言模型(LLM)開始在各種數學benchmark上瘋狂刷分,而且正確率動輒90%以上。

宣傳看多了,人也麻了,于是紛紛反思——

一定是現在的基準測試“被污染了”(比如讓AI在訓練階段提前學習基準測試中的問題)

圖片

對此,非營利研究機構Epoch AI看不下去了,于是直接聯合60多位頂尖數學家(共獲得了14枚IMO金牌)推出FrontierMath。

這一新基準擁有數百道大模型們之前沒見過的數學題,而且難度頗高。

通常需要專業數學家花費數小時甚至數天的努力

一番實踐檢驗下,果不其然,一眾頂尖大模型紛紛折戟(包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等)解題率均不足2%

圖片

而且即使有延長的思考時間(10,000個token)、Python訪問權限以及運行實驗的能力,相關成功率仍然低于2%。

下面,我們具體介紹下FrontierMath。這第一關主要解決數學題的原創性。

這群數學家們被要求按照3個關鍵原則設計題目:

  • 所有問題都是新的且未發表的,以防止數據污染;
  • 解決方案是自動可驗證的,從而實現高效的評估;
  • 問題是“防猜測”的,在沒有正確推理的情況下解決的可能性很低;

圖片

除了出新題,為了防止數據污染,機構還采取了其他措施。

比如為了最大限度地降低問題和解決方案在網上傳播的風險,機構鼓勵所有提交都通過安全、加密的渠道進行。

具體來說,機構采用加密通信平臺與投稿人協調,并要求對在線存儲的任何書面材料進行加密(如加密文檔)

同時,機構依賴于核心數學家團隊專家評審這一原創驗證性方法,以識別自動化系統可能錯過的潛在相似性(專家比機器更熟悉這些研究細節)

當然也不完全依靠人力,為了進一步保證原創性,機構還通過抄襲檢測工具Quetext和Copyscape對問題進行測試。

最終,數學家們提出了數百道原創題目,涵蓋了現代數學的大多數主要分支,從數論中計算密集型問題到代數幾何和范疇論中的抽象問題。

其中數論和組合學最多,合計約占所有MSC2020(數學學科分類系統2020版本)的34%。

圖片

接下來,為了評估大模型在FrontierMath問題上的表現,研究開發了一個框架。

簡單說,這一框架具體執行任務的過程如下:

  • 分析問題:模型首先分析給定的數學問題;
  • 提出策略:模型提出可能的解決方案策略;
  • 實施并執行代碼:將這些策略轉化為可執行的Python代碼并自動執行;
  • 接收反饋:從代碼執行的結果中接收反饋,包括輸出和錯誤消息;
  • 改進方法:根據實驗結果,模型會驗證中間結果,測試猜想,并可能改進其推理過程以修正潛在的錯誤;

圖片

該框架支持兩種提交方式:一種是模型可以直接給出問題的最終答案;另一種是,在提交最終答案之前,模型可以先通過代碼執行進行實驗,以驗證其解決方案的有效性。

不過需要提醒,在提交最終答案時,模型必須遵循一些標準化格式

比如,在答案中需包含#This is the final answer這一標記注釋,且將結果保存在Python的pickle模塊中,同時需確保提交的代碼必須是自包含的,不依賴于先前的計算。

總之,這一評估過程將持續進行,直到模型提交了正確格式化的最終答案,或者達到了預設的標記限制(研究設置為10,000個token)。

如果模型在達到標記限制之前沒有提交最終答案,它將收到一個最終提示,要求立即提交最終答案;

如果在收到該提示后模型仍然無法提供正確格式化的最終答案,則該嘗試被標記為不正確。

陶哲軒看了都說難

為了進一步驗證FrontierMath的難度,該機構還特意采訪了4位數學大佬。

包括菲爾茲獎得主陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、理查德·博赫茲 (1998),以及國際數學奧林匹克競賽 (IMO) 教練陳誼廷 (Evan Chen)在內,他們一致認為這些題非常具有挑戰性。

圖片

下一步Epoch AI也計劃從四個方面持續推進

  • 定期評估這些領先的大模型,并觀察高級數學推理能力隨時間推移和規模擴大而提高的情況;
  • 保持難度的同時,向FrontierMath添加更多問題;
  • 在未來幾個月內發布更多代表性問題,供大家研究討論;
  • 擴大專家審查、增加錯誤數量和改進同行評審流程來加強質量控制;

這也合了卡帕西的心意,他認為這樣的新基準應該更多,尤其是為那些看似“容易”的事情創建評估。

之所以引入這個基準,是因為大模型越來越多地碾壓現有的數學基準。有趣的問題是,盡管從許多方面(/evals)來看,大模型正逐步躋身頂級專家行列(如數學和編碼等),但你不會雇用他們而不是讓他們從事最瑣碎的工作

如果你把問題描述整齊地放在盤子里,他們就能解決復雜的封閉式問題,但他們很難連貫地把長長的、自主的、解決問題的序列串聯起來,而人卻會覺得非常容易。

這是莫拉維克悖論的變相,他在30多年前就觀察到,對人類來說容易/困難的事情,與對計算機來說容易/困難的事情,在非直覺上可能大相徑庭。

例如,人類對計算機下國際象棋印象深刻,但國際象棋對計算機來說卻很容易,因為它是一個封閉的、確定性的系統,具有離散的行動空間、完全的可觀測性等等。

反之亦然,人類可以系好鞋帶或疊好襯衫,而且根本不需要考慮太多,但這是一項極其復雜的傳感運動任務,對硬件和軟件的技術水平都是挑戰。

這就像不久前OpenAI發布的魔方一樣,大多數人都把注意力集中在解魔方本身(這是微不足道的),而不是用機器人的手轉動魔方的一個面這一實際難度極高的任務。

因此,我非常喜歡這個FrontierMath基準,我們應該制作更多的基準。但我也認為,如何為所有 “容易 “但其實很難的東西創建評估是一個有趣的挑戰。

很長的語境窗口、連貫性、自主性、常識、有效的多模態輸入/輸出…… 我們如何建立良好的 “初級工作 “評估?就像你對團隊中任何初級實習生的期望。

圖片

網友也表示,能在這種基準測試中取得高分的大模型將大有裨益。

陶哲軒夢想的就是這樣的東西,可以連接到LEAN(微軟研究院推出的一款定理證明器),讓數學家成為編輯、顧問,偶爾處理一些真正困難的部分,而其余部分則自動化且可證明正確。

很難說一個在這次基準測試中能夠達到80%的LLM對數學家來說沒有用處。

圖片

對此,你怎么看?

論文:https://arxiv.org/html/2411.04872v1

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-11 13:12:03

2024-02-26 08:30:00

2024-12-23 07:40:00

AI模型數學

2024-04-09 09:44:21

數學模型

2024-04-08 11:31:57

AI數據

2024-06-17 08:45:00

2025-10-28 15:37:11

AI模型數學

2024-07-08 13:08:04

2024-07-29 08:49:00

AI數學

2025-08-11 09:27:00

2025-05-23 08:47:00

2023-06-30 13:42:44

2025-08-05 14:54:39

AI模型陶哲軒

2023-12-06 13:44:00

模型訓練

2025-08-20 00:00:00

2025-05-15 08:52:00

2025-06-03 08:15:00

2023-09-05 17:43:04

人工智能AI

2023-12-16 09:42:12

2025-05-19 09:02:00

點贊
收藏

51CTO技術棧公眾號

成人综合日日夜夜| 91精彩视频在线观看| 99在线热播精品免费99热| 亚洲精品一区二区在线| 狠狠干狠狠操视频| av丝袜在线| 国产精品免费看片| 国产一区二区视频在线免费观看| 日本免费精品视频| 在线免费观看污视频| 高清国产mv在线观看| 日韩精品一级二级 | 999国产在线视频| 国产寡妇亲子伦一区二区| 欧洲精品在线视频| 99久久婷婷国产综合| 亚洲动漫精品| 日韩欧美国产综合| 麻豆一区二区三区视频| 黄色软件视频在线观看| 亚洲欧美精品午睡沙发| 欧美日韩一区综合| 懂色av成人一区二区三区| 蜜臀av一级做a爰片久久| 国模私拍视频一区| 欧美黄色aaa| 色999日韩| 亚洲欧美日韩国产成人| 91九色蝌蚪porny| 国产精品毛片aⅴ一区二区三区| 色婷婷av一区二区三区之一色屋| 久久成人福利视频| 中文在线观看免费| 中文字幕日韩av资源站| 日韩高清三级| 内衣办公室在线| 99久久夜色精品国产网站| 99理论电影网| www.成人精品| 国产精品白丝jk黑袜喷水| 成人a免费视频| 中文在线免费看视频| 日本不卡视频在线| 国产精品福利在线| 色老头在线视频| 日日摸夜夜添夜夜添国产精品| 精品久久久久久亚洲精品| 亚洲欧美资源在线| www.自拍偷拍| 亚洲国产网址| 亚洲欧美日韩精品久久奇米色影视| 亚洲午夜久久久久久久久| 国产一区调教| 亚洲韩国欧洲国产日产av| 天天躁日日躁狠狠躁av麻豆男男| 最新国产精品精品视频| 欧美va日韩va| 插我舔内射18免费视频| 乱亲女h秽乱长久久久| 亚洲国产精品久久久久秋霞蜜臀 | 中文字幕一区二区三区人妻四季| 日本中文字幕一区二区视频 | 欧美精品videossex88| 麻豆精品一区二区三区视频| 综合激情一区| 性色av一区二区三区免费| 日韩经典在线观看| 久久亚洲影院| 成人h猎奇视频网站| www.蜜臀av.com| 播五月开心婷婷综合| 久久亚洲午夜电影| 高h视频在线| 综合久久综合久久| 成年人网站国产| 在线看的毛片| 在线观看91av| 亚洲精品国产成人av在线| 久久99国内| 精品激情国产视频| 日本系列第一页| 日韩国产精品久久久久久亚洲| 国产一区二区在线免费| 国产 欧美 自拍| 免费黄色在线网站| 日韩1区2区日韩1区2区| 91夜夜未满十八勿入爽爽影院 | 欧美大片1688| 91精品国产丝袜白色高跟鞋| 男女性杂交内射妇女bbwxz| 综合国产视频| 欧美成人久久久| 性无码专区无码| 麻豆精品久久精品色综合| 不卡日韩av| h视频在线播放| 亚洲一区二区影院| 亚洲免费一级视频| 麻豆视频一区| 久久在线免费视频| 黄色在线观看国产| 国内精品国产三级国产a久久| 极品尤物一区二区三区| 久操视频在线观看| 色婷婷综合久久久中文一区二区 | 欧美一级欧美一级| 人人玩人人添人人澡欧美| 亚洲国产精彩中文乱码av在线播放 | 久久九九久久九九| 人人妻人人澡人人爽欧美一区双| 日本一区二区三区视频在线| 亚洲精品黄网在线观看| 亚洲xxxx3d动漫| 日本美女一区二区三区| 久久国产精品亚洲va麻豆| av在线free| 欧美日韩一区久久| 欧美老熟妇乱大交xxxxx| 悠悠资源网久久精品| 国产精品你懂得| 久久视频www| 午夜精品一区在线观看| 无码国产精品一区二区高潮| 国产一级二级三级视频| 美女亚洲一区| 久久久久成人精品| 精品国产99久久久久久宅男i| 国产欧美精品在线观看| 少妇高潮喷水久久久久久久久久| 午夜视频在线观看精品中文| 久久久国产精彩视频美女艺术照福利| 日韩三级一区二区| 久久午夜老司机| 男女啪啪免费视频网站| 成人动态视频| 国内精品一区二区三区| 精品人妻无码一区二区| 亚洲精品视频一区二区| 亚洲精品乱码久久久久久动漫| 日韩国产综合| 国产精品无av码在线观看| 国产天堂素人系列在线视频| 日韩欧美中文在线| 中文字幕免费看| 国产精品久久国产愉拍| 精品国产_亚洲人成在线| 国产美女高潮在线观看| 精品粉嫩超白一线天av| 久草精品视频在线观看| 不卡一区二区三区四区| 国产黄页在线观看| 亚洲电影一级片| 国产精品成人观看视频国产奇米| 国产黄色片在线播放| 在线一区二区视频| 国产精品www爽爽爽| 免费成人性网站| 免费看污污视频| 视频在线亚洲| 91精品国产99| 国产精品一二三区视频| 欧美日韩高清一区二区| 九九精品视频免费| 国产.欧美.日韩| 18岁网站在线观看| 国产一区二区三区四区大秀| 国产精品一区二区三区久久| 麻豆电影在线播放| 精品欧美黑人一区二区三区| 日本在线观看中文字幕| gogo亚洲高清大胆美女人体| 婷婷国产在线综合| 精品成人av一区二区三区| 日产欧产美韩系列久久99| 在线视频91| 国产精品x8x8一区二区| 日本视频久久久| 麻豆影视在线观看_| 精品久久久久久最新网址| 国产精品777777| 亚洲色图欧美激情| 精品久久久久久中文字幕人妻最新| 久久综合导航| 永久免费网站视频在线观看| 全国精品免费看| 国产精品一区二区三区成人| 国模雨婷捆绑高清在线| 一本久久综合亚洲鲁鲁| 成人黄色免费视频| 一本到不卡精品视频在线观看| 99久久99久久精品免费| 国产99久久久国产精品免费看 | 欧美第一页在线观看| 99久久免费视频.com| 91亚洲免费视频| 日韩视频不卡| 国产麻豆电影在线观看| 亚洲+变态+欧美+另类+精品| 91久久精品国产91久久| 一二三四视频在线中文| 欧美大尺度激情区在线播放| 四虎成人免费在线| 欧美一区二区三区性视频| 国产又粗又猛又黄视频| 亚洲午夜精品在线| 操她视频在线观看| 久久综合久久久久88| 久久久精品人妻一区二区三区| 日精品一区二区| 日韩欧美亚洲天堂| 欧美黄色aaaa| 亚洲一卡二卡三卡| 神马午夜久久| 精品国产乱码久久久久久蜜柚| 自拍偷拍亚洲| 国产精品亚洲一区二区三区| 亚洲优女在线| 91精品国产成人| 蜜臀av在线| 亚洲一区免费在线观看| 国产精品一国产精品最新章节| 欧美影视资讯| 欧美综合在线第二页| 欧美黄色视屏| 久久天天躁狠狠躁夜夜av| wwwxxx在线观看| 亚洲日韩第一页| 神马亚洲视频| 精品香蕉一区二区三区| 欧美 中文字幕| 精品国内二区三区| 亚洲第一视频在线| 精品乱码亚洲一区二区不卡| 精品国产区一区二| 日韩三级视频中文字幕| 一区二区三区www污污污网站| 欧美午夜精品理论片a级按摩| 国产成人免费看| 日本高清视频一区二区| 天天综合天天干| 欧美性猛交xxxxx免费看| 国产香蕉视频在线| 亚洲6080在线| 五月天综合激情| 黑人巨大精品欧美一区二区三区| 伊人国产在线观看| 亚洲va天堂va国产va久| 国产女同在线观看| 一本大道久久a久久综合| 无码人妻久久一区二区三区不卡| 欧美性少妇18aaaa视频| 少妇高潮av久久久久久| 91久久线看在观草草青青| 中文天堂在线视频| 欧美日韩精品二区第二页| 国产永久免费视频| 欧美不卡123| 少妇av在线播放| 亚洲美女www午夜| √新版天堂资源在线资源| 日韩色av导航| 肉体视频在线| 97免费视频在线| 丁香六月综合| 国产在线久久久| 永久免费精品视频| 久久偷窥视频| 久久人人88| 欧美大黑帍在线播放| 午夜一区二区三区不卡视频| 欧美性猛交xxx乱久交| 男人的天堂亚洲一区| 日本黄色www| 91在线porny国产在线看| 国产黄色大片免费看| 欧美韩日一区| 在线观看免费高清视频97| yiren22综合网成人| 欧美成人午夜视频| 成人直播视频| 亚洲一区久久久| 最近国产精品视频| 99久re热视频精品98| 99国产精品| 日本黄色福利视频| av在线不卡电影| jizzjizz日本少妇| 亚洲成a天堂v人片| 一级黄色在线观看| 精品人在线二区三区| 免费在线看v| 精品久久久av| 台湾佬中文娱乐久久久| 99视频在线免费观看| 精品国产一区二区三区四区| a级黄色片免费| 日韩精品一区第一页| 99精品一区二区三区无码吞精| 亚洲国产精品av| 日本在线视频免费观看| 91精品国产色综合久久不卡蜜臀| 性插视频在线观看| 操日韩av在线电影| 成人免费视频观看| 精品久久蜜桃| 激情久久久久久| 波多野结衣国产精品| 久久蜜桃香蕉精品一区二区三区| 黄色在线观看免费| 欧美日韩国产天堂| 好男人免费精品视频| 久久久亚洲精选| 欧美日韩国产一区二区在线观看| 日韩国产欧美一区| 一区二区三区福利| 麻豆免费在线观看视频| 成人免费在线观看入口| 国产 日韩 欧美 在线| 欧美videossexotv100| 精品国产99久久久久久| 国产精品视频内| 精品国产一级毛片| 久久精品99国产| 91香蕉视频污在线| 影音先锋亚洲天堂| 日韩美女视频在线| www红色一片_亚洲成a人片在线观看_| 国产精品高清免费在线观看| 羞羞色国产精品网站| 激情五月宗合网| 99精品视频中文字幕| 日韩精品一区二区在线播放| 精品久久久影院| 91色在线看| 国产一区二区三区四区五区在线 | 精品国产午夜| 99爱视频在线| 99re6这里只有精品视频在线观看| 久久成人在线观看| 日韩美女视频在线| 欧美1234区| 国产一区二区精品在线| 亚洲成人直播| 欧美大喷水吹潮合集在线观看| 亚洲成av人片观看| 亚欧洲精品视频| 17婷婷久久www| 免费看成人吃奶视频在线| aaaaaa亚洲| 国产精品欧美久久久久一区二区| 一级片在线免费播放| 在线精品高清中文字幕| 日韩欧美激情| 黄色小视频大全| 国产成人日日夜夜| 久久综合久久鬼| 日韩精品免费综合视频在线播放| 一级毛片久久久| 婷婷久久青草热一区二区| 免费观看在线色综合| 亚洲人与黑人屁股眼交| 日韩欧美高清一区| av电影在线地址| 欧美一进一出视频| 美国十次了思思久久精品导航| 国产真实乱在线更新| 欧美成人高清电影在线| 日韩影院在线| 欧洲亚洲一区二区| 狠狠色丁香九九婷婷综合五月| 美女毛片在线观看| 日韩av在线导航| 国产精品蜜月aⅴ在线| 中文字幕色呦呦| 久久综合久久综合亚洲| 在线观看国产成人| 欧美高清在线播放| 竹菊久久久久久久| 三级黄色片免费观看| 欧美午夜丰满在线18影院| 日本网站在线免费观看视频| av在线亚洲男人的天堂| 可以看av的网站久久看| 91精品国产闺蜜国产在线闺蜜| 亚洲国产97在线精品一区| 福利一区二区免费视频| 美女黄色免费看| 亚洲国产精品成人久久综合一区| 亚洲AV无码国产精品午夜字幕| 国产成人精彩在线视频九色| 欧美/亚洲一区| 国产成人福利在线| 欧美成人vr18sexvr| 69堂免费精品视频在线播放| 国产精品日韩三级| 国产精品麻豆欧美日韩ww| 少妇av一区二区| 亚洲精品欧美日韩专区| 日韩—二三区免费观看av| 久久久久久久久久久久久久久久久 |