精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

2025美國最新奧數題,讓大模型集體翻車,DeepSeek R1平均分也不到5%

人工智能 新聞
注于評估大模型數學能力的 MathArena 平臺的研究人員,首次全面評估了模型解決復雜數學問題的完整推理和證明構建能力。

當 AI 翻開奧數題,CPU 也燒了!

還記得那些被奧數題折磨得徹夜難眠的日子嗎?

當你在凌晨三點對著一道幾何證明題抓耳撓腮、懷疑人生的時候,你可能會想:「要是有個超級大腦能幫我解決這些問題該多好??!」

圖片

好消息:大模型解數學題的能力很強!壞消息:它們好像也被奧數折磨得不輕。

很多針對大型語言模型(LLMs)的數學基準測試已經表明,最先進的推理模型在美國數學邀請賽(AIME)等數學競賽中表現出色,O3-MINI 模型甚至達到了與頂尖人類參賽者相當的水平。然而,這些測試僅僅評估了最終答案,而忽略了推理和證明過程。

為彌補這一不足,專注于評估大模型數學能力的 MathArena 平臺的研究人員,首次全面評估了模型解決復雜數學問題的完整推理和證明構建能力。

美國數學奧林匹克競賽(USAMO)是全球最具挑戰性的中學生數學競賽之一。首先,該賽事強調嚴格證明與邏輯嚴謹性,題目均為證明題,要求選手通過嚴密的邏輯推導和完整的數學語言呈現解答,而非僅給出數值答案(如 AIME)。其次,題目難度極高,涉及數論、組合數學、代數、幾何等核心領域,常需運用高級技巧(如生成函數、不等式放縮、圖論構造等)。而且題目設計具有「門檻效應」:部分問題看似簡單,但需洞察隱藏結構或非標準解法(如構造性證明、反證法)。

他們在 2025 年美國數學奧林匹克競賽(USAMO)試題發布后立即測試了多個熱門模型,結果令人失望:所有模型都表現欠佳,平均得分不到 5%。

圖片

通過深入分析模型的推理過程,研究人員識別出了多種常見失敗模式,并發現模型訓練中的某些優化策略反而產生了負面影響。

圖片

  • 論文標題:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
  • 論文鏈接:https://arxiv.org/pdf/2503.21934v1
  • 項目主頁:https://matharena.ai
  • 項目代碼:https://github.com/eth-sri/matharena

結果表明,當前的 LLM 在嚴格的數學推理方面,尤其是在形式化證明生成方面,仍然非常吃力。在未來的研究中,有必要改進訓練方法,如納入重證明的數據集、整合形式驗證工具或開發優先考慮邏輯一致性而非答案優化的架構,彌合數值正確性與逐步證明能力之間的差距。

方法

評估基準與問題準備

研究團隊選擇了 USAMO 2025 作為基準測試,這是一個權威數學競賽,包含六道需要證明的題目,為期兩天。這個競賽非常適合作為評估基準,因為題目具有挑戰性,需要詳細證明才能得滿分,且數據未被污染.

圖 1 展示了兩個競賽題目。在評估過程中,研究人員要求各模型提供全面詳細的證明,并使用 LaTeX 格式。

圖片

為降低結果的變異性,每個模型對每道題目進行了四次獨立解答。所有解答均經過匿名化處理并轉換為 PDF 格式進行評分,評分過程中不考慮思考過程部分。

評審團隊

評分團隊由四位資深數學專家組成,他們都曾是國家 IMO 隊成員或進入過國家隊最終選拔。評審前,他們接受了詳細說明評估目標和方法的指導(可在 GitHub 查閱)。團隊通過 USAMO 2024 三道題目的試評分熟悉了評分標準并解決歧義。

評分流程

USAMO 2025 的六個問題均由兩名評審員獨立評分,每位評審員負責三個不同問題。這種借鑒 IMO 的雙重評分方法確保了評分的一致性并減少了主觀偏見。由于官方不發布標準答案,研究團隊從可靠的數學社區資源(尤其是 AoPS 論壇)收集整理了標準化評分方案,并驗證了所有解法的準確性。

遵循 USAMO 慣例,每題滿分七分,對有意義的進展給予部分分。評審員根據既定標準獨立評分,對不完全符合評分方案的解法也適當給分,并記錄了評分理由和部分分數的合理性說明。

失敗模式分類

評估者在評分過程中記錄了明顯的失敗模式 —— 即推理中首次出現的錯誤或解釋不充分的實例,包括邏輯缺陷、無根據的假設、數學不準確或計算錯誤。這些錯誤被具體分為四類:

  • 邏輯:由于邏輯謬誤或無根據的推理跳躍導致的錯誤,中斷了推理過程。
  • 假設:由于引入未經證明或不正確的假設而產生的錯誤,這些假設破壞了后續步驟。
  • 創造力:由于無法識別正確方法而導致的從根本上錯誤的解決策略所造成的錯誤。
  • 代數 / 算術:由關鍵的代數或算術計算錯誤引起的錯誤。

研究團隊還系統性地記錄了模型在生成解決方案過程中表現出的顯著行為模式和趨勢,以便進行深入分析。這些觀察結果有助于識別模型推理能力中存在的常見問題和需要改進的方向。

結果

主要結果

研究評估了六個推理模型(QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7)在 2025 年 USAMO 問題上的表現。

表 1 詳細分析了各模型在每個問題上的表現,平均分基于四次評估運行計算,每題滿分 7 分,每次運行總分 42 分。表中還包括使用各模型的總成本數據。

圖片

評估發現,雖然當前頂尖語言模型在以數值答案為主的競賽(如 AIME 和 HMMT)中可與頂尖人類競爭者相當,但在生成嚴格證明方面存在顯著差距。所有評估模型的最高平均分不足 5%,近 150 個被評估的解答中無一獲得滿分。

所有模型都無法解決超過一個問題,這凸顯了當前大型語言模型在奧林匹克級數學推理任務中的局限性。這表明現有優化方法如 GRPO 對需要高度邏輯精確性的任務可能尚不足夠。

失敗模式

人類參與者最常見的失誤是無法找到正確解答,但他們通常能清楚判斷自己是否成功解決了問題。相比之下,所有評估的大型語言模型都聲稱已解決問題,這對數學應用構成重大挑戰,因為在缺乏嚴格人類驗證的情況下,這些模型得出的結果不可信賴。

研究人員詳細分析了評分過程中發現的錯誤類型。圖 2 展示了評審員確定的錯誤類別分布。

最常見的是邏輯缺陷,包括無依據的推理步驟、錯誤理由或對先前進展的誤解。另一個重要問題是模型傾向于將關鍵證明步驟視為瑣碎而不提供適當證明。值得注意的是,盡管 O3-MINI 是表現最佳的推理模型之一,卻經常通過將關鍵步驟標記為「瑣碎」來跳過基本證明步驟。

圖片

研究還發現模型推理缺乏創造性,通常在所有嘗試中采用相同且錯誤的策略,未能探索替代方法。例外是 FLASH-THINKING,它在同一運行中嘗試多種策略,但僅淺層探索每種方法,未能得出有效結論。

然而,模型在代數和算術計算方面普遍表現出色,能在沒有外部支持的情況下成功執行符號運算。不過,R1 表現出明顯更高頻率的代數或算術錯誤,表明這是該模型需要改進的方向。

自動評分

研究團隊探索了用 LLMs 替代人類評分員的可行性,選擇 O3-MINI 和 Claude 3.7 作為評分模型。兩個模型均獲得了評分方案、驗證解決方案和評估示例參考。

表 2 顯示,兩個模型都未能準確評分解決方案,均系統性地高估了解答質量。具體而言,它們經常為不正確或無依據的推理授予分數,導致分數膨脹最多達到 20 倍。

值得注意的是,FLASH-THINKING 從自動評估中獲得的分數明顯低于其他模型,研究人員推測這可能是因為它傾向于在每次嘗試中生成多個解決方案,從而混淆了基于 LLMs 的評審系統。相比之下,QWQ 獲得較高分數,可能是因為它通常生成更簡潔的解決方案,更便于自動評審系統理解。

圖片

定性討論

答案框選

當前強化學習優化技術依賴從明確的最終答案中提取獎勵,為此模型常被要求將最終答案放在 \boxed {} 環境中。然而,這在 USAMO 問題解答中產生了意外副作用:即使大多數評估問題不需要框選答案,模型仍習慣性地這樣做。

一個典型例子是問題 5 中,QWQ 模型錯誤地限制自己只尋找整數解,盡管題目沒有這樣的要求。它堅持最終答案是 2,雖然已經正確推導出所有偶數都滿足條件。這表明像 GRPO 這樣的對齊技術可能無意中讓模型認為每個數學問題都需要一個明確的框選答案,從而損害了其整體推理能力。

模式泛化

模型常表現出將小數值案例中觀察到的模式過度泛化到更大未測試案例的傾向。雖然這種啟發式方法對僅需數值答案的問題可能有效,但對于需要嚴格證明的問題,這種方法本質上存在缺陷。模型經常在缺乏正式證明的情況下,錯誤地斷言小案例中觀察到的模式具有普遍適用性。

解答結構與清晰度

不同模型提供的解答在清晰度和結構連貫性上存在顯著差異。O3-MINI 和 O1-PRO 等模型通常以清晰、邏輯化且易于理解的方式呈現解答。相反,FLASH-THINKING 和 QWQ 等模型經常產生混亂且難以理解的回答,有時在單個解答中混合多個不相關的概念。

OpenAI 訓練的模型在清晰度上的明顯優勢表明,專注于解答連貫性的額外訓練顯著提高了其可讀性,這一特性在其他模型中明顯受到較少重視。

所以,當下次有人警告你「AI 即將統治世界」時,不妨淡定地遞給他一張奧數試卷:「先讓它們過了這一關再說吧。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:30:07

2025-01-21 11:53:53

2025-04-14 09:15:00

英偉達模型數據

2025-04-03 15:57:48

2025-02-20 15:32:28

2025-04-03 02:25:00

2025-05-19 17:18:57

AI模型o3

2025-02-15 08:15:04

聯想DeepSeek

2023-06-06 17:48:35

罷工人工智能AI

2025-06-19 09:04:00

2025-02-17 07:35:00

DeepSeek模型數據

2025-02-06 16:40:09

2025-05-16 08:58:09

2025-07-18 13:41:39

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-03-06 10:14:39

2025-03-05 09:10:00

AI生成模型
點贊
收藏

51CTO技術棧公眾號

在线综合+亚洲+欧美中文字幕| 国产亚洲va综合人人澡精品 | 国产精品丝袜视频| 天天做夜夜爱爱爱| 97色成人综合网站| 欧亚一区二区三区| 国产精品久久国产| 国产系列在线观看| 国产大陆a不卡| 国产精品∨欧美精品v日韩精品| 极品久久久久久| 国产免费久久| 精品国产一区二区亚洲人成毛片| 国产精品无码av无码| 日皮视频在线观看| 中文字幕不卡的av| 久久福利电影| 亚洲精品国产av| 蜜桃精品视频在线| 91精品国产色综合| 免费人成在线观看| 日韩电影免费网址| 亚洲免费成人av电影| 亚洲成年人av| 99tv成人影院| 欧美亚洲一区三区| 国产在线精品91| 五月花成人网| 中文字幕一区二区视频| 欧美中日韩免费视频| 少妇荡乳情欲办公室456视频| 精久久久久久久久久久| 国产精欧美一区二区三区| 日本中文字幕在线免费观看| 欧美日韩爆操| 久久资源免费视频| 在线观看天堂av| 国产欧美高清视频在线| 亚洲欧美精品伊人久久| 国产精品无码毛片| 猫咪成人在线观看| 精品欧美久久久| 国产裸体视频网站| 日本精品视频| 日韩免费看网站| 色偷偷中文字幕| 国产精品一区二区三区av| 欧美日韩高清不卡| www.日本一区| 国产激情欧美| 欧美视频一区二区三区在线观看 | 午夜久久中文| 色综合天天在线| 97超碰青青草| 欧美大片免费观看网址| 色婷婷激情久久| 欧美 国产 日本| 亚洲优女在线| 色一情一伦一子一伦一区| 欧美亚洲另类色图| 26uuu亚洲电影| 色综合天天在线| 50路60路老熟妇啪啪| 天天综合网站| 欧美日韩高清一区二区三区| 一级片黄色免费| 综合欧美亚洲| 日韩精品免费电影| 娇妻被老王脔到高潮失禁视频| 成人一区不卡| 欧美成人精品一区二区| 黄色小视频在线免费看| 国产精品久久777777毛茸茸| 日韩av电影在线免费播放| 正在播放木下凛凛xv99| 国产一区二区三区av电影 | 日韩精品社区| 伊人久久男人天堂| 国产av无码专区亚洲av毛网站| 国产精品观看| 日本在线观看天堂男亚洲| 一区二区乱子伦在线播放| 国产在线精品免费av| 国产精品成人一区二区三区| 日本黄在线观看| 成人免费在线视频观看| 国产69精品久久久久久久| 国产 日韩 欧美一区| 欧美美女一区二区三区| jjzzjjzz欧美69巨大| 国内成人精品| 久久69精品久久久久久久电影好| 91在线看视频| 久久99国产精品久久99果冻传媒| 国产chinese精品一区二区| 美女做暖暖视频免费在线观看全部网址91| 国产精品网站在线播放| 日韩小视频网站| 成人性片免费| 亚洲国产精品成人av| 我不卡一区二区| 精品福利电影| 国产日产欧美a一级在线| 色哟哟国产精品色哟哟| 亚洲欧洲成人精品av97| 无码aⅴ精品一区二区三区浪潮| 91精品国产自产观看在线| 亚洲精品狠狠操| 在线观看黄网址| 久久久精品五月天| 国产福利一区二区三区在线观看| sese在线视频| 狠狠久久五月精品中文字幕| 免费高清视频在线观看| 日韩精品欧美激情一区二区| 午夜精品国产精品大乳美女| 国产精品探花视频| 国产亚洲精久久久久久| 久久久久99精品成人片| 国产精品美女久久久久| 在线播放国产精品| 好吊妞视频一区二区三区| 国产精品综合一区二区三区| 婷婷五月色综合| 樱桃视频成人在线观看| 亚洲电影免费观看高清| 男女性高潮免费网站| 人人爽香蕉精品| 日本免费高清一区二区| 久久影院午夜精品| 精品剧情在线观看| 91视频综合网| 国产精品一区二区三区四区| 伊人精品久久久久7777| 亚洲电影有码| 亚洲最新av网址| chinese国产精品| 91在线码无精品| 激情五月宗合网| 精品精品国产毛片在线看| 欧美精品一区三区| 国产成人精品一区二区无码呦| 中文字幕一区二区三区四区| 黄色片在线免费| 教室别恋欧美无删减版| 国产福利精品视频| 成人在线免费观看| 欧美性三三影院| jizz18女人高潮| 日韩福利电影在线| 深田咏美在线x99av| 日本一区二区电影| 这里只有视频精品| 亚洲天堂999| 136国产福利精品导航| 成人亚洲免费视频| 重囗味另类老妇506070| 5566中文字幕一区二区| 丝袜在线视频| 亚洲第一视频网站| 91玉足脚交嫩脚丫在线播放| 国产午夜精品福利| 国产精品v日韩精品v在线观看| 欧美激情理论| 7777精品久久久大香线蕉小说| 毛片在线网址| 亚洲九九九在线观看| 亚洲高清视频免费观看| 国产精品久久久久久久久免费丝袜 | 亚洲最新在线| 一区二区亚洲视频| 97精品视频在线观看| 欧美日韩伦理片| 欧美日韩一级片在线观看| 性少妇xx生活| 国产69精品久久99不卡| 亚洲自偷自拍熟女另类| 波多野结衣在线观看一区二区三区| 国产免费成人av| 欧美巨大xxxx做受沙滩| 精品亚洲va在线va天堂资源站| 一级久久久久久| 亚洲精品老司机| 特大黑人巨人吊xxxx| 蜜臀av性久久久久蜜臀aⅴ流畅 | 国产精品第二十页| 久久久精品蜜桃| 中文字幕第22页| 国产亚洲精品bv在线观看| 亚洲精品国产精品国自产| 一区二区在线视频观看| 国产成人av在线| 1024在线播放| 亚洲欧美精品在线| 国产xxxx孕妇| 在线观看视频91| 午夜偷拍福利视频| 国产精品美女视频| 星空大象在线观看免费播放| 蜜桃91丨九色丨蝌蚪91桃色| 国产精品成人久久电影| 久久国产精品亚洲人一区二区三区 | 性日韩欧美在线视频| 91caoporn在线| 亚洲激情视频网| 一区二区自拍偷拍| 午夜成人在线视频| 91久久久久久久久久久久久久| 97se亚洲国产综合在线| 香蕉视频xxxx| 麻豆国产精品官网| 黄色动漫在线免费看| 欧美激情成人在线| 亚洲精品一区二区三区蜜桃久| 欧美高清视频看片在线观看| 91影视免费在线观看| 99久久精品一区二区成人| 孩xxxx性bbbb欧美| h片在线播放| www.亚洲一区| av在线日韩国产精品| 亚洲精品自产拍| 日日夜夜精品免费| 日韩视频123| 国产精品无码在线播放 | 国内精品免费午夜毛片| av在线app| 日韩在线视频观看| 国产视频精品久久| 国产一区二区三区18| 日色在线视频| 日韩精品在线第一页| 亚洲国产一二三区| 日韩欧美综合在线| a视频免费在线观看| 欧美精品1区2区| 亚洲一区二区三区网站| 欧美日韩免费不卡视频一区二区三区 | 国产美女一区视频| 久久影视电视剧免费网站清宫辞电视| 91在线导航| 色小说视频一区| 77导航福利在线| 中文字幕亚洲欧美日韩2019| 成人高清网站| 中文字幕亚洲欧美日韩高清| 日本天堂在线观看| 日韩日本欧美亚洲| 最新超碰在线| 欧美极品第一页| 国产精品—色呦呦| 国语自产在线不卡| 亚洲美女炮图| 国产激情综合五月久久| 国产资源一区| 亚洲一区二区三区毛片| 亚洲日本va午夜在线电影| 99久久伊人精品影院| jizz国产精品| 久久精品日产第一区二区三区乱码| 欧美自拍视频| 亚洲高清123| 亚洲精品一区二区妖精| 日韩不卡视频一区二区| 黄页网站一区| 人妻熟女一二三区夜夜爱| 日本免费新一区视频| 欧美激情第一区| 成人免费看的视频| 欧美特级黄色录像| 自拍偷拍亚洲综合| 国产午夜小视频| 色菇凉天天综合网| 91亚洲欧美激情| 精品国产一区二区三区四区四| 欧美新色视频| 久久精品电影一区二区| 波多一区二区| 国产成人精品在线| 久久久久九九精品影院| 国产精品视频免费一区| 精品久久网站| 91嫩草国产丨精品入口麻豆| 国产视频一区三区| www.51色.com| 久久久久久久久久久黄色| 三级黄色在线观看| 婷婷成人综合网| 一个人看的www日本高清视频| 日韩欧美亚洲另类制服综合在线| 日本不卡视频一区二区| 日韩一区二区欧美| 国产精品高颜值在线观看| 国产美女91呻吟求| 露出调教综合另类| 国产精品一区在线免费观看| 久久福利影视| 在线播放av网址| 亚洲欧洲日韩av| 亚洲男人的天堂在线视频| 欧美日韩国产综合视频在线观看| 欧美一区二区公司| 最近2019年手机中文字幕| 999福利在线视频| 91麻豆国产精品| 精品日韩免费| 97国产精东麻豆人妻电影| 国产剧情在线观看一区二区 | 亚洲免费伊人电影| 成人a v视频| 亚洲国产精久久久久久| 在线中文字幕电影| 国产日本欧美一区| 免费精品国产的网站免费观看| 真实国产乱子伦对白视频| 精品一区二区三区视频在线观看| 波多野吉衣中文字幕| 亚洲大尺度视频在线观看| 国产手机视频在线| 色av中文字幕一区| 欧洲精品一区二区三区| 久久综合婷婷综合| 亚洲黄色毛片| 任你躁av一区二区三区| 亚洲猫色日本管| 国产又大又黑又粗| 日韩中文字幕网站| 97久久网站| 日韩欧美亚洲日产国| 久久久蜜桃一区二区人| 91av在线免费| 欧美日韩亚洲成人| 午夜性色福利视频| 国内精品久久久久影院 日本资源| 日韩精品一区二区三区中文在线| 自拍偷拍99| 狠狠色丁香婷综合久久| 婷婷国产成人精品视频| 欧美日韩卡一卡二| 日本三级在线视频| 国产精品自拍偷拍| 久久精品高清| 伊人国产精品视频| 亚洲精品一卡二卡| jlzzjlzz亚洲女人18| 欧美成人第一页| 亚洲一区网址| 国产二级片在线观看| 久久综合色播五月| 日本免费在线观看视频| 亚洲图片欧洲图片av| 亚洲不卡系列| 伊人婷婷久久| 国产精品亚洲一区二区三区妖精| 欧美日韩在线视频免费播放| 日韩三级视频中文字幕| 国产探花在线观看| 久久综合福利| 日韩av一级电影| 黄色录像一级片| 日韩精品资源二区在线| 玖玖在线播放| 亚洲a∨一区二区三区| 国产资源精品在线观看| 麻豆91精品91久久久| 亚洲精品久久久一区二区三区| 中文字幕不卡三区视频| 亚洲午夜精品久久| 国产剧情av麻豆香蕉精品| 国产精品999久久久| 亚洲精品综合精品自拍| 97成人超碰| 亚洲国产一二三精品无码| 99精品1区2区| 亚洲天堂免费av| 欧美日韩成人在线观看| 亚洲aa在线| 国内自拍第二页| 亚洲国产一区二区视频| 国产在线观看精品一区| 亚洲一区免费网站| 国产精品人人爽人人做我的可爱| 99久久久无码国产精品不卡| 欧美成人免费网站| 欧美性xxx| 91传媒免费视频| 久久久99久久精品欧美| 国产美女裸体无遮挡免费视频 | av久久网站| 日韩小视频网站| 国产精品高潮呻吟| 色婷婷中文字幕| 91视频国产一区| 亚洲欧美日韩一区在线观看| www.97视频| 亚洲日韩中文字幕在线播放| 免费观看亚洲天堂| 欧美三级理论片| 婷婷久久综合九色综合伊人色| 1区2区3区在线观看|