精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

六大模型決戰高考數學新一卷:豆包、元寶并列第一,OpenAI o3竟慘敗墊底

人工智能
還在讓大模型寫高考作文?有本事做高考數學卷子。接下來,我們就看看這六款大模型面對不同題目類型的表現。

又是一年高考時。

這屆考生上午剛經歷了抽象作文的洗禮,下午又被數學無情創飛。考試一結束,「高考數學」、「新一卷數學大題 難」等詞條就火速沖上微博熱搜,考生們在評論區集體「哀嚎」:「大題寫到懷疑人生」、「選擇填空送分,大題送命」。

而自從生成式 AI 走紅后,大模型「決戰」高考也成了每年的保留節目,尤其是在今年這個國內外大模型卷邏輯推理的當口。趁著各家大模型還來不及「作弊」,我們就用這新鮮出爐的高考數學題考考它們。

在考題選擇上,我們采用 2025 年數學新課標 Ⅰ 卷中的 14 道客觀題進行測試,滿分 73 分,包括 8 道單選題、3 道多選題、3 道填空題。為保證公平公正,我們將題目截圖分別投喂給大模型,不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果,且所有測試模型只有一次答題機會。

(注:在實測中我們發現 DeepSeek 的 OCR 識別出現不少錯誤,所以此次使用其他 AI 將圖片轉化為文本問題,再對 DeepSeek 進行測試。)

計分方法也依照高考判分原則:

  • 單選題 8 道,每道 5 分,選項正確計分,錯誤不得分;
  • 多選題 3 道,每道 6 分,全對計 6 分,漏選按正確答案數量計分,如答案為 ABCD,漏選其一扣 1.5 分,錯選不得分;
  • 填空題 3 道,每道 5 分,填空正確計分,錯誤不得分。

規則搞清楚了,接下來有請此次的參賽選手:字節的豆包、深度求索的 DeepSeek、阿里的通義、騰訊的元寶(T1)、百度的文心 X1 Turbo,以及踢館選手 OpenAI 的 o3。

由于目前標準答案尚未公開,本次測試的參考答案是由多位數學大牛解答核對。最終各大模型的考試成績如下圖所示。

這 6 家大模型中表現最亮眼的就是豆包和元寶,它倆雖然都「栽」在了第 6 道單選題上,但仍以 68 分的總成績并列第一;DeepSeek 和通義則稍微遜色一些,前者錯了 2 道單選題拿下 63 分,后者則在 1 道單選、1 道多選上失誤最終拿到 62 分;相比之下,文心 X1 頻頻在多選題和填空題上「掉鏈子」,最終只獲得 51 分,正確率僅為 70%。

面對中國的高考數學題,o3 表現出明顯的「水土不服」,它僅拿到 34 分,正確率只有 47%。之前就有傳言稱 o3 在某些情況下會觸發「降智」,如此看來并非空穴來風,否則這個表現實在令人難以置信。

欲知這 6 大模型的具體答題截圖,請移步鏈接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

一、六家頂流模型 PK 高考數學

相比于寫作文,高考數學才是真正的 AI 照妖鏡。

這是因為高考作文盡管對語言表達、邏輯結構、思辨能力有一定要求,但它本質上仍是一個語言生成任務,具有較強的模糊空間和容錯度,而且經過這兩年的技術迭代,大模型個個都練成了「段子手」,寫作文自然是手拿把掐。

而高考數學則不同,它需要從已知條件出發,邏輯嚴密地推導每一個結論,過程中只要一步出現偏差,最終答案十有八九會出錯。更何況,高考數學題還存在「題型常變」「設問刁鉆」等特點,這些都進一步挑戰了模型的泛化能力和思維深度。

接下來,我們就看看這六款大模型面對不同題目類型的表現。

1. 單選題

高考數學包含 8 道單選題,滿分 40 分。

從跑分情況來看,豆包、通義、元寶和文心打成平手,均斬獲 35 分不錯的成績;其次就是 DeepSeek 錯了兩道單選拿下 30 分,表現最拉胯的竟是 o3,光單選題就錯了一半。

作為曾經的推理模型「扛把子」,o3 在「送分」的第 2 題上就翻了車。起初它的思路還挺清晰,但從第二步就開始「胡說八道」,最終一頓操作猛如虎,算出個選項里沒有的答案。

DeepSeek 最大的 bug 則是圖片識別,就以第 6 題為例。

原題中本附著一張信息圖,為了省事我們索性就將題目截圖直接丟給 DeepSeek,但它對眼前的圖表視而不見,一個勁地抱怨「題目描述不完整,無法確定答案」,甚至末了還開始蒙答案糊弄人。

其實,這道題通過數形結合就能直觀看出,其準確答案應為 2√2。通義作為國產 AI 中唯一答對第 6 題的選手,計算方法竟是錯誤的,只不過是歪打正著落在正確選項的區間。

2. 多選題

多選題曾讓無數考生頭疼,因為它的正確選項不固定,多答或少答都會扣分,再加上題目里總設些陷阱,一不小心就會失誤。

高考數學多選題有 3 道,總共 18 分。豆包、DeepSeek 和元寶三道題全部滿分,發揮相當穩定。

相比于 DeepSeek 動輒幾百秒的思考時間,通義主打一個速度,僅用時 26 秒就直出答案,但步驟分析過于簡略,缺乏必要的驗證環節,這就很容易失手。比如它在前兩題上答得都很漂亮,卻在下圖這道題上突然智商「掉線」。該題正確答案是 ABC,通義卻給出了 A、D,至于為何不選 B、C,它的解釋非常簡單粗暴,因為「無法通過現有條件直接推導」。

文心 X1 就有點尷尬了。三道題目錯了倆,其中一道還是未響應。它和 DeepSeek 犯了同樣的毛病,都是經常性地識別不了圖片內容。

o3 好像還沒適應國內高考的「多選套路」,一道題都沒全對,明明是多選它偏做成單選,當然這么做也有好處,就是不至于零封,怎么也能得個 4 分。

3. 填空題

或許是這次填空題相對簡單,有四家大模型斬獲滿分,分別是豆包、DeepSeek、通義和元寶。

文心 X1 有點可惜,整個答題思路都是正確的,也算出了公比為 2 或 - 2,但偏偏在最后畫蛇添足,莫名其妙地說了句「通常取正值」,導致一分未得。

二、有哪些進步?又暴露了哪些問題?

有一說一,各家大模型公司狠砸的真金白銀還真沒白花,今年大模型的數學推理能力確實有了明顯的進步。

首先表現在得分上。去年我們也曾讓大模型挑戰高考數學題,但彼時它們連高考數學及格線都沒過,甚至 9.9 和 9.11 哪個大、strawberry 有幾個 r 都答不對。反觀今年大模型的表現,除 o3 外,其他 5 款模型均突破 43.8 分的及格線,甚至豆包和元寶還保持了 93% 的正確率。

其次,增加了反思能力。去年大模型還沒學會反思,做題時因某個步驟錯誤而無法找到正確選項時,它們不再回頭檢查,而是直接簡單粗暴地表示「沒有正確選項」。而今年的大模型不再是一根筋,只要遇到不對勁的地方就會推倒重來,典型代表就是 DeepSeek,一言不合就驗證,這也導致思考時間漫長,有時做一道題甚至能用時 15 分鐘。

最后,推理步驟更加完善。回顧去年大模型在做高考數學題時的表現,普遍存在解析過程較為簡略的情況,經常會跳步,有時解析過程一長還會陷入死循環。今年則是除了通義仍然「惜字如金」外,其他大模型都能夠系統性地展示完整的推理鏈路,從問題分析、公式選擇、計算步驟到結果驗證,每個環節都有清晰的邏輯闡述。即使是數學基礎相對薄弱的用戶,也能夠通過模型提供的詳細解析過程,深入理解問題的本質和解決思路。

不過,從這次評測中我們也發現了大模型幾個典型的毛病。

最常見的就是計算細節錯誤,即使模型理解了題意,推理方向正確,最后也容易在中間步驟出錯,比如符號看錯、公式套錯、代數變形不規范等。

另一個核心問題是公式、圖形與幾何直覺的處理能力不足,比如解析幾何類題目依賴較強的空間感和圖形理解,這對語言模型而言是天然短板。在邏輯推理鏈較長或題型設計較「逆向」的題目中,模型還可能表現出蒙答案的傾向,看似給出了結論,但中間鏈條無法自洽或存在明顯漏洞。

此外,對題目條件的敏感度不夠。模型有時會忽略某些隱含條件,導致結論偏差。尤其在多選題中,模型容易滿足于找到一個正確選項而不窮盡其他可能,從而漏選或誤選。填空題則容易受到「無提示答題」能力的限制,不能推理出完整的結果。

隨著技術不斷進化,大模型的數學能力也會不斷提高,相信總有一天大模型能彌補「偏科」的毛病。

最后,預祝各位考生金榜題名,考上理想的大學!

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2024-09-19 17:44:04

2025-04-23 08:30:05

2024-03-28 14:26:51

人工智能

2024-12-24 16:15:04

2024-12-30 09:55:00

AI數據模型

2025-05-28 00:00:00

2025-01-14 13:51:18

2015-12-11 15:47:27

2024-05-21 12:22:38

2025-06-27 09:24:04

2024-10-05 00:00:00

2025-04-22 09:18:57

2025-08-07 09:20:00

2025-04-18 11:18:51

2025-04-21 08:22:25

2025-05-14 10:09:12

2024-06-19 11:45:34

2024-12-23 07:40:00

AI模型數學
點贊
收藏

51CTO技術棧公眾號

亚洲欧洲久久| 日本视频久久久| 三级黄色片免费观看| 成人黄色网址| av欧美精品.com| 久久久久在线观看| 中文字幕国产综合| 国产精品成人**免费视频| 亚洲精选在线视频| 国内成+人亚洲| 亚洲综合网av| 伊人久久综合| 一区二区欧美激情| 在线观看网站黄| 在线看片福利| 亚洲国产成人午夜在线一区| 国产美女91呻吟求| 国产在线免费视频| 成人中文在线| 亚洲成人久久一区| 亚洲一级片免费| av剧情在线观看| 国产精品免费aⅴ片在线观看| 91久久国产自产拍夜夜嗨| 久久久久99精品成人片我成大片| 欧美日韩一区二区三区视频播放| 精品成a人在线观看| 久久久久久久片| 日韩经典av| 欧美韩国日本综合| 激情小说网站亚洲综合网 | 99国产精品久久久久99打野战| 国模吧视频一区| 日韩中文第一页| 亚洲午夜久久久久久久久| 久久人体av| 一本一道久久a久久精品综合蜜臀| japanese在线视频| 日本大片在线观看| 国产·精品毛片| 国产拍精品一二三| 特级做a爱片免费69| 欧美午夜不卡| 社区色欧美激情 | 亚洲蜜桃精久久久久久久久久久久| 亚洲电影二区| 国产色综合一区| 国产伦精品一区二区三区照片| 中文字幕人妻一区二区在线视频| 在线播放一区| 欧美伦理91i| 九九热视频在线免费观看| 五月激激激综合网色播| 亚洲福利视频网站| 日本一级大毛片a一| 亚洲欧美一级| 欧美日韩一区成人| 91欧美视频在线| 日韩制服诱惑| 色噜噜久久综合| 日批视频在线免费看| 极品在线视频| 欧美日韩国产页| 青青草视频在线免费播放| 欧美性猛片xxxxx免费中国| 中文字幕亚洲精品在线观看 | 婷婷激情五月网| 999亚洲国产精| 久久免费视频在线| 日韩成人免费在线视频| 黄色av一区| 亚洲91av视频| 国产69精品久久久久久久久久| 激情久久五月| 97视频在线观看免费高清完整版在线观看 | 亚洲欧洲国产伦综合| 性欧美成人播放77777| 亚洲激情77| 尤物九九久久国产精品的特点 | 久久精品国产精品亚洲| 亚洲少妇xxx| 中文不卡在线| 久久久久国产精品免费网站| 国产亚洲成人av| 在线一区欧美| 国产精品黄视频| 91成人一区二区三区| 国产中文一区二区三区| 99视频国产精品免费观看| 亚洲精品久久久狠狠狠爱| 99久久亚洲一区二区三区青草| 国产在线精品一区| 欧美另类自拍| 中文字幕一区视频| 国产免费裸体视频| 日韩欧美看国产| 欧美另类久久久品| 无码人妻精品一区二区三| 日韩在线麻豆| 日韩三级影视基地| 国产成人亚洲精品自产在线| 日韩国产精品久久| 亚洲aⅴ男人的天堂在线观看 | 91免费在线看片| 国内自拍一区| 国产精品美女久久久久久免费| 伊人网视频在线| 成人综合婷婷国产精品久久蜜臀| 免费一区二区三区| 中文在线观看免费| 一本大道av伊人久久综合| 天天看片天天操| 日韩精品免费一区二区三区竹菊| 色吧影院999| 日韩欧美a级片| 六月丁香综合在线视频| 国产免费一区二区| 日本视频不卡| 日韩欧美在线网址| 1314成人网| 欧美理论在线播放| 国内精品久久影院| 国产一区二区三区黄片| 久久日韩粉嫩一区二区三区| 亚洲免费视频播放| 韩国精品主播一区二区在线观看| 欧美日韩激情一区二区三区| 国产精品无码一区二区三| 91欧美在线| 国产成人精品免费视频| 黑人精品一区二区| 国产精品水嫩水嫩| 日韩精品一区二区三区色欲av| 久久精品免视看国产成人| 亚洲性69xxxbbb| 日韩免费观看一区二区| 国产精品亚洲人在线观看| 日韩三级电影网站| 超碰一区二区| 日韩电影视频免费| 国产亚洲自拍av| 国产精品中文有码| 亚洲精品久久区二区三区蜜桃臀| 欧美亚洲日本精品| 亚洲高清免费观看高清完整版| 黄色录像一级片| 日韩va欧美va亚洲va久久| 精品一区二区三区自拍图片区 | 性欧美长视频免费观看不卡| 超碰在线97观看| 久久久久国产精品麻豆ai换脸 | 精品视频色一区| 男人天堂av电影| 国产免费成人| 久久久com| 性欧美freesex顶级少妇| 亚洲高清不卡av| 91av在线免费视频| www.在线成人| www.国产在线视频| gogo人体一区| 国内精品久久久久久久| 欧性猛交ⅹxxx乱大交| 一区二区三区国产豹纹内裤在线| 91视频福利网| 欧美日韩精选| 国产高清在线精品一区二区三区| 免费污视频在线| 精品日韩在线观看| 久久精品国产亚洲av麻豆色欲 | 美女av在线播放| 欧美久久久久久久久久| 精品国产大片大片大片| 韩国av一区二区三区在线观看| 中文精品一区二区三区 | 欧美性受xxxx| 中文字幕无码日韩专区免费| 国精产品一区一区三区mba视频 | 亚洲图色中文字幕| 亚洲在线久久| 国产精品一区二区欧美黑人喷潮水| 91www在线| 亚洲人成免费电影| 岳乳丰满一区二区三区| 亚洲精品中文字幕在线观看| 免费高清视频在线观看| 亚洲国产清纯| 欧美二区三区| 亚洲日本中文| 久久久久在线观看| 欧美成人片在线| 4hu四虎永久在线影院成人| а天堂中文在线资源| 国产成人免费av在线| 青青艹视频在线| 成人羞羞网站入口免费| 亚洲a中文字幕| 96av在线| 最近2019中文字幕mv免费看| 亚洲高清在线观看视频| 狠狠久久五月精品中文字幕| 国产精品无码午夜福利| 精品在线免费视频| 欧美三级在线观看视频| 日韩国产欧美| 国产精品一区二区在线观看| 99re6在线精品视频免费播放| 一区二区三区四区在线观看视频 | 亚洲高清久久久久久| 在线免费观看中文字幕| 亚洲不卡一区二区三区| 日韩av网站在线播放| 97久久人人超碰| 日韩av影视大全| 久久青草久久| 欧美图片激情小说| 国产高清一区二区| 欧美人与性禽动交精品| 精品欧美视频| 国产精品久久久久久久久久新婚 | 欧美与欧洲交xxxx免费观看| 黄色免费在线观看| 亚洲性夜色噜噜噜7777| 国产91视频在线| 欧美三级韩国三级日本一级| 国产无码精品视频| 亚洲免费观看在线视频| 亚洲bt天天射| 91九色在线播放| 亚洲少妇中文在线| 后进极品白嫩翘臀在线视频| 欧美男人的天堂一二区| 无码人妻精品一区二区三区蜜桃91| 亚洲精品ww久久久久久p站| 蜜臀久久99精品久久久久久| av一区二区三区| 欧美又黄又嫩大片a级| 巨乳诱惑日韩免费av| 亚洲熟妇无码一区二区三区| 欧美激情欧美| 一本一道久久a久久综合精品| 五月天亚洲色图| 久久国产精品-国产精品| 亚洲国产高清在线观看| 国产在线精品自拍| 高清欧美日韩| 国产精品亚洲网站| 成人影院入口| **欧美日韩vr在线| 蜜桃在线视频| 欧美一级电影久久| 涩涩网在线视频| 51精品在线观看| 国产美女高潮在线| 午夜精品一区二区三区在线| 羞羞的视频在线看| 欧美黑人xxx| 韩国成人免费视频| 欧美巨猛xxxx猛交黑人97人| 国产黄色在线网站| 久久999免费视频| 欧美私人网站| 久久91亚洲人成电影网站| 在线免费av导航| 欧美精品videossex性护士| 9999精品成人免费毛片在线看| 91国产美女在线观看| 视频二区不卡| 91免费在线视频| 久久夜色电影| 日韩av电影在线观看| 999国产精品| 欧美国产日韩激情| 日韩成人午夜电影| 丰满人妻一区二区三区53视频| 成人国产精品视频| 欧美成人另类视频| 亚洲一区二区三区免费视频| 天天操天天操天天操天天| 欧美日韩大陆在线| 天堂网在线播放| 日韩在线精品一区| av资源网在线播放| 国产精品香蕉在线观看| 高清精品视频| 色女人综合av| 亚洲一级二级| 国产精品区在线| 成人黄色在线网站| 亚洲天堂精品一区| 午夜精品久久一牛影视| 亚洲天堂男人网| 日韩成人黄色av| xvideos国产在线视频| 热久久这里只有| 国产日本亚洲| 日本一区高清不卡| 亚洲国产午夜| 在线观看av免费观看| 久久亚洲影视婷婷| 九九热视频精品| 欧美日韩国产一级| 免费毛片在线| 欧美激情精品久久久| 欧美黄色成人| 欧美激情导航| 亚洲欧洲视频| 五月天丁香花婷婷| 国产日韩视频一区二区三区| 劲爆欧美第一页| 欧美精品在线观看一区二区| 日本v片在线免费观看| 欧美激情亚洲另类| 精品午夜视频| 亚洲精品一区二区三区樱花| 亚洲女优在线| 日韩www视频| 亚洲成av人综合在线观看| 国产尤物在线观看| 伊人伊成久久人综合网小说| 日本不卡1234视频| 国产一区免费| 黑丝一区二区| 国产乱淫av麻豆国产免费| 中文字幕一区二区5566日韩| 国产精品无码粉嫩小泬| 亚洲精品综合精品自拍| 岛国av免费在线观看| 俄罗斯精品一区二区三区| 亚洲一区二区三区| 天天干天天曰天天操| 欧美成人黄色网址| 国内外成人在线| √8天堂资源地址中文在线| 欧美激情亚洲激情| 国产午夜精品一区在线观看| 四虎永久国产精品| 久久久综合网| 少妇毛片一区二区三区| 五月综合激情网| 日本高清视频网站| 韩日欧美一区二区| 国产suv精品一区| av一区二区三区免费观看| 国产在线观看一区二区| 熟女少妇a性色生活片毛片| 91精品久久久久久久91蜜桃| 麻豆免费在线视频| 91久久久在线| 好吊视频一区二区三区四区| 老熟女高潮一区二区三区| 亚洲v中文字幕| 免费成人av电影| 国产精自产拍久久久久久蜜| 91av精品| 免费在线观看日韩av| 五月婷婷激情综合| 欧美女优在线观看| 国产日本欧美一区二区三区在线 | a一区二区三区| 日本中文不卡| 极品尤物av久久免费看| 丰满少妇高潮久久三区| 亚洲精品电影网在线观看| 亚洲天堂av影院| 亚洲欧美国产精品桃花| 国产一区二区中文字幕| 久久久久久久中文字幕| 亚洲精品国产suv| 91在线亚洲| 手机看片日韩国产| av成人老司机| 凹凸精品一区二区三区| 久久国产色av| 亚欧日韩另类中文欧美| 一个色综合久久| 亚洲综合图片区| 国产精品久久一区二区三区不卡 | 日韩一区在线免费观看| 欧美视频久久久| 国产精品 欧美在线| 一区二区影院| 精品人妻一区二区三区香蕉| 欧美日韩国产综合一区二区 | 色综合视频一区二区三区高清| 77导航福利在线| 国产一区在线免费| 欧美aaaaa成人免费观看视频| 欧美成人精品欧美一| 亚洲人成在线观看| 中文字幕一区图| www.com黄色片| 欧美日韩国产影院| 八戒八戒神马在线电影| 日本午夜一区二区三区| 不卡的看片网站| 一区二区三区亚洲视频| 2018国产精品视频| 欧美激情亚洲| 少妇av片在线观看|