精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!

發布于 2024-5-23 15:02
瀏覽
0收藏

隨著現代大語言模型(LLMs)如 OpenAI 的 ChatGPT 和 GPT-4 的出現,LLMs 展示了生成類人對話和解決復雜數學難題的非凡能力。從 Meta 在 4 月 18 日發布 Llama3-8B & 70B 開始,Qwen 開源的首個百 B 大模型 Qwen-1.5-110B,到深度求索的 MoE 模型 DeepSeek-V2,還有近幾日 OpenAI 放出的大招 GPT-4o,號稱更低的價格,更強的性能,大家都號稱自己的新模型數學能力頂呱呱,但事實真是這樣嗎?

如何透明化評測大模型的各項數學能力如今成了大家的難題,因為開源數據集往往評測角度較為局限,如常用的 GSM8k 專注日常計算,MATH 只專注于高中數學競賽。

再加上,負責大模型數學部分的產品經理往往對新訓練的模型有下面的小小期待:

  • ??想要全面知道從小學,初中到大學每個階段模型數學表現各怎么樣
  • ??中英文能力都要體現
  • ??要是每道題都有知識點標簽就好了
  • ??emmm,能不能再考下理論題,天天做應用題也不知道是不是模型基礎沒打好
  • ??測試出的結果要魯棒,真實反映模型能力
  • ??不想收集一大堆數據集,最好上面的內容能一次測試完(-v-)
  • .....

這要求都能滿足嗎?還真能!

在最新的 ACL2024 中,由上海人工智能實驗室聯合香港中文大學,北京航空航天大學和南京大學提出的 MathBench 打破了大模型數學評測不透明的現狀,且已經被 ACL2024 Findings 接收

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 結構及特點

正如本文開頭所描述的,傳統評估 LLMs 數學能力的基準存在一些局限性,如單一視角的解決問題能力評估和缺乏全面的學段分級。MathBench 彌補了這些不足,提供了嚴格的數學能力評估新基準。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 整體結構示意

相比傳統的數學評測集,MathBench 有以下特點:

  1. 多維度的知識框架:MathBench 配有一個多層次知識體系,具有從基礎計算,小學到大學的 5 階段的豐富題目,每階段都配有相應的3層細粒度知識點,一次評測即能從廣度和深度兩個維度上掌握模型能力,不留遺憾。
  2. 理論與應用兼顧:“基礎不牢,地動山搖”。MathBench 分為MathBench-A(應用能力)MathBench-T(理論能力)兩個子集,不僅包含實際應用問題,還包含相關領域專家精心收集的基礎數學概念和推論題。
  3. 雙語支持:對于上述的所有知識層次,以及理論應用題,MathBench 都提供中英文題目,且中英題目根據語境學習現狀獨立收集,拒絕機翻,以保證評測結果的合理性。
  4. 魯棒評測:針對數學評測難以抽取答案的現狀,MathBench 中的大部分題目為經過專家標注的選擇題,保證了選項合理且有一定的干擾度,并且采用循環評測(CircularEval)作為基礎評測方式,模型需要多次答對打亂選項順序的同一題目才認為該題目被模型所掌握。
  5. 來源可靠:MathBench 中約 80% 題目為新收集的題目,來源大部分為專業考試,如高考、中考等,且經過專門校驗。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench的5階段3層知識點結構

(小學與基礎運算因有相同知識點體系而合并)

各大模型在 MathBench 上的表現

下面就讓我們看一下在 MathBench 作為數學能力照妖鏡下各模型的表現吧:

總體結果,GPT-4o 優勢明顯,國產模型緊隨其后

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench理論與應用分級測評結果

(A代表應用題結果,T代表理論題目)

在應用題上:

  • GPT-4o領先較大,在高學段尤為明顯
    部分國產模型,如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經有著超越 GPT4-0125-Preview 的表現,但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細分結果可以發現,差距在較高學段,如高中和大學的題目上尤為明顯。如 GPT-4o 在大學階段的應用題目上雖然只有 54.0的CircularEval 分數,但相對 Qwen-Max-0428 已經有著接近翻倍的表現。
  • 部分開源模型實力強勁
    如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125,接近 GPT4-0125-Preview 的表現。DeepSeek-Math-7B-RL 作為 7B 量級的開源數學模型表現亮眼,在應用題目上甚至超過了 Qwen-72B-Chat。

在理論題上:

  • GPT-4o 各學段全面領先,展現扎實的基本數學功
    作為基本數學理論能力的展現,MathBench-T 中不僅考察模型基本數學知識,還加入常用的推論,以及精心設計的干擾項來迷惑模型,所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領先各 API 模型,拿下應用理論雙第一名??,證明了其不僅基礎扎實,且會熟練運用。
  • 理解理論并不代表能夠熟練應用
    如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分數,但在應用階段兩者差距較大,可能因為在較高階段的數學知識上,運用要比理論需要更多的技巧,比如在高中和大學階段,兩者的應用分數差距越來越大,而理論上卻沒有相似的明顯差距。

模型整體分數趨勢

下面是應用階段的多個模型平均分數的整體趨勢。

可以發現,在基礎運算(Arithmetic)階段和小學數學(Primary)階段有著類似的難度,而從初中起,隨著學段的增加,模型的平均表現下降明顯:

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

MathBench 應用題在各學段上的平均模型結果,呈現自然梯度趨勢

中英文雙語言結果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結果對比,按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap,如 MammoTH-13B,MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文,而 GPT-4o 和 GPT-4-0125-Preview 在中英數學上有著相近的表現。

GPT-4o 的數學又雙叕進步了?來 MathBench 看看新版 GPT-4o 到底強在哪!-AI.x社區

值得注意的是,為了 MathBench 的中英成績能代表該語言環境下的真實成績,在收集過程中并沒有將題目相互翻譯,所以在對比中僅供參考,因為題目不是中英文一一對應的關系。

已于2024-5-23 15:17:19修改
收藏
回復
舉報
回復
相關推薦
成人av一级片| 高清不卡日本v二区在线| 91精品人妻一区二区三区蜜桃欧美| xxxx成人| 2021中文字幕一区亚洲| 国产91精品最新在线播放| 欧美自拍偷拍网| 精品视频91| 欧美日韩视频免费播放| 欧美日韩电影一区二区| 91成人国产综合久久精品| 国产精品大片| 国产亚洲人成a一在线v站| 日本美女视频一区| 欧美裸体视频| 亚洲欧美激情插| 欧美人与性禽动交精品| 性欧美videos另类hd| 老司机午夜精品视频| 不卡伊人av在线播放| 素人fc2av清纯18岁| 成人在线分类| 色综合久久九月婷婷色综合| 中文字幕色呦呦| 免费毛片在线| 成人中文字幕电影| 国产精品色午夜在线观看| 国产无码精品一区二区| 欧美激情理论| 亚洲欧美中文另类| 国产乱国产乱老熟300部视频| 亚洲高清黄色| 亚洲成人av中文| 无码人妻aⅴ一区二区三区日本| 日本人妖在线| 成人综合婷婷国产精品久久蜜臀| 国产日韩av在线| 日韩中文字幕在线观看视频| 国语自产精品视频在线看8查询8| 色偷偷偷综合中文字幕;dd| xxxx黄色片| 91成人精品在线| 91精品国产乱码| 国产高清视频网站| 久久电影tv| 婷婷国产在线综合| 97在线免费视频观看| 日本视频在线播放| 中文字幕电影一区| 日韩免费电影一区二区| 男人的天堂在线| 2023国产精品视频| 欧美动漫一区二区| 青青草视频在线观看| 91亚洲男人天堂| 国产在线精品一区二区三区》| 精品国产无码一区二区| 国产一区二区三区不卡在线观看| 成人av在线天堂| 一级特黄aaa大片| 久久超碰97中文字幕| 国产精品日韩专区| 波多野结衣激情视频| 老司机免费视频久久| 国产成人久久久精品一区| 东京热一区二区三区四区| 新67194成人永久网站| 欧美有码在线视频| 日批视频免费在线观看| 日韩不卡一区二区| 亚洲成av人片在www色猫咪| 在线视频不卡一区二区| 在线视频三区| 最新日韩av在线| 午夜啪啪免费视频| 国产调教视频在线观看| 一二三四社区欧美黄| 欧美视频在线观看视频| 国产免费拔擦拔擦8x在线播放| 亚洲成av人片一区二区三区| 99999精品视频| 97成人超碰| 91精品国产欧美日韩| jjzz黄色片| 丝袜美腿一区二区三区动态图 | 六月婷婷在线视频| 亚洲优女在线| 欧美影视一区二区三区| 三级在线视频观看| 精品视频一区二区三区| 精品播放一区二区| 人妻少妇一区二区| 大片网站久久| 欧美激情第1页| 国产成人一级片| 狠狠色丁香久久婷婷综| 国产乱码一区| 91在线免费看| 亚洲一区二区成人在线观看| 乱子伦视频在线看| 欧美第一在线视频| 亚洲开心激情网| 91视频青青草| 国产精品jizz在线观看美国| 26uuu另类亚洲欧美日本一| 中文字字幕在线观看| 国产精品一区二区黑丝| 欧美日韩一区二区视频在线观看| 国产黄大片在线观看画质优化| 午夜视黄欧洲亚洲| 亚洲性图一区二区| 美女视频亚洲色图| 久久久成人精品| 一级黄色大片视频| 成人午夜免费视频| 在线视频一区观看| 欧美三级网址| 亚洲国产欧美一区二区丝袜黑人 | 少妇高潮久久久| 国产精品不卡视频| 精品久久久久av| 免费日韩一区二区三区| 久久的精品视频| 婷婷激情五月综合| 成人性色生活片| 艳母动漫在线免费观看| free欧美| 精品亚洲国产成av人片传媒 | 美女欧美视频在线观看免费| 亚洲精品日产精品乱码不卡| 天天干天天干天天干天天干天天干| 加勒比中文字幕精品| 欧美成人免费全部| 亚洲字幕av一区二区三区四区| 26uuu亚洲婷婷狠狠天堂| 日本人妻伦在线中文字幕| 欧美伊人亚洲伊人色综合动图| 亚洲欧洲日本专区| 欧美日韩综合在线观看| 成人免费高清在线观看| 亚洲色婷婷久久精品av蜜桃| 亚洲精品aaa| 最新的欧美黄色| 国产精品欧美综合| 久久精品亚洲精品国产欧美kt∨| 欧美v在线观看| 免费成人三级| 97超级碰碰碰久久久| 全国男人的天堂网| 亚洲国产日韩一级| 国产精品一区二区在线免费观看| 欧美视频福利| 不卡一卡2卡3卡4卡精品在| www.久久久久.com| 欧美一区二区免费视频| 2021亚洲天堂| 国产精品自在在线| 日本a在线天堂| 粉嫩的18在线观看极品精品| 久久久久久久久久国产精品| 亚洲AV无码一区二区三区少妇| 一区二区三区资源| 9.1在线观看免费| 亚洲黄页一区| 久久国产一区| 写真福利精品福利在线观看| 一区三区二区视频| 伊人成人在线观看| 亚洲日本丝袜连裤袜办公室| 欧美性猛交xx| 亚洲福利电影| 欧美久久综合性欧美| 高清av一区二区三区| 日韩中文字幕久久| 国产黄色美女视频| 亚洲777理论| 瑟瑟视频在线观看| 久久99国产精品麻豆| 国产尤物av一区二区三区| 极品尤物一区| 国产精品久久久久久久久久久久 | 黄色片一级视频| 国产成人精品999在线观看| 国产精品户外野外| 成人在线免费看黄| 日韩成人免费视频| 真实的国产乱xxxx在线91| 亚洲人一二三区| 大尺度做爰床戏呻吟舒畅| 日韩极品在线观看| 91精品国产毛片武则天| 久久影院资源站| 国产日韩亚洲欧美| а√天堂中文在线资源8| 有码中文亚洲精品| 亚洲精品国产精品国| 日本韩国欧美一区二区三区| 免费成年人视频在线观看| av一本久道久久综合久久鬼色| 91激情视频在线| 欧美特黄一级| 日韩国产美国| 国产精东传媒成人av电影| 国产精品久久97| 国产探花视频在线观看| 中文字幕日韩在线播放| 好吊色一区二区| 欧美日韩精品久久久| 国产精品111| 亚洲欧洲韩国日本视频| 国精产品一区一区三区免费视频 | 日本高清无吗v一区| 欧美成人免费观看视频 | 精品国产成人在线影院| 亚洲第一区av| 午夜成人在线视频| 97成人资源站| 国产欧美日韩另类视频免费观看| 人妻 丝袜美腿 中文字幕| 欧美aaa在线| 91精品91久久久中77777老牛| 欧美91福利在线观看| 亚洲欧美丝袜| 欧美美女在线| 韩国一区二区三区美女美女秀 | 亚洲淫性视频| 中文字幕欧美日韩| 欧美色视频免费| 日韩av在线免播放器| 亚洲h视频在线观看| 欧美妇女性影城| 中文字幕av网站| 一本大道久久a久久精二百| 久久久夜色精品| 亚洲欧美另类图片小说| 色撸撸在线视频| 日本一二三不卡| 无码 人妻 在线 视频| 99riav一区二区三区| 人妻 丝袜美腿 中文字幕| 国产精品一卡二| 热久久久久久久久| 精品在线一区二区三区| 日本人视频jizz页码69| 日本午夜一区二区| 四虎永久在线精品无码视频| 亚洲视频播放| 国产一区二区在线视频播放| 18成人免费观看视频| www精品久久| 亚洲麻豆视频| 久久久999视频| 免费视频久久| 日韩在线第三页| 青草av.久久免费一区| 91香蕉视频导航| 琪琪一区二区三区| 成人黄色一级大片| 国产中文一区二区三区| 三级网站免费看| 成人一级黄色片| 无码人妻精品一区二区三应用大全| 91亚洲大成网污www| 无码熟妇人妻av| 亚洲国产精品99久久久久久久久| 国产精品酒店视频| 成人欧美一区二区三区视频网页| 污污的视频在线免费观看| 亚洲另类一区二区| 亚洲国产精一区二区三区性色| 性欧美疯狂xxxxbbbb| 欧美videossex极品| 91国偷自产一区二区三区观看| 在线观看一二三区| 欧美一区二区日韩| 偷拍自拍在线| 国产亚洲精品成人av久久ww| 日本www在线| 欧美精品18videos性欧| 亚洲免费福利| 成人激情视频小说免费下载| 91麻豆精品激情在线观看最新 | 西西人体44www大胆无码| 亚洲桃花岛网站| 好了av在线| 91av在线精品| 日韩av黄色| 国产精品一区二区三区免费| 国产成人影院| 特级西西人体www高清大胆| 99这里有精品| 91亚洲精品久久久蜜桃借种| 福利一区二区在线| 人妻aⅴ无码一区二区三区| 亚洲欧美色一区| 欧美另类一区二区| 欧美日本乱大交xxxxx| 欧美一级一区二区三区| 最新中文字幕亚洲| 麻豆成全视频免费观看在线看| 国产精品视频地址| 欧美人体视频| 免费成人深夜夜行网站视频| 亚洲一区二区三区四区五区午夜| av免费一区二区| 91在线一区二区三区| 日韩女优一区二区| 日本高清不卡视频| 男人天堂av网| 久久久精品免费视频| 日本精品不卡| 国产精品麻豆免费版| 日本欧美视频| 波多野结衣家庭教师在线| 国产剧情在线观看一区二区| 精品成人无码一区二区三区| 亚洲一二三区不卡| 一级全黄少妇性色生活片| 亚洲视频国产视频| 国产99在线观看| 99c视频在线| 99视频精品全国免费| 国产福利视频在线播放| 成人精品亚洲人成在线| 蜜臀av午夜精品久久| 在线亚洲欧美专区二区| 亚洲区小说区图片区| 欧美精品videofree1080p| 国产激情精品一区二区三区| 亚洲成人自拍| 天堂久久一区二区三区| 国产老熟女伦老熟妇露脸| 亚洲综合在线观看视频| 91黄色在线视频| 中文字幕精品av| 欧美性猛交xxx高清大费中文| 国产一区二区中文字幕免费看| 欧美在线亚洲| 超碰91在线播放| 亚洲人被黑人高潮完整版| 一级做a爱片久久毛片| 中文字幕9999| 国产国产一区| 小说区图片区图片区另类灬| 日韩电影免费在线| 中文字幕 自拍| 91久久精品日日躁夜夜躁欧美| 青青草娱乐在线| 日本国产一区二区三区| 五月激激激综合网色播| 国产91在线视频观看| 91麻豆精东视频| 91丝袜一区二区三区| 亚洲欧洲黄色网| 暖暖成人免费视频| 日本一区二区精品视频| 日精品一区二区三区| 日韩女同一区二区三区| 欧美少妇bbb| 欧美成年黄网站色视频| 91精品免费视频| 欧美日韩国产欧| 北京富婆泄欲对白| 精品久久久国产| 美女做暖暖视频免费在线观看全部网址91 | 亚洲va欧美va国产综合剧情| 天天影视综合| 69久久精品无码一区二区| 亚洲综合区在线| 亚洲av成人精品日韩在线播放| 日本a级片电影一区二区| av在线不卡顿| 色18美女社区| 亚洲一级二级三级在线免费观看| 好吊视频一区二区三区| 91成人精品网站| 精品日韩在线| 伊人国产精品视频| 午夜婷婷国产麻豆精品| 成人高清在线| 69堂成人精品视频免费| 中文精品在线| 四虎永久免费地址| 亚洲精品一区二区三区影院| 在线成人av观看| 中文字幕欧美日韩一区二区三区| 国产成人精品亚洲777人妖| 天天插天天操天天干| 色av中文字幕一区| 国产成人一二片| 香蕉视频网站入口| 亚洲曰韩产成在线| 免费国产在线观看| 2019国产精品视频| 久久久久99| 久草网视频在线观看| 亚洲天堂网站在线观看视频| 日本伊人久久| 一区二区在线播放视频| 亚洲一卡二卡三卡四卡五卡|