精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench 精華

發(fā)布于 2025-11-18 12:09
瀏覽
0收藏

今天要聊一篇剛剛出爐的論文,它可能給近期"LLM數(shù)學能力已超越人類"的樂觀情緒澆了一盆冷水。美團LongCat團隊聯(lián)合多所頂尖高校推出的AMO-Bench。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

它用50道原創(chuàng)奧賽級難題,讓當前最強LLM集體"現(xiàn)出原形"。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

頂級推理模型在AMO-Bench以及現(xiàn)有競賽級數(shù)學基準測試上的表現(xiàn)

Github:https://github.com/meituan-longcat/AMO-Bench
Dataset:https://huggingface.co/datasets/meituan-longcat/AMO-Bench
Project Page:https://amo-bench.github.io/
Paper:https://arxiv.org/pdf/2510.26768

當AIME已經不夠難

近年來,LLM在數(shù)學推理上的進步確實驚人。GPT-4o、Claude、Gemini等模型在AIME(美國數(shù)學邀請賽)2024/2025上的準確率已經突破90%,甚至有傳言說這些競賽題可能已經"泄露"到訓練數(shù)據(jù)里。但問題是:當模型開始"刷榜",我們該如何真實評估它們的能力?

這篇論文直指當前基準測試的三大痛點:

  1. 性能飽和:AIME等競賽對頂級模型已失去區(qū)分度
  2. 數(shù)據(jù)污染風險:現(xiàn)有題目大多來自公開資源,難免被模型"偷看"過
  3. 評估效率低:奧賽級別的證明題需要專家人工批改,難以規(guī)?;?/li>

于是,LongCat團隊造了一個"狠活"——AMO-Bench,一個包含50道原創(chuàng)IMO級別難題的新基準。讓我們看看它有多狠。

AMO-Bench:不只是難,更是"全新的難"

構建流程:四重把關,確保含金量

論文中展示了完整的構建流水線,堪稱學術界的"質量防火墻":

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

AMO-Bench的構建與評分流程

第一階段:專家命題由來自頂尖高校和教育機構的奧賽金牌得主或資深命題人原創(chuàng)設計題目,每道題都附帶詳細的人工解答。

第二階段:質量審查至少3位專家盲審,確保題目無歧義、邏輯嚴密,且知識點嚴格控制在IMO范圍內。

第三階段:原創(chuàng)性審查

  • 用10-gram匹配比對現(xiàn)有數(shù)據(jù)集(如AIME24/25)
  • 全網(wǎng)搜索排查相似內容
  • 專家憑經驗判斷是否在過往競賽中見過類似題型

第四階段:難度審查這是最狠的一環(huán):每道題必須同時滿足兩個條件:

  1. 人類專家確認難度≥IMO標準
  2. 至少2個頂級模型(GPT、DeepSeek、Gemini系列)在3次測試中全部失敗

經過這套流程,最終入選的50道題堪稱"模型殺手"。

數(shù)據(jù)集解剖:到底難在哪?

題目分布:全面覆蓋奧賽核心領域

先來看題目類型分布:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                                       題目類別分布

基本覆蓋了高中奧賽五大板塊:

  • 函數(shù)與數(shù)列(13道):最愛考遞推和高階變換
  • 組合數(shù)學(12道):計數(shù)、圖論、極值問題
  • 代數(shù)方程與不等式(11道):高次方程、多元不等式
  • 數(shù)論(9道):同余、丟番圖方程
  • 幾何(5道):平面幾何的復雜構造

解答長度:比AIME復雜一個數(shù)量級

再看解答長度對比:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

解答長度分布對比

LongCat團隊用DeepSeek-V3.1的tokenizer統(tǒng)計發(fā)現(xiàn),AMO-Bench的人工解答平均token數(shù)遠超MATH500和AIME24。這意味著這些題目不僅需要更多步驟,更關鍵的是需要更深層次的策略性思考,而不是簡單的模式匹配。

評估方法:如何給模型的答案打分?

AMO-Bench的另一個亮點是兼顧自動化與準確性。題目被分為四類答案格式:

示例1:數(shù)值答案題目要求最小值,答案是一個具體整數(shù)。這類用parser自動解析。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例2:集合答案要求找出所有滿足條件的正整數(shù)n,答案形式如{1,2,3}。同樣可自動化。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例3:表達式答案需要給出數(shù)列通項公式,如。通過多組賦值驗證等價性。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

示例4:描述性答案需要分情況討論,如"n=3時最小值為12;n≥4時為"。這類用o4-mini(Low)模型打分,5次投票取多數(shù)。

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

最終驗證顯示,評分準確率達到99.2%,兼顧了效率和可靠性。

實驗:頂級模型集體"翻車"

52.4%就是天花板?

測試了26個主流模型,結果觸目驚心:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                                 各模型AVG@32性能

關鍵發(fā)現(xiàn):

  • 無模型突破60%:即便是傳聞中"接近AGI"的GPT-5-Thinking(High),也僅能解對一半稍多
  • 開源逼近閉源:最好的開源模型(Qwen3-235B-A22B-Thinking-2507)僅落后GPT-5約5%

頭部模型的性能密鑰

再看性能與輸出長度的關系:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

性能 vs 平均輸出長度

  • 第一梯隊模型(>40%準確率)平均輸出超過35K tokens
  • GPT-5-Thinking (High)在AMO-Bench上消耗約37K tokens,是AIME25的5倍多

頭部推理模型憑借構建更長邏輯鏈的能力,實現(xiàn)了解題表現(xiàn)的躍升

三個關鍵洞察

洞察1:輸出長度是難度的"晴雨表"

這里揭示了更有趣的現(xiàn)象:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                  不同benchmark上準確率與輸出長度的關系

結論:benchmark越難,模型需要輸出的tokens越多。AMO-Bench的曲線明顯位于右上角,說明它成功逼出了模型的"極限思考模式"。

洞察2:測試時擴展(Test-time Scaling)依然有效

通過控制模型的"推理努力程度"(如GPT-5的low/medium/high模式),發(fā)現(xiàn):

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                         不同推理Effort設置下的性能

性能與輸出長度的對數(shù)呈近似線性關系!這意味著:

  • 只要給模型更多思考時間(更多tokens),性能就能持續(xù)提升
  • 這個規(guī)律在AMO-Bench上依然成立,說明還有很大提升空間
  • 不是模型能力到了天花板,而是"思考預算"還不夠

洞察3:頂級模型的"潛力股"特質

看pass@k曲線:

美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench-AI.x社區(qū)

                                               pass@k隨k增長的趨勢

實驗結論:當k=32時,頂級推理模型的pass@k超過70%!這說明:

  • 模型具備解題的潛在能力,只是不能每次都找到正確路徑
  • 這為后續(xù)RL優(yōu)化指明了方向:如何讓模型穩(wěn)定地找到正確路徑

最后:給LLM數(shù)學能力的"清醒劑"

美團LongCat團隊最后的話很實在:"盡管當前模型表現(xiàn)不佳,但LLM數(shù)學推理能力的提升空間依然巨大。"

AMO-Bench 用 IMO 級原創(chuàng)題甩開 AIME24/25,區(qū)分度拉滿、零數(shù)據(jù)泄露;未來,LongCat團隊持續(xù)擴題并打造更多高難推理賽道,讓 benchmark 永遠領先模型半步,助推行業(yè)數(shù)學推理再突破。

本文轉載自??PaperAgent??

已于2025-11-18 12:10:30修改
收藏
回復
舉報
回復
相關推薦
国模私拍视频在线观看| 国产精品丝袜白浆摸在线| 亚洲成人激情小说| 国产精品麻豆一区二区三区| 国内欧美视频一区二区| 日韩在线免费av| 男女性杂交内射妇女bbwxz| 久久r热视频| 亚洲三级在线免费观看| 欧美精品xxx| 亚洲最大的黄色网| 色呦呦在线视频| 国产午夜精品在线观看| 国产98在线|日韩| 日韩精品在线一区二区三区| 欧美日韩天堂| 中文字幕av一区| 人妖粗暴刺激videos呻吟| 日本免费成人| 色婷婷亚洲综合| 91传媒免费视频| 波多野结衣一区二区| 不卡视频免费播放| 91老司机在线| 日韩精选在线观看| 亚洲一区观看| 久久久久久久久久亚洲| 午夜国产小视频| 欧美日韩国产在线观看网站 | 这里只有久久精品视频| 亚洲午夜激情在线| 久久久久www| www..com.cn蕾丝视频在线观看免费版| 精品女人视频| 日韩免费成人网| 激情文学亚洲色图| 99蜜月精品久久91| 色哦色哦哦色天天综合| 欧美视频在线播放一区| 国产乱妇乱子在线播视频播放网站| 日本一区二区三级电影在线观看 | www.桃色.com| av在线小说| 夜夜夜精品看看| 午夜久久久久久久久久久| 91se在线| 国产精品久久久久一区二区三区| 日韩av不卡播放| 色哟哟在线观看| 99久久免费视频.com| yellow视频在线观看一区二区| 一区二区三区免费在线| 欧美aa在线视频| 国产精品三级美女白浆呻吟| 无码人妻丰满熟妇精品区| 国产精品嫩草99av在线| 欧美在线视频观看免费网站| 日韩手机在线观看| 亚洲精品日本| 欧美一级大片在线免费观看| 国产视频一区二区视频| 亚洲一区二区三区午夜| 国模私拍在线观看| 激情小说一区| 日韩电影中文字幕一区| 国产精品边吃奶边做爽| 亚洲8888| 午夜亚洲国产au精品一区二区| 欧美日韩精品免费观看视一区二区| 手机在线精品视频| 成人国产精品免费| 日本不卡免费高清视频| 中文字幕精品视频在线观看| 成人精品视频| 亚洲一级一级97网| 日韩欧美视频免费观看| 午夜国产欧美理论在线播放 | 久久福利精品| 国产精品96久久久久久| 国产精品人妻一区二区三区| 久久免费黄色| 成人日韩在线电影| 日本精品久久久久久| 国产色综合久久| 在线一区亚洲| 深夜国产在线播放| 一本久道久久综合中文字幕| 亚洲人视频在线| 成人啊v在线| 欧美男生操女生| 欧美亚洲午夜视频在线观看| 欧美日韩在线中文| 欧美综合影院| 亚洲黄一区二区| 99久久久无码国产精品不卡| 在线观看的日韩av| 国产精品久久久久久av福利| 亚洲精品97久久中文字幕| 国产亚洲女人久久久久毛片| 免费看黄色a级片| 成人免费看视频网站| 777亚洲妇女| 丰满少妇一区二区| 最新国产精品| 国产精品久久久久久搜索| 精品久久久免费视频| 久久久国产精品麻豆| 亚洲乱码日产精品bd在线观看| 高清不卡av| 欧美第一区第二区| 超碰97av在线| 香蕉久久国产| caoporen国产精品| 日本三级在线视频| 日韩欧美黄色动漫| youjizz.com国产| 亚洲国产精品91| 国产精品91久久久| 国产精品久久欧美久久一区| 2020国产精品久久精品美国| 欧美在线观看视频免费| 欧美91在线|欧美| 亚洲精品电影久久久| 成人免费看aa片| 亚洲久色影视| 99久久无色码| 自由的xxxx在线视频| 欧美在线free| 久久精品国产亚洲av麻豆| 韩国自拍一区| 亚洲va欧美va国产综合剧情| 成人精品一区| 色视频成人在线观看免| 大黑人交xxx极品hd| 在线日韩中文| 97人摸人人澡人人人超一碰| 欧美jizzhd69巨大| 欧美午夜精品久久久久久超碰 | 91色porny在线视频| 日本大片免费看| 国产一区二区三区视频在线 | 日韩欧美一起| 91精品免费观看| 国产喷水在线观看| 蜜桃视频一区二区三区| 日韩欧美一区二区三区四区| 日韩高清中文字幕一区二区| 亚洲美女屁股眼交| 国产素人在线观看| 国产成人在线中文字幕| 久久久久亚洲精品成人网小说| 国产成人精品av在线观| 亚洲男同性视频| 天天干天天曰天天操| 女同性一区二区三区人了人一| 亚洲综合中文字幕在线| 五月香视频在线观看| 欧美亚日韩国产aⅴ精品中极品| 欧美老女人bb| 国产精选一区| 国产裸体写真av一区二区 | 日韩欧美中文在线| 在线免费观看麻豆| 日本欧美一区二区在线观看| 亚洲欧美成人一区| 日本a人精品| 精品视频9999| 天天干在线观看| 岛国av一区二区在线在线观看| av网站免费在线播放| 久久久久欧美精品| 亚洲v欧美v另类v综合v日韩v| 成人视屏在线观看| 欧美中文字幕一区| 疯狂试爱三2浴室激情视频| 国产精品一区二区在线观看不卡 | 亚洲一区二区三区高清| 日韩亚洲视频在线| 99精品女人在线观看免费视频 | 日韩av在线导航| 亚洲 自拍 另类小说综合图区| 成a人v在线播放| 538prom精品视频线放| 国产一级视频在线观看| 久久久国产一区二区三区四区小说| 超碰在线公开97| 国产精品激情电影| 欧美日韩三区四区| 国产激情一区| 欧美在线视频一二三| 日本中文字幕在线播放| 精品欧美乱码久久久久久| 无码人妻丰满熟妇奶水区码| 亚洲黄色在线视频| 女人被狂躁c到高潮| 精品一区二区综合| 黄色www网站| 午夜精品毛片| 免费看成人午夜电影| 国产精品中文| 国产成人鲁鲁免费视频a| 最爽无遮挡行房视频在线| 亚洲欧美一区二区三区久久| 国产特级黄色片| 色综合激情久久| 免费无码毛片一区二区app| 国产免费观看久久| 这里只有精品在线观看视频| 亚洲经典三级| 在线精品日韩| 国产精品一线天粉嫩av| 国产伦精品一区二区三区| 在线免费成人| 国产激情视频一区| xxxx在线视频| 欧美精品日韩www.p站| 波多野结衣在线网站| 亚洲国产欧美一区二区丝袜黑人| 国产精品乱码一区二区| 在线亚洲免费视频| 欧美不卡视频在线观看| 亚洲另类中文字| 呻吟揉丰满对白91乃国产区| 97久久精品人人做人人爽| 亚欧美一区二区三区| 麻豆精品视频在线观看视频| 男人日女人bb视频| 在线日韩中文| 日韩精品一区二区在线视频| 99久久婷婷| 天堂av一区二区| 偷拍亚洲精品| 精品一区二区三区免费毛片| 91精品短视频| 亚洲va欧美va在线观看| 欧美激情啪啪| 国产精品一二三在线| 日韩色淫视频| 国产精品69精品一区二区三区| 中文在线资源| 欧美做爰性生交视频| 日本在线影院| 欧美一级视频一区二区| 精品捆绑调教一区二区三区| 精品国产户外野外| 在线看视频不卡| 成 人 免费 黄 色| 欧美精品三级日韩久久| 影音先锋国产在线| 在线观看亚洲一区| 中文字幕一区二区三区波野结| 在线亚洲一区观看| 一本一道精品欧美中文字幕| caoporn国产一区二区| 国产肥臀一区二区福利视频| 亚洲三级网站| 欧美 日韩 激情| 亚洲影视在线| 蜜臀av免费观看| 男女男精品视频| 中文字幕在线视频一区二区三区| 国产在线国偷精品产拍免费yy | 欧美性猛交xxx高清大费中文| 欧美一级视频在线观看| 欧美黑人疯狂性受xxxxx野外| 国产精品444| 粉嫩一区二区三区在线观看| 亚洲在线免费看| 国产精品xxx在线观看| 久久综合福利| 手机亚洲手机国产手机日韩| 日韩 欧美 自拍| 亚洲国内欧美| 无码内射中文字幕岛国片| 麻豆成人久久精品二区三区红| 天天操狠狠操夜夜操| 国产福利一区二区三区在线视频| 亚洲黄色av片| 国产精品一品二品| 日韩片在线观看| 国产精品视频看| 久久国产一级片| 91国在线观看| 国产黄色av网站| 亚洲欧美国内爽妇网| 免费在线观看黄| 国内精品小视频| 国产精品第一| 国产三级精品在线不卡| jlzzjlzz亚洲女人| www.九色.com| 麻豆freexxxx性91精品| 久久性爱视频网站| 国产精品久久久久婷婷二区次| 国产在线拍揄自揄拍| 色狠狠av一区二区三区| 草逼视频免费看| 国产一区二区三区日韩欧美| 女同视频在线观看| 国产精品久久一区| 国产欧美三级电影| 一区二区日本伦理| 免费在线成人| 乳色吐息在线观看| 国产精品色一区二区三区| 久久精品视频久久| 在线成人高清不卡| 国产鲁鲁视频在线观看免费| 亚洲成av人片在www色猫咪| aaa毛片在线观看| 狠狠色丁香婷婷综合| 永久免费看mv网站入口78| 亚洲最新视频在线播放| 怡春院在线视频| 亚洲精品中文字| 国内在线免费视频| 成人高清视频观看www| 精品久久久亚洲| 成年人视频观看| av在线这里只有精品| 91在线播放观看| 欧美日韩成人综合天天影院| 免费在线黄色影片| 66m—66摸成人免费视频| 美女精品视频在线| 伊人色综合影院| 日本亚洲欧美天堂免费| www.色天使| 精品成人久久av| 欧美一级免费片| 久久6免费高清热精品| 国产成人免费av一区二区午夜| 亚洲国产一区二区三区在线播 | 天堂在线资源视频| 26uuu欧美日本| 国产精品19乱码一区二区三区| 日韩欧美中文字幕公布| 国产激情在线视频| 成人黄色短视频在线观看| 日韩精品电影| 中文字幕第17页| 国产精品国产三级国产普通话99| 国产成人a v| 中文字幕亚洲一区| 免费成人高清在线视频| 亚洲高清123| 精品一区二区三区蜜桃| 色偷偷男人天堂| 欧美嫩在线观看| gogo在线高清视频| 99在线热播| 99视频一区| 好吊视频在线观看| 欧美在线制服丝袜| 2021av在线| 91久久久久久| 国产精品mv在线观看| 污污污www精品国产网站| 欧美午夜电影在线| www 日韩| 91亚洲精品久久久久久久久久久久| 亚洲一区二区三区| aaa黄色大片| 精品人伦一区二区三区蜜桃网站 | 精品人妻伦一二三区久久| 成人一区二区三区视频| 中文字幕av一区二区三区人妻少妇| 亚洲码国产岛国毛片在线| 日本精品一二区| 全亚洲最色的网站在线观看| 国产福利资源一区| 农村妇女精品一二区| 国产精品久久久久精k8| 午夜久久久久久久久久| 2019中文字幕免费视频| 欧美亚洲国产激情| 永久免费黄色片| 亚洲成人精品影院| 午夜在线视频免费| 欧美在线视频一区二区| 999国产精品999久久久久久| 国产精品中文久久久久久| 悠悠色在线精品| 香蕉久久国产av一区二区| 午夜精品久久久久久久99热| 亚洲人成伊人成综合图片| 中文字幕12页| 欧美日韩精品在线| 午夜视频在线观看网站| 国产高清一区二区三区| 日韩精品午夜视频| 美女视频黄免费| 亚洲午夜av久久乱码| 久久九九精品视频| 成年人视频在线免费| 亚洲激情图片一区| 国产综合视频一区二区三区免费| 亚洲精品欧美一区二区三区| 美女日韩在线中文字幕| 欧美老熟妇一区二区三区|