美團LongCat扎扎實實做了件難事:LLM數(shù)學新天花板AMO-Bench 精華
今天要聊一篇剛剛出爐的論文,它可能給近期"LLM數(shù)學能力已超越人類"的樂觀情緒澆了一盆冷水。美團LongCat團隊聯(lián)合多所頂尖高校推出的AMO-Bench。

它用50道原創(chuàng)奧賽級難題,讓當前最強LLM集體"現(xiàn)出原形"。

頂級推理模型在AMO-Bench以及現(xiàn)有競賽級數(shù)學基準測試上的表現(xiàn)
Github:https://github.com/meituan-longcat/AMO-Bench
Dataset:https://huggingface.co/datasets/meituan-longcat/AMO-Bench
Project Page:https://amo-bench.github.io/
Paper:https://arxiv.org/pdf/2510.26768當AIME已經不夠難
近年來,LLM在數(shù)學推理上的進步確實驚人。GPT-4o、Claude、Gemini等模型在AIME(美國數(shù)學邀請賽)2024/2025上的準確率已經突破90%,甚至有傳言說這些競賽題可能已經"泄露"到訓練數(shù)據(jù)里。但問題是:當模型開始"刷榜",我們該如何真實評估它們的能力?
這篇論文直指當前基準測試的三大痛點:
- 性能飽和:AIME等競賽對頂級模型已失去區(qū)分度
- 數(shù)據(jù)污染風險:現(xiàn)有題目大多來自公開資源,難免被模型"偷看"過
- 評估效率低:奧賽級別的證明題需要專家人工批改,難以規(guī)?;?/li>
于是,LongCat團隊造了一個"狠活"——AMO-Bench,一個包含50道原創(chuàng)IMO級別難題的新基準。讓我們看看它有多狠。
AMO-Bench:不只是難,更是"全新的難"
構建流程:四重把關,確保含金量
論文中展示了完整的構建流水線,堪稱學術界的"質量防火墻":

AMO-Bench的構建與評分流程
第一階段:專家命題由來自頂尖高校和教育機構的奧賽金牌得主或資深命題人原創(chuàng)設計題目,每道題都附帶詳細的人工解答。
第二階段:質量審查至少3位專家盲審,確保題目無歧義、邏輯嚴密,且知識點嚴格控制在IMO范圍內。
第三階段:原創(chuàng)性審查
- 用10-gram匹配比對現(xiàn)有數(shù)據(jù)集(如AIME24/25)
- 全網(wǎng)搜索排查相似內容
- 專家憑經驗判斷是否在過往競賽中見過類似題型
第四階段:難度審查這是最狠的一環(huán):每道題必須同時滿足兩個條件:
- 人類專家確認難度≥IMO標準
- 至少2個頂級模型(GPT、DeepSeek、Gemini系列)在3次測試中全部失敗
經過這套流程,最終入選的50道題堪稱"模型殺手"。
數(shù)據(jù)集解剖:到底難在哪?
題目分布:全面覆蓋奧賽核心領域
先來看題目類型分布:

題目類別分布
基本覆蓋了高中奧賽五大板塊:
- 函數(shù)與數(shù)列(13道):最愛考遞推和高階變換
- 組合數(shù)學(12道):計數(shù)、圖論、極值問題
- 代數(shù)方程與不等式(11道):高次方程、多元不等式
- 數(shù)論(9道):同余、丟番圖方程
- 幾何(5道):平面幾何的復雜構造
解答長度:比AIME復雜一個數(shù)量級
再看解答長度對比:

解答長度分布對比
LongCat團隊用DeepSeek-V3.1的tokenizer統(tǒng)計發(fā)現(xiàn),AMO-Bench的人工解答平均token數(shù)遠超MATH500和AIME24。這意味著這些題目不僅需要更多步驟,更關鍵的是需要更深層次的策略性思考,而不是簡單的模式匹配。
評估方法:如何給模型的答案打分?
AMO-Bench的另一個亮點是兼顧自動化與準確性。題目被分為四類答案格式:
示例1:數(shù)值答案題目要求最小值,答案是一個具體整數(shù)。這類用parser自動解析。

示例2:集合答案要求找出所有滿足條件的正整數(shù)n,答案形式如{1,2,3}。同樣可自動化。

示例3:表達式答案需要給出數(shù)列通項公式,如。通過多組賦值驗證等價性。

示例4:描述性答案需要分情況討論,如"n=3時最小值為12;n≥4時為"。這類用o4-mini(Low)模型打分,5次投票取多數(shù)。

最終驗證顯示,評分準確率達到99.2%,兼顧了效率和可靠性。
實驗:頂級模型集體"翻車"
52.4%就是天花板?
測試了26個主流模型,結果觸目驚心:

各模型AVG@32性能
關鍵發(fā)現(xiàn):
- 無模型突破60%:即便是傳聞中"接近AGI"的GPT-5-Thinking(High),也僅能解對一半稍多
- 開源逼近閉源:最好的開源模型(Qwen3-235B-A22B-Thinking-2507)僅落后GPT-5約5%
頭部模型的性能密鑰
再看性能與輸出長度的關系:

性能 vs 平均輸出長度
- 第一梯隊模型(>40%準確率)平均輸出超過35K tokens
- GPT-5-Thinking (High)在AMO-Bench上消耗約37K tokens,是AIME25的5倍多
頭部推理模型憑借構建更長邏輯鏈的能力,實現(xiàn)了解題表現(xiàn)的躍升
三個關鍵洞察
洞察1:輸出長度是難度的"晴雨表"
這里揭示了更有趣的現(xiàn)象:

不同benchmark上準確率與輸出長度的關系
結論:benchmark越難,模型需要輸出的tokens越多。AMO-Bench的曲線明顯位于右上角,說明它成功逼出了模型的"極限思考模式"。
洞察2:測試時擴展(Test-time Scaling)依然有效
通過控制模型的"推理努力程度"(如GPT-5的low/medium/high模式),發(fā)現(xiàn):

不同推理Effort設置下的性能
性能與輸出長度的對數(shù)呈近似線性關系!這意味著:
- 只要給模型更多思考時間(更多tokens),性能就能持續(xù)提升
- 這個規(guī)律在AMO-Bench上依然成立,說明還有很大提升空間
- 不是模型能力到了天花板,而是"思考預算"還不夠
洞察3:頂級模型的"潛力股"特質
看pass@k曲線:

pass@k隨k增長的趨勢
實驗結論:當k=32時,頂級推理模型的pass@k超過70%!這說明:
- 模型具備解題的潛在能力,只是不能每次都找到正確路徑
- 這為后續(xù)RL優(yōu)化指明了方向:如何讓模型穩(wěn)定地找到正確路徑
最后:給LLM數(shù)學能力的"清醒劑"
美團LongCat團隊最后的話很實在:"盡管當前模型表現(xiàn)不佳,但LLM數(shù)學推理能力的提升空間依然巨大。"
AMO-Bench 用 IMO 級原創(chuàng)題甩開 AIME24/25,區(qū)分度拉滿、零數(shù)據(jù)泄露;未來,LongCat團隊持續(xù)擴題并打造更多高難推理賽道,讓 benchmark 永遠領先模型半步,助推行業(yè)數(shù)學推理再突破。
本文轉載自??PaperAgent??

















