GPT-5僅23.3%，全球AI集體掛科！地獄級編程考試，奪金神話破滅

2025-09-23 09:13:37

人工智能新聞

編程大考，全球頂尖LLM奪金，真無敵了？最難編碼基準SWE-Bench Pro出世，匯集了平均超100行代碼的難題。沒想到，最能打的LLM紛紛潰敗，GPT-5僅拿下23.3%高分。新智元，贊63

繼IMO 2025登頂后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。

ICPC，被公認為全球最具挑戰的大學生編程競賽之一。

OpenAI和谷歌不僅解決了全部12題，還在人類選手中位列第一，難道AI編程真能所向披靡了嗎？

最新一項基準測試，直接打臉了全世界的頂尖模型。

它就是SWE-Bench Pro，專為評估AI編程智能體而生的新一代基準測試，直面真實企業級工程任務。

相較于前代SWE-Bench，Pro版本升級帶來了三大突破：

任務難度全面提升
抗數據污染能力更強
無限逼近真實代碼庫

這一版，堪稱編碼中的「最后人類考試」。在實際測試（公開集）中，頂尖模型幾乎潰敗。

GPT-5雖拿下了第一，但成績僅有23.3%，Claude Opus 4.1以22.7%得分位居第二。

其他模型更是沒有一個能打的，得分全部低于15%。

這意味著，在更貼近真實世界的編程任務中，LLM的長程編碼能力仍是短板。

最新21頁技術論文，詳細公開了SWE-Bench Pro設計細節。

論文地址：https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20%289%29.pdf

編碼界，需要一場硬核考試

過去，SWE-Bench等基準成為了評估LLM在軟件工程中的重要標準。

這些測試中，通常要求AI基于完整代碼庫和自然語言描述，生成代碼Patch。

就拿SWE-Bench Verified來說，頂尖LLM已實現超70%成功率，聽起來確實非常厲害。

但這也暴露了一個問題：

未來6至12個月內，現有基準或許會「飽和」，無法再去有效衡量AI的進步。

由此，Scale AI正式發布了SWE-Bench Pro。

它提供了一個更真實、更具挑戰的「考場」，直擊痛點解決現有基準的缺陷。

數據污染，與現實脫節

當前，已有的編碼基準測試，存在兩大缺陷。

一方面，數據污染風險高。很多基準基于開源GitHub倉庫構建，但這些倉庫，尤其是MIT、Apache許可的項目，很容易被LLM訓練數據「爬蟲」。

由此一來，AI在測試時存在「作弊」的可能，或許它早就見過類似的難題。

另一方面，現有基準的任務太過簡單，達不到「工業級別」。

還以SWE-Bench Verified舉例，500道題中，竟有161道只需改1-2行代碼。

這在實驗室里可行，但到了企業環境中，往往涉及跨多個文件、數百行代碼的復雜修改。

這樣的基準，根本無法反映AI在真實開發場景中的表現。

編碼考試不是AI智能體的最終目的，但一個更硬核基準，才能真實評估LLM是否真正符合工業級應用的標準。

SWE-Bench Pro：超100行代碼難題

在SWE-Bench Pro設計中，一共包含1865個經人工驗證與增強的問題，細分了三類子集——公開集、商業集、保留集。

論文中，研究團隊介紹了SWE-Bench Pro的三大貢獻：

1. 巧妙收集設計，降低數據污染風險

SWE-Bench Pro創新數據收集策略，避開了污染陷阱。

（1）僅采用強著佐權許可證（GPL）的代碼庫構建公開集（11個代碼庫）和保留集（12個代碼庫）；

（2）從真實初創企業獲取商業代碼以構建商業集（18個代碼庫），從而捕捉企業級問題。

? 公開集：在HuggingFace公開發布731個實例，并在本文中報告相關統計數據和模型表現。這些實例源自采用著佐權（copyleft）許可證的公開代碼庫。

? 商業集：來自初創企業代碼庫的276個商業集問題。這是唯一包含初創企業專有代碼庫的集合，因法律限制無法公開。

? 保留集：保留了858個與公共集結構鏡像但采用不同代碼庫的問題集。

2. 任務升級，更具挑戰、多樣，更貼近工業

為了確保任務復雜度，Scale AI排除了1-10行代碼「小修小補」的任務，只保留需要多文件、實質性修改的問題。

參考解決方案平均涉及4.1個文件、107.4行代碼，所有任務至少改10行，超100項任務需改超100行。

除了復雜度外，選的代碼庫都是活躍維護的，覆蓋了消費級App、B2B服務和開發者工具平臺等多個領域。

而且，每個代碼庫貢獻了50-100個實例（上限100），避免了對單一庫的依賴。

3. 人機協同驗證，確保任務可解

有了以上難題還不夠，最后一步，還需要確保它們是可解的。

為此，SWE-Bench Pro又引入了一個以人為中心的增強驗證流程，分為三階段人機協同流程。

一方面，它能澄清模糊信息，補充缺失的上下文；另一方面，通過約束解決方案空間，保持靈活同時避免假陰性。

Claude企業級第一僅拿下17.8%「最高分」

不同頂尖模型，在SWE-Bench Pro上的表現如下表1所示。

以Pass@1作為問題解決率指標，GPT-5與Claude Opus 4.1分別以23.3%和22.7%解決率領先。

早期代際模型，比如DeepSeek Qwen-3 32B、GPT-4o表現明顯落后，分別僅為3.4%和3.9%。

此外，公開集和商業集存在顯著的性能差距。

最佳模型在商業集的得分均低于20%，從側面印證了，企業級代碼庫處理的挑戰性。

總的來說，LLM在公開集的通過率≤23.3%，在商業集≤17.8%，遠遠低于SWE-Bench Verified的70%以上。

這背后的原因，究竟是什么？

不擅長的語言，也會影響性能

從編程語言維度來看，AI性能分化明顯。

在Go和Python任務中，大多數模型解決率較高，有些甚至超過30%。

相較之下，JavaScript（JS）與TypeScript（TS）則表現波動較大，根據模型不同，解決率從0%到超過30%不等。

不僅如此，代碼倉庫維度多樣，有些倉庫，所有模型解決率都低于10%。

有一些，還能達到50%。

倉庫的復雜度、文檔質量，或是問題類型等，也成了LLM在編碼任務中影響性能的因素。

可以看到，Claude Opus 4.1、GPT-5在多數倉庫和編程語言中，都能保持穩定高性能。

失敗原因，多種多樣

接下來，研究人員又讓GPT-5作為「法官」，去對不同模型的故障進行分析。

具體步驟是，先手動構建常見故障分類桶，然后篩選未解決實例，收集最后20輪交互軌跡，向GPT-5提供提示，讓其推理并分類故障。

結果顯示，頂尖模型的失敗原因，覆蓋了各種情況。

Claude Opus 4.1：卡在了語義理解，錯誤解決方案占比35.9%，語法錯誤24.2%，技術執行力強，但問題理解、算法準確性有待提升。
GPT-5：工具使用差異明顯，但錯誤解決方案較少。
Claude Sonnet 4：上下文溢出（35.6%）和無限文件讀取行為（17.0%）是主因，暴露了上下文管理和導航策略的局限。
Gemini 2.5：工具錯誤（38.8%）、語法錯誤（30.5%）和錯誤解決方案（18.0%，多維度挑戰并存
Qwen-3 32B：工具錯誤率最高（42.0%）

總言之，SWE-Bench Pro是一個全新抗污染、工業真實的基準，能夠成為未來LLM編碼能力一大標尺。

一作介紹

Xiang Deng

Xiang Deng現任Scale AI研究工程師，專注于LLM的編程與智能體研發。

他曾獲得了俄亥俄州立大學的博士學位，以及中國科學技術大學計算機科學學士學位。

Jeff Da

Jeff Da現任Scale AI研究科學家，專注于強化學習、智能體與訓練后優化方向。

他曾在艾倫人工智能研究所和華盛頓大學，主要從事推理能力評估、多模態學習等方向的研究。

彩蛋

有趣的是，在首席AI官Alexandr Wang評論區下方，所有人更關心的是MSL內幕消息。

Alexandr劇透，即將有更多新內容分享。

責任編輯：張燕妮來源：新智元

AI 編程模型

GPT-5僅23.3%，全球AI集體掛科！地獄級編程考試，奪金神話破滅

編碼界，需要一場硬核考試

SWE-Bench Pro：超100行代碼難題

Claude企業級第一 僅拿下17.8%「最高分」

一作介紹

彩蛋

Claude企業級第一僅拿下17.8%「最高分」