精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5編程測評大反轉!表面不及格,實際63.1%的任務沒交卷,全算上成績比Claude高一倍

人工智能
Scale AI的新軟件工程基準SWE-BENCH PRO,出現反轉!表面上看,“御三家”集體翻車,沒一家的解決率超過25%:GPT-5、Claude Opus 4.1、Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三。

Scale AI的新軟件工程基準SWE-BENCH PRO,出現反轉!

表面上看,“御三家”集體翻車,沒一家的解決率超過25%

GPT-5Claude Opus 4.1Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三

圖片

但深入數據背后,則暗藏玄機。

前OpenAI研究員Neil Chowdhury表示,如果只看已提交的任務,GPT-5能達到63%的準確率,比Claude Opus 4.1的31%,高了近一倍!

圖片

(這怎么不算G又贏!?)

換句話說,GPT-5在擅長的題目上依舊穩健,與老基準SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型則直接拉垮到底。

那么,究竟是什么基準測試,讓這些頂級模型如此狼狽?

SWE-BENCH PRO

先說結論,不是模型變菜了,而是題變難了。

與平均正確率高達70%SWE-Bench-Verified相比,SWE-BENCH PRO嚴格得可不止一星半點。

一方面,作為OpenAI于2024年8月發布的測試集,SWE-Bench-Verified中的很多代碼庫已被用作大語言模型的預訓練語料,存在著數據污染的風險。

另一方面,SWE-Bench-Verified還包含不少瑣碎的問題,例如500個問題中有161個只需一兩行修改。

這與工業軟件工程中通常涉及的跨多文件、數百行修改的場景差距較大,從而無法真正反映實際開發場景中所面臨的挑戰。

基于此,SWE-BENCH PRO主打全新題目,以確保模型在訓練階段從未接觸過測試內容,從而更真實地考驗模型的實際能力。

圖片

涵蓋1865個商業應用、B2B服務和開發者工具的多元化代碼庫

具體來說,SWE-BENCH PRO將這些代碼庫構建為以下三個子集:

  • 公共集:來自采用copy-left許可證的11個公共代碼庫的731個問題。
  • 商業集:來自276個源自初創公司代碼庫的問題。
  • 保留集:來自采用copy-left許可證的12個公共代碼庫的858個問題。

(注:公共集將在HuggingFace上發布,商業集和保留集保持私有,商業集的測試結果會公開,保留集用于驗證模型是否過擬合。每個問題由任務描述、相關測試集和可運行環境構成。)

這些從強Copyleft許可證(GPL)代碼庫和真實的初創公司獲取的商業代碼庫能夠有效地解決SWE-Bench-Verified存在的數據污染問題。

為了確保任務的復雜性,研究團隊還排除了像1-10行代碼編輯這樣瑣碎的編輯,保留了需要進行大量多文件修改的問題。

此外,為了防止模型對任何單一代碼庫產生過擬合,這些代碼庫都處于活躍狀態并覆蓋消費者應用、B2B服務和開發者工具平臺。

接下來,就讓我們看看研究者是如何在這些問題上進行測試的。

human in the loop的測試環節

為了將模型評估的重點放在當模型獲得充分細節后,能否實現給定的修復或補丁上。

研究團隊在SWE-Bench Verified的基礎上,將SWE-BENCH PRO中的每個問題都經過了人工增強,并加入了問題陳述、需求說明以及接口信息。

首先,研究團隊提供一個待解決問題的問題陳述并在必要時補充上下文信息。

圖片

其次,針對潛在的歧義問題,對于每個問題,列出了一系列需求并指定相應的類和函數。

圖片

之后,在環境方面,每個任務都在一個容器化的、用于特定語言的環境中進行評估。

在測試階段,研究通過fail2pass測試驗證問題是否已解決,通過pass2pass測試確保現有功能保持完整。

其中,為了確保測試質量,fail2pass測試會經過人工篩選,去掉與任務不相關或過于寬泛的測試。

對于偶爾失敗的測試,則會運行三次,以確保結果穩定。

實驗結論

正如我們開頭提到的,大語言模型在SWE-BENCH PRO上的解決率僅為中等水平,遠低于SWE-Bench Verified中的70% 。

圖片

其中,在公共集上,GPT-5和Claude Opus 4.1分別實現了23.3%和22.7%的最高解決率,顯著優于小規模模型,Claude Sonnet 4也達到了16.3%的解決率。

不過,像DeepSeek Qwen-3 32B和GPT-4o這樣的老模型表現就多少有點不盡人意了,僅為3.4%和3.9%。

圖片

在商業集上,即便是最優模型的得分也低于20%。

這表明當前模型在解決真實商業場景中的問題時,能力仍然非常有限。

圖片

針對這一苦澀的實驗結果,研究人員展開了進一步的分析,結論如下:

首先,編程語言的難度代碼庫以及模型的種類被視為影響模型表現的關鍵因素。

  • Go和Python通常表現較好,一些模型在這些語言上的解決率超過 30%,而JavaScript和TypeScript則波動較大,從0%到超過30%不等。
  • 不同代碼庫的解決率差異也很明顯,一些代碼庫普遍偏低(低于 10%),另一些則超過50%。
  • 前沿模型如Claude Opus 4.1和GPT-5在大多數編程語言和代碼庫中表現穩定,小規模模型則更易出現接近零的解決率。

其次,不同的模型的失敗原因往往各不相同。

圖片

  • OPUS 4.1的主要失敗模式是語義理解不足,錯誤解答占35.9%,語法錯誤占24.2%,表明其技術執行能力較強,但在問題理解和算法正確性方面存在挑戰。
  • GPT-5的結果顯示在工具使用的有效性上可能存在差異,但錯誤解答相對較少。
  • SONNET 4的主要失敗模式是上下文溢出(35.6%)和顯著的無休止文件讀取行為(17.0%),表明其在上下文管理和文件導航策略上存在局限。
  • GEMINI 2.5的失敗模式則較為均衡,涵蓋工具錯誤(38.8%)、語法錯誤(30.5%)和錯誤解答(18.0%),顯示其在多個維度上保持了一定能力。
  • QWEN3 32B作為開源模型,表現出最高的工具錯誤率(42.0%),凸顯了集成化工具使用對于高效代理的重要性。

不難看出,GPT-5雖然延續了以往“會就會,不會就不會”的答題策略,但面對高企的未回答率(63.1%),它的表現仍然不夠看。

那么,誰會成為第一個突破30%的大模型呢?

圖片

參考鏈接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-07-16 13:24:38

2023-09-03 12:56:43

2024-04-02 10:13:25

在線小工具開發

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應聘者

2025-05-30 09:17:00

2009-06-15 08:47:33

微軟Windows 7操作系統

2025-05-23 08:47:00

2025-02-08 14:10:00

模型系統AI

2022-06-24 08:20:56

requests爬蟲Python

2025-06-19 09:06:00

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2025-08-26 09:00:00

2025-09-16 09:05:14

2012-07-04 09:30:49

程序員開發效率

2023-04-10 14:22:26

PCIe6.0PCIe

2012-07-04 08:48:59

程序員

2011-07-05 17:14:39

Raritan力登年度環境計劃
點贊
收藏

51CTO技術棧公眾號

国产在线观看免费麻豆| 国产精品第72页| 日本黄网站免费| 日本网站免费在线观看| 免费观看的毛片| 国产日韩欧美在线播放不卡| 亚洲精品一区二区在线| 国产a级片免费观看| аⅴ资源新版在线天堂| 久久丁香综合五月国产三级网站| 久久国产一区二区三区| 在线中文字日产幕| 成人免费影院| 亚洲色图丝袜美腿| 国产欧美日韩视频一区二区三区| 日韩免费不卡视频| 精品久久网站| 欧美三电影在线| 黄色高清视频网站| 人妻中文字幕一区| 精品动漫3d一区二区三区免费| 日韩精品福利在线| 国产精品嫩草影院8vv8| www.综合网.com| 国产日韩欧美电影| 亚洲一区精品电影| 九九九在线观看| 久久久久电影| 日韩精品极品在线观看| av在线网站免费观看| 日韩伦理在线一区| 理论不卡电影大全神| 中日韩男男gay无套| 最近免费中文字幕视频2019| 国产艳妇疯狂做爰视频| 99久久综合国产精品二区| 亚洲黄色小视频| 欧美在线3区| 免费av一级片| 国产一区中文字幕| 国产精品成人aaaaa网站| 少妇影院在线观看| 欧洲毛片在线视频免费观看| 日韩一区二区在线看| 亚洲国产精品毛片av不卡在线| 性欧美ⅴideo另类hd| 国产欧美日韩综合| 国偷自产av一区二区三区小尤奈| 一级黄在线观看| 日韩综合小视频| 久久久久久久久久国产精品| 国产视频精品免费| 成人高清av| 亚洲精品视频播放| 少妇熟女视频一区二区三区 | 国内精品久久久久久久果冻传媒| 免费精品一区二区| 一本色道久久| 久久91精品国产91久久久| xxxx日本黄色| 国产精品一区二区av日韩在线| 精品人在线二区三区| www.se五月| 日韩av超清在线观看| 精品露脸国产偷人在视频| 黄色一级片黄色| av网站大全在线| 国产精品私人影院| 色阁综合av| 免费在线一级视频| 久久久www成人免费毛片麻豆| 国产一区二区高清不卡| 亚洲国产精品一| 福利视频网站一区二区三区| 亚洲一区亚洲二区| 99在线精品视频免费观看20| 久久99国产精品久久99| 欧美亚洲在线观看| 天堂网一区二区三区| 亚洲精选91| 午夜精品一区二区三区在线视| 久久机热这里只有精品| 麻豆国产精品| 91caoporm在线视频| 成人福利视频网站| 国产综合动作在线观看| 婷婷综合激情网| 2020国产精品自拍| 日韩av一级大片| 久香视频在线观看| 国产欧美一区二区在线观看| 亚洲精品一区二区三区四区五区 | 狂野欧美性猛交| 青青一区二区三区| 亚洲天堂成人在线| 女同久久另类69精品国产| 亚洲精品久久久| 欧美高清自拍一区| 全部毛片永久免费看| 免费永久网站黄欧美| 国产精品吊钟奶在线| 亚洲视频在线免费播放| 国产成人亚洲综合a∨婷婷图片| 91入口在线观看| 天堂中文在线官网| 欧美国产日韩精品免费观看| 宅男av一区二区三区| 美女91在线| 欧美日韩亚洲视频| 熟妇人妻无乱码中文字幕真矢织江| 中文不卡1区2区3区| 欧美色视频在线观看| 在线观看欧美一区二区| 日韩精品丝袜美腿| www.欧美精品一二三区| 麻豆一区二区三区精品视频| 天堂蜜桃91精品| 成人春色激情网| 秋霞网一区二区| 亚洲国产精品传媒在线观看| 日韩国产成人无码av毛片| 在线免费看h| 91精品国产91热久久久做人人 | 狠狠色狠狠色综合人人| 9色在线视频网站| 亚洲一区二区三区激情| 亚洲熟妇av一区二区三区漫画| 欧美高清免费| 亚洲精品国产成人| 成熟的女同志hd| 亚洲精品美女91| 91久久久精品| 黄色小视频在线免费观看| 亚洲综合在线视频| www.com操| 天天操综合520| 欧美高清自拍一区| 国产一区二区三区在线观看| 丁香婷婷在线| 国产精品自拍网站| 欧美日韩一区在线播放| 欧美aaaaaaa| 欧美日韩国产一级二级| 亚洲一区二区观看| 一区在线视频观看| 亚洲一区二区三区香蕉| 超碰在线影院| 精品久久久久久久久久久| 男生和女生一起差差差视频| 俺要去色综合狠狠| 亚洲91av视频| 高潮一区二区三区乱码| 一区二区视频免费在线观看| 91传媒视频在线观看| 婷婷五月综合久久中文字幕| 亚洲欧美视频在线观看视频| 九色在线视频观看| 好吊妞视频这里有精品| 欧美精品日韩三级| 国产三级在线观看视频| 国产精品麻豆网站| 污污动漫在线观看| 成人激情视频| 国产精品第一视频| 天堂√在线中文官网在线| 一区二区三区蜜桃| 国产精品二区视频| 牛牛国产精品| 亚洲影视九九影院在线观看| 成人在线观看亚洲| 日韩一二三区不卡| 国产在线一区视频| 成人爱爱电影网址| 久久99中文字幕| 国产精品极品| 欧美一级视频一区二区| 天堂a√中文在线| 色av一区二区| 天堂在线中文视频| 久久99精品一区二区三区| 亚洲一区二区三区四区中文| 精品网站在线| www亚洲欧美| 午夜精品久久久久久久99老熟妇| 尤物av一区二区| 国产性生活毛片| 亚洲深夜av| 欧洲久久久久久| 久久99久久久精品欧美| 久久综合电影一区| 亚洲经典一区二区| 欧美丝袜一区二区| 亚洲激情图片网| 精品一区二区在线播放| www.亚洲成人网| 羞羞视频在线观看一区二区| 最近中文字幕日韩精品| 九九视频精品在线观看| 亚洲国产精品久久久久久久| 亚洲影院久久精品| 女尊高h男高潮呻吟| 美女脱光内衣内裤视频久久影院| 日本道在线视频| 国产成人一二片| 国产成人精品日本亚洲| 黄色网址在线免费播放| 亚洲国产精品成人av| 日韩精品一区二区三区国语自制| 99久久精品国产麻豆演员表| caopor在线视频| 伊人久久大香线| 女女同性女同一区二区三区91| xxxxx.日韩| 欧美精品激情视频| 国产1区2区3区在线| 日韩亚洲欧美在线| jizz国产在线观看| 亚洲欧美电影一区二区| 免费a级黄色片| 韩国精品久久久| 自慰无码一区二区三区| 成人中文在线| 国产亚洲自拍偷拍| 亚洲欧美专区| 欧美中文字幕在线| 主播国产精品| 国产一区二区日韩| 高h调教冰块play男男双性文| 在线免费观看成人短视频| 九九在线观看视频| 中文字幕av不卡| 久久久国产精品无码| 日韩不卡一区二区三区| 永久免费在线看片视频| 九九在线高清精品视频| 国产精品二区在线| 四虎国产精品免费久久| 欧美在线视频免费| 动漫一区二区| 久久久www成人免费精品| 久久久久国产精品嫩草影院| 精品区一区二区| 国产精品一品二区三区的使用体验| 天天综合色天天综合| 黄色一级片在线免费观看| 国产精品剧情在线亚洲| 88久久精品无码一区二区毛片| 成人午夜视屏| 午夜精品久久久久久久99樱桃| 天天摸日日摸狠狠添| 久久综合久久久久88| 视频免费在线观看| 国产馆精品极品| 91欧美一区二区三区| 蜜乳av一区二区三区| 污网站免费在线| 免费观看在线色综合| 黄色一级免费大片| 丝袜a∨在线一区二区三区不卡| 男人添女人下部高潮视频在观看| 久久精品播放| 亚洲成色最大综合在线| 欧洲乱码伦视频免费| 欧洲一区二区在线观看| 久久成人高清| 日韩精品久久一区| 精品久久久久久久久久久下田| 欧美重口乱码一区二区| 国产精品亚洲片在线播放| 日本精品一区二区| 国产99久久| 日韩欧美在线电影| 精品少妇3p| 欧美精品久久久| 成人系列视频| 麻豆md0077饥渴少妇| 欧美日本一区| aa视频在线播放| 夜夜嗨一区二区| koreanbj精品视频一区| 销魂美女一区二区三区视频在线| 少妇高清精品毛片在线视频| 日韩avvvv在线播放| 人人干人人干人人| 国产精品香蕉一区二区三区| 91精产国品一二三| 91丨九色丨尤物| 久久中文字幕精品| 中文字幕在线免费不卡| 极品颜值美女露脸啪啪| 一区二区三区色| 国产做受高潮漫动| 91福利在线看| 国产又大又长又粗| 日韩精品一区二区三区在线播放 | 68国产成人综合久久精品| avove在线观看| 99在线观看免费视频精品观看| 欧美牲交a欧美牲交aⅴ免费真 | 欧美成人午夜影院| 超碰激情在线| 国产精品欧美一区二区| 欧州一区二区三区| 久久国产精品久久精品国产| 日韩理论电影大全| 久久男人资源站| 久久三级视频| 我要看一级黄色大片| 国产精品自产自拍| 欧美狂猛xxxxx乱大交3| 亚洲欧洲日韩综合一区二区| 国产精品18p| 欧美日韩免费观看一区二区三区| 超碰在线观看av| 亚洲欧美一区二区激情| 免费在线观看av片| 91国内揄拍国内精品对白| 青草综合视频| 蜜桃传媒视频麻豆第一区免费观看| 久久国产小视频| 国产婷婷一区二区三区| 精品亚洲欧美一区| 日本道中文字幕| 国产精品久久久久久久久免费丝袜 | 精彩视频一区二区三区| 免费成人午夜视频| 国内久久婷婷综合| 熟女少妇一区二区三区| 亚洲女厕所小便bbb| 日本一区二区不卡在线| 日韩欧美一区二区三区| 成人毛片在线精品国产| 深夜精品寂寞黄网站在线观看| 亚洲天堂av在线| 999日本视频| 国产精品91一区二区三区| 亚洲 高清 成人 动漫| 国产老女人精品毛片久久| 久久久精品成人| 欧美日韩国产一区在线| www.色呦呦| 欧美精品18videosex性欧美| 九九99久久精品在免费线bt| 日韩最新中文字幕| 精品一区二区三区久久| 国产精品夜夜夜爽阿娇| 欧美日韩久久久久久| 18视频免费网址在线观看| 国产精品久久久久久久电影| 欧美一级精品| the porn av| 国产精品高潮久久久久无| 在线观看免费观看在线| 最近2019中文免费高清视频观看www99 | 欧美多人爱爱视频网站| 蜜桃在线一区| 日韩 欧美 视频| 成人激情综合网站| 久热这里只有精品6| 日韩国产欧美区| 欧美二三四区| 亚洲人久久久| 国产精品一区二区黑丝| 国产无码精品视频| 亚洲男人天堂九九视频| 欧美成人资源| 亚洲日本精品| 国产精品一区二区在线观看网站| 一区二区在线观看免费视频| 精品国产免费一区二区三区四区 | 蜜臀av粉嫩av懂色av| 亚洲国产综合色| 日韩av成人| 国产欧美精品在线播放| 自由日本语亚洲人高潮| 国产精品一区二区无码对白| 色综合色狠狠综合色| 日本在线播放| 国产精品免费在线播放| 久久激情视频| 国精产品一区一区二区三区mba| 日韩一本二本av| 忘忧草在线影院两性视频| 午夜一区二区三视频在线观看| 国产成人亚洲综合a∨婷婷图片| 欧美另类一区二区| 日韩中文娱乐网| 大桥未久女教师av一区二区| 国产第一页视频| 亚洲免费在线观看| 色视频精品视频在线观看| 成人高h视频在线| 亚洲国产影院| 亚洲天堂av中文字幕| 亚洲福利在线视频| 99久久精品一区二区成人| 久久综合久久网| 国产精品美女www爽爽爽| 日本成人动漫在线观看| 国产精品视频不卡|