精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展

發布于 2025-9-24 07:02
瀏覽
0收藏

今天繼續來看下經典的code benchmark之SWE-BENCH的細節,  其由普林斯頓大學和芝加哥大學聯合發表于ICLR 2024,Title: SWE-bench: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES? (SWE-bench:語言模型能解決真實的GitHub問題嗎?)。

這篇文章旨在解決當前語言模型(LMs)在代碼生成領域評估基準過于簡單、無法反映真實世界軟件工程復雜性的問題。為此,作者們提出了一個全新的、極具挑戰性的評估框架——SWE-bench。該框架包含從12個流行的Python項目中提取的2294個真實軟件工程問題(GitHub Issues)。任務要求語言模型在給定一個完整代碼庫和問題描述的情況下,通過編輯代碼來解決問題。

該方法的核心在于其高度的真實性和挑戰性。解決SWE-bench中的問題通常需要模型:

1.理解和協調跨多個文件、類和函數的代碼變更。

2.與執行環境交互。

3.處理超長上下文信息并進行復雜推理。

評估結果顯示,即便是最先進的專有模型(如Claude 2)和經過專門微調的開源模型(SWE-Llama),也只能解決極少數最簡單的問題,最佳模型的解決率僅為1.96%。這表明,當前的語言模型距離成為能夠自主解決實際軟件工程問題的智能體還有很長的路要走。SWE-bench為評估和推動下一代更實用、更智能、更自主的語言模型指明了方向。

一、概述

?Title:SWE-bench: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES?

?URL:?? https://arxiv.org/abs/2310.06770??

?Authors:Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan

?Institutions:普林斯頓大學 (Princeton University), 芝加哥大學 (University of Chicago)

?Code:?? https://swebench.com??

1.Motivation

?現有編程基準例如HumanEval也被刷飽和了:當前流行的代碼生成基準(如HumanEval)大多包含自足的、可以通過幾行代碼解決的問題。這些基準已經飽和,無法有效地區分最先進模型的能力邊界。

?沒有衡量真實軟件工程開發的benchmark:真實的軟件工程任務,如修復一個bug或添加一個新功能,遠比生成一個獨立函數復雜。它需要開發者在龐大的代碼庫中導航,理解不同模塊間的依賴關系,并進行跨文件的修改?,F有基準未能評估模型在這方面的能力。

?代碼編程領域需要更具挑戰性的benchmark:為了推動語言模型在代碼領域的發展,迫切需要一個能夠準確反映其在真實世界應用中能力的挑戰性基準,從而指導未來的研發方向。

2.Methods

論文的核心方法是構建了一個名為SWE-bench的基準測試集,并在此之上評估現有語言模型。構建過程分為三步:數據抓取、屬性篩選執行驗證,以確保每個任務都是真實、高質量且可驗證的。評估時,模型接收一個GitHub issue和完整的代碼庫作為輸入,任務是生成一個Patch文件(patch)來解決該issue。如果生成的Patch能成功應用并通過所有相關單元測試,則認為任務解決成功。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

詳細方法和步驟:

1)基準構建 (Benchmark Construction): 論文提出了一個三階段的流水線來從GitHub上大規模地篩選和構建高質量的任務實例。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916150618295

?階段一:倉庫選擇和數據抓取 (Repo selection and data scraping):從12個流行的開源Python倉庫(如django, scikit-learn, matplotlib等)中收集了約9萬個拉取請求(Pull Requests, PRs)。選擇流行倉庫是因為它們通常有更好的維護、更清晰的貢獻指南和更全面的測試覆蓋。

?階段二:基于屬性的過濾 (Attribute-based filtering):從抓取的PRs中篩選出滿足以下條件的候選任務:(1) PR是已合并(merged)狀態,表明其解決方案被接受;(2) PR明確地解決了一個或多個GitHub issue;(3) PR對測試文件進行了修改,這通常意味著貢獻者添加了新的測試來驗證問題是否被修復。

?階段三:基于執行的過濾 (Execution-based filtering):對每個候選任務進行嚴格的執行驗證。(1) 驗證代碼庫可以成功安裝;(2) 驗證在應用PRPatch前后,至少有一個測試用例的狀態從失?。╢ail)變為通過(pass)。這一步過濾掉了那些不重要或無法驗證的解決方案,最終得到了2294個高質量的任務實例。

2)任務形式與評估 (Task Formulation and Evaluation):

?模型輸入:一個GitHub issue的文本描述和一個完整的代碼庫快照。

?模型輸出:一個標準的Patch文件(??.patch??格式),描述了為解決問題需要對代碼庫進行的修改。

?評估指標:最終的衡量標準是解決率(Resolution Rate),即成功解決的任務實例所占的百分比。一個任務被視為“成功解決”需要滿足兩個條件:(1) 模型生成的Patch可以無誤地應用到代碼庫中;(2) 應用Patch后,所有相關的單元測試都能通過。

3)SWE-Llama 微調模型: 由于現有模型在處理長上下文和遵循復雜指令方面表現不佳,作者們還微調了CodeLlama模型。

?訓練數據:從另外37個Python倉庫中收集了約19000個issue-PR對作為訓練數據,這些倉庫與評估集中的倉庫沒有交集,以避免數據污染。

?微調方法:使用LoRA技術對CodeLlama-Python的7B和13B版本進行監督微調,使其學會根據issue和相關代碼文件生成對應的“Gold Patch”(gold patch)。

3.Conclusion

?現有LLM在解決真實世界開發任務能力嚴重不足:即使是目前最強大的語言模型(SOTA LMs),在處理真實世界的軟件工程任務時也表現極差。表現最好的Claude 2模型,在使用BM25檢索器提供相關文件的情況下,也僅能解決1.96%的問題。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

?SWE-bench是一個有效的“試金石”:該基準成功地揭示了當前模型在復雜推理、長上下文理解和代碼庫級操作方面的巨大差距,為未來的研究設立了一個清晰且具有挑戰性的目標。

?真實世界任務的復雜性被低估:解決這些問題不僅需要代碼生成,還需要代碼定位、理解依賴關系和遵循現有代碼風格等高級技能,這些都是當前模型所欠缺的

4.Limitation

?目前只有python項目:目前SWE-bench中的所有任務都來自于Python項目。雖然收集流程可以擴展到其他語言,但這需要額外的工作。

?評估只看單元測試,沒看效率和規范等:評估完全依賴于已有的單元測試是否通過。這無法保證模型生成的代碼是高效、可讀或符合項目編碼規范的,也可能存在無法被現有測試捕獲的潛在問題。

?baseline方法比較簡單,沒有agent方法來評估:論文中的實驗主要采用了相對簡單的檢索方法(BM25和Oracle)來為模型提供上下文。未來可以探索更復雜的、基于智能體(agent-based)的交互式方法,但這超出了本文基線評估的范圍。

二、詳細內容

1.SWE-bench任務在不同倉庫的分布

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916150923806

?總結:任務分布廣泛,其中??django??? (850個)、??sympy??? (386個) 和??scikit-learn?? (229個) 貢獻了最多的任務實例,體現了基準的多樣性。

2.SWE-bench任務實例的統計特征

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

?總結1:任務的上下文非常龐大(平均代碼庫有438K行代碼,3010個文件)。

?總結2:修改的代碼量相對較?。ㄆ骄庉?2.8行,1.7個文件),需要在真實軟件開發過程 中進行“大海撈針”。

3.不同模型在各倉庫上的解決率對比

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151010243

?總結:所有模型在各個倉庫上的表現趨勢相似,解決率普遍很低。這表明任務的難度是普遍存在的,并非特定于某個倉庫。有趣的是,不同模型解決的問題集合不完全重疊,說明它們的能力有所差異

4.Claude 2性能與上下文長度的關系

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151125521

?總結:隨著輸入上下文(代碼文件)的總長度增加,模型的性能顯著下降。這印證了“大海撈針”問題,即在大量無關上下文中定位和修改代碼對模型來說極其困難。

5.任務實例、模型預測與測試結果示例

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151216411

?說明:給了一個包括模型輸入(指令、issue、代碼)、Gold Patch、模型生成的Patch以及最終的測試結果樣例。

三、總結

總結1: 開創了coding評估的新范式(真實軟件開發任務): SWE-bench成功地將代碼模型的評估從“算法問題求解”提升到了 “真實世界軟件工程問題解決”的層面 。它不再是簡單的代碼生成,而是包含了代碼理解、定位、修改和驗證的完整閉環,極大地提升了評估的真實性和挑戰性。

總結2: 構建了可持續、抗飽和的基準: 其自動化的數據收集和驗證流程,使得SWE-bench可以輕松地從任何git倉庫中持續吸收新的問題補充進來,有效避免了像其他基準一樣快速飽和或被模型訓練數據污染的問題。

總結3: 清晰地揭示了當前AI coding能力的邊界: 指出了當前最先進的語言模型在自主軟件工程方面的嚴重不足,為社區提供了明確的研究方向,即如何提升模型在超長上下文處理、復雜邏輯推理和與工具交互方面的能力。

產業應用價值:

?推動Agentic AI在軟件工程領域的發展:SWE-bench的復雜性天然適合作為AI Agent的試驗場。解決這些問題需要模型規劃步驟、使用工具(如搜索、測試框架)、并根據反饋進行迭代,這正是AI Agent的核心能力?,F在從2025年9月回過頭來看,GPT-5-Codex在SWE-bench都刷到72.8%了,該bench還是顯著的推動了ai coding的發展,特別是推動了Agentic方法在編程任務上的進展。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-9-24 10:45:55修改
收藏
回復
舉報
回復
相關推薦
24小时免费看片在线观看| 97超碰国产在线| 久久爱www成人| 欧美日韩一级黄| 国产欧美久久久久| 欧美婷婷久久五月精品三区| 蜜臀av一级做a爰片久久| 久久av.com| 好吊日免费视频| 国产在线不卡一区二区三区| 欧美日韩一区二区免费在线观看| 婷婷四月色综合| www.综合色| 日韩电影在线观看网站| 欧美成人黄色小视频| 蜜桃精品成人影片| 欧美成人一级| 欧美视频精品在线| 国产91美女视频| 手机电影在线观看| 国产日韩欧美精品一区| 国产伦理久久久| 在线观看毛片网站| 六月天综合网| 久久久久久久久中文字幕| 欧美福利在线视频| 亚洲人成精品久久久| 日韩欧美国产不卡| 欧美一级裸体视频| 亚洲欧美se| 亚洲444eee在线观看| 色乱码一区二区三区熟女| 国产精品一区二区三区四区色| 成人av一区二区三区| 亚洲一区二区三区香蕉| 亚洲天堂中文字幕在线| 亚欧成人精品| 欧美亚洲国产成人精品| 久久视频免费看| 一区二区三区四区日韩| 自拍偷拍亚洲精品| 永久免费毛片在线观看| 亚洲福利天堂| 亚洲激情在线视频| 蜜臀视频在线观看| 亚洲大奶少妇| 日韩欧美国产三级| 国产成人av免费观看| 久久久国产精品入口麻豆| 欧美人伦禁忌dvd放荡欲情| 日本va中文字幕| 三级成人黄色影院| 一本久久a久久免费精品不卡| 成人性免费视频| av手机在线观看| 亚洲午夜免费电影| 18禁网站免费无遮挡无码中文| 国产91足控脚交在线观看| 洋洋av久久久久久久一区| 成人午夜视频免费观看| 羞羞的网站在线观看| 亚洲激情一二三区| 日韩天堂在线视频| 少妇精品无码一区二区免费视频| 国产成人精品三级高清久久91| 亚洲欧美另类在线观看| 18禁裸乳无遮挡啪啪无码免费| 蜜桃tv一区二区三区| 伊人精品在线观看| 国产美女福利视频| 欧美视频成人| 538国产精品一区二区在线 | 麻豆成人入口| 日韩精品小视频| 免费看黄色的视频| 97在线精品| 欧美精品18videos性欧| 日韩欧美激情视频| 久久久久在线| 成人精品在线观看| 日韩中文字幕免费观看| 久久亚洲精品小早川怜子| 日韩片电影在线免费观看| 欧美一区二区三区在线观看免费| 亚洲乱码日产精品bd| 浮妇高潮喷白浆视频| 欧美日韩在线精品一区二区三区激情综合| 欧美日韩一区在线观看| 风韵丰满熟妇啪啪区老熟熟女| 日本欧美三级| 日韩在线免费视频| 国产一级在线观看视频| 日韩影院在线观看| 亚洲综合中文字幕在线观看| 天堂中文在线资| 18欧美乱大交hd1984| 久久av综合网| 欧美爱爱视频| 亚洲国产精品久久久久| 日韩一级片在线免费观看| 韩国久久久久| 国产精品视频一区二区三区四| www.我爱av| 中文一区在线播放| 欧美在线一区视频| 国产精品国产三级在线观看| 日韩成人久久久| 中文字幕av播放| 久久字幕精品一区| 国产乱码精品一区二区三区日韩精品 | 日韩欧美精品一区二区三区| 欧美乱熟臀69xxxxxx| 波多野结衣办公室33分钟| 欧美激情偷拍| 亚洲欧洲av一区二区| 男人av资源站| 老色鬼久久亚洲一区二区| 99在线高清视频在线播放| yw在线观看| 舔着乳尖日韩一区| 国产人妻精品久久久久野外| 欧美精选视频在线观看| 91av在线视频观看| 日韩不卡视频在线| 国产高清亚洲一区| 正在播放久久| 亚洲精品555| 亚洲免费一在线| 国产一级做a爱免费视频| 久久99精品国产麻豆不卡| 日韩福利二区| gay欧美网站| 日韩av在线免费观看一区| 日本a级片视频| 精品中文字幕一区二区小辣椒 | 欧美gayvideo| 国产精品久久久久久久av大片| 337p粉嫩色噜噜噜大肥臀| 国产成人av一区| 日韩不卡视频一区二区| 伊人亚洲精品| 北条麻妃99精品青青久久| 姑娘第5集在线观看免费好剧| 久久综合色婷婷| ww国产内射精品后入国产| 国产精品极品| 久久全球大尺度高清视频| 国内老熟妇对白hdxxxx| 亚洲免费在线视频一区 二区| 精品亚洲视频在线| 91综合久久| 91影视免费在线观看| 高潮毛片在线观看| 欧美成人午夜电影| 国产乡下妇女做爰毛片| 国产成人综合精品三级| 精品丰满人妻无套内射| 日韩福利视频一区| 欧亚精品中文字幕| 国产爆初菊在线观看免费视频网站 | 久久久久久久久久久视频| 国产精品色呦| 欧美最顶级的aⅴ艳星| 久草在线青青草| 欧美日韩国产综合视频在线观看| 亚洲不卡的av| 国产麻豆日韩欧美久久| 久草视频这里只有精品| 欧美绝顶高潮抽搐喷水合集| 国产成人精品免高潮在线观看| 成人亚洲性情网站www在线观看| 在线观看91精品国产麻豆| 久久久久久久久久久久久女过产乱| 成人动漫一区二区三区| 欧美韩国日本在线| 欧美jizz| 国产精品入口免费| 写真福利精品福利在线观看| 中文国产亚洲喷潮| 精品黑人一区二区三区在线观看 | 艳妇乳肉豪妇荡乳av| 一区二区三区四区亚洲| 91精品小视频| 麻豆国产欧美一区二区三区| 8x8x华人在线| 窝窝社区一区二区| 国产日韩欧美日韩| a级片在线免费观看| 在线视频日韩精品| 日本韩国免费观看| 欧美日韩免费视频| 日韩黄色三级视频| 国产精品福利影院| 日韩精品人妻中文字幕有码| 秋霞成人午夜伦在线观看| 国产精品视频一二三四区| 国产在线日韩精品| 91嫩草国产在线观看| 成人性生交大片免费网站| 久久久久999| 免费人成在线观看网站| 日韩欧美中文一区二区| 黄色大全在线观看| 亚洲福利视频三区| 色老板免费视频| 久久精品一二三| 美国黄色一级视频| 久久国产精品第一页| 1024av视频| 欧美精品自拍| 夜夜爽www精品| 欧洲专线二区三区| 国产精品国产亚洲精品看不卡15| 视频精品导航| 日韩免费av一区二区| 超碰在线中文字幕| 欧美成人激情视频| 免费av在线网站| 亚洲一区第一页| 丁香花免费高清完整在线播放 | 国产乱码精品一区二区亚洲| 国产超碰91| 精品一级视频| 国产欧美久久一区二区| free欧美| 奇米影视亚洲狠狠色| 91福利在线尤物| 欧美日本高清一区| 99在线播放| 久热精品视频在线观看| 蜜桃视频在线观看免费视频网站www| 亚洲精品中文字幕有码专区| 刘玥91精选国产在线观看| 91精品国产入口| 亚洲无码久久久久久久| 欧美三级中文字| 国产一级片一区二区| 色婷婷综合久久久久中文一区二区| 男人天堂中文字幕| 性欧美大战久久久久久久久| 久久一区二区三| 亚洲愉拍自拍另类高清精品| 欧美三级小视频| 一区二区久久久久久| 黄色一级片在线免费观看| 一区二区三区四区在线免费观看 | 99在线视频免费观看| 精品久久亚洲| 不卡一卡2卡3卡4卡精品在| 中文字幕日韩在线| 国产精品免费一区二区| 国产日韩三级| 免费成人深夜夜行视频| 最新国产一区| 亚洲午夜精品久久| 婷婷综合五月| 激情五月六月婷婷| 一本久道久久综合婷婷鲸鱼| www.浪潮av.com| 日本不卡123| 免费成年人高清视频| 国内精品不卡在线| 成人一区二区三区仙踪林| 成人性视频网站| 亚洲国产精品无码久久久久高潮 | 欧美中日韩一区二区三区| 精品成人av| 国产狼人综合免费视频| 国产精品视频一区视频二区 | 国产一区二区三区四区| 色姑娘综合网| 最新国产精品久久久| 给我免费播放片在线观看| 一区二区三区成人精品| 一本色道无码道dvd在线观看| 日本aⅴ精品一区二区三区| 日韩精品视频一二三| 国产成a人亚洲| 91视频免费观看网站| 日韩美女啊v在线免费观看| 久久久久久久国产精品毛片| 精品国产老师黑色丝袜高跟鞋| 天天综合久久综合| 日韩女优视频免费观看| 亚洲人视频在线观看| 日韩在线高清视频| av中文字幕在线看| 国产精品专区一| 国产无遮挡裸体免费久久| 日韩一区二区电影在线观看| 欧美激情四色| 青青青在线视频免费观看| 国产成人综合亚洲91猫咪| caopeng视频| 一区二区久久久久久| 日韩精品在线一区二区三区| 日韩欧美一区在线观看| 欧美女优在线| 欧美高清视频在线播放| 日韩色淫视频| 国产视色精品亚洲一区二区| 99精品视频在线观看播放| 精品欧美一区免费观看α√| 国产一区二区三区视频在线播放| 国产福利在线观看视频| 亚洲欧美日韩一区| 国产日韩久久久| 日韩黄色av网站| 在线中文字幕电影| 国产精品私拍pans大尺度在线| 136福利精品导航| 日韩精品久久久毛片一区二区| 国精品一区二区| 色婷婷一区二区三区在线观看| 久久久www成人免费毛片麻豆| 亚洲 欧美 变态 另类 综合| 日本韩国欧美一区二区三区| 日本激情一区二区三区| 精品中文字幕乱| 伦一区二区三区中文字幕v亚洲| 久久综合给合久久狠狠色| 国产精品分类| 天天干天天曰天天操| 中文字幕在线观看不卡视频| 国产真人无遮挡作爱免费视频| 日韩av中文在线| 精精国产xxxx视频在线野外| 51精品国产人成在线观看| 偷偷www综合久久久久久久| 日本激情视频在线| 久久蜜桃av一区二区天堂| 日本道在线观看| 亚洲第一福利视频| 青草影视电视剧免费播放在线观看| 成人两性免费视频| 日韩欧美精品一区| 久久婷五月综合| 国产精品天干天干在线综合| 尤物视频免费观看| 尤物yw午夜国产精品视频明星| 日韩伦理精品| 欧美日韩高清在线一区| 久久婷婷av| xxxxx在线观看| 色素色在线综合| 成年人在线视频免费观看| 国产成人av网| 第九色区aⅴ天堂久久香| 污色网站在线观看| 国产精品福利av| 成人黄色免费视频| 欧美国产日韩视频| 成人香蕉社区| 欧美黄网站在线观看| 久久免费午夜影院| 波多野结衣二区三区| 日韩综合中文字幕| 视频在线观看免费影院欧美meiju 视频一区中文字幕精品 | 911国产网站尤物在线观看| 日韩精品免费一区二区夜夜嗨 | 欧美做暖暖视频| 成人av免费在线播放| 欧美日韩综合在线观看| 亚洲少妇激情视频| 亚洲精品69| 国产1区2区3区中文字幕| 成人高清av在线| 欧美一级做a爰片免费视频| 最近的2019中文字幕免费一页| 亚洲精品乱码日韩| 91视频 - 88av| 99久久精品99国产精品| 成人毛片一区二区三区| 久久久99免费视频| 久久夜色精品国产噜噜av小说| 欧美黄色一级片视频| 亚洲少妇30p| 四虎电影院在线观看| 国产精品免费福利| 欧美三级在线| 黄色三级生活片| 精品女同一区二区| 欧美粗大gay| 玖玖精品在线视频| 26uuu久久天堂性欧美| 7777久久亚洲中文字幕| 久久久久久久久亚洲| 禁断一区二区三区在线| 久久久久无码精品| 色婷婷综合久色| 色呦呦在线观看视频| 欧美日韩在线一区二区三区| 国模无码大尺度一区二区三区| 国产性xxxx高清| www.国产一区| 日韩影视在线观看| 日本成人在线免费观看| 色综合久久天天| 青青在线视频| 一区二区国产日产|