再看SWE-Bench:論一個(gè)好的benchmark是如何推動(dòng)2025 Agentic編程范式的發(fā)展
社區(qū)頭條 今天繼續(xù)來看下經(jīng)典的codebenchmark之SWEBENCH的細(xì)節(jié),其由普林斯頓大學(xué)和芝加哥大學(xué)聯(lián)合發(fā)表于ICLR2024,Title:SWEbench:CANLANGUAGEMODELSRESOLVEREALWORLDGITHUBISSUES(SWEbench:語言模型能解決真實(shí)的GitHub問題嗎?)。這篇文章旨在解決當(dāng)前語言模型(LMs)在代碼生成領(lǐng)域評(píng)估基準(zhǔn)過于簡(jiǎn)單、無法反映真實(shí)世界軟件工程復(fù)雜性的問題。為此,作者們提出了一個(gè)全新的、極具挑戰(zhàn)性的評(píng)估框架——SWEbench。該框架包含從12個(gè)流行的...