從需求分析到代碼生成,LLM都能干點(diǎn)啥?一文讀懂291個(gè)軟工Benchmark!
近年來(lái),ChatGPT、Llama等大語(yǔ)言模型在軟件工程領(lǐng)域的能力突飛猛進(jìn),從需求分析、代碼生成到測(cè)試與維護(hù)幾乎無(wú)所不能。但一個(gè)核心問(wèn)題是:我們?nèi)绾慰陀^評(píng)估這些模型在不同軟件工程任務(wù)中的表現(xiàn)?
在SE領(lǐng)域,Benchmark既是分?jǐn)?shù)卡,讓不同模型在同一標(biāo)準(zhǔn)下比拼;也是方向盤(pán),引導(dǎo)技術(shù)改進(jìn)與未來(lái)研究方向。
然而,現(xiàn)有LLM-SE Benchmark存在三大痛點(diǎn):
- 零散分布:缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述
- 構(gòu)建方式各異:評(píng)估指標(biāo)、數(shù)據(jù)來(lái)源五花八門(mén),難以橫向比較
- 研究空白:此前從未有系統(tǒng)文獻(xiàn)綜述全面匯總軟件工程相關(guān)的大語(yǔ)言模型Benchmark
這使得開(kāi)發(fā)者和研究者在選擇評(píng)估方法時(shí)常陷入「信息孤島」,甚至可能被不全面的評(píng)估結(jié)果誤導(dǎo)。
為填補(bǔ)這一空白,來(lái)自浙江大學(xué)、新加坡管理大學(xué)、渥太華大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)開(kāi)展了一項(xiàng)系統(tǒng)文獻(xiàn)綜述,首次全面梳理了291個(gè)用于評(píng)估大語(yǔ)言模型在軟件工程任務(wù)中的Benchmark,并從任務(wù)覆蓋、語(yǔ)言分布、構(gòu)建方式到未來(lái)趨勢(shì)進(jìn)行了深入分析。

論文鏈接:https://arxiv.org/pdf/2505.08903

圖1 綜述框架總覽
研究聚焦三大核心問(wèn)題:
- 現(xiàn)有LLM-SE Benchmark有哪些?
- 它們是如何構(gòu)建的?
- 它們面臨哪些挑戰(zhàn)與改進(jìn)機(jī)會(huì)?
為了確保全面、系統(tǒng),研究人員開(kāi)展「地毯式搜索」:
數(shù)據(jù)來(lái)源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫(kù);
- 補(bǔ)充檢索:采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;
- 嚴(yán)格篩選:設(shè)置包含與排除標(biāo)準(zhǔn),剔除與LLM-SE無(wú)關(guān)或信息不全的Benchmark;
- 質(zhì)量評(píng)估:從描述清晰度、SE相關(guān)性、方法嚴(yán)謹(jǐn)性、可復(fù)現(xiàn)性、學(xué)術(shù)影響五個(gè)維度打分;
- 最終成果:匯總291個(gè)在2025年6月前發(fā)表的Benchmark,按任務(wù)、語(yǔ)言、構(gòu)建方式等多維度分類分析。
六大任務(wù)全覆蓋
Benchmark演化脈絡(luò)清晰

圖2 Benchmark年份分布
統(tǒng)計(jì)顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長(zhǎng),2023和2024年分別新增近70個(gè),增長(zhǎng)勢(shì)頭迅猛。

圖3 Benchmark語(yǔ)言分布
Python在評(píng)估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務(wù);Java、C++、C語(yǔ)言在質(zhì)量分析與維護(hù)任務(wù)中占有重要地位;Go、PHP、Ruby等小眾語(yǔ)言的Benchmark仍然稀缺。

圖4 Benchmark任務(wù)分布
任務(wù)分布(六大類)
- 需求與設(shè)計(jì)(25個(gè)):需求獲取、分類、沖突檢測(cè)、規(guī)格化與驗(yàn)證;
- 編碼輔助(124個(gè)):代碼生成、補(bǔ)全、摘要、多語(yǔ)言遷移(占比超40%,最多);
- 軟件測(cè)試(25個(gè)):測(cè)試生成、GUI測(cè)試、斷言生成、自動(dòng)修復(fù);
- AIOps(6個(gè)):日志生成與解析;
- 軟件維護(hù)(13個(gè)):代碼審查、克隆檢測(cè)、代碼重構(gòu);
- 質(zhì)量管理(111個(gè)):缺陷檢測(cè)、漏洞識(shí)別、修復(fù)建議(占比38%)。
其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多,占比超過(guò)40%,其次是質(zhì)量管理類任務(wù),占比達(dá)38%。
現(xiàn)實(shí)挑戰(zhàn)
Benchmark還遠(yuǎn)遠(yuǎn)不夠用!
研究指出,當(dāng)前Benchmark建設(shè)存在五大瓶頸:
- 任務(wù)定義模糊、評(píng)價(jià)不一致:缺乏統(tǒng)一標(biāo)準(zhǔn),難以橫向?qū)Ρ龋?/span>
- 規(guī)模受限、計(jì)算成本高:多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復(fù)雜系統(tǒng);
- 泛化能力不足:Benchmark表現(xiàn)好,真實(shí)場(chǎng)景卻「水土不服」;
- 更新滯后:難以及時(shí)跟進(jìn)新技術(shù)與框架;
- 數(shù)據(jù)隱私限制:真實(shí)企業(yè)數(shù)據(jù)難以共享,影響高質(zhì)量Benchmark建設(shè)。
未來(lái)機(jī)會(huì)
Benchmark建設(shè)仍是「藍(lán)?!?/span>
團(tuán)隊(duì)提出了五大改進(jìn)方向:
- 多維評(píng)估:引入準(zhǔn)確率、可維護(hù)性、效率、安全性、可解釋性等指標(biāo);
- 跨語(yǔ)言、跨任務(wù):統(tǒng)一評(píng)估框架,提升通用性;
- 貼近真實(shí)場(chǎng)景:引入真實(shí)項(xiàng)目數(shù)據(jù),提高落地性;
- 人類反饋與倫理考量:納入有害性檢測(cè)、隱私風(fēng)險(xiǎn)等維度;
- 動(dòng)態(tài)可擴(kuò)展平臺(tái):支持任務(wù)擴(kuò)展、新模型接入與持續(xù)測(cè)評(píng)。
總結(jié)
Benchmark是推動(dòng)LLM落地的「發(fā)動(dòng)機(jī)」
正如作者所言——當(dāng)前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」,但真正能驅(qū)動(dòng)其走向工業(yè)落地、提升工程可信度的,是那些更真實(shí)、更多維、更動(dòng)態(tài)的Benchmark體系。
這項(xiàng)研究不僅填補(bǔ)了LLM軟件工程評(píng)估的綜述空白,也為AI4SE研究者、開(kāi)發(fā)者和企業(yè)提供了清晰的「下一步方向」。
如果說(shuō)模型是「馬達(dá)」,Benchmark就是「方向盤(pán)」。誰(shuí)能把握住它,誰(shuí)就能在AI軟件工程的未來(lái)之路上走得更遠(yuǎn)。































