精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

從需求分析到代碼生成，LLM都能干點(diǎn)啥？一文讀懂291個(gè)軟工Benchmark！

2025-08-28 09:10:00

人工智能新聞

浙江大學(xué)、新加坡管理大學(xué)、加拿大渥太華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)，首次對(duì)291個(gè)用于評(píng)估LLMs在軟件工程任務(wù)中的Benchmark進(jìn)行了系統(tǒng)綜述，為AI4SE社區(qū)繪制了一份詳盡的「基準(zhǔn)地圖」與方法指南。

近年來(lái)，ChatGPT、Llama等大語(yǔ)言模型在軟件工程領(lǐng)域的能力突飛猛進(jìn)，從需求分析、代碼生成到測(cè)試與維護(hù)幾乎無(wú)所不能。但一個(gè)核心問(wèn)題是：我們?nèi)绾慰陀^評(píng)估這些模型在不同軟件工程任務(wù)中的表現(xiàn)？

在SE領(lǐng)域，Benchmark既是分?jǐn)?shù)卡，讓不同模型在同一標(biāo)準(zhǔn)下比拼；也是方向盤(pán)，引導(dǎo)技術(shù)改進(jìn)與未來(lái)研究方向。

然而，現(xiàn)有LLM-SE Benchmark存在三大痛點(diǎn)：

零散分布：缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述
構(gòu)建方式各異：評(píng)估指標(biāo)、數(shù)據(jù)來(lái)源五花八門(mén)，難以橫向比較
研究空白：此前從未有系統(tǒng)文獻(xiàn)綜述全面匯總軟件工程相關(guān)的大語(yǔ)言模型Benchmark

這使得開(kāi)發(fā)者和研究者在選擇評(píng)估方法時(shí)常陷入「信息孤島」，甚至可能被不全面的評(píng)估結(jié)果誤導(dǎo)。

為填補(bǔ)這一空白，來(lái)自浙江大學(xué)、新加坡管理大學(xué)、渥太華大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)開(kāi)展了一項(xiàng)系統(tǒng)文獻(xiàn)綜述，首次全面梳理了291個(gè)用于評(píng)估大語(yǔ)言模型在軟件工程任務(wù)中的Benchmark，并從任務(wù)覆蓋、語(yǔ)言分布、構(gòu)建方式到未來(lái)趨勢(shì)進(jìn)行了深入分析。

論文鏈接：https://arxiv.org/pdf/2505.08903

圖1 綜述框架總覽

研究聚焦三大核心問(wèn)題：

現(xiàn)有LLM-SE Benchmark有哪些？
它們是如何構(gòu)建的？
它們面臨哪些挑戰(zhàn)與改進(jìn)機(jī)會(huì)？

為了確保全面、系統(tǒng)，研究人員開(kāi)展「地毯式搜索」：

數(shù)據(jù)來(lái)源：覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫(kù)；

補(bǔ)充檢索：采用前向與后向的「滾雪球」檢索，確保重要Benchmark不遺漏；
嚴(yán)格篩選：設(shè)置包含與排除標(biāo)準(zhǔn)，剔除與LLM-SE無(wú)關(guān)或信息不全的Benchmark；
質(zhì)量評(píng)估：從描述清晰度、SE相關(guān)性、方法嚴(yán)謹(jǐn)性、可復(fù)現(xiàn)性、學(xué)術(shù)影響五個(gè)維度打分；
最終成果：匯總291個(gè)在2025年6月前發(fā)表的Benchmark，按任務(wù)、語(yǔ)言、構(gòu)建方式等多維度分類分析。

六大任務(wù)全覆蓋

Benchmark演化脈絡(luò)清晰

圖2 Benchmark年份分布

統(tǒng)計(jì)顯示，自2022年起B(yǎng)enchmark數(shù)量快速增長(zhǎng)，2023和2024年分別新增近70個(gè)，增長(zhǎng)勢(shì)頭迅猛。

圖3 Benchmark語(yǔ)言分布

Python在評(píng)估Benchmark中一騎絕塵，主要用于代碼生成與推薦類任務(wù)；Java、C++、C語(yǔ)言在質(zhì)量分析與維護(hù)任務(wù)中占有重要地位；Go、PHP、Ruby等小眾語(yǔ)言的Benchmark仍然稀缺。

圖4 Benchmark任務(wù)分布

任務(wù)分布（六大類）

需求與設(shè)計(jì)（25個(gè)）：需求獲取、分類、沖突檢測(cè)、規(guī)格化與驗(yàn)證；
編碼輔助（124個(gè)）：代碼生成、補(bǔ)全、摘要、多語(yǔ)言遷移（占比超40%，最多）；
軟件測(cè)試（25個(gè)）：測(cè)試生成、GUI測(cè)試、斷言生成、自動(dòng)修復(fù)；
AIOps（6個(gè)）：日志生成與解析；
軟件維護(hù)（13個(gè)）：代碼審查、克隆檢測(cè)、代碼重構(gòu)；
質(zhì)量管理（111個(gè)）：缺陷檢測(cè)、漏洞識(shí)別、修復(fù)建議（占比38%）。

其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多，占比超過(guò)40%，其次是質(zhì)量管理類任務(wù)，占比達(dá)38%。

現(xiàn)實(shí)挑戰(zhàn)

Benchmark還遠(yuǎn)遠(yuǎn)不夠用！

研究指出，當(dāng)前Benchmark建設(shè)存在五大瓶頸：

任務(wù)定義模糊、評(píng)價(jià)不一致：缺乏統(tǒng)一標(biāo)準(zhǔn)，難以橫向?qū)Ρ龋?/span>
規(guī)模受限、計(jì)算成本高：多數(shù)數(shù)據(jù)集規(guī)模偏小，覆蓋不了復(fù)雜系統(tǒng)；
泛化能力不足：Benchmark表現(xiàn)好，真實(shí)場(chǎng)景卻「水土不服」；
更新滯后：難以及時(shí)跟進(jìn)新技術(shù)與框架；
數(shù)據(jù)隱私限制：真實(shí)企業(yè)數(shù)據(jù)難以共享，影響高質(zhì)量Benchmark建設(shè)。

未來(lái)機(jī)會(huì)

Benchmark建設(shè)仍是「藍(lán)?！?/span>

團(tuán)隊(duì)提出了五大改進(jìn)方向：

多維評(píng)估：引入準(zhǔn)確率、可維護(hù)性、效率、安全性、可解釋性等指標(biāo)；
跨語(yǔ)言、跨任務(wù)：統(tǒng)一評(píng)估框架，提升通用性；
貼近真實(shí)場(chǎng)景：引入真實(shí)項(xiàng)目數(shù)據(jù)，提高落地性；
人類反饋與倫理考量：納入有害性檢測(cè)、隱私風(fēng)險(xiǎn)等維度；
動(dòng)態(tài)可擴(kuò)展平臺(tái)：支持任務(wù)擴(kuò)展、新模型接入與持續(xù)測(cè)評(píng)。

總結(jié)

Benchmark是推動(dòng)LLM落地的「發(fā)動(dòng)機(jī)」

正如作者所言——當(dāng)前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」，但真正能驅(qū)動(dòng)其走向工業(yè)落地、提升工程可信度的，是那些更真實(shí)、更多維、更動(dòng)態(tài)的Benchmark體系。

這項(xiàng)研究不僅填補(bǔ)了LLM軟件工程評(píng)估的綜述空白，也為AI4SE研究者、開(kāi)發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說(shuō)模型是「馬達(dá)」，Benchmark就是「方向盤(pán)」。誰(shuí)能把握住它，誰(shuí)就能在AI軟件工程的未來(lái)之路上走得更遠(yuǎn)。

責(zé)任編輯：張燕妮來(lái)源：新智元

LLM 軟件開(kāi)發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

国产日韩久久久| zjzjzjzjzj亚洲女人| 欧美性天天影视| 国产馆精品极品| 97婷婷涩涩精品一区| 中文字幕免费在线看线人动作大片| 日本在线一区二区| 亚洲成av人片在线观看| 日韩欧美三级一区二区| 精品国精品国产自在久不卡| 午夜在线视频一区二区区别 | www 日韩| 成人h动漫精品一区二区| 国产精品手机播放| 国产一区二区三区影院| 天天做天天爱天天综合网| 亚洲国产91精品在线观看| 国产精品入口免费软件| xxxx在线视频| 中文字幕亚洲精品在线观看 | 日本又骚又刺激的视频在线观看| 久久av资源站| 国产91九色视频| 久久99久久98精品免观看软件 | 国产亚洲视频中文字幕视频| 中文字幕一区二区三区人妻在线视频 | www.天天射.com| 97在线视频免费观看完整版| 国产+人+亚洲| 国产亚洲第一区| 异国色恋浪漫潭| 日本激情一区二区| 精品一区二区三区在线观看国产 | 久久三级视频| 欧美精品18videos性欧美| 波多野结衣久久久久| 欧洲激情视频| 国产午夜精品美女视频明星a级| 国产清纯白嫩初高中在线观看性色| 色999久久久精品人人澡69 | 午夜欧美大片免费观看| 蜜臀久久精品久久久用户群体| 欧美色爱综合| 国产亚洲xxx| 亚洲小说欧美激情另类| 精品国产影院| 亚洲国产古装精品网站| 日本一级大毛片a一| 无人区乱码一区二区三区| 欧美一区二区视频在线观看| 亚洲二区在线播放视频| 亚洲国产私拍精品国模在线观看| 色播五月综合网| videos性欧美另类高清| 午夜精品久久久久影视| 日本人体一区二区| 秋霞在线午夜| 亚洲人成伊人成综合网小说| 一级特黄录像免费播放全99| 欧美激情黑人| 国产精品超碰97尤物18| 亚洲一区二区在线看| 成年人视频免费在线观看| 国产亚洲欧美一级| 日韩免费av电影| p色视频免费在线观看| 中日韩av电影| av动漫免费观看| 黄色在线免费网站| 亚洲色图制服诱惑| 成人一级生活片| 草莓视频丝瓜在线观看丝瓜18| 亚洲国产综合色| 欧美亚洲精品一区二区| 美女的胸无遮挡在线观看| 丁香五六月婷婷久久激情| 国产极品美女高潮无套久久久| 午夜精品成人av| 欧美色男人天堂| 亚洲高清av一区二区三区| 亚洲一区二区电影| 日韩第一页在线| 国产亚洲精品熟女国产成人| 免费看污黄网站| 天堂免费在线视频| 日日夜夜精品视频免费| 国产免费成人av| 国产三级第一页| 欧美久久一二三四区| 国产精品成人v| 日韩亚洲欧美视频| 国产美女av在线| 一区二区三区在线视频免费观看 | 久久久久久久高清| 蜜桃精品视频| 亚洲精品一区二区在线| 日韩在线观看免| 伊人久久久大香线蕉综合直播| 热99精品里视频精品| 一区二区日韩在线观看| 91在线视频在线| 一区二区三区在线视频看| 国产盗摄在线视频网站| 欧美影视一区在线| 美女伦理水蜜桃4| 欧美熟乱15p| 国内精品中文字幕| 97超视频在线观看| 26uuu精品一区二区| 国产美女视频免费| 欧美大片1688| 精品国产免费视频| 国产小视频你懂的| 新67194成人永久网站| 亚洲综合色激情五月| 男人久久精品| 国产精品护士白丝一区av| 日韩在线综合网| 日韩一区二区三区高清在线观看| 亚洲人成在线一二| 国产黄色片视频| 国产麻豆视频一区| 精品日产一区2区三区黄免费| 一本色道久久88| 在线观看不卡| 国产色视频一区| 别急慢慢来1978如如2| 日本久久久久| 亚洲视频视频在线| 奇米影视第四色777| 国产在线日韩欧美| 永久免费精品视频网站| 日本成人片在线| 日韩精品亚洲元码| 国产亚洲精品码| 国产在线观看一区二区| 相泽南亚洲一区二区在线播放| 日本不卡网站| 亚洲国产日韩一区| 日本亚洲欧美在线| 国产成人免费视频| 法国空姐在线观看免费| 久草综合在线| 中文字幕亚洲一区二区三区五十路| 在线观看中文字幕视频| 国产mv日韩mv欧美| 高清无码视频直接看| 精品一区二区三区中文字幕| 色老头一区二区三区| 波多野结衣高清视频| 久久久久久**毛片大全| www黄色av| 国产精品一区2区3区| 日本中文字幕成人| 狠狠狠综合7777久夜色撩人| 一本久久综合亚洲鲁鲁五月天 | 欧美日韩中文字幕在线播放| 99视频有精品高清视频| 久久久国产精品视频| 国产精品特级毛片一区二区三区| 中文字幕在线不卡一区二区三区| 日本三级黄色网址| 日韩欧美字幕| 成人在线观看视频网站| 亚洲丝袜精品| 欧美精品一区二区三区在线 | 久久久久99| 香蕉久久免费影视| 免费视频成人| 插插插亚洲综合网| 亚洲黄色a级片| 精品久久久久久久久中文字幕| 男男做爰猛烈叫床爽爽小说| 视频一区在线视频| 亚洲一区二区在| 亚洲日本va| 2019中文字幕在线| av在线播放免费| 欧美一区二区三区四区视频 | 中文字幕在线三区| 亚洲国产成人在线播放| 黄色av一级片| 亚洲人吸女人奶水| 中文乱码人妻一区二区三区视频| 日韩二区在线观看| 麻豆一区二区三区在线观看| 日韩欧美影院| 国产精品综合不卡av| 青草在线视频在线观看| 亚洲欧美日韩天堂一区二区| 国产成人麻豆免费观看| 亚洲卡通欧美制服中文| 亚洲熟女一区二区| 男男成人高潮片免费网站| 国产成人生活片| 蜜桃a∨噜噜一区二区三区| 国产欧美精品久久久| 福利在线免费视频| 日韩亚洲一区二区| 四虎精品成人影院观看地址| 欧美日本一道本| 免费av网站在线| 亚洲美女屁股眼交| 久久精品无码一区| 日本特黄久久久高潮| 欧美激情一区二区三区在线视频观看| 午夜性色福利视频| 欧美日韩一区中文字幕| 国产一级特黄a高潮片| 久久福利毛片| 日本a级片久久久| 国产精品毛片aⅴ一区二区三区| 5252色成人免费视频| 中文字幕第66页| 欧美69视频| 区一区二区三区中文字幕| 亚洲乱码一区| 国产裸体写真av一区二区| 成人黄色动漫| 美女视频黄免费的亚洲男人天堂| 国产在线一二| 日韩av一区二区在线| 国产国语亲子伦亲子| 欧美日韩激情一区二区三区| 免费看一级视频| 亚洲mv在线观看| 精品深夜av无码一区二区老年| 成人欧美一区二区三区在线播放| 久久丫精品忘忧草西安产品| av电影在线观看完整版一区二区| 一区二区三区人妻| 狠狠色丁香婷婷综合| av网站在线不卡| 日本不卡不码高清免费观看 | 国产日韩一区| 一二三四中文字幕| 久久久国产精品| 中文字幕中文字幕99| 日韩一区二区在线| 日韩精品欧美一区二区三区| 亚州精品视频| 精品国产综合久久| 果冻天美麻豆一区二区国产| 国产成人精品一区二区三区福利| 精品一区二区三区视频在线播放| 91麻豆国产语对白在线观看| 亚洲图片小说区| 成人乱色短篇合集| 国产不卡精品| 91在线免费观看网站| 天天综合天天做| 国产女同互慰高潮91漫画| 在线免费观看成年人视频| www久久精品| 扒开jk护士狂揉免费| 久久久久99精品一区| 一级黄色性视频| 亚洲国产高清不卡| 林心如三级全黄裸体| 亚洲欧洲精品成人久久奇米网| 可以免费看av的网址| 一区二区三区四区蜜桃 | 欧美日韩在线看| 国产精品视频免费播放| 色噜噜狠狠一区二区三区果冻| 波多野结衣一区二区三区四区| 欧美性猛交一区二区三区精品| 中文字幕+乱码+中文乱码91| 91麻豆精品国产无毒不卡在线观看| 国产白浆在线观看| 亚洲精品国产拍免费91在线| 黄色av免费在线观看| 久久久精品日本| 欧美卡一卡二| 日本乱人伦a精品| 99久久久国产| 国产精品日韩一区二区| 久草成人在线| 老司机午夜免费福利视频| 亚洲一区二区三区免费在线观看 | 精品国产黄a∨片高清在线| 91综合免费在线| 啪啪激情综合网| 亚洲国产精品一区在线观看不卡| 五月婷婷中文字幕| 欧美在线观看一二区| 国产剧情久久久| 日韩福利视频在线观看| 午夜激情在线观看| 久久久久九九九九| 亚洲精品粉嫩美女一区| 99porn视频在线| 国产精品一线天粉嫩av| 青青草影院在线观看| 免费看的黄色欧美网站| 日韩视频在线观看一区二区三区| 99精品久久99久久久久| 波兰性xxxxx极品hd| 午夜欧美大尺度福利影院在线看 | 日韩女优制服丝袜电影| 免费一级在线观看| 久久久久久成人精品| 台湾天天综合人成在线| 欧美激情导航| 在线播放日韩| 日韩成人av免费| 国产午夜精品久久久久久久 | 99热精品在线观看| 肉色超薄丝袜脚交| 国产女人aaa级久久久级 | 久久久神马电影| 你懂的成人av| 在线视频一区二区| 免费黄色在线看| 91a在线视频| 91精品丝袜国产高跟在线| 亚洲最新在线| 日韩在线a电影| 日本黄色动态图| 一区二区三区精品视频| 国产精品人人爽| 中文字幕国产精品| xxx欧美xxx| 精品国产一区二区三区四区vr | www.激情成人| 国产探花视频在线| 色天使色偷偷av一区二区| 特黄视频在线观看| 欧美黑人xxx| 欧一区二区三区| japanese在线视频| 久久狠狠亚洲综合| 国产黄色录像视频| 欧美亚洲一区二区三区四区| 四虎影视在线播放| 91超碰caoporn97人人| 无码人妻精品一区二区| 精品999久久久| 男女在线视频| 97se视频在线观看| 久久久久国产精品| 中文字幕第22页| 亚洲天天做日日做天天谢日日欢| 懂色av蜜臀av粉嫩av喷吹| av中文字幕一区| 国产少妇在线观看| 欧美一卡2卡3卡4卡| 亚洲区欧洲区| 国产高清一区二区三区| 精品电影一区| 免费成人深夜夜行p站| 欧美视频免费在线| 免费一级在线观看| 国产精品久久久久久久久久东京| 欧美在线观看视频一区| 天天干天天干天天干天天干天天干| 中文在线一区二区| 97av免费视频| 欧美日韩成人网| 久久中文字幕导航| 国产一区亚洲二区三区| 国产精品污污网站在线观看| 91肉色超薄丝袜脚交一区二区| 久久九九免费视频| 91久久精品无嫩草影院| 精品无码国产一区二区三区av| 91污在线观看| 国产美女www| 欧美老女人性视频| 日韩在线黄色| 污版视频在线观看| 一区二区三区美女视频| 手机亚洲第一页| 国产欧美精品一区二区三区介绍| 综合亚洲视频| 在线免费观看a级片| 欧美综合天天夜夜久久| 国精产品一区| 久久精品国产精品青草色艺 | 一区二区日韩欧美| 午夜不卡久久精品无码免费| 在线亚洲一区二区| 97超碰资源站在线观看| 蜜桃久久精品乱码一区二区| 久色婷婷小香蕉久久| 国产无遮挡又黄又爽| 一区二区在线视频| 亚洲精品高潮| 天堂社区在线视频| 亚洲图片一区二区| 在线视频三区| 精品无码久久久久久久动漫| 久久国产人妖系列| 日韩黄色三级视频| 日韩在线中文字幕| 偷拍精品福利视频导航| 想看黄色一级片| 色综合视频一区二区三区高清| 在线免费av导航| 色吧亚洲视频|