精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從需求分析到代碼生成,LLM都能干點(diǎn)啥?一文讀懂291個(gè)軟工Benchmark!

人工智能 新聞
浙江大學(xué)、新加坡管理大學(xué)、加拿大渥太華大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì),首次對(duì)291個(gè)用于評(píng)估LLMs在軟件工程任務(wù)中的Benchmark進(jìn)行了系統(tǒng)綜述,為AI4SE社區(qū)繪制了一份詳盡的「基準(zhǔn)地圖」與方法指南。

近年來(lái),ChatGPT、Llama等大語(yǔ)言模型在軟件工程領(lǐng)域的能力突飛猛進(jìn),從需求分析、代碼生成到測(cè)試與維護(hù)幾乎無(wú)所不能。但一個(gè)核心問(wèn)題是:我們?nèi)绾慰陀^評(píng)估這些模型在不同軟件工程任務(wù)中的表現(xiàn)?

在SE領(lǐng)域,Benchmark既是分?jǐn)?shù)卡,讓不同模型在同一標(biāo)準(zhǔn)下比拼;也是方向盤(pán),引導(dǎo)技術(shù)改進(jìn)與未來(lái)研究方向。

然而,現(xiàn)有LLM-SE Benchmark存在三大痛點(diǎn):

  • 零散分布:缺乏覆蓋全流程的軟件工程任務(wù)Benchmark綜述
  • 構(gòu)建方式各異:評(píng)估指標(biāo)、數(shù)據(jù)來(lái)源五花八門(mén),難以橫向比較
  • 研究空白:此前從未有系統(tǒng)文獻(xiàn)綜述全面匯總軟件工程相關(guān)的大語(yǔ)言模型Benchmark

這使得開(kāi)發(fā)者和研究者在選擇評(píng)估方法時(shí)常陷入「信息孤島」,甚至可能被不全面的評(píng)估結(jié)果誤導(dǎo)。

為填補(bǔ)這一空白,來(lái)自浙江大學(xué)、新加坡管理大學(xué)、渥太華大學(xué)等機(jī)構(gòu)的團(tuán)隊(duì)開(kāi)展了一項(xiàng)系統(tǒng)文獻(xiàn)綜述,首次全面梳理了291個(gè)用于評(píng)估大語(yǔ)言模型在軟件工程任務(wù)中的Benchmark,并從任務(wù)覆蓋、語(yǔ)言分布、構(gòu)建方式到未來(lái)趨勢(shì)進(jìn)行了深入分析。

論文鏈接:https://arxiv.org/pdf/2505.08903

圖1 綜述框架總覽

研究聚焦三大核心問(wèn)題:

  • 現(xiàn)有LLM-SE Benchmark有哪些?
  • 它們是如何構(gòu)建的?
  • 它們面臨哪些挑戰(zhàn)與改進(jìn)機(jī)會(huì)?

為了確保全面、系統(tǒng),研究人員開(kāi)展「地毯式搜索」:

數(shù)據(jù)來(lái)源:覆蓋IEEE Xplore、ACM DL、ScienceDirect、Springer Link等八大數(shù)據(jù)庫(kù);

  • 補(bǔ)充檢索:采用前向與后向的「滾雪球」檢索,確保重要Benchmark不遺漏;
  • 嚴(yán)格篩選:設(shè)置包含與排除標(biāo)準(zhǔn),剔除與LLM-SE無(wú)關(guān)或信息不全的Benchmark;
  • 質(zhì)量評(píng)估:從描述清晰度、SE相關(guān)性、方法嚴(yán)謹(jǐn)性、可復(fù)現(xiàn)性、學(xué)術(shù)影響五個(gè)維度打分;
  • 最終成果:匯總291個(gè)在2025年6月前發(fā)表的Benchmark,按任務(wù)、語(yǔ)言、構(gòu)建方式等多維度分類分析。

六大任務(wù)全覆蓋

Benchmark演化脈絡(luò)清晰

圖2 Benchmark年份分布

統(tǒng)計(jì)顯示,自2022年起B(yǎng)enchmark數(shù)量快速增長(zhǎng),2023和2024年分別新增近70個(gè),增長(zhǎng)勢(shì)頭迅猛。

圖3 Benchmark語(yǔ)言分布

Python在評(píng)估Benchmark中一騎絕塵,主要用于代碼生成與推薦類任務(wù);Java、C++、C語(yǔ)言在質(zhì)量分析與維護(hù)任務(wù)中占有重要地位;Go、PHP、Ruby等小眾語(yǔ)言的Benchmark仍然稀缺。

圖4 Benchmark任務(wù)分布

任務(wù)分布(六大類)

  • 需求與設(shè)計(jì)(25個(gè)):需求獲取、分類、沖突檢測(cè)、規(guī)格化與驗(yàn)證;
  • 編碼輔助(124個(gè)):代碼生成、補(bǔ)全、摘要、多語(yǔ)言遷移(占比超40%,最多);
  • 軟件測(cè)試(25個(gè)):測(cè)試生成、GUI測(cè)試、斷言生成、自動(dòng)修復(fù);
  • AIOps(6個(gè)):日志生成與解析;
  • 軟件維護(hù)(13個(gè)):代碼審查、克隆檢測(cè)、代碼重構(gòu);
  • 質(zhì)量管理(111個(gè)):缺陷檢測(cè)、漏洞識(shí)別、修復(fù)建議(占比38%)。

其中「編碼輔助」任務(wù)相關(guān)Benchmark數(shù)量最多,占比超過(guò)40%,其次是質(zhì)量管理類任務(wù),占比達(dá)38%。

現(xiàn)實(shí)挑戰(zhàn)

Benchmark還遠(yuǎn)遠(yuǎn)不夠用!

研究指出,當(dāng)前Benchmark建設(shè)存在五大瓶頸:

  • 任務(wù)定義模糊、評(píng)價(jià)不一致:缺乏統(tǒng)一標(biāo)準(zhǔn),難以橫向?qū)Ρ龋?/span>
  • 規(guī)模受限、計(jì)算成本高:多數(shù)數(shù)據(jù)集規(guī)模偏小,覆蓋不了復(fù)雜系統(tǒng);
  • 泛化能力不足:Benchmark表現(xiàn)好,真實(shí)場(chǎng)景卻「水土不服」;
  • 更新滯后:難以及時(shí)跟進(jìn)新技術(shù)與框架;
  • 數(shù)據(jù)隱私限制:真實(shí)企業(yè)數(shù)據(jù)難以共享,影響高質(zhì)量Benchmark建設(shè)。

未來(lái)機(jī)會(huì)

Benchmark建設(shè)仍是「藍(lán)?!?/span>

團(tuán)隊(duì)提出了五大改進(jìn)方向:

  • 多維評(píng)估:引入準(zhǔn)確率、可維護(hù)性、效率、安全性、可解釋性等指標(biāo);
  • 跨語(yǔ)言、跨任務(wù):統(tǒng)一評(píng)估框架,提升通用性;
  • 貼近真實(shí)場(chǎng)景:引入真實(shí)項(xiàng)目數(shù)據(jù),提高落地性;
  • 人類反饋與倫理考量:納入有害性檢測(cè)、隱私風(fēng)險(xiǎn)等維度;
  • 動(dòng)態(tài)可擴(kuò)展平臺(tái):支持任務(wù)擴(kuò)展、新模型接入與持續(xù)測(cè)評(píng)。

總結(jié)

Benchmark是推動(dòng)LLM落地的「發(fā)動(dòng)機(jī)」

正如作者所言——當(dāng)前LLM在軟件工程中的應(yīng)用正處于「黃金發(fā)展期」,但真正能驅(qū)動(dòng)其走向工業(yè)落地、提升工程可信度的,是那些更真實(shí)、更多維、更動(dòng)態(tài)的Benchmark體系。

這項(xiàng)研究不僅填補(bǔ)了LLM軟件工程評(píng)估的綜述空白,也為AI4SE研究者、開(kāi)發(fā)者和企業(yè)提供了清晰的「下一步方向」。

如果說(shuō)模型是「馬達(dá)」,Benchmark就是「方向盤(pán)」。誰(shuí)能把握住它,誰(shuí)就能在AI軟件工程的未來(lái)之路上走得更遠(yuǎn)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-01-15 05:55:33

2023-05-20 17:58:31

低代碼軟件

2024-05-27 00:45:00

2022-01-07 17:28:07

操作系統(tǒng)IO 內(nèi)存

2019-04-08 09:15:56

2019-07-04 15:16:42

數(shù)據(jù)架構(gòu)Flink數(shù)據(jù)倉(cāng)庫(kù)

2024-06-04 12:59:41

2021-08-04 16:06:45

DataOps智領(lǐng)云

2023-12-22 19:59:15

2024-05-28 11:32:01

2022-04-18 09:16:47

層次聚類Python代碼

2022-09-22 09:00:46

CSS單位

2018-09-28 14:06:25

前端緩存后端

2022-11-06 21:14:02

數(shù)據(jù)驅(qū)動(dòng)架構(gòu)數(shù)據(jù)

2025-04-03 10:56:47

2019-07-12 11:28:00

元數(shù)據(jù)大數(shù)據(jù)存儲(chǔ)

2021-08-06 09:21:26

Linux內(nèi)核 Coredump

2023-11-27 17:35:48

ComponentWeb外層

2022-10-20 08:01:23

2022-07-05 06:30:54

云網(wǎng)絡(luò)網(wǎng)絡(luò)云原生
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产日韩久久久| zjzjzjzjzj亚洲女人| 欧美性天天影视| 国产馆精品极品| 97婷婷涩涩精品一区| 中文字幕免费在线看线人动作大片| 日本在线一区二区| 亚洲成av人片在线观看| 日韩欧美三级一区二区| 精品国精品国产自在久不卡| 午夜在线视频一区二区区别 | www 日韩| 成人h动漫精品一区二区| 国产精品手机播放| 国产一区二区三区影院| 天天做天天爱天天综合网| 亚洲国产91精品在线观看| 国产精品入口免费软件| xxxx在线视频| 中文字幕亚洲精品在线观看 | 日本又骚又刺激的视频在线观看| 久久av资源站| 国产91九色视频| 久久99久久98精品免观看软件 | 国产亚洲视频中文字幕视频| 中文字幕一区二区三区人妻在线视频 | www.天天射.com| 97在线视频免费观看完整版| 国产+人+亚洲| 国产亚洲第一区| 异国色恋浪漫潭| 日本激情一区二区| 精品一区二区三区在线观看国产 | 久久三级视频| 欧美精品18videos性欧美| 波多野结衣久久久久| 欧洲激情视频| 国产午夜精品美女视频明星a级| 国产清纯白嫩初高中在线观看性色| 色999久久久精品人人澡69 | 午夜欧美大片免费观看| 蜜臀久久精品久久久用户群体| 欧美色爱综合| 国产亚洲xxx| 亚洲 小说 欧美 激情 另类| 精品国产影院| 亚洲国产古装精品网站| 日本一级大毛片a一| 无人区乱码一区二区三区| 欧美一区二区视频在线观看| 亚洲二区在线播放视频| 亚洲国产私拍精品国模在线观看| 色播五月综合网| videos性欧美另类高清| 午夜精品久久久久影视| 日本人体一区二区| 秋霞在线午夜| 亚洲人成伊人成综合网小说| 一级特黄录像免费播放全99| 欧美激情黑人| 国产精品超碰97尤物18| 亚洲一区二区在线看| 成年人视频免费在线观看| 国产亚洲欧美一级| 日韩免费av电影| p色视频免费在线观看| 中日韩av电影| av动漫免费观看| 黄色在线免费网站| 亚洲色图制服诱惑| 成人一级生活片| 草莓视频丝瓜在线观看丝瓜18| 亚洲国产综合色| 欧美亚洲精品一区二区| 美女的胸无遮挡在线观看| 丁香五六月婷婷久久激情| 国产极品美女高潮无套久久久| 午夜精品成人av| 欧美色男人天堂| 亚洲高清av一区二区三区| 亚洲一区二区电影| 日韩第一页在线| 国产亚洲精品熟女国产成人| 免费看污黄网站| 天堂免费在线视频| 日日夜夜精品视频免费| 国产免费成人av| 国产三级第一页| 欧美久久一二三四区| 国产精品成人v| 日韩亚洲欧美视频| 国产美女av在线| 一区二区三区在线视频免费观看 | 久久久久久久高清| 蜜桃精品视频| 亚洲精品一区二区在线| 日韩在线观看免| 伊人久久久大香线蕉综合直播| 热99精品里视频精品| 一区二区日韩在线观看| 91在线视频在线| 一区二区三区在线视频看| 国产盗摄在线视频网站| 欧美影视一区在线| 美女伦理水蜜桃4| 欧美熟乱15p| 国内精品中文字幕| 97超视频在线观看| 26uuu精品一区二区| 国产美女视频免费| 欧美大片1688| 精品国产免费视频| 国产小视频你懂的| 新67194成人永久网站| 亚洲综合色激情五月| 男人久久精品| 国产精品护士白丝一区av| 日韩在线综合网| 日韩一区二区三区高清在线观看| 亚洲人成在线一二| 国产黄色片视频| 国产麻豆视频一区| 精品日产一区2区三区黄免费| 一本色道久久88| 在线观看不卡| 国产色视频一区| 别急慢慢来1978如如2| 日本久久久久| 亚洲视频视频在线| 奇米影视第四色777| 国产在线日韩欧美| 永久免费精品视频网站| 日本成人片在线| 日韩精品亚洲元码| 国产亚洲精品码| 国产在线观看一区二区| 相泽南亚洲一区二区在线播放| 日本不卡网站| 亚洲国产日韩一区| 日本亚洲欧美在线| 国产成人免费视频| 法国空姐在线观看免费| 久草综合在线| 中文字幕亚洲一区二区三区五十路| 在线观看中文字幕视频| 国产mv日韩mv欧美| 高清无码视频直接看| 精品一区二区三区中文字幕| 色老头一区二区三区| 波多野结衣高清视频| 久久久久久**毛片大全| www黄色av| 国产精品一区2区3区| 日本中文字幕成人| 狠狠狠综合7777久夜色撩人| 一本久久综合亚洲鲁鲁五月天 | 欧美日韩中文字幕在线播放| 99视频有精品高清视频| 久久久国产精品视频| 国产精品特级毛片一区二区三区| 中文字幕在线不卡一区二区三区| 日本三级黄色网址| 日韩欧美字幕| 成人在线观看视频网站| 亚洲丝袜精品| 欧美精品一区二区三区在线 | 久久久久99| 香蕉久久免费影视| 免费视频成人| 插插插亚洲综合网| 亚洲黄色a级片| 精品久久久久久久久中文字幕| 男男做爰猛烈叫床爽爽小说| 视频一区在线视频| 亚洲一区二区在| 亚洲日本va| 2019中文字幕在线| av在线播放免费| 欧美一区二区三区四区视频 | 中文字幕在线三区| 亚洲国产成人在线播放| 黄色av一级片| 亚洲人吸女人奶水| 中文乱码人妻一区二区三区视频| 日韩二区在线观看| 麻豆一区二区三区在线观看| 日韩欧美影院| 国产精品综合不卡av| 青草在线视频在线观看| 亚洲欧美日韩天堂一区二区| 国产成人麻豆免费观看| 亚洲卡通欧美制服中文| 亚洲熟女一区二区| 男男成人高潮片免费网站| 国产成人生活片| 蜜桃a∨噜噜一区二区三区| 国产欧美精品久久久| 福利在线免费视频| 日韩亚洲一区二区| 四虎精品成人影院观看地址| 欧美日本一道本| 免费av网站在线| 亚洲美女屁股眼交| 久久精品无码一区| 日本特黄久久久高潮| 欧美激情一区二区三区在线视频观看| 午夜性色福利视频| 欧美日韩一区中文字幕| 国产一级特黄a高潮片| 久久福利毛片| 日本a级片久久久| 国产精品毛片aⅴ一区二区三区| 5252色成人免费视频| 中文字幕第66页| 欧美69视频| 区一区二区三区中文字幕| 亚洲乱码一区| 国产裸体写真av一区二区| 成人黄色动漫| 美女视频黄免费的亚洲男人天堂| 国产在线一二| 日韩av一区二区在线| 国产国语亲子伦亲子| 欧美日韩激情一区二区三区| 免费看一级视频| 亚洲mv在线观看| 精品深夜av无码一区二区老年| 成人欧美一区二区三区在线播放| 久久丫精品忘忧草西安产品| av电影在线观看完整版一区二区| 一区二区三区人妻| 狠狠色丁香婷婷综合| av网站在线不卡| 日本不卡不码高清免费观看 | 国产日韩一区| 一二三四中文字幕| 久久久国产精品| 中文字幕中文字幕99| 日韩一区二区在线| 日韩精品欧美一区二区三区| 亚州精品视频| 精品国产综合久久| 果冻天美麻豆一区二区国产| 国产成人精品一区二区三区福利| 精品一区二区三区视频在线播放| 91麻豆国产语对白在线观看| 亚洲图片小说区| 成人乱色短篇合集| 国产不卡精品| 91在线免费观看网站| 天天综合天天做| 国产女同互慰高潮91漫画| 在线免费观看成年人视频| www久久精品| 扒开jk护士狂揉免费| 久久久久99精品一区| 一级黄色性视频| 亚洲国产高清不卡| 林心如三级全黄裸体| 亚洲欧洲精品成人久久奇米网| 可以免费看av的网址| 一区二区三区四区蜜桃 | 欧美日韩在线看| 国产精品视频免费播放| 色噜噜狠狠一区二区三区果冻| 波多野结衣一区二区三区四区| 欧美性猛交一区二区三区精品| 中文字幕+乱码+中文乱码91| 91麻豆精品国产无毒不卡在线观看| 国产白浆在线观看| 亚洲精品国产拍免费91在线| 黄色av免费在线观看| 久久久精品日本| 欧美卡一卡二| 日本乱人伦a精品| 99久久久国产| 国产精品日韩一区二区| 久草成人在线| 老司机午夜免费福利视频| 亚洲一区二区三区免费在线观看 | 精品国产黄a∨片高清在线| 91综合免费在线| 啪啪激情综合网| 亚洲国产精品一区在线观看不卡| 五月婷婷中文字幕| 欧美在线观看一二区| 国产剧情久久久| 日韩福利视频在线观看| 午夜激情在线观看| 久久久久九九九九| 亚洲精品粉嫩美女一区| 99porn视频在线| 国产精品一线天粉嫩av| 青青草影院在线观看| 免费看的黄色欧美网站| 日韩视频在线观看一区二区三区| 99精品久久99久久久久| 波兰性xxxxx极品hd| 午夜欧美大尺度福利影院在线看 | 日韩女优制服丝袜电影| 免费一级在线观看| 久久久久久成人精品| 台湾天天综合人成在线| 欧美激情导航| 在线播放日韩| 日韩成人av免费| 国产午夜精品久久久久久久 | 99热精品在线观看| 肉色超薄丝袜脚交| 国产女人aaa级久久久级 | 久久久神马电影| 你懂的成人av| 在线视频一区二区| 免费黄色在线看| 91a在线视频| 91精品丝袜国产高跟在线| 亚洲最新在线| 日韩在线a电影| 日本黄色动态图| 一区二区三区精品视频| 国产精品人人爽| 中文字幕国产精品| xxx欧美xxx| 精品国产一区二区三区四区vr | www.激情成人| 国产探花视频在线| 色天使色偷偷av一区二区| 特黄视频在线观看| 欧美黑人xxx| 欧一区二区三区| japanese在线视频| 久久狠狠亚洲综合| 国产黄色录像视频| 欧美亚洲一区二区三区四区| 四虎影视在线播放| 91超碰caoporn97人人| 无码人妻精品一区二区| 精品999久久久| 男女在线视频| 97se视频在线观看| 久久久久国产精品| 中文字幕第22页| 亚洲天天做日日做天天谢日日欢| 懂色av蜜臀av粉嫩av喷吹| av中文字幕一区| 国产少妇在线观看| 欧美一卡2卡3卡4卡| 亚洲区欧洲区| 国产高清一区二区三区| 精品电影一区| 免费成人深夜夜行p站| 欧美视频免费在线| 免费一级在线观看| 国产精品久久久久久久久久东京| 欧美在线观看视频一区| 天天干天天干天天干天天干天天干| 中文在线一区二区| 97av免费视频| 欧美日韩成人网| 久久中文字幕导航| 国产一区亚洲二区三区| 国产精品污污网站在线观看| 91肉色超薄丝袜脚交一区二区| 久久九九免费视频| 91久久精品无嫩草影院| 精品无码国产一区二区三区av| 91污在线观看| 国产美女www| 欧美老女人性视频| 日韩在线黄色| 污版视频在线观看| 一区二区三区美女视频| 手机亚洲第一页| 国产欧美精品一区二区三区介绍| 综合亚洲视频| 在线免费观看a级片| 欧美综合天天夜夜久久| 国精产品一区| 久久精品国产精品青草色艺 | 一区二区日韩欧美| 午夜不卡久久精品无码免费| 在线亚洲一区二区| 97超碰资源站在线观看| 蜜桃久久精品乱码一区二区| 久色婷婷小香蕉久久| 国产无遮挡又黄又爽| 一区二区在线视频| 亚洲精品高潮| 天堂社区在线视频| 亚洲图片一区二区| 在线视频三区| 精品无码久久久久久久动漫| 久久国产人妖系列| 日韩黄色三级视频| 日韩在线中文字幕| 偷拍精品福利视频导航| 想看黄色一级片| 色综合视频一区二区三区高清| 在线免费av导航| 色吧亚洲视频|