精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超70%代碼基準(zhǔn)沒(méi)有質(zhì)量保證!港科大最新「指南」全面調(diào)研10年274個(gè)評(píng)測(cè)集

人工智能 新聞
近年來(lái),代碼評(píng)測(cè)集數(shù)量激增,但質(zhì)量參差不齊。為規(guī)范其開(kāi)發(fā),香港科技大學(xué)聯(lián)合多所高校研究了過(guò)去十年的274個(gè)代碼評(píng)測(cè)集,發(fā)現(xiàn)諸多問(wèn)題,如數(shù)據(jù)重復(fù)、測(cè)試用例錯(cuò)誤、隱私信息未刪除等。基于此,他們推出了《代碼評(píng)測(cè)集發(fā)展指南55項(xiàng)》(How2Bench),涵蓋設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布五大階段,旨在提升代碼評(píng)測(cè)集的質(zhì)量與可靠性。

近年來(lái),大模型層出不窮,令人目不暇接。為更好理解大模型的能力,許多評(píng)測(cè)集(Benchmarks)應(yīng)運(yùn)而生。

然而,這些評(píng)測(cè)集的質(zhì)量常常受到質(zhì)疑:標(biāo)準(zhǔn)答案出錯(cuò)、指令模糊或錯(cuò)誤、題目重復(fù)、數(shù)據(jù)泄漏等。

那么,代碼評(píng)測(cè)集的現(xiàn)狀究竟如何?

為了回答這個(gè)問(wèn)題,由香港科技大學(xué)牽頭,聯(lián)合香港中文大學(xué)、中山大學(xué)等多所機(jī)構(gòu),耗費(fèi)近一年時(shí)間,深入調(diào)研了過(guò)去10年間的274個(gè)代碼評(píng)測(cè)集,推出了一份《代碼評(píng)測(cè)集發(fā)展指南55項(xiàng)》(英文名:How2Bench,下稱《指南》)。

圖片

論文鏈接:https://arxiv.org/pdf/2501.10711

該指南涵蓋代碼評(píng)測(cè)集設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布五大階段,共包含55條檢查項(xiàng)。

研究團(tuán)隊(duì)指出,代碼評(píng)測(cè)集的質(zhì)量不容樂(lè)觀:

  • 即使是上千引的代碼評(píng)測(cè)集,也存在題目重復(fù)、測(cè)試用例錯(cuò)誤、標(biāo)準(zhǔn)答案錯(cuò)誤、未刪除的隱私信息等問(wèn)題;
  • 近70%的代碼評(píng)測(cè)集沒(méi)有采取數(shù)據(jù)質(zhì)量保證措施;
  • 超90%的以測(cè)試用例為通過(guò)依據(jù)的代碼評(píng)測(cè)集沒(méi)有考慮代碼覆蓋率;
  • 超過(guò)一半的代碼評(píng)測(cè)集不提供可復(fù)現(xiàn)信息,如實(shí)驗(yàn)參數(shù)設(shè)置、提示詞等;
  • 超過(guò)10%的代碼評(píng)測(cè)集不開(kāi)源或僅部分開(kāi)源;
  • 超18%的代碼評(píng)測(cè)集會(huì)作為后續(xù)評(píng)測(cè)集的源頭繼續(xù)擴(kuò)大其影響(如圖6),意味著代碼評(píng)測(cè)集中的漏洞會(huì)持續(xù)傳遞,影響后續(xù)評(píng)測(cè)集的質(zhì)量與可靠性。

研究過(guò)程

圖片

圖1 研究過(guò)程大綱

研究團(tuán)隊(duì)將研究過(guò)程分為四個(gè)步驟:指南構(gòu)建、文獻(xiàn)綜述、焦點(diǎn)案例分析、問(wèn)卷調(diào)查。

  • 指南構(gòu)建:研究團(tuán)隊(duì)首先起草了初步的指南,之后通過(guò)頭腦風(fēng)暴、查閱文獻(xiàn)和對(duì)模型開(kāi)發(fā)人員、模型評(píng)測(cè)人員的走訪,對(duì)初版指南進(jìn)行增刪修改,最終敲定了這份包含55條檢查項(xiàng)的構(gòu)建《指南》How2Bench;
  • 文獻(xiàn)綜述:為探究代碼評(píng)測(cè)集的現(xiàn)狀,研究團(tuán)隊(duì)根據(jù)發(fā)表年份(2014–2024年)、發(fā)表刊物(軟件工程頂會(huì)、人工智能頂會(huì)及前沿arXiv)、任務(wù)(代碼相關(guān)),進(jìn)行滾雪球式收集,最終收錄274個(gè)代碼相關(guān)評(píng)測(cè)集(包含為深度學(xué)習(xí)/大模型設(shè)計(jì)的評(píng)測(cè)集);
  • 焦點(diǎn)案例分析:針對(duì)Top 5的代碼任務(wù),研究團(tuán)隊(duì)選取了前五個(gè)最高引的代碼評(píng)測(cè)集及一個(gè)最新的代碼評(píng)測(cè)集作為焦點(diǎn)案例進(jìn)行重點(diǎn)剖析,摘錄其中的不足之處,引以為戒;
  • 問(wèn)卷調(diào)查:最后,研究團(tuán)隊(duì)探尋從業(yè)者意識(shí)上的不足,及意識(shí)與行為之間的差距,研究哪些不良操作是由「沒(méi)有意識(shí)到其重要性」而導(dǎo)致,哪些是由于時(shí)間、精力、人力成本所限制而導(dǎo)致。

代碼評(píng)測(cè)集開(kāi)發(fā)的生命周期

研究團(tuán)隊(duì)將代碼評(píng)測(cè)集的開(kāi)發(fā)過(guò)程分為五個(gè)階段(如圖2):設(shè)計(jì)、構(gòu)建、測(cè)評(píng)、分析、發(fā)布。

圖片

圖2 代碼基準(zhǔn)開(kāi)發(fā)的生命周期

  • 設(shè)計(jì)(Design):在構(gòu)建評(píng)測(cè)集之前,要先考慮該評(píng)測(cè)集所要評(píng)測(cè)的范圍、所要考察的模型能力、是否彌補(bǔ)了相關(guān)評(píng)測(cè)集的空白、以及評(píng)測(cè)集所設(shè)計(jì)的輸入輸出是否符合真實(shí)應(yīng)用場(chǎng)景。嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)設(shè)計(jì)可以避免;
  • 構(gòu)造(Construction):確定了評(píng)測(cè)集的動(dòng)機(jī)和設(shè)計(jì)之后,開(kāi)始構(gòu)建評(píng)測(cè)集。代碼評(píng)測(cè)集中的數(shù)據(jù)通常從開(kāi)源平臺(tái)、社區(qū)等(例如 GitHub、LeetCode 和 StackOverflow)收集,經(jīng)過(guò)篩選(例如去掉低質(zhì)量數(shù)據(jù))、清洗(例如刪除重復(fù)數(shù)據(jù)、降噪)、整理(例如將測(cè)試數(shù)據(jù)與所測(cè)代碼配對(duì))等預(yù)處理方法。該階段還伴隨判定方式(oracle)的構(gòu)建,例如準(zhǔn)備測(cè)試用例等。
  • 評(píng)估(Evaluation):評(píng)測(cè)集建立好后,在模型評(píng)估時(shí)也有不少問(wèn)題:在什么環(huán)境下、用什么實(shí)驗(yàn)設(shè)置(如溫度、重復(fù)次數(shù)、采樣次數(shù)、上下文設(shè)置、提示詞方式)進(jìn)行評(píng)測(cè)?在幾個(gè)模型上評(píng)測(cè)?評(píng)測(cè)結(jié)果是否具有偶然性?是否可復(fù)現(xiàn)?實(shí)驗(yàn)過(guò)程是否完整記錄?諸如此類(lèi)設(shè)置在評(píng)估過(guò)程中也是不規(guī)范的重災(zāi)之地。
  • 分析(Analysis):評(píng)測(cè)得到實(shí)驗(yàn)結(jié)果后,對(duì)實(shí)驗(yàn)結(jié)果的分析、啟發(fā)與反思也是重要的步驟。此階段涉及比較每個(gè)模型的表現(xiàn),以找出表現(xiàn)異常的模型;使用適當(dāng)?shù)囊曈X(jué)輔助工具(例如條形圖和表格),以便于更清晰地觀察模型之間、不同設(shè)置下、與相關(guān)評(píng)測(cè)集、或上游下游任務(wù)表現(xiàn)的相關(guān)性。
  • 發(fā)布(Release):最后是發(fā)布評(píng)測(cè)集。這一階段需要對(duì)評(píng)測(cè)集所用的材料(如評(píng)測(cè)數(shù)據(jù)、評(píng)估方式(如測(cè)試用例)、運(yùn)行環(huán)境(如docker)、可運(yùn)行代碼或代碼實(shí)例等)進(jìn)行整理與打包,以提高評(píng)測(cè)的可復(fù)現(xiàn)性;提供許可證(license),以明確使用權(quán)限及方式;提供清晰的文檔,以指導(dǎo)用戶有效地利用基準(zhǔn)測(cè)試;提供實(shí)驗(yàn)日志,以提高評(píng)測(cè)的可靠性與透明性。

綜述一覽

研究團(tuán)隊(duì)可視化了所深入研究的274個(gè)代碼評(píng)測(cè)集,展示了它們的時(shí)間分布(圖3)、引用量分布(圖4)、代碼任務(wù)分布(圖5)等。

圖片

圖3 代碼評(píng)測(cè)集時(shí)間分布

圖片

圖4 代碼評(píng)測(cè)集引用量分布

圖片

圖5 代碼任務(wù)分布圖

研究團(tuán)隊(duì)還對(duì)代碼評(píng)測(cè)集的繼承關(guān)系進(jìn)行分析。如圖6所示,HumanEval、MBPP、Spider、CodeSearchNet被下游代碼評(píng)測(cè)集繼承得較為頻繁。

另外,值得注意的是,18%的代碼評(píng)測(cè)集(50/274)被后續(xù)評(píng)測(cè)集繼承、擴(kuò)展。這也意味著上游代碼評(píng)測(cè)集的質(zhì)量不僅影響自身的評(píng)估可靠性,還將持續(xù)影響下游代碼評(píng)測(cè)集。

圖片

圖6 代碼評(píng)測(cè)集之間的繼承關(guān)系

評(píng)測(cè)集「設(shè)計(jì)」階段現(xiàn)狀——偏科嚴(yán)重

針對(duì)「設(shè)計(jì)」階段,研究團(tuán)隊(duì)提出了4條檢查項(xiàng)?!吨改稀分赋?,在構(gòu)建之前,從業(yè)者應(yīng)先做好調(diào)研,以確保提出新的評(píng)測(cè)集的必要性和重要性(如,是否已存在大量相似的評(píng)測(cè)集);明確定義評(píng)測(cè)集所評(píng)估的模型能力范圍(如,評(píng)測(cè)的是代碼續(xù)寫(xiě)能力、理解能力,或是其他);思考清楚待評(píng)估的能力是否符合真實(shí)應(yīng)用場(chǎng)景(如,輸入是否符合實(shí)際;輸出形式是否真的為實(shí)際應(yīng)用場(chǎng)景所需)。

圖片

綜述發(fā)現(xiàn),現(xiàn)有的代碼評(píng)測(cè)集偏科嚴(yán)重:

  • 編程語(yǔ)言:58%(158/274)的評(píng)測(cè)集評(píng)估了Python,39%(107/274)評(píng)估了Java,23%(63/274)評(píng)估了C++,其他編程語(yǔ)言則很少被評(píng)估。有31種編程語(yǔ)言僅被一個(gè)代碼評(píng)測(cè)集覆蓋。具體分布如圖7所示。

圖片

圖7 編程語(yǔ)言分布

  • 自然語(yǔ)言:相似的,自然語(yǔ)言也能觀察到相似的偏科現(xiàn)象——英語(yǔ)絕對(duì)領(lǐng)先,占據(jù)70%(192/274),中文僅有2%(6/274)。
  • 函數(shù)級(jí)的代碼評(píng)測(cè)集占主導(dǎo)(71.8%),項(xiàng)目級(jí)(15.1%)、類(lèi)級(jí)(2.6%)僅占少數(shù)。

代碼評(píng)測(cè)集是否真的在評(píng)測(cè)所預(yù)期的「代碼能力」?

研究團(tuán)隊(duì)指出,在焦點(diǎn)研究的評(píng)測(cè)集中,10%的評(píng)測(cè)集沒(méi)有寫(xiě)明所評(píng)估的模型能力,或出現(xiàn)預(yù)期評(píng)估的能力與實(shí)際評(píng)估的能力不相符的例子。

例如,被廣泛使用的MBPP(Most-basic Python Problems)致力于評(píng)估評(píng)估模型最基礎(chǔ)的Python 編程能力(measure the ability of these models to synthesize short Python programs from natural language descriptions),然而,其中有一道題是實(shí)現(xiàn)一個(gè)狗的年齡與人類(lèi)年齡的對(duì)照轉(zhuǎn)換(如圖8)。

圖片

圖8 所評(píng)估能力與實(shí)際評(píng)估能力不符的例子

評(píng)測(cè)集「構(gòu)建」階段現(xiàn)狀——數(shù)據(jù)質(zhì)量的重災(zāi)區(qū)

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「構(gòu)建」階段提出了19條檢查項(xiàng)?!吨改稀分赋觯瑥臄?shù)據(jù)收集、清洗、降噪、去重,質(zhì)量審查(如人工篩查、代碼運(yùn)行)、數(shù)據(jù)污染緩解,到最后構(gòu)建完整輸入輸出對(duì)、匹配評(píng)估方案(oracle)等,都要盡量做到「有跡可循、有記錄可查、有質(zhì)量保障,構(gòu)建過(guò)程公開(kāi)、透明、可復(fù)現(xiàn)」等規(guī)范,保證代碼評(píng)測(cè)集構(gòu)建的可靠性。

圖片

綜述發(fā)現(xiàn),現(xiàn)有的代碼評(píng)測(cè)集構(gòu)建過(guò)程「質(zhì)量堪憂」:

  • 62%的代碼評(píng)測(cè)集沒(méi)有去重,或在文中沒(méi)有提及;
  • 近80%的代碼評(píng)測(cè)集沒(méi)有處理數(shù)據(jù)泄漏,即模型可能學(xué)習(xí)過(guò)評(píng)測(cè)用到的代碼數(shù)據(jù)而導(dǎo)致評(píng)估結(jié)果被高估;
  • 近七成評(píng)測(cè)集未經(jīng)任何質(zhì)量保障手段,如人工檢查、代碼編譯或執(zhí)行等;
  • 在需要用測(cè)試用例判斷是否通過(guò)的代碼評(píng)測(cè)集中,僅8.7%評(píng)測(cè)集考慮了代碼覆蓋率。

構(gòu)建時(shí)的數(shù)據(jù)「質(zhì)量保障」,你會(huì)做嗎?

在構(gòu)建評(píng)測(cè)集時(shí),確保數(shù)據(jù)質(zhì)量至關(guān)重要。

然而,研究團(tuán)隊(duì)展示的統(tǒng)計(jì)數(shù)據(jù)(如圖9)令人失望:67.9% 的評(píng)測(cè)集沒(méi)有采取任何數(shù)據(jù)質(zhì)量保證措施。

在做了質(zhì)量保障的代碼評(píng)測(cè)集中,人工檢查占多數(shù)(22.6%);代碼執(zhí)行僅占2.2%;使用大模型進(jìn)行驗(yàn)證占1.5%;其他方法還包括:代碼倉(cāng)庫(kù)下載量、點(diǎn)贊數(shù)等。

圖片

圖9 數(shù)據(jù)質(zhì)量保障方式分布

研究團(tuán)隊(duì)在文中給出了一些反例,例如評(píng)測(cè)集中存在重復(fù)問(wèn)題(如圖10)、標(biāo)準(zhǔn)答案不正確(如圖11)、測(cè)試數(shù)據(jù)錯(cuò)誤(如圖12)等。

圖片

圖10 數(shù)據(jù)重復(fù)的例子(id為71的題目和id為141的題目重復(fù))

圖片

圖11 標(biāo)準(zhǔn)答案不可運(yùn)行的例子(函數(shù)swap 未定義)

圖片

圖12 測(cè)試用例錯(cuò)誤的例子(第7、8行預(yù)期輸出應(yīng)為2)

評(píng)測(cè)集「評(píng)估」階段現(xiàn)狀——評(píng)估過(guò)程不透明,「復(fù)現(xiàn)」成困難

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「評(píng)估」階段提出了12條檢查項(xiàng)?!吨改稀分赋?,實(shí)驗(yàn)設(shè)計(jì)應(yīng)具有代表性和完整性;實(shí)驗(yàn)過(guò)程要記錄,以提高可復(fù)現(xiàn)性;評(píng)估過(guò)程中應(yīng)考慮偶然因素(如大模型所天然具有的隨機(jī)性)對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的風(fēng)險(xiǎn),并盡量避免。

圖片

研究團(tuán)隊(duì)先將代碼評(píng)測(cè)集中針對(duì)大模型的評(píng)測(cè)集篩選出來(lái)(67%=183/274),對(duì)這部分評(píng)測(cè)集的評(píng)估過(guò)程進(jìn)行統(tǒng)計(jì)。

經(jīng)過(guò)觀察,研究團(tuán)隊(duì)指出,在代碼評(píng)測(cè)集的評(píng)估階段,主要存在的問(wèn)題包括:評(píng)估過(guò)程不透明,評(píng)估存在隨機(jī)性,且可復(fù)現(xiàn)性堪憂:

  • 34%的代碼評(píng)測(cè)集僅在不到三個(gè)大模型上進(jìn)行評(píng)估,有21個(gè)僅在一個(gè)大模型上進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果的泛化性難以保證;
  • 94.9%的評(píng)測(cè)集僅用零樣本(zero-shot)評(píng)測(cè)了一次,實(shí)驗(yàn)結(jié)果存在偶然性;
  • 僅有34.5%的評(píng)測(cè)集在評(píng)估過(guò)程中有重復(fù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果存在隨機(jī)性;
  • 超過(guò)半數(shù)的評(píng)測(cè)集不提供評(píng)估所用的提示詞(prompts)、上下文樣本等;僅有3.6%的評(píng)測(cè)集說(shuō)明了評(píng)測(cè)環(huán)境(如軟硬件設(shè)備),嚴(yán)重阻礙可復(fù)現(xiàn)性;

圖片

圖13 評(píng)估階段評(píng)測(cè)的大模型數(shù)量分布

評(píng)測(cè)集「分析」階段現(xiàn)狀——分析維度「格局打開(kāi)」

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「分析」階段提出了10條檢查項(xiàng)。《指南》指出,分析實(shí)驗(yàn)結(jié)果時(shí)應(yīng)盡可能考慮多角度、多維度。

借鑒經(jīng)典度量學(xué)理論中的評(píng)估指標(biāo),綜合考慮代碼評(píng)測(cè)集的難度(評(píng)測(cè)集是否過(guò)于簡(jiǎn)單以至于模型表現(xiàn)過(guò)好,或過(guò)于困難以至于所有模型均一籌莫展)、區(qū)分度(評(píng)測(cè)集應(yīng)能區(qū)分不同模型的能力)、穩(wěn)定性等。還可以橫向?qū)Ρ韧?lèi)代碼評(píng)測(cè)集在其他編程語(yǔ)言、相關(guān)任務(wù)、上下游任務(wù)中的表現(xiàn),分析其是否具有相關(guān)性。

最后,在實(shí)驗(yàn)分析展示階段,圖示盡量恰當(dāng)(如,用折線圖表示趨勢(shì)、柱狀圖表示數(shù)值對(duì)比、餅狀圖表示比例等),數(shù)字盡量清晰。

圖片

研究團(tuán)隊(duì)經(jīng)過(guò)對(duì)焦點(diǎn)案例的深入分析指出,30%代碼評(píng)測(cè)集在分析實(shí)驗(yàn)數(shù)據(jù)時(shí)未能對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,并提供合理解釋;存在實(shí)驗(yàn)結(jié)果圖示中數(shù)字不可分辨(如圖14)等情況。

圖片

圖14 實(shí)驗(yàn)結(jié)果圖示中數(shù)字不可分辨的例子

評(píng)測(cè)集「發(fā)布」階段現(xiàn)狀——「公開(kāi)透明」仍需努力

研究團(tuán)隊(duì)對(duì)代碼評(píng)測(cè)集「發(fā)布」階段提出了10條檢查項(xiàng)?!吨改稀分赋?,代碼評(píng)測(cè)集發(fā)布時(shí),應(yīng)設(shè)置好許可證(license)以明確使用權(quán)限及方式;提供評(píng)測(cè)所需的完整素材,包括評(píng)測(cè)數(shù)據(jù)、評(píng)估方式(如測(cè)試用例)、運(yùn)行環(huán)境(如docker)、可運(yùn)行代碼或代碼實(shí)例等;準(zhǔn)備使用文檔,以提高用戶友好性;提供評(píng)測(cè)運(yùn)行時(shí)日志,以提高評(píng)測(cè)的可靠性與透明性,便于其他從業(yè)人員使用。

圖片

研究團(tuán)隊(duì)發(fā)現(xiàn),近20%的代碼評(píng)測(cè)集沒(méi)有設(shè)置許可證,這使得代碼數(shù)據(jù)的權(quán)限不清晰;超過(guò)半數(shù)的評(píng)測(cè)集不提供可復(fù)現(xiàn)的提示詞,阻礙可復(fù)現(xiàn)性。

團(tuán)隊(duì)還指出,在公布的代碼評(píng)測(cè)集中要注意刪除隱私、敏感信息(如API密鑰、個(gè)人郵箱、密碼等),避免隱私泄漏(如圖15)。

圖片

圖15 包含隱私信息的例子(包含API key)

「問(wèn)卷調(diào)查」剖析,發(fā)現(xiàn)問(wèn)題——對(duì)「可復(fù)現(xiàn)」不重視

最后,研究團(tuán)隊(duì)進(jìn)行了問(wèn)卷調(diào)查,共發(fā)出50份問(wèn)卷,其中49份有效。

團(tuán)隊(duì)要求受訪者:(1)來(lái)自于AI或軟件工程(SE)領(lǐng)域,且(2)至少正式發(fā)表過(guò)一篇論文。其中,有近一半的受訪者曾參與構(gòu)建過(guò)代碼評(píng)測(cè)集。

圖16 受訪者的地區(qū)分布

首先,所有受訪者都同意「一份評(píng)測(cè)集構(gòu)建指南對(duì)代碼評(píng)測(cè)集的構(gòu)建能起到很大幫助」;《指南》中85%(47/55)的檢查項(xiàng)都得到超八成受訪者的認(rèn)同。

有趣的事,凡是曾經(jīng)參與過(guò)代碼評(píng)測(cè)集構(gòu)建的受訪者,對(duì)檢查項(xiàng)的認(rèn)可度都非常高,55條中有53條得到了所有參與過(guò)評(píng)測(cè)集構(gòu)建的受訪者的認(rèn)同。

然而,研究團(tuán)隊(duì)也從問(wèn)卷調(diào)查中,識(shí)別到從業(yè)者意識(shí)上的不足:

  • 超過(guò)15% 的受訪者沒(méi)有意識(shí)到評(píng)測(cè)集中的數(shù)據(jù)應(yīng)具有代表性;
  • 16% 的受訪者沒(méi)有意識(shí)到數(shù)據(jù)要降噪或去重;
  • 超過(guò)4成的受訪者認(rèn)為記錄實(shí)驗(yàn)環(huán)境不重要,如硬件設(shè)備、型號(hào),軟件版本,使用的模型框架或庫(kù)等。

受訪者意識(shí)上的「缺失」正好解釋了研究團(tuán)隊(duì)在綜述中的觀察——數(shù)據(jù)質(zhì)量堪憂、可復(fù)現(xiàn)性差、公開(kāi)透明性差。

最后,研究團(tuán)隊(duì)將綜述及指南整理成一份40頁(yè)的研究論文,并附上完整的《指南》,希望能喚起大模型從業(yè)者對(duì)代碼評(píng)測(cè)集質(zhì)量的注意,對(duì)評(píng)測(cè)集可靠性、可復(fù)現(xiàn)性的重視。

總結(jié)

該研究做出了如下貢獻(xiàn):

  • 開(kāi)創(chuàng)性:推出了首個(gè)全面的、可操作的的代碼評(píng)測(cè)集構(gòu)建指南,共包含55條檢測(cè)項(xiàng),涵蓋代碼評(píng)測(cè)集發(fā)展的設(shè)計(jì)、構(gòu)建、評(píng)測(cè)、分析、發(fā)布等五個(gè)階段,為創(chuàng)造一個(gè)更可靠、更透明的研究環(huán)境邁出第一步;
  • 實(shí)用性:《指南》可作為從業(yè)者在開(kāi)發(fā)代碼相關(guān)評(píng)測(cè)集之前/之間的指南,也可作為評(píng)估現(xiàn)有評(píng)測(cè)集的一份清單。為方便使用,研究團(tuán)隊(duì)在論文的最后四頁(yè)提供了《指南》的PDF版本;
  • 通用性:《指南》中列出的大多數(shù)檢查項(xiàng)都可適應(yīng)于其他類(lèi)型的評(píng)測(cè)集,例如問(wèn)答、數(shù)學(xué)、推理和多模態(tài)評(píng)測(cè)集等;
  • 影響力:綜述中指出的現(xiàn)狀不容樂(lè)觀,引起科研社區(qū)、相關(guān)從業(yè)者對(duì)評(píng)測(cè)集的質(zhì)量、可靠性、可復(fù)現(xiàn)性等問(wèn)題的重視,指出其嚴(yán)重性和普遍性;且由于評(píng)測(cè)集的繼承關(guān)系,《指南》或?qū)槲磥?lái)評(píng)測(cè)集的整體質(zhì)量做出貢獻(xiàn)。

作者介紹

指南的第一作者是香港科技大學(xué)的研究助理教授曹嘉倫,主要研究領(lǐng)域包括AI&SE、人工智能測(cè)試、形式化驗(yàn)證等。其余作者包括香港科技大學(xué)博士后王文軒,副教授王帥,教授張成志;香港中文大學(xué)本科生陳昱杰,凌子軒,博士生李樹(shù)青、王朝正,教授呂榮聰;香港中文大學(xué)(深圳)博士生余博西,助理教授賀品嘉;中山大學(xué)副教授劉名威,教授鄭子彬等。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-30 13:40:00

2022-01-18 08:00:00

軟件測(cè)試工具開(kāi)發(fā)

2025-03-26 08:00:00

代碼Git鉤子

2021-04-25 08:00:00

開(kāi)發(fā)軟件質(zhì)量保證

2025-06-03 09:16:00

2021-04-08 15:42:13

人工智能機(jī)器學(xué)習(xí)

2010-07-06 10:53:41

RationalJazz測(cè)試管理

2023-03-20 15:07:00

數(shù)據(jù)科學(xué)家質(zhì)量保證

2023-10-19 14:01:12

七重門(mén)質(zhì)量保證

2009-07-21 08:59:11

嵌入式系統(tǒng)軟件

2022-06-22 07:54:35

OSS源碼軟件

2019-09-16 09:05:05

前端開(kāi)發(fā)技術(shù)

2019-10-08 05:54:07

人工智能質(zhì)量保證AI

2010-07-06 11:00:33

RationalJazz測(cè)試管理

2022-07-29 18:44:13

軟件質(zhì)量保證

2021-08-12 07:49:25

IDEA代碼軟件

2025-08-04 08:22:00

模型AI指南

2011-09-30 10:12:58

2020-07-08 13:27:59

開(kāi)源自動(dòng)化測(cè)試框架

2022-04-11 11:37:13

AI研究NLP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

成人黄色片视频| 亚洲狠狠婷婷| 久久久夜夜夜| 欧美日韩www| 欧美日本高清视频| 亚洲成色www.777999| 国产高清不卡视频| 日本在线电影一区二区三区| 一区二区三区美女| 国产精品99久久久久久人| 97超碰免费在线观看| 成人福利在线| 老司机精品在线| 亚洲日本护士毛茸茸| 国产精品69av| 三级黄色在线观看| 台湾佬成人网| av一区二区三区四区| 欧美老女人在线视频| 日本道中文字幕| 国产黄色在线免费观看| 日本在线不卡一区| 亚洲欧洲在线免费| 国产成人在线免费看| 亚洲精品国偷拍自产在线观看蜜桃| 成人免费看片39| 91久久国产最好的精华液| 乱色588欧美| 日本少妇激情舌吻| 亚洲精品影片| 亚洲午夜久久久| 鬼打鬼之黄金道士1992林正英| 翔田千里88av中文字幕| 免费观看性欧美大片无片| 亚洲欧美一区二区三区孕妇| 精品久久久久久一区二区里番| 国产一级aa大片毛片| 久久亚洲精精品中文字幕| 91国产成人在线| 无码av天堂一区二区三区| 国产综合视频在线| 亚洲精选国产| 日韩中文字幕| 粉嫩蜜臀av国产精品网站| 久久久精品欧美| 中文字幕第三区| av观看在线| 岛国一区二区三区| 7777kkkk成人观看| 91成年人网站| 国产精品久久久久久久久久齐齐 | 欧美精品videossex性护士| 老司机av网站| 国产精品xx| 国产亚洲欧美色| 国产在线观看精品| 男女羞羞免费视频| 女同另类激情重口| 欧美中文字幕一区二区三区 | 欧美激情第二页| 日韩亚洲欧美成人一区| 成年人视频网站免费| 丰满人妻一区二区| 国产一区二区导航在线播放| 久久久久久国产| 亚洲综合久久av一区二区三区| 国产精品免费99久久久| 欧美日韩电影在线播放| 激情五月俺来也| 任你弄在线视频免费观看| av中文字幕亚洲| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 欧美日韩国产丝袜另类| 秋霞久久久久久一区二区| 夜夜爽8888| 亚洲三级网站| 欧美亚洲第一区| 黄色a级片在线观看| 98视频精品全部国产| 欧美午夜激情视频| 亚洲综合首页| 污视频网站免费观看| 麻豆精品视频在线观看免费| 久久欧美在线电影| 国产一区二区三区四区五区六区| 欧美电影在线观看一区| 欧美一二三区在线观看| 深田咏美中文字幕| 自拍偷拍精品| 精品免费99久久| 不卡的在线视频| 麻豆国产在线| 一区二区久久久| 玩弄中年熟妇正在播放| 在线不卡日本v二区707| 亚洲国产欧美日韩另类综合| 一区二区三区四区欧美日韩| 丝袜美腿av在线| 国产精品乱人伦| 奇米影视首页 狠狠色丁香婷婷久久综合 | 国产日韩另类视频一区| 尤物视频一区二区| 亚洲国产精品综合| 久久久久久女乱国产| 成人高清av在线| 97视频中文字幕| aa视频在线免费观看| av一区二区三区四区| 五码日韩精品一区二区三区视频| 欧美日韩国产中文字幕在线| 亚洲欧美综合另类在线卡通| 一区二区三区四区五区视频| 欧美视频免费一区二区三区| 国产精品国产三级国产普通话蜜臀| 欧美日韩大片一区二区三区| 天堂网av在线播放| 豆国产96在线|亚洲| 日本公妇乱淫免费视频一区三区| 中国av在线播放| 91久久精品一区二区二区| 麻豆传媒在线看| 成人羞羞网站入口| 97久久精品人人澡人人爽缅北| 九九九在线视频| 欧美日韩国产一区精品一区| 欧美大片欧美激情性色a∨久久| 国产av 一区二区三区| 久久精品在线| 国产成人久久精品| 丰满肥臀噗嗤啊x99av| 国产精品午夜电影| 亚洲综合欧美日韩| 卡通欧美亚洲| 欧美性大战久久久久久久蜜臀| 国产九九在线视频| 高清精品xnxxcom| 亚洲精品www| 中文字幕在线免费看线人| 日韩深夜福利| 亚洲欧美中文字幕| 久久精品免费在线| 国产日本精品| 国产精品成人av性教育| 在线视频免费观看一区| 久久你懂得1024| 亚洲自拍的二区三区| 台湾佬中文娱乐久久久| 国产丝袜一区视频在线观看| 日本人亚洲人jjzzjjz| 亚洲视频在线免费| 欧美精品videosex牲欧美| a级片在线播放| 亚洲精品欧美激情| 成人免费aaa| 第一区第二区在线| 欧美福利视频网站| 草草视频在线播放| www国产成人免费观看视频 深夜成人网 | 黄色www在线观看| 国产视频一区二区| 亚洲成年人网站在线观看| 久久久久无码国产精品一区李宗瑞| 神马久久av| 66m—66摸成人免费视频| 天堂av网在线| 亚洲欧美中日韩| 国产高清999| 亚洲盗摄视频| 欧美自拍视频在线| 国产视频一区二区三| 91丨九色porny丨蝌蚪| 日韩欧美亚洲天堂| 自拍视频一区| 国产欧美一区二区白浆黑人| 黄色成年人视频在线观看| 欧美一区二区福利在线| 黄色aaa视频| 日韩成人午夜精品| 国产一区国产精品| 蜜桃av在线免费观看| 福利二区91精品bt7086| 国产ts在线播放| 久久99精品久久久久婷婷| 精品久久久久久中文字幕动漫| 午夜激情在线播放| 精品久久人人做人人爽| 青青国产在线观看| 国产精品自在在线| 色狠狠久久av五月综合| 白嫩亚洲一区二区三区| 伊人久久精品视频| 青青青国产在线 | 国产精品一区二区人妻喷水| 午夜激情久久| 6080yy精品一区二区三区| 国产在线黄色| 狠狠色狠狠色综合日日五| 中文天堂资源在线| 福利一区二区在线| 免费涩涩18网站入口| 国产不卡一区| 亚洲伊人久久综合| 超碰超碰在线| 日韩精品在线视频观看| 91女人18毛片水多国产| 中文成人综合网| 制服丝袜在线第一页| 免费一级片91| 亚洲精品一卡二卡三卡四卡| 黄色美女久久久| 国产在线98福利播放视频| 蜜桃av在线| 超碰精品一区二区三区乱码 | 日韩免费高清av| 日本少妇高清视频| 国产亚洲一区二区三区四区| 99九九精品视频| 日韩高清电影一区| 欧美精品卡一卡二| 88国产精品视频一区二区三区| 欧美日韩一区二区三区在线视频 | 日本视频精品一区| 国产精品videossex| 成人免费xxxxx在线观看| 日本在线天堂| 日韩一区二区三区av| 欧美激情一区二区三区免费观看| 国产人成一区二区三区影院| 亚洲第一狼人区| 麻豆精品网站| 激情深爱综合网| 伊人成人在线| 欧洲在线视频一区| 欧美尿孔扩张虐视频| 国产精品久久久久久久久久直播 | 亚洲清纯自拍| 激情六月天婷婷| 啪啪国产精品| 国产高清自拍一区| 天堂av一区| 97人人澡人人爽| 99香蕉久久| 国产高清自拍99| 超碰成人在线观看| av一区二区三区在线观看| 美女高潮视频在线看| 午夜精品国产精品大乳美女| 波多一区二区| 亚洲图片欧洲图片av| 91麻豆视频在线观看| 欧美日韩国产另类一区| 中文字幕一二三四| 一区二区三区av电影| 亚洲最大的黄色网址| 亚洲欧美日韩在线| 欧美成欧美va| 亚洲一区二区三区小说| 日本一区二区网站| 欧美日韩精品在线播放| 一级做a爰片久久毛片| 日韩理论片网站| 91高清免费观看| 一卡二卡欧美日韩| 日韩av黄色片| 色欧美片视频在线观看 | 亚洲色图美国十次| 欧美极品少妇与黑人| 亚洲美女炮图| 国产精品久久久久久久久久久久久久 | 亚洲成人三区| av在线免费观看国产| 日韩亚洲在线| 国产女主播av| 成人黄色av| 日本黄xxxxxxxxx100| 亚洲国产精品一区| 日韩中文字幕三区| 欧美私人啪啪vps| 国产 日韩 欧美在线| 一区二区不卡| 波多野结衣乳巨码无在线| 日本欧美在线看| 香蕉视频xxxx| 2024国产精品视频| 香蕉成人在线视频| 久久久91精品国产一区二区精品 | 亚洲三级在线观看| 国产乡下妇女做爰毛片| 色一情一伦一子一伦一区| 日本三级欧美三级| 欧日韩精品视频| www.激情五月.com| 亚洲欧美日本精品| 日韩三级电影网| 亚洲国模精品一区| melody高清在线观看| 久久久久久久久久久免费精品| av成人在线观看| 国产精成人品localhost| 久久国产精品亚洲人一区二区三区| 99亚洲精品视频| 蜜乳av另类精品一区二区| 杨幂一区二区国产精品| 国产午夜精品一区二区| 九九热精彩视频| 精品视频1区2区| 一级黄色片免费| 日韩av一区二区在线| 免费av一级片| 亚洲国内精品视频| 超碰在线网址| 国产精品永久免费视频| 九九热这里有精品| 国产精品一区在线播放| 午夜精品一区二区三区国产| 少妇人妻互换不带套| 日韩在线观看一区二区| 性活交片大全免费看| 中文字幕亚洲区| 好吊色在线视频| 欧美视频完全免费看| 污污视频在线观看网站| 欧美大成色www永久网站婷| 伊人在我在线看导航| 国产主播喷水一区二区| 精品国精品国产自在久国产应用| 亚洲高清在线观看一区| 亚洲综合国产| 国产成人黄色网址| 久久久久久久久99精品| 日韩字幕在线观看| 欧美性高跟鞋xxxxhd| 高h放荡受浪受bl| 欧美裸体xxxx极品少妇| 亚洲一区二区三区久久久| 五月天婷亚洲天综合网鲁鲁鲁| 国产亚洲精品久久久久婷婷瑜伽| 亚洲欧美综合视频| 亚洲自拍偷拍图区| 国产日产亚洲系列最新| www.日韩.com| 97蜜桃久久| 国产精欧美一区二区三区| 欧洲亚洲视频| 日韩精品一区二区三区久久| 91丨九色丨尤物| 亚洲天堂视频网站| 亚洲男人天堂久| 欧美粗大gay| 欧洲精品码一区二区三区免费看| 久久精品主播| 五月天婷婷丁香网| 亚洲在线免费播放| 亚洲精品久久久久久久久久久久久久 | 欧美黄色激情视频| 欧美唯美清纯偷拍| 午夜不卡视频| 91视频99| 日韩视频在线一区二区三区| 鲁大师私人影院在线观看| 一本大道久久精品懂色aⅴ| 国产免费a∨片在线观看不卡| 欧美另类暴力丝袜| 2021年精品国产福利在线| 久久99久久久久久| 99精品视频免费在线观看| 91制片厂在线| 日韩欧美视频在线| 草草在线视频| 日本在线免费观看一区| 韩国欧美一区| 91热视频在线观看| 亚洲一区二区三区中文字幕| 亚洲av片在线观看| 国产xxx69麻豆国语对白| 日韩在线视屏| 香蕉视频免费网站| 欧美日韩中文字幕在线| 91社区在线高清| 日本91av在线播放| heyzo久久| 波多野结衣电影免费观看| 天天做天天摸天天爽国产一区| 999免费视频| 97久久久久久| 水蜜桃精品av一区二区| 日本xxxxxxx免费视频| 国产精品国产三级国产三级人妇| 国产极品999| 青青草精品毛片| 伊人久久大香线| 国产人妻人伦精品1国产丝袜 | wwwav网站| 欧美专区在线视频| 亚洲国产一区二区三区在线播放| 黄色av网址在线观看| 亚洲欧美日韩久久精品| 四虎影院在线域名免费观看| 成人黄色中文字幕| 国产精品视频|