精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4寫代碼不如ChatGPT,誤用率高達62%!加州大學兩位華人開源代碼可靠性基準RobustAPI

人工智能 新聞
代碼能否跑起來的不是判斷可靠性的標準,用語言模型寫代碼還需要考慮生產環境下的預期外輸入。

大型語言模型(LLM)在理解自然語言和生成程序代碼方面展現出了非凡的性能,程序員們也開始在編碼過程中使用Copilot工具輔助編程,或是要求LLM生成解決方案。

經過幾版迭代后,目前LLM生成的代碼已經很少有語法錯誤了,也更貼合用戶輸入的文本、符合預期語義,但針對LLM代碼生成的可靠性和魯棒性仍然缺乏徹底的研究。

代碼的可執行并不等同于可靠,軟件的開發環境、部署環境都存在很大的不確定性。

如果直接使用LLM生成的代碼,可能會因為AP誤用(misuse)導致更嚴重的問題,例如資源泄漏、程序崩潰;最糟糕的是,使用LLM代碼生成服務的用戶大多數都是新手開發人員,很難識別出「貌似可運行代碼」下的隱藏問題,進一步增加了漏洞代碼在現實中的應用風險。

現有的代碼評估基準和數據集主要專注于小任務,例如面試中的編程問題,可能不符合開發人員在工作中的實際需求。

最近,來自加州大學的兩位華人研究人員發布了一個用于評估生成代碼可靠性和魯棒性的新數據集RobustAPI,包括從StackOverflow中收集得到的1208個編碼問題,涉及24個主流Java API的評估。

論文鏈接:https://arxiv.org/pdf/2308.10335.pdf

研究人員總結了這些API的常見誤用模式,并在當下常用的LLM上對其進行評估,結果表明,即使是GPT-4,也有高達62%的生成代碼包含API誤用問題,如果代碼被實際部署,可能會導致意想不到的后果。

論文相關的數據和評估器不久后將開源。

方法

數據收集

為了利用軟件工程領域現有的研究成果,RobustAPI沒有從零構建,而是基于在線問答論壇中頻繁出現的Java API誤用數據集ExampleCheck

圖片

研究人員從數據集中選擇了23個流行的Java APIs,涵蓋了字符串處理、數據結構、移動開發、加密和數據庫操作等。

然后再從Stack Overflow中爬取與上述API相關的問題,只選擇問題中包含在線答案的,可以保證RobustAPI是可回答的(answerable),能夠更有效地評估LLM在「人類容易犯錯問題」上的代碼能力。

收集數據后將問題轉換為JSON格式,包含四個字段:

1. id,為樣本分配的唯一標識符

2. api,用來提示大型語言模型問題相關API

3. question,包括問題的標題和描述

4. origin,樣本的原始URL

提示生成(prompt generation)

研究人員設計了一個提示模板,并用數據集中的樣本進行填充,再從LLMs收集回復內容,并實現一個API使用檢查器來評估代碼的可靠性。

在少樣本演示下進行實驗時,每個示例都提供回復的格式,然后在最后放入數據集中的問題及相應API提示,模擬新手用戶詢問時提出的問題。

LLM在對話時可以識別特殊標簽的結構,所以研究人員將問題和答案封裝起來指示LLM生成問題的答案。

演示樣本(Demonstration Samples)

為了深入分析LLMs的代碼生成能力,研究人員設計了兩個少樣本實驗:

1. one-shot-irrelevant,使用不相關的API(如Arrays.stream)作為語言模型的提示樣例。

研究人員假定該示例可以消除生成代碼中的語法錯誤。

2. one-shot-relevant,使用相同的API作為示例,包括一組問題和答案。

JAVA API誤用

研究人員在使用API時,需要充分理解API的使用規則,以便實現理想的API效果。

一個典型的例子是文件操作,通過RandomAccessFile打開和寫入文件時,需要注意兩條使用規則:

1. 讀取文件可能會引發異常。

如果在讀取預期字節之前達到緩沖區限制,API將拋出IndexOutOfBoundsException異常;當該文件同時被其他進程關閉時,API將拋出ClosedChannelException。

為了處理這些異常,正確的實現應該將API包含在try-catch塊中。

2. 使用后應應該關閉文件通道,否則的話,如果此代碼片段位于在多個實例中并發運行的長期程序中,文件資源可能會耗盡,代碼需要在所有文件操作后調用close API

另一個容易被誤用的API使用規則的例子是一個特殊的數據對象TypedArray,需要開發人員調用recycle()來手動啟用垃圾收集,否則,即使不再使用此TypedArray,Java虛擬機中的垃圾收集也不會被觸發。

在沒有垃圾回收的情況下使用該API會導致未釋放的內存消耗,在生產環境部署后,在大工作負載和高并發性下會降低甚至掛起軟件系統。

在RobustAPI數據集中,研究人員總結了40個API使用規則,具體包括:

1. API的保護條件,在API調用之前應該檢查,例如File.exists()應該在調用File.createNewFile()之前;

2. API的調用順序,例如close()的調用應該在File.write()之后;

3. API的控制結構,例如SimpleDataFormat.parse()應該被try-catch結構所包圍。

檢測API誤用

現有的評估LLMs生成的代碼的研究通常使用人工編寫或自動測試生成的測試用例,但即使是高覆蓋率的測試用例也只能覆蓋語義正確性,無法模擬生產環境中的各種意外輸入,無法對代碼的可靠性和健壯性進行完善的評估。

為了解決這個難題,研究人員使用靜態分析的方法,在不運行測試用例的情況下,通過代碼結構分析代碼誤用,可以保證對整個程序的全面覆蓋,并且比測試解決方案的效率更高。

為了評估代碼中API用法的正確性,先從代碼片段中提取調用結果和控制結構,然后根據API使用規則檢測API誤用。

代碼檢查器(code checker)首先檢查代碼片段,判斷是一個方法的片段還是一個類的方法,然后就可以對代碼片段進行封裝,并從代碼片段中構造抽象語法樹(AST)。

然后檢查器遍歷AST,按順序記錄所有的方法調用和控制結構,從而生成一個調用序列;檢查器將調用序列與API使用規則進行比較,判斷每個方法調用的實例類型,并使用類型和方法作為鍵來檢索相應的API使用規則。

最后,檢查器計算調用序列和API使用規則之間的最長公共序列:如果調用序列與預期的API使用規則不匹配,則報告API誤用。

實驗結果

研究人員使用4個語言模型(GPT-3.5,GPT-4,Llama-2,Vicuna-1.5)在RobustAPI上進行評估。

將可編譯且包含API誤用的答案除以所有可編譯的答案后,計算得到各個語言模型的誤用率。

從實驗結果上來看,即便是最先進的商業模型,如GPT-3.5和GPT-4也存在誤用的問題。

在零樣本設置下,Llama的API誤用率最低,不過大多數Llama的答案中都不包含代碼。

一個與直覺相反的發現是,雖然OpenAI官方宣稱GPT-4比GPT-3.5在代碼生成上的性能提升達到40%,但實際上GPT-4的代碼誤用率要更高。

這一結果也表明,代碼在現實世界生產中的可靠性和健壯性沒有得到業界的重視,并且該問題存在巨大的改進空間。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-08 13:00:59

模型訓練

2022-05-27 13:37:55

算法觸覺

2021-06-25 15:41:45

AI 數據人工智能

2023-10-08 13:11:00

訓練數據

2025-11-10 08:57:00

AI模型測試

2010-12-28 19:50:21

可靠性產品可靠性

2024-05-20 08:40:00

2013-08-08 10:10:28

華為云存儲華為

2009-01-08 10:09:12

Xiotech存儲虛擬化惠普

2009-04-01 18:44:48

Vmware虛擬化存儲

2023-06-19 08:19:50

2024-06-17 09:05:00

2023-08-27 14:08:17

開源代碼Meta大模型

2023-05-15 12:32:29

GPT-4開源

2024-05-20 10:12:54

自動駕駛開源

2023-03-28 08:23:38

2025-04-16 09:35:03

2023-09-12 18:02:30

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2021-04-07 09:47:59

勒索軟件攻擊數據泄露
點贊
收藏

51CTO技術棧公眾號

国产成人亚洲精品青草天美| 97精品中文字幕| 欧美色另类天堂2015| 欧洲精品久久| 国产成人三级一区二区在线观看一 | 欧美日韩在线中文字幕| 乱一区二区av| 国产91精品高潮白浆喷水| 亚洲黄色网址大全| 精品福利一区| 欧美日韩成人综合天天影院| bt天堂新版中文在线地址| 国产裸舞福利在线视频合集| 国产福利一区二区| 日本高清久久天堂| 福利所第一导航| 日韩a一区二区| 日韩精品免费在线观看| 日本高清一区二区视频| 亚洲国产成人二区| 亚洲伊人伊色伊影伊综合网| 亚洲高清资源综合久久精品| 亚洲第九十九页| 精品无人码麻豆乱码1区2区| 国产999在线观看| 国产精品99精品| 亚洲影视一区| 中文字幕欧美视频在线| 永久免费看mv网站入口78| 99亚洲乱人伦aⅴ精品| 在线观看av一区| 一本大道熟女人妻中文字幕在线 | 麻豆精品av| 在线播放中文一区| 日韩一级片播放| 色戒汤唯在线| 五月天一区二区三区| 青青草视频国产| 国产调教视频在线观看| 国产精品看片你懂得| 日韩免费av电影| 户外极限露出调教在线视频| 99精品视频在线播放观看| 91久久爱成人| 亚洲av无码乱码国产精品| 国内精品国产三级国产a久久| 国产精品爽爽爽| 亚洲av无码乱码国产精品fc2| 久久综合图片| 国产精品成久久久久三级| 加勒比在线一区| 日本少妇一区二区| 国产精品久久久久久婷婷天堂| jizz国产在线观看| 久久狠狠一本精品综合网| 97视频免费看| 日本中文在线播放| 久久精品亚洲| 国产精品第一区| 91精品国产色综合久久不8| 久草精品在线观看| 91在线视频成人| 国产黄色免费大片| 不卡一区在线观看| 亚洲自拍偷拍色图| www男人的天堂| 国产美女精品人人做人人爽| 91久久精品国产91久久性色tv | 国产一级做a爱免费视频| 欧美国产高清| 97视频在线观看免费| 国产视频1区2区| 久久99精品国产麻豆婷婷| 91视频在线免费观看| 粉嫩av一区二区夜夜嗨| 91视频精品在这里| 亚洲视频小说| 黑人精品视频| 色妞www精品视频| 亚洲黄色片免费| 国产色噜噜噜91在线精品| 亚洲精品自产拍| 欧美日韩色视频| 99香蕉国产精品偷在线观看 | 色综合天天综合网国产成人网| 国产亚洲欧美精品久久久久久| 国产欧美日韩一区二区三区在线| 国产成+人+综合+亚洲欧洲| 91久久国语露脸精品国产高跟| 国产传媒欧美日韩成人| 久久草视频在线看| 久久久伊人欧美| 欧美日韩色视频| 亚洲欧洲一区| 国产日韩欧美日韩大片| 欧美一级在线免费观看| 亚洲国产精品ⅴa在线观看| 天天综合中文字幕| 日韩伦理在线| 欧美日韩成人激情| 男男一级淫片免费播放| 日韩一区亚洲二区| 国内精品久久久久伊人av| 亚洲午夜在线播放| 成人一区在线看| 日韩欧美亚洲日产国| 91福利区在线观看| 欧美亚洲动漫另类| 在线观看一区二区三区视频| 国产区精品区| 久久久久久久电影一区| 在线观看国产精品视频| 97se亚洲国产综合在线| 黄色一级视频播放| av一区在线播放| 亚洲男人天堂久| 久久久国产精华液| 韩国视频一区二区| 先锋在线资源一区二区三区| bbw在线视频| 日韩欧美一级特黄在线播放| 激情高潮到大叫狂喷水| 亚洲欧美日韩国产一区| 国产伦精品一区二区三区四区免费| 亚洲图片88| 欧美亚洲国产一卡| 99久久久无码国产精品性| 影音先锋日韩资源| 成人影片在线播放| 成人日批视频| 欧美一区三区二区| 黄色国产在线播放| 强制捆绑调教一区二区| 欧美成人综合一区| 欧美亚洲韩国| 亚洲人午夜精品| 亚洲av中文无码乱人伦在线视色| 北条麻妃国产九九精品视频| 4444亚洲人成无码网在线观看| 亚洲影视资源| 久久成人这里只有精品| 国产一区二区在线视频观看| 国产精品无遮挡| 国产精品视频分类| 日韩精品欧美| 成人黄色片网站| 黄色免费网站在线观看| 欧美电影一区二区| 男人的天堂久久久| 国产乱妇无码大片在线观看| 欧美 日韩 国产精品| 香蕉大人久久国产成人av| 久久99热精品| 色窝窝无码一区二区三区成人网站| 亚洲高清久久久| 国产精品成人无码专区| 一本色道久久精品| 日本a级片久久久| 精品三区视频| 久久亚洲精品成人| 亚洲精品喷潮一区二区三区| 亚洲成人av在线电影| 搡老熟女老女人一区二区| 另类国产ts人妖高潮视频| 日韩偷拍一区二区| 国产一区二区三区国产精品| 欧美多人爱爱视频网站| 天天操天天操天天操| 91久久线看在观草草青青| 中文字幕在线观看二区| 国产精品亚洲一区二区三区在线| 婷婷五月综合缴情在线视频| 国产精品探花在线观看| 国产一区二区色| a级片在线免费| 国产午夜精品一区二区三区| 国产精品一区二区黑人巨大| 一区二区成人在线观看| 永久免费成人代码| 国产在线麻豆精品观看| 无码人妻少妇伦在线电影| 最新国产一区| 91久久中文字幕| 欧洲一区精品| xvideos亚洲人网站| 成人毛片在线免费观看| 在线看日韩精品电影| 国精品无码一区二区三区| 97se亚洲国产综合自在线观| 国产高清视频网站| 亚洲福利国产| 青青草原国产免费| 欧美一级三级| 5g影院天天爽成人免费下载| 色戒汤唯在线观看| 日韩av一区二区在线影视| 99re6这里有精品热视频| 99热这里只有精品首页| 国产日韩欧美在线播放| 美女搞黄视频在线观看| 欧美主播一区二区三区美女| 欧美深性狂猛ⅹxxx深喉| 美女在线观看视频一区二区| 毛片在线播放视频| av人人综合网| 在线看福利67194| 91免费在线看片| 北条麻妃国产九九精品视频| 污版视频在线观看| 亚洲午夜久久| 91高清视频在线免费观看| 激情成人四房播| 永久免费精品影视网站| 韩国av免费观看| 成人看片黄a免费看在线| 免费在线观看毛片网站| 欧美va久久久噜噜噜久久| 动漫3d精品一区二区三区 | 网爆门在线观看| 91蜜桃在线免费视频| 国产精品91av| 久久国产99| 黄色免费视频大全| 性欧美xxx69hd高清| 欧美另类精品xxxx孕妇| 蜜芽在线免费观看| 亚洲一区二区欧美日韩 | 亚洲欧美在线视频观看| 少妇精品无码一区二区免费视频| 亚洲精品一区二区在线看| 亚洲一区二区三区视频在线| 99国产精品白浆在线观看免费| 欧美大胆a级| 国产二区不卡| 国产对白叫床清晰在线播放| 欧美精品一级二级| 中文字幕免费观看| 国产成人av影院| 一区二区三区 日韩| 精品91在线| 国产成人亚洲综合| 午夜影视一区二区三区| 欧美成人精品1314www| 一级黄色录像毛片| 国产一区亚洲一区| 人人妻人人添人人爽欧美一区| 激情六月综合| 国产一区红桃视频| 幼a在线观看| 色哦色哦哦色天天综合| www.xxxx日本| 亚洲激情自拍视频| 国精产品久拍自产在线网站| 亚洲精品99| 无遮挡亚洲一区| 视频在线不卡免费观看| 日韩欧美三级电影| 性欧美xxx69hd高清| 久久男人资源视频| 亚洲国产无线乱码在线观看| 欧美国产日本| 亚洲网址你懂得| 麻豆导航在线观看| 亚洲午夜av久久乱码| 第九色区av在线| 欧美日韩综合视频| 91香蕉在线视频| 在线观看精品一区| a级片免费观看| 99久久久久免费精品国产 | 青青草成人免费在线视频| 亚洲第一论坛sis| 色女孩综合网| 91久久久精品国产| 91在线色戒在线| 国产第一亚洲| 97人摸人人澡人人人超一碰| 加勒比色老久久爱综合网| 中文字幕亚洲欧美日韩高清| 亚洲毛片在线播放| 亚洲精品在线视频| 国产无码精品视频| 99v久久综合狠狠综合久久| 亚洲黄色片免费| 国产精品a久久久久| 国产精品久久久久久久久电影网| 久久一级免费视频| 国产精品一卡| 久久久久久国产精品mv| 亚洲桃色综合影院| 7777精品伊久久久大香线蕉语言| 免费男女羞羞的视频网站在线观看| 不卡av电影院| www视频在线观看| 日韩精品在线视频| 日韩免费视频一区二区视频在线观看| 国产成人av在线影院| 日本一区午夜艳熟免费| 日韩电影不卡一区| 亚洲人成电影在线观看天堂色| 一级片免费网址| 777a∨成人精品桃花网| 亚洲视频天天射| 韩日成人影院| 亚洲va国产va天堂va久久| 欧美美女在线观看| 欧美一级免费在线观看| 丝袜诱惑制服诱惑色一区在线观看 | 蜜桃精品一区二区| 91香蕉视频在线| 久久久久久久9999| 亚洲制服丝袜一区| 中文在线免费观看| 日韩精品中文字幕在线一区| 91在线直播| 1769国产精品| 日韩影片在线观看| 亚洲美女自拍偷拍| 麻豆freexxxx性91精品| 亚洲午夜福利在线观看| 午夜久久久影院| 少妇一级淫片日本| 精品亚洲国产成av人片传媒| 国产理论电影在线| 97se亚洲综合| 亚洲国产不卡| 中文字幕永久有效| 中文av一区二区| 波多野结衣视频免费观看| 亚洲免费小视频| 无码小电影在线观看网站免费| 鬼打鬼之黄金道士1992林正英| 一区二区三区在线| 激情成人在线观看| 中文字幕一区二区三区蜜月| 中文字幕视频一区二区| 在线精品高清中文字幕| 日韩av一级| 亚洲欧美日本国产有色| 喷水一区二区三区| 日本少妇xxxxx| 欧美色图12p| 137大胆人体在线观看| 国产精品入口夜色视频大尺度| av中文字幕一区二区| 黄色永久免费网站| 中文字幕一区二区三区色视频| 96日本xxxxxⅹxxx17| 久久中文字幕国产| 成人av激情人伦小说| 免费在线观看亚洲视频| 26uuu国产电影一区二区| 亚洲AV无码成人精品区东京热| 亚洲毛片在线免费观看| 一呦二呦三呦精品国产| 亚洲va久久久噜噜噜久久狠狠 | 日本韩国精品在线| 国产高清在线看| 成人写真视频福利网| 欧美激情一区| 香港三级日本三级| 色狠狠av一区二区三区| 素人av在线| 成人情视频高清免费观看电影| 亚洲美女黄网| 欧美18—19性高清hd4k| 欧美日本一道本在线视频| 四虎av在线| 欧美1o一11sex性hdhd| 热久久免费视频| 男女羞羞免费视频| 亚洲精品国偷自产在线99热| 日韩经典一区| 国产人妻人伦精品| 国产亚洲婷婷免费| 国产毛片毛片毛片毛片毛片| 久久久久久久久国产精品| 九九久久婷婷| www.桃色.com| 欧美日韩国产专区| 亚洲搞黄视频| 国产精品区一区| 青青草国产精品亚洲专区无| 午夜69成人做爰视频| 亚洲精品网站在线播放gif| 久久电影天堂| 久久久久久久久久久99| 国产精品视频第一区| 黄色一级a毛片| 国产精品日韩电影| 亚洲精品一二| 蜜臀av午夜精品久久| 亚洲国产中文字幕在线观看| 黑人一区二区三区| 18禁网站免费无遮挡无码中文| 国产精品人妖ts系列视频| 免费av网站在线播放| 国产精品亚洲美女av网站| 一区二区三区国产在线| 日本精品在线免费观看|