精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

國內團隊提出全新RLTF框架,刷新SOTA!大模型生成代碼質量更高bug更少

人工智能 新聞
最近,來自國內的研究團隊提出了一種全新的RLTF技術,可以利用程序的單元測試反饋信號,無需基于人工的人類反饋(RLHF),來自動化提升LLM的代碼生成能力。

「程序合成」或「代碼生成」任務的目標是根據給定的描述生成可執行代碼,最近有越來越多的研究采用強化學習(RL)來提高大語言模型(簡稱大模型)(LLM)在代碼方面的性能。

不過,這些RL方法僅使用離線框架,限制了它們對新樣本空間的探索。此外,當前利用單元測試信號的方法相當簡單,沒有考慮到代碼中特定錯誤位置。

而國內團隊最近發布的新型在線RL框架RLTF(即基于單元測試反饋的強化學習),可以將代碼的多粒度單元測試反饋結果用于優化code LLM,在訓練過程中實時生成數據,并同時利用細粒度反饋信號引導模型生成更高質量的代碼。

有趣的是,小編發現這篇論文的作者,和曾經稱霸王者峽谷的騰訊絕悟AI的作者,有所重疊。

論文地址:https://arxiv.org/pdf/2307.04349.pdf

具體來說,在線框架RLTF通過細粒度的單元測試反饋來增強預訓練的LLM在程序合成任務中的性能,允許模型在訓練過程中實時生成新樣本,并利用單元測試結果作為反饋信號,從而改善整體模型性能。

此方法使模型能夠學習代碼錯誤的具體細節,并相應地提高性能。

大語言模型(LLM)在程序合成任務中表現出色,如Codex、AlphaCode、InCoder等,現有的LLMs在處理更具挑戰性的問題(如程序競賽)方面仍有進展空間且預訓練的代碼模型在生成代碼時可能存在語法和功能上的錯誤。

基于此,研究人員提出了基于強化學習(RL)的算法來改進代碼LLMs的性能,如CodeRL和PPOCoder,但現有的RL方法大多是離線的,而在線RL訓練更穩定,能更好地探索環境并得到更優的策略;

且現有的RL方法對單元測試結果的反饋信號較為簡單和粗粒度,無法捕捉到代碼中具體錯誤的細節。

RLTF方法引入了多粒度的單元測試反饋(Fine-grained Feedback根據代碼的錯誤類型和錯誤具體位置,懲罰代碼中出現錯誤的特定部分,Adaptive Feedback根據通過的測試用例比例分配不同的懲罰),并通過實時生成樣本和提供多樣化的訓練樣本,提高了模型性能。

RLTF在程序合成任務中取得了APPS和MBPP基準測試的最新成果,并通過消融研究證明了方法的有效性。

方法

論文中提出的任務可以形式化為一個條件概率優化問題,即在給定自然語音描述D和模型可優化參數θ的情況下,最大化正確程序W的概率:

圖片

在線RL訓練框架

為了更好地探索樣本空間,研究人員使用在線學習的方式進行RL訓練。

兩個LLM共享權重,一個負責梯度回傳更新模型,另一個負責在線生成訓練樣本。

訓練樣本經過編譯器,分配好標簽,進而更新online buffer中的數據。

Online buffer負責存儲在線訓練所用的數據,它在內部維護一個隊列,會刪除過舊的數據,buffer的更新頻率是50個step。

多粒度反饋的強化學習

RL訓練的loss可以定義為:

其中,R代表獎勵系數,S和E代表代碼的起點和終點。

研究人員將編譯器的反饋分為3類,eg. Error, Failure, Pass,然后根據不同的編譯器反饋,制定了不同粒度的模型獎勵。

粗粒度反饋:該反饋的級別建立在上述3類反饋上,和CodeRL,PPoCoder設置相同;

圖片

細粒度反饋:粗粒度的反饋只告訴模型「錯了」,卻沒有將具體「哪里錯了」告知模型。

而細粒度反饋的目的就是為了解決這一問題,使得模型能更加明確錯誤產生的原因和位置。為此,研究人員將Error中不同的錯誤子類型分為U_global,U_line,U_ignore,具體分類見下表;

根據不同的錯誤子類型,我們有不同的R值和起點終點:

圖片

自適應反饋:針對未能通過全部測試樣例的數據,我們根據其通過的比率設定了自適應的反饋,這一設置是為了模型能夠生成通過盡可能多的測試樣例的程序。

圖片

如下兩個消融實驗也驗證了「在線訓練框架 」和「多粒度反饋」的有效性:

圖片

實驗

研究人員使用了兩個最先進的基于強化學習和code LLMs的方法作為基準,并在相同的基準和設置下進行評估。作者使用了兩個不同的編程問題數據集進行評估,分別是APPS和MBPP。

在APPS數據集上,作者使用了RLTF框架對預訓練的CodeT5模型進行微調,并取得了優于其他方法的結果。在MBPP數據集上,作者展示了RLTF方法在零樣本設置下的性能,取得了新的最優結果。

APPS:使用CodeT5 770M作為基礎模型,在APPS數據集上進行評估。與其他基于CodeT5的方法(CodeRL、PPOCoder),和其他更大的模型(Codex、AlphaCode、GPT2、GPT3、GPT-Neo等進行了比較)。

結果表明,RLTF方法在APPS數據集上取得了優于其他方法的結果。

MBPP:論文在MBPP數據集上評估了CodeT5模型在APPS數據集上使用RLTF方法訓練的零樣本性能,RLTF方法在MBPP數據集上取得了優于不同大小的GPT模型的結果,并達到了新的最優性能。

不同的基座模型:為了展示RLTF方法的魯棒性,除了使用CodeT5外,論文還使用另一個基礎模型CodeGen 2.7B進行實驗。

結果表明,在CodeGen 2.7B上應用RLTF方法也取得了令人印象深刻的性能,使得pass@10的提高接近1%。

值得注意的是,研究人員發現,基礎模型越大,RLTF提供的性能提升越大,表明RLTF方法可以有效地發揮不同基礎模型生成更好代碼的潛力,當基礎模型大小更大時,影響更為明顯。

結論及未來工作

本文提出了RLTF(Reinforcement Learning from unit Test Feedback),一個具有多粒度單元測試反饋的新型在線RL框架,用于優化程序合成任務中的大語言模型。

與現有工作相比,該方法在訓練過程中實時生成數據,并同時利用更細粒度的反饋信號引導模型生成更高質量的代碼。

大量實驗表明,RLTF超越了現有基于RL的方法,并可以應用于各種code LLM,包括CodeT5和CodeGen。此外,它在廣泛使用的benchmark(如APPS和MBPP)上實現了最先進的性能。

在未來,有幾個方向可以進一步改進RLTF:

例如,現有基準測試中的輸入輸出示例可能不夠多樣化,使用隱藏的輸入輸出示例生成的程序可能不是正確的最終代碼版本,這種限制可能會影響RLTF的性能,因此,使用LLM創建更多樣化和準確的輸入輸出示例集是一個值得探討的潛在研究方向。

此外,是否更細粒度的反饋信號(如來自靜態代碼分析器的信號)可以進一步提高RLTF的性能,也是另一個可能的研究方向。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-16 17:17:30

模型訓練

2024-10-12 10:57:39

2024-01-12 21:18:22

負樣本大模型蒸餾

2023-07-17 11:02:36

模型開源

2025-03-03 10:17:00

模型數據生成

2021-08-13 15:07:02

模型人工智能深度學習

2025-09-08 09:02:00

2023-10-29 22:25:23

模型AI

2025-04-03 09:27:44

2024-12-24 10:30:00

2025-07-04 16:45:24

AI模型評測

2024-09-03 14:10:00

模型測試

2025-07-02 09:21:30

2025-04-03 11:16:10

2024-01-12 13:10:06

AI數據

2025-05-27 15:35:02

大模型技術AI

2024-11-01 20:25:28

2012-02-28 09:11:09

開源bug

2025-07-25 15:24:17

WAICDeepSeekSOTA

2025-08-26 08:50:00

AI開源LLM
點贊
收藏

51CTO技術棧公眾號

国产毛片视频网站| 国产精品永久在线| 亚洲最大免费视频| 亚洲成人人体| 专区另类欧美日韩| 国产中文一区二区| 亚洲中文无码av在线| 91成人精品| 国产丝袜一区二区| 国产三级精品三级在线| 国产社区精品视频| 国产精品久久久一本精品| 国产经典一区二区三区 | 亚洲国产精品久久久久久久| 国产精品乱看| 久久视频在线免费观看| 黄瓜视频污在线观看| 日韩精品第二页| 岛国av一区二区| 日韩精品一区二区三区四区五区| h片在线免费看| 日韩国产欧美一区二区三区| 欧美黑人视频一区| 免费一级suv好看的国产网站| 成人香蕉社区| 这里只有精品电影| 亚洲一区二区三区四区五区xx| 69av成人| 一区二区三区日韩| 亚洲一区二区三区在线观看视频| 日韩在线视频免费| 国产精品综合二区| 国产精品女人久久久久久| 免费观看成人毛片| 国产精品v欧美精品v日本精品动漫| 国产午夜精品免费一区二区三区 | 一区二区视频免费| 久久在线精品| 5252色成人免费视频| 精品肉丝脚一区二区三区| 999精品在线| 国产亚洲在线播放| 国产亚洲精品熟女国产成人| 偷窥自拍亚洲色图精选| 日韩av网站大全| 精品无码人妻少妇久久久久久| 精品国产麻豆| 欧美一级在线观看| 中文字幕一区二区在线观看视频 | 成人手机在线免费视频| 黑人久久a级毛片免费观看| 日韩一区二区高清| 色综合五月婷婷| 9.1麻豆精品| 制服丝袜亚洲精品中文字幕| 日韩va在线观看| 91精品视频一区二区| 欧美日韩视频在线观看一区二区三区 | 欧美日免费三级在线| jizz欧美激情18| 国产69精品久久| 欧美在线|欧美| 高清一区在线观看| 久久99国产精品二区高清软件| 欧美性色黄大片手机版| 成年人三级黄色片| 精品视频一区二区三区| 欧美r级电影在线观看| 性活交片大全免费看| 米奇精品关键词| 亚洲美女性视频| 无码人妻aⅴ一区二区三区69岛| 欧美精品momsxxx| 正在播放欧美一区| 欧美做爰爽爽爽爽爽爽| 欧美欧美全黄| 欧美在线观看视频| 中文字幕观看视频| 国产精品18久久久久| 国产一区二区三区奇米久涩 | 日韩在线国产精品| 91精品国产高清一区二区三蜜臀| 激情婷婷久久| 国产精品扒开腿做爽爽爽男男| 亚洲熟妇av乱码在线观看| 国产精品主播直播| 久中文字幕一区| 在线观看黄色av| 亚洲一区二区综合| 国产成人手机视频| 日韩在线视频一区二区三区 | 天堂资源在线中文| 亚洲一区二区三区三| 欧美极品欧美精品欧美图片| 日韩一级特黄| 亚洲国产精品一区二区三区| 极品人妻videosss人妻| 欧美三区视频| 国产精品第七十二页| 亚洲第一成年人网站| 久久久国产精品麻豆| 日韩福利在线| 91超碰在线| 欧美猛男男办公室激情| 强迫凌虐淫辱の牝奴在线观看| 欧美艳星介绍134位艳星| 色综合天天综合网国产成人网| 欧美a视频在线观看| 国产精品一区二区免费不卡| 欧美在线播放一区| 成人av影院在线观看| 欧美日韩精品欧美日韩精品一综合| 精品无码av一区二区三区| 欧美精品系列| 91国产精品电影| a天堂中文在线观看| 国产欧美精品区一区二区三区 | brazzers在线观看| 欧美日韩二区三区| 人人妻人人藻人人爽欧美一区| 一本一道久久a久久精品蜜桃| 日本免费一区二区三区视频观看| 丰满人妻一区二区| 亚洲欧美区自拍先锋| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 中文字幕视频精品一区二区三区| 中文字幕日韩有码| 久久夜色精品国产噜噜亚洲av| 国产成人8x视频一区二区 | 日本在线视频网| 一本到三区不卡视频| 中国xxxx性xxxx产国| 国产一区二区三区自拍| 亚洲影院在线看| 免费在线观看av网站| 欧洲在线/亚洲| 波多野结衣a v在线| 国产美女诱惑一区二区| 国产精品美女xx| 午夜dj在线观看高清视频完整版| 欧美精品乱码久久久久久| 黄免费在线观看| 日韩高清中文字幕一区| 欧美一进一出视频| 免费亚洲电影| 亚洲人在线观看| av一级在线观看| 久久亚洲精华国产精华液| 一二三四视频社区在线| 九色丨蝌蚪丨成人| 午夜精品视频网站| 国产又爽又黄网站亚洲视频123| 五月天精品一区二区三区| 中文字幕乱码一区| 国产亚洲毛片在线| 免费亚洲一区二区| 欧美va在线| 色妞在线综合亚洲欧美| 国产精品久久久久久69| 亚洲欧美日韩国产中文在线| 国产伦精品一区二区三区妓女下载| 自拍日韩欧美| 国产伦精品一区二区三| 乡村艳史在线观看| 亚洲一级片在线看| 国产精品爽爽久久久久久| 伊人一区二区三区| 日韩 中文字幕| 日精品一区二区三区| 在线观看精品视频| 97人人澡人人爽91综合色| 98精品国产高清在线xxxx天堂| 青青国产在线| 欧美人成免费网站| 国产性生活网站| 91老师片黄在线观看| 日韩福利视频在线| 午夜片欧美伦| 国内精品**久久毛片app| 经典三级一区二区| 另类视频在线观看| 亚州视频一区二区三区| 欧美午夜免费电影| 我家有个日本女人| 91在线观看污| 伊人色在线视频| 亚洲人成免费| 亚洲图片都市激情| 美女一区二区在线观看| 国产欧美日韩精品专区| 国产啊啊啊视频在线观看| 亚洲人成网站免费播放| 国产喷水福利在线视频| 精品久久久久久| 熟女av一区二区| www国产成人| 中文字幕第66页| 视频一区二区欧美| 久久亚洲a v| 成人一二三区| 国产偷国产偷亚洲高清97cao| 成人在线不卡| 91av在线播放| av观看在线| 亚洲性猛交xxxxwww| 亚洲av无码国产精品久久不卡| 色呦呦国产精品| 国产在线综合网| 中文字幕一区二区三区精华液 | 人妻精品一区一区三区蜜桃91 | www.亚洲欧美| 欧美性高清videossexo| 亚洲精品77777| 亚洲男人的天堂在线观看| 在线观看国产精品一区| 99久久er热在这里只有精品15| 三区视频在线观看| 日本午夜一本久久久综合| 国产v片免费观看| 欧美激情性爽国产精品17p| 日韩在线电影一区| 小说区图片区色综合区| 91免费看网站| 国产日韩在线观看视频| 国产精品青青在线观看爽香蕉| 九色porny丨国产首页在线| 欧美多人爱爱视频网站| 中文字幕在线视频区| 亚洲欧美在线免费观看| 亚洲男人第一天堂| 欧美成人午夜电影| 99国产在线播放| 欧美精品自拍偷拍| 中文字幕视频二区| 欧美性视频一区二区三区| 久久精品视频5| 黑人巨大精品欧美一区二区三区 | 国产网站在线免费观看| 精品国产欧美一区二区三区成人| wwwxxx在线观看| 国产亚洲xxx| 国产98在线| 在线电影av不卡网址| 黄色片在线免费看| 亚洲一区二区久久| yw193.com尤物在线| 最近2019中文字幕第三页视频| 国产精品免费观看| 正在播放亚洲1区| 久久77777| 久热精品视频在线免费观看| 成人短视频在线观看| 久久综合伊人77777| 18网站在线观看| 久久99精品国产99久久6尤物| 在线中文字幕视频观看| 久久99久国产精品黄毛片入口| 欧美卡一卡二| 69精品小视频| 浪潮色综合久久天堂| 国产精品普通话| 精品三级国产| 精品免费日产一区一区三区免费| 青青视频一区二区| 日本一区二区三区四区高清视频 | 最新国产成人av网站网址麻豆| 成人在线观看黄色| 久久久国产精品亚洲一区| 亚洲奶水xxxx哺乳期| 国自产精品手机在线观看视频| 性欧美18xxxhd| 国产精品丝袜久久久久久高清| 99久久这里有精品| 国产美女精品久久久| 妖精一区二区三区精品视频| 婷婷久久伊人| 欧美日韩爆操| 不要播放器的av网站| 国模娜娜一区二区三区| 性欧美18—19sex性高清| 久久免费偷拍视频| 五月天av网站| 福利视频第一区| 国产免费视频一区二区三区| 亚洲缚视频在线观看| 成年人在线观看| 欧美激情视频一区| 黄色精品视频| 成人自拍网站| 成人精品视频| 成人免费性视频| 日韩精品乱码免费| 国产乱淫av片| 欧美高清一级片在线观看| 麻豆成人在线视频| 在线观看亚洲成人| 亚洲成人av综合| 中国china体内裑精亚洲片| 成人影音在线| 成人激情av在线| 婷婷精品在线| 福利在线一区二区| 麻豆国产欧美日韩综合精品二区 | 国产三级伦理片| 亚洲精品永久免费| 欧美人与性动交α欧美精品济南到 | 国产一级特黄视频| 精品视频免费在线| 美女毛片在线看| 欧美精品www在线观看| 欧美电影在线观看网站| 美媛馆国产精品一区二区| 欧美激情视频一区二区三区在线播放| 欧美两根一起进3p做受视频| www.在线成人| 久热这里有精品| 欧美视频你懂的| 欧洲天堂在线观看| 久久久久国色av免费观看性色| 四虎精品一区二区免费| 日本一区不卡| 亚久久调教视频| 亚洲 欧美 日韩在线| 亚洲综合丝袜美腿| 国产精品系列视频| 色老头一区二区三区| 欧美va在线| 日本福利一区二区三区| 性欧美xxxx大乳国产app| 欧美极品jizzhd欧美仙踪林| 一区二区三区四区视频精品免费| 97精品人妻一区二区三区在线 | eeuss鲁一区二区三区| 91久久精品一区二区别| 综合激情视频| 超碰在线资源站| 亚洲欧洲av色图| 一区二区美女视频| 久久精品国产视频| 91成人短视频在线观看| 三级网在线观看| 狠狠色丁香久久婷婷综合丁香| 国产wwwwxxxx| 欧美日韩国产另类一区| 欧美激情午夜| 91在线直播亚洲| 欧美日本一区二区视频在线观看| 999久久久精品视频| 亚洲精品久久久久久国产精华液| 国产乱叫456在线| 伦理中文字幕亚洲| 中文字幕一区日韩精品 | 日本不卡在线视频| 超碰97av在线| 91麻豆精品国产91久久久资源速度| 超碰在线观看免费版| 亚洲自拍偷拍一区| 好吊日精品视频| 中国xxxx性xxxx产国| 欧美日韩中文字幕综合视频| 青青草免费在线视频| 国产精品精品久久久久久| 欧美激情偷拍自拍| 欧美色图校园春色| 午夜精品爽啪视频| 久热av在线| 成人欧美一区二区三区在线| 亚洲色图88| 亚洲精品第二页| 色菇凉天天综合网| 浪潮av一区| 国产亚洲精品自在久久| 久久午夜精品| 日韩av手机在线免费观看| 欧美sm极限捆绑bd| 欧美黄色三级| 激情五月五月婷婷| av成人动漫在线观看| 中文在线观看av| 美日韩精品视频免费看| 色综合久久中文| 孩娇小videos精品| 亚洲一区二区三区中文字幕在线 | 大陆精大陆国产国语精品| 男女av免费观看| 自拍偷在线精品自拍偷无码专区| 亚洲狼人综合网| 国产精品成人av在线| 午夜久久久久| 精品无码在线观看| 欧美va在线播放| 国产精品原创视频| 99在线免费视频观看| 亚洲国产成人自拍| 欧美自拍偷拍第一页| 国产精品亚洲综合天堂夜夜| 精品96久久久久久中文字幕无| 一级黄色片网址| 亚洲精品v天堂中文字幕| 91精品影视|