精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何獲取高質量數據進行代碼指令調優?

發布于 2024-9-10 11:56
瀏覽
0收藏

之前很多研究都是生成、發現、過濾高質量的通用指令微調數據,而大家對代碼任務的越發關注,如何構建更好的代碼指令調整數據也越發重要。

下面給大家帶來一篇篩選高質量代碼指令微調數據的文章,主要基于指令的復雜性、回復質量和指令的多樣性三個維度來進行樣本的篩選,同時也指出了當前部分代碼指令數據在HumanEval上存在嚴重的數據泄露。

Paper: https://arxiv.org/abs/2409.03810
Github: https://github.com/banksy23/XCoder
Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K

數據篩選

如何獲取高質量數據進行代碼指令調優?-AI.x社區

數據篩選過程主要從三個維度(指令復雜性、響應質量和指令多樣性)從數據池中選擇樣本。

對于一個數據池 ,首先使用復雜性評分器 和單元測試模型 來計算每個數據的復雜性評分 和質量評分 。然后,對復雜性評分和質量評分進行歸一化得到 和 ,經過線性組合后,得到整體評分 ,最后將數據池 進行排序,并根據多樣性進行迭代采樣,直到篩選數據集 達到預計大小為止,算法流程如下圖所示。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

  • 復雜性評分器:利用self-instruct方法獲取一個小規模的種子數據 ,然后根據WizardCoder方法進行提示詞 次深度進化,產生 輪次數據,將輪次是為復雜性的度量值,訓練復雜性評分器。
  • 單元測試模型:代碼通過測試用例數量可以作為響應質量的度量,利用6k數據訓練LLaMA3-70B-Base模型來作為單元測試模型。在測試過程中,單元測試模型為每個訓練樣本生成12個測試用例,并執行單元測試程序,將通過的測試用例數量作為質量評分。


如何獲取高質量數據進行代碼指令調優?-AI.x社區


  • 多樣性采樣:迭代式從數據池中選擇樣本 ,當該樣本對數據集 多樣性做成貢獻時,填入數據集 。樣本 的多樣性的貢獻采用 表示,當 為真時,值等于1,被填入數據集 。 為樣本 與 中最近樣本之間的嵌入距離,τ

效果分析

為了構建最佳的代碼指令微調數據集,收集了各種可用的開源數據集,共2.5M樣本。優于數據池過大,經過以下步驟過濾、去重,最終獲得336K樣本。

  • 選取學術工作數據集:Magicoder-OSS-Instruct、Magicoder-Evol-Instruct和Code-Feedback
  • 選擇了長度最長的200K個樣本
  • 選擇復雜性評分最高的200K個樣本
  • 去重

如何獲取高質量數據進行代碼指令調優?-AI.x社區

LLaMA3-8B-Base上采用Xcoder數據進行了實驗,如下表所示,在僅使用40K數據在LiveCodeBench和BigCodeBench上就取得了優于基線的性能;增加到80K數據時,指標持續提高。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

基于LLaMA3-70B-Base在Xcoder數據上訓練了XCoder-70B模型,成為效果最佳的開源的代碼大模型。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

HumanEval上不是最優,是因為Magicoder-Evol-Instruct和Codefuse-Evol-Instruct數據在HumanEval存在數據泄露情況。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

并提出了TLI(測試泄露指標)來量化訓練集對測試集泄露數據程度。主要對兩個數據集生成n-gram片段,并測量每個測試樣本的n-gram片段與所有訓練樣本的n-gram片段之間的重疊情況,其中,測試樣本中的公共n-gram片段個數與測試樣本中的總n-gram片段個數的比率作為測試樣本 與訓練樣本 之間的相似度分數。所有測試集中的相似度分數的平均值作為TLI值,其中,TLI值越高,泄露風險越大。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

消融實驗,三個維度的指標對于最終數據的選擇均有益。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

針對復雜性評估,可以發現雜性評分器 > 指令長度 > 困惑度 > 隨機。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

針對單元測試模型,可以發現訓練的Llama3-70模型由于GPT4模型。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

并且Xcoder選擇10K數據的訓練效果,就堪比隨機選擇160K數據效果。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

同時,分析了XCoder的數據組成,重新評估了不同數據源的優勢和劣勢。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

寫在最后

大模型發展到現在,合成數據的重要性不言而喻,但需要我們注意的一點是,如果一味的增加低質量數據或模式固定的單一數據,除了增加模型訓練時間外,毫無用處,甚至會帶來模型過擬合等負面影響。

因此,大模型在微調過程中,無論是通用任務、還是代碼任務,對數據進行多樣性、質量的選擇是有必要的,也許提分就在這毫厘之間。

本文轉載自 ??NLP工作站??,作者: 劉聰NLP

已于2024-9-10 12:02:50修改
收藏
回復
舉報
回復
相關推薦
久久亚洲风情| 国内黄色精品| 福利视频一区二区| 日本成人三级电影网站| 在线观看亚洲国产| 欧美激情91| 亚洲九九九在线观看| 超碰在线播放91| 中文字幕中文字幕在线中高清免费版| 成人午夜在线播放| 国产成人在线视频| 在线免费观看亚洲视频| 青草久久视频| 91精品啪在线观看国产60岁| 久久国产亚洲精品无码| 午夜毛片在线| 久久综合久色欧美综合狠狠| 成人中文字幕在线观看| 九九热在线视频播放| 日韩专区精品| 精品无码久久久久久国产| 高清av免费看| 中老年在线免费视频| 亚洲日本电影在线| 欧美日韩大片一区二区三区| 不卡av中文字幕| 蜜桃av一区二区三区电影| 久久久久久久久久久91| 国产精品一区二区亚洲| 天海翼亚洲一区二区三区| 日韩一区二区视频| 亚欧美在线观看| 国产精品一区二区av影院萌芽| 亚洲老司机在线| 日韩欧美激情一区二区| 欧美 日韩 国产 精品| 激情综合网av| 国产日韩中文字幕在线| 在线观看日本网站| 亚洲激情影院| 欧美激情亚洲一区| 97成人资源站| 久久久久免费av| 日韩中文字幕网址| 女人裸体性做爰全过| 亚洲自拍都市欧美小说| 亚洲国产精品福利| 逼特逼视频在线观看| 国产亚洲久久| 欧美一区二区人人喊爽| 欧美美女一级片| 91久久久久久白丝白浆欲热蜜臀| 日韩欧亚中文在线| 久久久久久久中文| 精精国产xxx在线视频app| 一区二区免费看| 8x8ⅹ国产精品一区二区二区| 女女色综合影院| 国产精品国产三级国产aⅴ无密码| 日产精品久久久一区二区| 国产在线超碰| 欧美高清在线视频| 亚洲欧美日韩国产yyy| porn视频在线观看| 国产日韩精品一区二区浪潮av| 久久久久久久久久久一区| 天天干免费视频| 久久综合色天天久久综合图片| 欧美国产综合视频| 精品无人乱码| 中文字幕欧美日本乱码一线二线| 婷婷亚洲婷婷综合色香五月| 最新国产在线观看| 综合亚洲深深色噜噜狠狠网站| 熟女熟妇伦久久影院毛片一区二区| 色开心亚洲综合| 亚洲欧洲中文日韩久久av乱码| 黄色高清视频网站| 欧美78videosex性欧美| 亚洲sss视频在线视频| 丰满人妻中伦妇伦精品app| 欧美一级大片| 欧美巨大另类极品videosbest | 日韩制服丝袜先锋影音| 国产成人一区二区三区| 97超碰人人草| 成人免费av在线| 日韩欧美视频一区二区三区四区| 性开放的欧美大片| 亚洲在线成人精品| 日韩精品一区二区三区色欲av| 韩国精品视频在线观看| 日韩精品一区在线| 91中文字幕永久在线| 仙踪林久久久久久久999| 久久人人爽国产| 美女黄页在线观看| 成人中文字幕在线| 亚洲精品人成| 成av人片在线观看www| 欧美图区在线视频| 亚洲一区二区三区黄色| 日本欧美视频| 91禁国产网站| 91麻豆成人精品国产免费网站| 成人午夜电影小说| 亚洲图色在线| 羞羞影院欧美| 亚洲第一男人天堂| a一级免费视频| 国产精品永久| 国产精品免费一区二区三区在线观看| 东凛在线观看| 精品国产91久久久久久老师| 五月天中文字幕在线| 日韩人体视频| 欧美日韩国产va另类| 中文字幕精品一区二| 波多野结衣中文一区| 综合国产精品久久久| 韩国主播福利视频一区二区三区| 欧美电影精品一区二区| 91视频免费看片| 一本色道久久综合亚洲精品高清| 91九色视频导航| 免费黄网站在线观看| 亚洲一区免费观看| 亚洲一区二区中文字幕在线观看| 免费看日本一区二区| 性视频1819p久久| 精品国产一级片| 一色桃子久久精品亚洲| 手机在线免费观看毛片| 九一成人免费视频| 日韩美女在线播放| 日韩a在线看| 精品成人久久av| 国产一级免费片| 国产精品豆花视频| 91精品国产99久久久久久红楼| 自拍视频在线播放| 91久久免费观看| 亚洲永久精品ww.7491进入| 亚洲美女啪啪| 精品日韩美女| 在线手机中文字幕| 亚洲精品久久久久中文字幕二区| 欧洲猛交xxxx乱大交3| 精品午夜久久福利影院| 一区二区三区欧美在线| 亚洲狼人综合| 蜜臀久久99精品久久久无需会员| 国产视频一区二区三| 亚洲乱码一区二区三区在线观看| 一级片黄色免费| 欧美日韩国产亚洲一区| 国产传媒欧美日韩| 成人在线黄色电影| 日韩精品一区二区三区第95| 国产一级18片视频| 久久久久99精品国产片| 无码人妻精品一区二区三区66| 欧美日韩国产一区二区三区不卡| 国产精品一久久香蕉国产线看观看 | 日本三级在线观看网站| 日韩美女视频在线| 精品成人久久久| 久久久久国产精品厨房| 日本肉体xxxx裸体xxx免费| 天天操综合网| 国产精品久久久久久久天堂第1集| 97人澡人人添人人爽欧美| 亚洲黄色有码视频| 懂色av中文字幕| 日韩一区在线免费观看| 激情小说欧美色图| 亚欧成人精品| 在线免费观看成人| 超碰地址久久| 国产成人在线一区二区| 超碰在线免费播放| 亚洲国产一区二区三区四区| 销魂美女一区二区| 亚洲精品中文字幕乱码三区| 国产人妻黑人一区二区三区| 日本中文字幕一区| 草草草视频在线观看| 日本福利一区| 91久久在线播放| 乱人伦视频在线| 日韩在线免费观看视频| 欧美熟妇另类久久久久久不卡| 色综合久久久久综合体桃花网| 久久爱一区二区| 99re66热这里只有精品3直播| 91人人澡人人爽人人精品| 亚洲有吗中文字幕| 久久久影院一区二区三区| 亚洲午夜国产成人| 欧美一级片在线播放| 国产精品剧情一区二区在线观看| 日韩电影免费观看中文字幕| 国产精品久久久久久免费免熟 | 无码精品a∨在线观看中文| 欧美日韩一二三四| 国产激情一区二区三区在线观看| 午夜av成人| 欧美激情视频在线| 亚洲乱亚洲乱妇| 精品无码久久久久久国产| 99久久免费国产精精品| 欧美在线视频全部完| 国产午夜精品一区二区理论影院| 国产精品久久久99| 特大黑人巨人吊xxxx| 国产成人午夜精品影院观看视频 | 在线电影中文日韩| 日韩在线观看视频网站| 4438亚洲最大| 在线观看一二三区| 欧美中文字幕久久| 欧美日韩乱国产| 亚洲国产精品天堂| 国产精品九九九九九九| 国产精品乱码人人做人人爱| 欧洲女同同性吃奶| 91免费视频网址| 日韩精品视频一区二区| 国产伦精品一区二区三区免费迷| 99热一区二区| 日本v片在线高清不卡在线观看| 国产主播在线看| 日韩一级在线| 欧美日韩在线一| 亚洲国产高清视频| 日韩欧美猛交xxxxx无码| 91精品在线观看国产| 一区二区三区偷拍| 色综合久久一区二区三区| 日韩久久在线| 精品国产一区二区三区噜噜噜 | 国产成人精品综合久久久久99| 久久精品国产999大香线蕉| 天天爽天天爽夜夜爽| 日韩国产欧美一区二区三区| 色婷婷综合久久久久中文字幕 | 999久久久精品国产| 亚洲欧美日韩国产yyy| 日韩精品久久| 国产免费一区二区三区四在线播放| 大片网站久久| 亚洲精品日韩在线观看| 色综合咪咪久久网| 中文字幕成人一区| 久久精品久久久| 成人在线观看www| 女主播福利一区| 国产精品自拍合集| 亚洲日本免费| 欧美 国产 小说 另类| 日韩专区欧美专区| 日本黄大片一区二区三区| 久久97超碰国产精品超碰| 一区二区三区欧美精品| 国产精品一区二区久久不卡| 波多野结衣电影免费观看| 国产a视频精品免费观看| 无码国产精品一区二区免费式直播 | 久久久久久久久久久久久久久久久久 | 香蕉久久一区二区三区| 亚洲乱码国产乱码精品精| 看电影就来5566av视频在线播放| 一本一本久久a久久精品综合小说| 日本韩国在线视频爽| 久久亚洲春色中文字幕| 国产一线二线在线观看| 538国产精品一区二区在线| 欧美三区四区| 亚洲综合在线做性| 欧美理论电影在线精品| 日韩视频专区| 午夜日韩在线| 草草久久久无码国产专区| 久久精品国产精品亚洲红杏| 欧美激情一区二区三区p站| 久久亚洲影视婷婷| 中文乱码字幕高清一区二区| 亚洲网友自拍偷拍| 无码人妻一区二区三区免费| 91精品国产综合久久精品app| 免费成人在线看| 在线成人激情视频| 日韩另类在线| 国产精品白丝jk喷水视频一区 | 激情图片在线观看高清国产| 欧洲成人免费aa| www.久久久.com| 欧美国产视频在线观看| 欧美.www| xxxx一级片| 91在线你懂得| caoporn91| 91黄色在线观看| 丰满岳乱妇国产精品一区| 中文字幕九色91在线| free性m.freesex欧美| 91免费看片网站| 黑丝美女一区二区| 日本中文字幕网址| 国产精品77777| 午夜国产福利视频| 日韩欧美视频一区二区三区| www.亚洲黄色| 日韩有码在线观看| 欧洲亚洲两性| 国模精品一区二区三区| 欧美成熟视频| www.99r| 亚洲国产精品传媒在线观看| 激情五月色婷婷| 欧美一级黄色大片| 午夜在线播放| 国产精品中文字幕在线| 亚洲a级精品| 日韩视频免费播放| 国产99久久久久久免费看农村| 男人晚上看的视频| 欧美日韩一区高清| 成年人视频在线观看免费| 欧美主播福利视频| 日韩av网站在线免费观看| 日韩精品一区二区免费| 国产精品亚洲人在线观看| 亚洲综合图片一区| 欧美日韩在线亚洲一区蜜芽| 国产一区电影| 国产精品1234| 欧美另类69xxxxx| 天堂在线资源视频| 欧美国产激情二区三区| 国产无遮挡又黄又爽又色视频| 亚洲精品一区二区久| 国产777精品精品热热热一区二区| 999视频在线免费观看| 欧美视频二区| 扒开伸进免费视频| 黄网动漫久久久| 午夜影院在线视频| 国产成人精品av| 欧美偷拍自拍| 性生生活大片免费看视频| 国产精品福利在线播放| 国产精品视频第一页| 久久精品青青大伊人av| 精品久久国产一区| 老司机激情视频| 波多野结衣视频一区| 欧美一区二区三区四| 亚洲欧洲视频在线| 久久xxx视频| 香蕉视频在线网址| 丁香婷婷综合网| av中文在线播放| 国产一区二区三区免费视频| 91欧美精品| 男女爱爱视频网站| 成人国产精品免费| 99超碰在线观看| www.欧美三级电影.com| 日本99精品| 男人操女人逼免费视频| 国产日韩欧美一区二区三区乱码| 亚洲一二区视频| 久久久久久综合网天天| 久草精品在线| 日本高清免费在线视频| 午夜在线电影亚洲一区| 国产粉嫩一区二区三区在线观看| 91精品久久久久久综合乱菊 | 高清一区二区三区日本久| 日韩三级视频| 日本不卡一区二区在线观看| 亚洲无线码一区二区三区| 国产美女性感在线观看懂色av| 91青草视频久久| 国产亚洲精品v| 日韩欧美国产成人精品免费| 亚洲精品国产免费| 欧美性www| 激情综合在线观看| 亚洲色图都市小说| 四虎影院在线域名免费观看| 国产原创欧美精品| 国产视频一区免费看| av资源在线免费观看| 日韩成人免费视频| 韩国三级成人在线| 最近免费中文字幕中文高清百度| 亚洲精品日日夜夜| 成人18在线|