精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?

發(fā)布于 2024-9-19 12:48
瀏覽
0收藏

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

一、結(jié)論寫在前面

論文標(biāo)題:Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

論文鏈接:??https://arxiv.org/pdf/2409.02326??

高質(zhì)量數(shù)據(jù)對于語言模型的有效預(yù)訓(xùn)練至關(guān)重要。然而,“高質(zhì)量”的精確定義仍未得到充分探索。

聚焦于代碼領(lǐng)域,論文引入了Arctic-SnowCoder-1.3B,這是一個數(shù)據(jù)高效的基礎(chǔ)代碼模型,通過三個階段的逐步精煉數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,共處理了555B token:(1) 使用500B個標(biāo)準(zhǔn)質(zhì)量代碼token進(jìn)行通用預(yù)訓(xùn)練,經(jīng)過基本過濾、去重和去污染預(yù)處理;(2) 使用50B個高質(zhì)量token進(jìn)行持續(xù)預(yù)訓(xùn)練,這些token從第一階段中通過BERT風(fēng)格的質(zhì)量注釋器選出,該注釋器經(jīng)過訓(xùn)練以區(qū)分優(yōu)質(zhì)代碼與隨機(jī)數(shù)據(jù),使用從高質(zhì)量代碼文件中提取的正例,以及來自Magicoder和StarCoder2-Instruct的指令數(shù)據(jù);(3) 使用5B個合成數(shù)據(jù)進(jìn)行增強(qiáng)預(yù)訓(xùn)練,這些數(shù)據(jù)由Llama-3.1-70B使用第二階段數(shù)據(jù)作為種子生成,采用Magicoder的預(yù)訓(xùn)練方法。

僅僅訓(xùn)練有限數(shù)據(jù)集,Arctic-SnowCoder-1.3B在BigCodeBench上取得了SOTA的結(jié)果,這是一個專注于實際和具有挑戰(zhàn)性的編程任務(wù)的編碼基準(zhǔn),在訓(xùn)練了小于等于 1T tokens的類似大小的模型中。特別是,它比Phi-1.5-1.3B [20]高出36%。盡管訓(xùn)練數(shù)據(jù)量為555B tokens,與其他在萬億tokens上訓(xùn)練的最先進(jìn)的小型代碼模型相比,Arctic-SnowCoder在多個基準(zhǔn)測試中達(dá)到了或超過了這些模型的性能。

例如,Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中擊敗了StarCoderBase-3B,后者訓(xùn)練數(shù)據(jù)超過1T tokens。Arctic-SnowCoder-1.3B在HumanEval+ (28.0 vs. 27.4)上優(yōu)于StarCoder2-3B,后者訓(xùn)練數(shù)據(jù)超過3T tokens,這是一個評估函數(shù)級代碼生成的基準(zhǔn),同時在BigCodeBench(19.4 vs. 21.4)上保持競爭力。論文進(jìn)行了全面的消融研究,以驗證訓(xùn)練Arctic-SnowCoder背后的設(shè)計決策:    

?首先,論文的研究結(jié)果表明,在一般預(yù)訓(xùn)練中,將文件級數(shù)據(jù)按編程語言劃分成倉庫后,顯著優(yōu)于僅按倉庫名稱分組數(shù)據(jù)的方法。

?此外,論文確定了最佳的學(xué)習(xí)率計劃,包括重新預(yù)熱階段后進(jìn)行線性衰減,以及在持續(xù)預(yù)訓(xùn)練期間高質(zhì)量數(shù)據(jù)的理想重復(fù)次數(shù),論文發(fā)現(xiàn)是四次。

?更重要的是,論文對基于模型的質(zhì)量注釋器的比較,這些注釋器在各種數(shù)據(jù)組合上進(jìn)行訓(xùn)練,強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的對齊對于實現(xiàn)卓越性能至關(guān)重要。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

圖1:Arctic-SnowCoder-1.3B的三階段預(yù)訓(xùn)練,逐步使用更高質(zhì)量的數(shù)據(jù)。

二、論文的簡單介紹

2.1 論文的背景

預(yù)訓(xùn)練LLMs通常依賴于大量數(shù)據(jù)。在代碼等專業(yè)領(lǐng)域,這種對數(shù)據(jù)量的重視尤為明顯,研究人員通過抓取GitHub等平臺獲取大量代碼預(yù)訓(xùn)練數(shù)據(jù)集。然而,最近的研究越來越表明,高質(zhì)量的數(shù)據(jù)對于有效的預(yù)訓(xùn)練至關(guān)重要, 包括代碼領(lǐng)域。

在通用領(lǐng)域,研究人員探索了多種技術(shù)來策劃高質(zhì)量的語言模型預(yù)訓(xùn)練數(shù)據(jù)。FineWeb-Edu使用基于Snowflake-arctic-embed-m嵌入構(gòu)建的線性回歸器來評估網(wǎng)頁的教育價值并選擇高質(zhì)量內(nèi)容,而DCLM方法則采用基于fastText的過濾器,該過濾器在高質(zhì)量在線資源和指令數(shù)據(jù)的正例以及隨機(jī)負(fù)例網(wǎng)頁上進(jìn)行訓(xùn)練,以識別高質(zhì)量文本。與使用未過濾的大規(guī)模數(shù)據(jù)集相比,這些基于模型的質(zhì)量過濾器顯著提高了語言模型在下游任務(wù)中的性能。

同樣,研究人員也認(rèn)識到高質(zhì)量代碼數(shù)據(jù)對于預(yù)訓(xùn)練的重要性,Phi-1使用隨機(jī)森林分類器在Code-Gen嵌入上選擇教育性代碼樣本,DeepSeek-Coder-V2采用多階段fastText管道來召回與網(wǎng)絡(luò)相關(guān)的代碼數(shù)據(jù)和GitHub上的高質(zhì)量代碼,實現(xiàn)了最先進(jìn)的編碼性能。    

在本文中,論文介紹了Arctic-SnowCoder-1.3B,這是一個高性能的小型代碼模型,通過一種新穎的三步訓(xùn)練方法創(chuàng)建,專注于數(shù)據(jù)質(zhì)量的逐步提升。得益于這種方法,Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中均優(yōu)于StarCoderBase-3B [19],并在復(fù)雜且實用的BigCodeBench基準(zhǔn)測試 [46] 上超越Phi-1.5-1.3B [20] 36%,該基準(zhǔn)對實際編程至關(guān)重要。

2.2 論文的方法--Arctic-SnowCoder

這里論文將詳細(xì)解釋Arctic-SnowCoder-1.3B的訓(xùn)練方法,如圖1所示。論文首先討論原始訓(xùn)練數(shù)據(jù)的組成(見圖1),然后概述通用預(yù)訓(xùn)練階段。接下來,論文描述使用高質(zhì)量數(shù)據(jù)的協(xié)同預(yù)訓(xùn)練過程,最后,論文詳細(xì)闡述使用合成數(shù)據(jù)的增強(qiáng)預(yù)訓(xùn)練。模型架構(gòu)基于Llama-2,具體細(xì)節(jié)見表1。

表1:Arctic-SnowCoder的模型架構(gòu)細(xì)節(jié)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

2.2.1原始數(shù)據(jù)

用于訓(xùn)練Arctic-SnowCoder-1.3B的原始預(yù)訓(xùn)練數(shù)據(jù)僅包含代碼,主要來源于用于訓(xùn)練Snowflake Arctic的編碼數(shù)據(jù)。該數(shù)據(jù)結(jié)合了The Stack v1和GitHub爬取數(shù)據(jù)的清洗后版本。從這些數(shù)據(jù)中,論文選擇了18種流行的編程語言進(jìn)行訓(xùn)練,類似于StarCoder2-3B。這些語言包括Python、Java、C++、C 、JavaScript、PHP、C#、Go、TypeScript、SQL、Ruby、Rust、Jupyter Notebook、Scala、Kotlin、Shell、vart、Swift,總計400B唯一token。

2.2.2 通用預(yù)訓(xùn)練

在通用預(yù)訓(xùn)練階段,模型使用Adam進(jìn)行訓(xùn)練,訓(xùn)練500B token,序列長度為8192,批量大小為512。學(xué)習(xí)率在600次迭代后進(jìn)行線性預(yù)熱,隨后遵循余弦衰減。論文設(shè)置最大學(xué)習(xí)率為5.3x 10^{-4},最小學(xué)習(xí)率為5.3 x 10^{-5},這一設(shè)置參考了DeepSeek-Coder。在此階段,論文使用了全部400B原始數(shù)據(jù),未進(jìn)行額外的質(zhì)量過濾。論文首先按編程語言對代碼文件進(jìn)行分區(qū),按倉庫進(jìn)行分組,然后以隨機(jī)順序連接它們,類似于StarCoder2的方法。論文展示了首先按編程語言對代碼文件進(jìn)行分區(qū)的優(yōu)勢。論文將此階段生成的模型命名為Arctic-SnowCoder-alpha。    

2.2.3 高質(zhì)量數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練(Continued pretraining)

在通用預(yù)訓(xùn)練之后,論文使用從相同原始預(yù)訓(xùn)練語料庫中提取的50B高質(zhì)量token繼續(xù)預(yù)訓(xùn)練Arctic-SnowCoder-alpha。這50B高質(zhì)量token是通過將12.5B個由論文的代碼質(zhì)量注釋器評分的前百分位代碼文件token重復(fù)4次形成的。

受FineWeb-Edu和DCLM的啟發(fā),論文在基于BERT的先進(jìn)嵌入模型Snowflake-arctic-embed-m之上訓(xùn)練了一個線性分類頭。訓(xùn)練數(shù)據(jù)包括30萬個正樣本,采樣自22萬個高質(zhì)量開源代碼文件、8萬個來自Magicoder和StarCoder2-Instruct的高質(zhì)量指令數(shù)據(jù),以及從預(yù)訓(xùn)練語料庫中隨機(jī)選擇的300個代碼文檔。

關(guān)于代碼質(zhì)量的先前研究,如Phi-1,往往過分強(qiáng)調(diào)代碼的“教育價值”,使模型偏向于像HumanEva這樣的簡單基準(zhǔn)。論文展示了論文的注釋方法能夠帶來更平衡的模型能力提升。

此外,鑒于這些代碼文檔通常超過1000個token,超過了BERT的512個token的上下文窗口大小,論文改進(jìn)了FineWeb-Edu的流程,通過平均質(zhì)量注釋器產(chǎn)生的頂部、中部和底部部分的分?jǐn)?shù)來計算每個文件的分?jǐn)?shù)。在此階段,論文從0到最大預(yù)訓(xùn)練學(xué)習(xí)率5.3x 10^{-4}進(jìn)行1000次迭代的學(xué)習(xí)率預(yù)熱,隨后進(jìn)行線性衰減至0。此階段生成的模型稱為Arctic-SnowCoder-beta。

2.2.4 使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練

在增強(qiáng)預(yù)訓(xùn)練階段,論文利用Llama-3.1-70B-Instruct 生成比持續(xù)預(yù)訓(xùn)練階段更高質(zhì)量的數(shù)據(jù),并將Python混合比例提高到約50%,同時保持其他語言的比例不變。Phi-1 [13]表明,類似教科書的合成預(yù)訓(xùn)練數(shù)據(jù)可以顯著提升模型性能。

然而,過度依賴此類數(shù)據(jù)可能會導(dǎo)致模型分布偏斜,從而可能損害其在實際編碼任務(wù)中的有效性。例如,論文后面展示的,Phi-1.5在HumanEvalt和MBPP+上表現(xiàn)出色,這些任務(wù)類似于教科書練習(xí),但在BigCodeBench [46]中更復(fù)雜和實用的編碼任務(wù)上表現(xiàn)較差。為了解決這個問題,論文改編了Magicoder的OSS-Instruct方法用于預(yù)訓(xùn)練。最初,OSS-Instruct旨在通過提示模型創(chuàng)建受開源代碼片段啟發(fā)的問答對來生成現(xiàn)實的指令調(diào)優(yōu)數(shù)據(jù)。

相比之下,論文通過使用Llama-3.1-70B-Instruct生成高質(zhì)量和面向問題解決的代碼文件來生成高質(zhì)量的合成預(yù)訓(xùn)練數(shù)據(jù),這些代碼文件以持續(xù)預(yù)訓(xùn)練階段中評分最高的代碼文檔為種子。后面論文展示了每個預(yù)訓(xùn)練階段都顯著優(yōu)于前一個階段,突顯了逐步提高數(shù)據(jù)質(zhì)量的有效性。

2.3 論文的效果

這里論文將Arctic-SnowCoder與最先進(jìn)的小型語言模型進(jìn)行比較,并展示了每個預(yù)訓(xùn)練階段的性能提升,評估了兩種形成通用預(yù)訓(xùn)練中倉庫級別數(shù)據(jù)的策略,并對持續(xù)預(yù)訓(xùn)練中的設(shè)計選擇進(jìn)行了詳細(xì)的消融分析。    

2.3.1 實驗設(shè)置

論文考慮以下四個多樣化的編程基準(zhǔn),以全面評估不同代碼模型的代碼生成能力:

?HumanEval+和MBPP+ 。HumanEval和MBPP是用于函數(shù)級代碼生成的兩個最廣泛使用的基準(zhǔn)。論文采用了EvalPlus增強(qiáng)的版本,提供了80倍/35倍的更多測試用例以進(jìn)行嚴(yán)格評估。HumanEvalt和MBPP+分別包含164和378個編碼問題。

?EvoEval 是一個程序合成基準(zhǔn)測試套件,通過將現(xiàn)有基準(zhǔn)測試演化為不同的目標(biāo)領(lǐng)域而創(chuàng)建。論文采用了其五個默認(rèn)的轉(zhuǎn)換類別,即困難、創(chuàng)造性、微妙、組合和工具使用,總計500個任務(wù)。

?BigCodeBench 通過實際且具有挑戰(zhàn)性的編程任務(wù)評估語言模型。它包含1140個編程任務(wù),每個任務(wù)都是通過人類與語言模型的協(xié)作創(chuàng)建的,任務(wù)質(zhì)量由人類專家保證。        

2.3.2 基線比較與三階段預(yù)訓(xùn)練的有效性

表 2 :將Arctic-SnowCoder與最先進(jìn)的小型語言模型 ( \mathrm{< 3 B} ) 進(jìn)行比較,按訓(xùn)練計算量 > 1T 標(biāo)記進(jìn)行劃分。Arctic-SnowCoder-alpha和Arctic-SnowCoder-beta分別是通用預(yù)訓(xùn)練和繼續(xù)使用高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練后的檢查點(diǎn)。Arctic-SnowCoder是使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練后的最終檢查點(diǎn)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

表2展示了多種小型語言模型(參數(shù)少于3B)在多個編碼基準(zhǔn)上的綜合比較,按其訓(xùn)練計算是否超過1T tokens進(jìn)行分類。值得注意的是,Arctic-SnowCoder表現(xiàn)出色,特別是在其有限的訓(xùn)練數(shù)據(jù)下。Arctic-SnowCoder-1.3B在BigCodeBench上達(dá)到了與訓(xùn)練數(shù)據(jù)不超過1T token的同類模型相比的最新性能,顯著優(yōu)于StarCoderBase-3B、SmolLM-1.7B和Phi-1.5-1.3B。特別是,盡管Phi-1.5-1.3B在“教科書式”基準(zhǔn)測試如HumanEval+、MBPP+和EvoEval上具有優(yōu)勢,但Arctic-SnowCoder-1.3B在更復(fù)雜和實用的Big-CodeBench上以36%的優(yōu)勢超越了Phi-1.5-1.3B。    

此外,Arctic-SnowCoder-1.3B在所有評估基準(zhǔn)上均擊敗了StarCoderBase-3B,后者是StarCoder2-3B的前身,訓(xùn)練數(shù)據(jù)為1T tokens。盡管僅訓(xùn)練了555B tokens,Arctic-SnowCoder-1.3B在HumanEvalt上與經(jīng)過更廣泛訓(xùn)練的模型如StarCoder2-3B、StableCode-3B、CodeGemma-2B-v1.0和Qwen1.5-1.8B相媲美甚至超越。在EvoEval和BigCodeBench上,Arctic-SnowCoder仍然具有競爭力。

此外,該表還突顯了Arctic-SnowCoder在其訓(xùn)練階段的持續(xù)改進(jìn):Arctic-SnowCoder-alpha、Arctic-SnowCoder-beta和最終的Arctic-SnowCoder。每個階段都建立在前一階段的基礎(chǔ)上,Arctic-SnowCoder在所有基準(zhǔn)測試中均取得了最高分?jǐn)?shù)。這種穩(wěn)步提升強(qiáng)調(diào)了高質(zhì)量和合成數(shù)據(jù)在最終階段的關(guān)鍵作用。盡管從相同的數(shù)據(jù)開始,Arctic-SnowCoder的每次迭代都縮小了與最先進(jìn)模型的差距,展示了整體訓(xùn)練方法的有效性。

2.3.3 通用預(yù)訓(xùn)練中的倉庫級數(shù)據(jù)

在通用預(yù)訓(xùn)練階段,論文采用了StarCoder2的方法,通過隨機(jī)拼接文件內(nèi)容將文件級數(shù)據(jù)隨機(jī)分組到倉庫中。在表3中,論文研究了兩種方法:(1)僅按倉庫名稱對文件進(jìn)行分組,這意味著每個訓(xùn)練文檔可以是多語言代碼文件的混合,如果倉庫是用不同語言編寫的;(2)在將文件分組到倉庫之前,先按編程語言對文件進(jìn)行分區(qū),這意味著每個訓(xùn)練文檔僅關(guān)注一種單一語言。

表3:兩種預(yù)訓(xùn)練方法對倉庫級別數(shù)據(jù)分組的比較。(1)“按倉庫分組”將每個倉庫視為一個可能混合多種語言的單一訓(xùn)練單元,以及(2)“按語言和倉庫分組”在按倉庫分組之前先按編程語言對數(shù)據(jù)進(jìn)行分區(qū)。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

論文可以觀察到,第二種方法,即論文在一般預(yù)訓(xùn)練中最終采用的方法,明顯優(yōu)于第一種方法。

2.3.4繼續(xù)預(yù)訓(xùn)練中的設(shè)計選擇

在繼續(xù)預(yù)訓(xùn)練中,論文從預(yù)訓(xùn)練語料庫中提取高質(zhì)量的token,并訓(xùn)練一個改進(jìn)的基礎(chǔ)模型。為了獲得高質(zhì)量的token,論文采用了基于模型的質(zhì)量標(biāo)注器。在本節(jié)中,論文實驗了各種設(shè)計選擇,包括標(biāo)注器的訓(xùn)練數(shù)據(jù)、繼續(xù)預(yù)訓(xùn)練中使用的學(xué)習(xí)率以及高質(zhì)量token的最佳重復(fù)次數(shù)。    

基于模型的質(zhì)量標(biāo)注器 類似于FineWeb-Edu ,論文在Snowf lake-arctic-embed-m嵌入模型之上訓(xùn)練一個線性頭來為每個代碼文件評分。在表4中,論文實驗了4種變體:

?ANN-EDU:論文提示Mixtral-8x7B-Instruct標(biāo)注每個代碼文件的教育價值(1到5)。使用400k標(biāo)注數(shù)據(jù)訓(xùn)練一個線性回歸頭。對于以下變體,類似于DCLM ,論文隨機(jī)采樣負(fù)文檔并僅更改正部分。使用線性分類頭。

?ANN-INs:正樣本是來自ANN-EDU的100k教育數(shù)據(jù)(3.5+)和來自Magicoder [41]和StarCoder2-Instruct [40]的100k高質(zhì)量指令數(shù)據(jù)的混合。

?ANN-HQ: 正樣本為220k開源、合成、高質(zhì)量代碼文件。

?ANN-HQINs: 正樣本為220k ANN-HQ訓(xùn)練數(shù)據(jù)與80k來自Magicoder[41]和StarCoder2-Instruct[40]的指令數(shù)據(jù)的混合。

表4: 通過應(yīng)用基于模型的質(zhì)量標(biāo)注器(使用不同配方訓(xùn)練)進(jìn)行10B繼續(xù)預(yù)訓(xùn)練的下游性能比較

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

訓(xùn)練標(biāo)注器后,論文首先將每個標(biāo)注器應(yīng)用于整個預(yù)訓(xùn)練語料庫,為每個文件獲取一個分?jǐn)?shù)。與僅掃描前2k字符的FineWeb-Edu不同,論文掃描代碼文件的頂部、中部和底部部分,并平均這些分?jǐn)?shù)。然后,論文根據(jù)這些分?jǐn)?shù)按語言對代碼文件進(jìn)行排名,并選擇前百分位的文檔,直到達(dá)到大約10 B token。論文保持與預(yù)訓(xùn)練中使用的相同混合比例。表中顯示,結(jié)合高質(zhì)量文件和指令數(shù)據(jù)的ANN-HQINS實現(xiàn)了最佳的下游性能。

論文在圖2中進(jìn)行了額外的分析。對于每個標(biāo)注者,論文創(chuàng)建了一個驗證數(shù)據(jù)集,其中正樣本來自代碼解決方案基準(zhǔn),負(fù)樣本來自訓(xùn)練期間未見過的隨機(jī)預(yù)訓(xùn)練數(shù)據(jù)。論文使用ROC-AUC [6](受試者工作特征曲線下面積)分?jǐn)?shù)來評估標(biāo)注者在基準(zhǔn)數(shù)據(jù)排名中的表現(xiàn)。該圖展示了每個基準(zhǔn)的ROC-AUC分?jǐn)?shù)與基準(zhǔn)通過率之間的相關(guān)性。幾乎一致的趨勢是:較高的ROC-AUC分?jǐn)?shù)導(dǎo)致更好的基準(zhǔn)性能。良好的ROC-AUC分?jǐn)?shù)表明標(biāo)注者有效地塑造了下游任務(wù)的分布。因此,高質(zhì)量的關(guān)鍵在于與下游應(yīng)用分布的對齊。    

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

圖2:注釋者ROC-AUC評分與基準(zhǔn)測試pass@1之間的相關(guān)性。

學(xué)習(xí)率調(diào)度 論文還在表5中研究了不同的學(xué)習(xí)率調(diào)度策略,包括(1)從最小預(yù)訓(xùn)練學(xué)習(xí)率線性退火至零,(2)使用最小預(yù)訓(xùn)練學(xué)習(xí)率的恒定調(diào)度,以及(3)重新預(yù)熱至最大預(yù)訓(xùn)練學(xué)習(xí)率后線性衰減至零。根據(jù)經(jīng)驗,論文發(fā)現(xiàn)重新預(yù)熱方法表現(xiàn)最佳,并在所有其他關(guān)于繼續(xù)預(yù)訓(xùn)練的實驗中一致使用。

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

高質(zhì)量數(shù)據(jù)重復(fù)次數(shù) 最后,論文將預(yù)訓(xùn)練的token范圍從10 B擴(kuò)展到50 B。剩下的一個問題是如何確定高質(zhì)量token的最佳重復(fù)次數(shù)。論文通過選擇由ANN-HQINS排名的前百分位token進(jìn)行實驗,重復(fù)次數(shù)從1到5,如表6所示。在這種情況下,前百分位token是最高質(zhì)量的token。例如,1 x 50B表示前50B token的一次重復(fù),而4 X12.5B表示前12.5B token的四次重復(fù),確保所選token的質(zhì)量最佳。

根據(jù)表中的結(jié)果,重復(fù)高質(zhì)量token四次(4 x 12.5B)在下游多個評估指標(biāo)中任務(wù)中表現(xiàn)最佳,四次重復(fù)(4 x 12.5B)在HumanEval和EvoEval中得分最高。兩次重復(fù)( 2 X25.0B )和三次重復(fù)( 3 X16.7B )也表現(xiàn)出強(qiáng)勁的性能,特別是在mbpp中。五次重復(fù)( 5 x10.0B )在MBPP中得分最高,但在總體指標(biāo)上未超過四次重復(fù)。一次重復(fù)( 1 x50.0B )與多次重復(fù)相比,改進(jìn)最小。

表6:使用ANN-HQINS在50B繼續(xù)預(yù)訓(xùn)練中不同高質(zhì)量數(shù)據(jù)重復(fù)次數(shù)的下游性能。    

Arctic-SnowCoder揭秘:小數(shù)據(jù)如何煉成高性能代碼模型?-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美一级做性受免费大片免费| 手机看片日韩av| av色在线观看| 久久久久国产精品麻豆| 国产免费一区视频观看免费 | 成人高清dvd| 性插视频在线观看| 蜜芽一区二区三区| 久久久久久久久网站| 无码一区二区三区在线| 欧美片网站免费| 福利精品视频在线| 中文字幕一区二区三区乱码| 内射后入在线观看一区| 热久久一区二区| 国a精品视频大全| 国产黄a三级三级| 少妇精品导航| 日韩午夜电影在线观看| 国产一区亚洲二区三区| 成人区精品一区二区不卡| 91看片淫黄大片一级在线观看| 国产精品网址在线| 少妇一级淫片免费放中国| 婷婷伊人综合| 亚洲色图国产精品| 中文在线观看免费视频| 福利精品在线| 色综合久久中文字幕综合网| 国产尤物av一区二区三区| av网站在线免费观看| www.性欧美| 99精品在线直播| 国产剧情精品在线| 青椒成人免费视频| 国产不卡av在线免费观看| 日韩乱码在线观看| 国产在线欧美| 欧美成人免费网| 91精品久久久久久久久久久久| 中文字幕日韩高清在线| 7799精品视频| gogogo高清免费观看在线视频| 中文字幕乱码中文乱码51精品| 欧美激情一区二区三区全黄| 久久狠狠久久综合桃花| 色一情一乱一区二区三区| 国产福利精品导航| 51国偷自产一区二区三区的来源| 国产成人无码av| 亚洲麻豆视频| 97久久精品国产| 亚欧视频在线观看| 亚洲精品日韩久久| 国产69精品久久久久99| 国产精品111| 精品999成人| 国内精品美女av在线播放| 久久久久久久福利| 亚洲三级毛片| 欧美在线一级视频| 潘金莲一级淫片aaaaaa播放| 美女尤物久久精品| 国产精品久久久av久久久| 精品久久久久久久久久久久久久久久久久| 一区福利视频| 欧美亚洲成人网| 亚洲 欧美 中文字幕| 日韩二区在线观看| 91免费福利视频| 精品人妻伦一区二区三区久久 | 国产又黄又猛的视频| 国内自拍亚洲| 日韩三级av在线播放| av天堂一区二区| 日本天堂一区| 在线观看久久久久久| 久久一级免费视频| 午夜精品久久| 91禁国产网站| 五月激情丁香网| 国产精品综合一区二区| 国产一区二区黄色| 国产一区二区三区福利| 最新欧美精品一区二区三区| 国产精品国三级国产av| 亚洲性受xxx喷奶水| 欧美日韩一区小说| av在线天堂网| 精品美女久久| 欧美日本中文字幕| 亚洲欧美日韩激情| 激情都市一区二区| 国产一区二区高清不卡| 中文日本在线观看| 亚洲成a人片综合在线| 国产精品亚洲二区在线观看| 麻豆久久一区| 亚洲天堂2020| 久久国产精品波多野结衣| 美女国产一区| 99国产超薄肉色丝袜交足的后果| 天天操天天干天天爱| 中文字幕精品一区二区精品绿巨人| 在线免费观看成人| 蜜桃视频m3u8在线观看| 3atv在线一区二区三区| 色婷婷av777| 欧美性色综合| 国产有码一区二区| 亚洲人视频在线观看| 亚洲日本va在线观看| 国产淫片av片久久久久久| 97se亚洲| 超碰91人人草人人干| 五月天婷婷导航| 国产99久久久国产精品免费看| 欧美二区在线| 91超碰国产在线| 日韩欧美一区二区视频| 黄色国产在线播放| 老司机亚洲精品| 精品视频高清无人区区二区三区| 欧美jizzhd欧美| 色婷婷综合久久久中文字幕| 午夜免费福利影院| 欧美日韩精品免费观看视频完整| 2019中文字幕在线| 丰满少妇被猛烈进入| 亚洲欧美怡红院| www.com黄色片| 国产一区二区三区日韩精品| 97国产精品视频| 俄罗斯嫩小性bbwbbw| 亚洲精品国产无天堂网2021| 15—17女人毛片| 国产精品亚洲人成在99www| 久久久久久久久久久91| 国产成人久久精品77777综合 | 婷婷久久青草热一区二区| 欧美少妇精品| 亚洲第一av在线| 国产无码精品久久久| 国产成人综合在线观看| 国产一二三四区在线观看| 日韩一级视频| 久久婷婷国产麻豆91天堂| 91av久久久| 亚洲视频在线观看一区| 亚洲精品成人在线播放| 香蕉视频国产精品| 91亚洲午夜在线| 影音先锋在线播放| 精品国产凹凸成av人导航| 久久久久久久国产视频| 成人精品视频.| 国精产品一区一区三区视频| 牛牛视频精品一区二区不卡| 欧洲永久精品大片ww免费漫画| 人妻少妇精品无码专区久久| 亚洲一区二区欧美| 亚洲男女在线观看| 免费精品视频| 亚洲欧美日韩精品在线| 欧美黑粗硬大| 欧美精品在线免费播放| 亚洲黄色小说网址| 精品人伦一区二区三区蜜桃网站| 女同性恋一区二区三区| 午夜在线精品偷拍| 亚洲综合视频一区| 久久久久久久久成人| 精品中文字幕在线2019| 天天射天天操天天干| 日韩欧美在线视频日韩欧美在线视频 | 97精品视频在线播放| 欧洲成人一区二区三区| 色综合天天在线| 国产在线观看免费视频软件| 国产成人综合亚洲网站| 欧美国产亚洲一区| 久久在线免费| 国产伦精品一区二区三区视频孕妇 | 精品亚洲美女网站| 日韩在线观看视频免费| 亚洲女同志亚洲女同女播放| 色综合天天做天天爱| 美女网站视频色| 丁香婷婷综合五月| 91香蕉视频导航| 欧美网站在线| 亚洲成人网上| 久久久久影视| 成人免费自拍视频| 韩日成人影院| 欧美寡妇偷汉性猛交| 日本黄色三级视频| 欧美午夜影院一区| 国产一级特黄毛片| 国产精品狼人久久影院观看方式| 午夜视频在线免费看| 久久青草久久| 福利视频一区二区三区四区| 成人网18免费网站| 精品久久精品久久| 精品国产一区二区三区2021| 国产黑人绿帽在线第一区| 青青青草视频在线| 色婷婷综合久久久久中文字幕1| 国产成年妇视频| 欧美日韩久久一区二区| 国产情侣在线视频| 亚洲欧美偷拍三级| 微拍福利一区二区| 9l国产精品久久久久麻豆| 中文字幕在线视频精品| 视频一区二区中文字幕| 精品视频在线观看一区| 天堂网在线观看国产精品| 欧美日韩国产一二| 精品丝袜久久| 成人av男人的天堂| 二区三区精品| 国产一区在线播放| 国产a亚洲精品| 国产91亚洲精品| 性欧美又大又长又硬| 欧美激情亚洲综合一区| 久久日韩视频| 视频直播国产精品| 成人福利在线| 亚洲日韩第一页| 四虎电影院在线观看| 日韩视频免费直播| av一区二区三| 91精品国产91久久久久久一区二区| 伊人中文字幕在线观看| 午夜精品福利一区二区三区蜜桃| 日韩欧美综合视频| 成人免费在线播放视频| www.xx日本| 亚洲欧美一区二区视频| 蜜桃av.com| 自拍av一区二区三区| 91传媒免费观看| 亚洲视频一区二区在线观看| 国精产品一区一区二区三区mba| 久久精品水蜜桃av综合天堂| 人妻体内射精一区二区| 久久久久久久久久美女| 欧美另类z0zx974| 国产亚洲精品超碰| 天天操天天舔天天射| 国产精品久久久久久亚洲伦 | 777视频在线| 美女视频黄a大片欧美| 国产三级生活片| 国产成人欧美日韩在线电影| 91超薄肉色丝袜交足高跟凉鞋| 国产激情精品久久久第一区二区| 成人综合久久网| 国产乱子伦一区二区三区国色天香 | 147欧美人体大胆444| 美女精品久久| 国产精品手机在线| 九色丨蝌蚪丨成人| 免费亚洲一区二区| 精品理论电影| 免费成人深夜夜行网站视频| 女人色偷偷aa久久天堂| 日本福利视频一区| 视频一区二区三区在线| 亚洲天堂网2018| 成人av电影免费在线播放| 成年人网站免费看| 一区在线中文字幕| 久久9999久久免费精品国产| 一道本成人在线| 一级淫片免费看| 亚洲成人av片| porn视频在线观看| 色综合91久久精品中文字幕| 中老年在线免费视频| 国产一区视频在线播放| 国产精品色在线网站| 日日骚一区二区网站| 欧美freesex交免费视频| 亚欧无线一线二线三线区别| 久久99精品网久久| 好吊一区二区三区视频| 综合久久久久久| 天天干天天干天天干天天| 欧美日韩国产经典色站一区二区三区| 97人妻精品视频一区| 日韩欧美你懂的| 福利片在线观看| 欧美高清视频免费观看| 国产成+人+综合+亚洲欧美| 国产精品免费区二区三区观看| 欧美成人基地| 中文字幕精品一区日韩| 国产日韩欧美| 国产九九九视频| 国产欧美综合色| 日韩三级视频在线| 91精品国产高清一区二区三区蜜臀| 欧洲av在线播放| 久久中文字幕在线视频| 欧美大片高清| 国产精品一区二区三区在线| 久久在线视频| 老头吃奶性行交视频| 成年人国产精品| 五月天丁香激情| 欧美精品久久天天躁| 免费国产在线观看| 午夜精品久久久久久99热| 精品视频成人| 在线看视频不卡| 蜜桃视频在线一区| 中国毛片在线观看| 午夜不卡av免费| 欧美性受xxxx狂喷水| 欧美日本亚洲视频| 欧美一区一区| 黑人巨大国产9丨视频| 看片网站欧美日韩| 蜜桃av免费在线观看| 欧美亚洲国产一区二区三区| 欧美伦理影视网| 欧美在线视频一区二区| 老司机精品在线| 俄罗斯av网站| 97国产一区二区| 制服.丝袜.亚洲.中文.综合懂色| 日韩欧美一区二区久久婷婷| 毛片在线不卡| 成人免费高清完整版在线观看| 精品国产乱码久久久久久果冻传媒| 欧美 日韩 国产在线观看| 99久久婷婷国产| 九九热精品视频在线| 日韩精品在线视频美女| a一区二区三区| 欧美亚洲爱爱另类综合| 久久婷婷av| 亚洲av无码国产精品麻豆天美| 调教+趴+乳夹+国产+精品| 日日夜夜精品免费| 91精品国产99| 国产欧美日韩在线观看视频| 欧美成人精品欧美一级乱| 国产日韩欧美激情| 最新中文字幕在线观看视频| 在线电影av不卡网址| 久久久久毛片| 久久精品国产精品亚洲精品色| 麻豆精品久久精品色综合| 国产小视频你懂的| 欧美一区二区二区| 国产盗摄精品一区二区酒店| 久精品国产欧美| 视频一区视频二区中文字幕| 国产人与禽zoz0性伦| 日韩一区二区三区视频| 91吃瓜在线观看| 欧美福利一区二区三区| 麻豆精品国产传媒mv男同| 日本妇女毛茸茸| 日韩电影免费在线观看中文字幕| 国产在线天堂www网在线观看| 精品蜜桃一区二区三区| 日韩影院免费视频| 亚洲 欧美 变态 另类 综合| 欧美一级一区二区| 97超碰免费在线| 亚洲精品在线观看免费| 国产精品原创巨作av| 天天插天天操天天干| 尤物精品国产第一福利三区| 国产精品一区免费在线| 无码专区aaaaaa免费视频| 中文字幕精品一区二区三区精品| 一本一道精品欧美中文字幕| 久久久免费精品视频| 精品国产一级毛片| 丰满人妻一区二区三区大胸| 色婷婷激情综合| 成人短视频在线| 欧美日韩另类综合| 国产高清一区日本| 日批视频免费在线观看| 欧美精品午夜视频| 欧美限制电影| 精品一区二区三区四区五区六区| 日本韩国精品在线| 欧洲成人综合网| 亚洲一区二区不卡视频| 不卡电影免费在线播放一区| 国产一区二区三区视频免费观看 |