精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<strike id="ookq2"><input id="ookq2"></input></strike>

<blockquote id="ookq2"></blockquote>

<strike id="ookq2"><rt id="ookq2"></rt></strike>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？

發(fā)布于 2024-9-19 12:48

瀏覽

0收藏

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

一、結(jié)論寫在前面

論文標(biāo)題：Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

論文鏈接：??https://arxiv.org/pdf/2409.02326??

高質(zhì)量數(shù)據(jù)對于語言模型的有效預(yù)訓(xùn)練至關(guān)重要。然而，“高質(zhì)量”的精確定義仍未得到充分探索。

聚焦于代碼領(lǐng)域，論文引入了Arctic-SnowCoder-1.3B，這是一個數(shù)據(jù)高效的基礎(chǔ)代碼模型，通過三個階段的逐步精煉數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，共處理了555B token：(1) 使用500B個標(biāo)準(zhǔn)質(zhì)量代碼token進(jìn)行通用預(yù)訓(xùn)練，經(jīng)過基本過濾、去重和去污染預(yù)處理；(2) 使用50B個高質(zhì)量token進(jìn)行持續(xù)預(yù)訓(xùn)練，這些token從第一階段中通過BERT風(fēng)格的質(zhì)量注釋器選出，該注釋器經(jīng)過訓(xùn)練以區(qū)分優(yōu)質(zhì)代碼與隨機(jī)數(shù)據(jù)，使用從高質(zhì)量代碼文件中提取的正例，以及來自Magicoder和StarCoder2-Instruct的指令數(shù)據(jù)；(3) 使用5B個合成數(shù)據(jù)進(jìn)行增強(qiáng)預(yù)訓(xùn)練，這些數(shù)據(jù)由Llama-3.1-70B使用第二階段數(shù)據(jù)作為種子生成，采用Magicoder的預(yù)訓(xùn)練方法。

僅僅訓(xùn)練有限數(shù)據(jù)集，Arctic-SnowCoder-1.3B在BigCodeBench上取得了SOTA的結(jié)果，這是一個專注于實際和具有挑戰(zhàn)性的編程任務(wù)的編碼基準(zhǔn)，在訓(xùn)練了小于等于 1T tokens的類似大小的模型中。特別是，它比Phi-1.5-1.3B [20]高出36%。盡管訓(xùn)練數(shù)據(jù)量為555B tokens，與其他在萬億tokens上訓(xùn)練的最先進(jìn)的小型代碼模型相比，Arctic-SnowCoder在多個基準(zhǔn)測試中達(dá)到了或超過了這些模型的性能。

例如，Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中擊敗了StarCoderBase-3B，后者訓(xùn)練數(shù)據(jù)超過1T tokens。Arctic-SnowCoder-1.3B在HumanEval+ （28.0 vs. 27.4）上優(yōu)于StarCoder2-3B，后者訓(xùn)練數(shù)據(jù)超過3T tokens，這是一個評估函數(shù)級代碼生成的基準(zhǔn)，同時在BigCodeBench（19.4 vs. 21.4）上保持競爭力。論文進(jìn)行了全面的消融研究，以驗證訓(xùn)練Arctic-SnowCoder背后的設(shè)計決策：

?首先，論文的研究結(jié)果表明，在一般預(yù)訓(xùn)練中，將文件級數(shù)據(jù)按編程語言劃分成倉庫后，顯著優(yōu)于僅按倉庫名稱分組數(shù)據(jù)的方法。

?此外，論文確定了最佳的學(xué)習(xí)率計劃，包括重新預(yù)熱階段后進(jìn)行線性衰減，以及在持續(xù)預(yù)訓(xùn)練期間高質(zhì)量數(shù)據(jù)的理想重復(fù)次數(shù)，論文發(fā)現(xiàn)是四次。

?更重要的是，論文對基于模型的質(zhì)量注釋器的比較，這些注釋器在各種數(shù)據(jù)組合上進(jìn)行訓(xùn)練，強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)的對齊對于實現(xiàn)卓越性能至關(guān)重要。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

圖1：Arctic-SnowCoder-1.3B的三階段預(yù)訓(xùn)練，逐步使用更高質(zhì)量的數(shù)據(jù)。

二、論文的簡單介紹

2.1 論文的背景

預(yù)訓(xùn)練LLMs通常依賴于大量數(shù)據(jù)。在代碼等專業(yè)領(lǐng)域，這種對數(shù)據(jù)量的重視尤為明顯，研究人員通過抓取GitHub等平臺獲取大量代碼預(yù)訓(xùn)練數(shù)據(jù)集。然而，最近的研究越來越表明，高質(zhì)量的數(shù)據(jù)對于有效的預(yù)訓(xùn)練至關(guān)重要, 包括代碼領(lǐng)域。

在通用領(lǐng)域，研究人員探索了多種技術(shù)來策劃高質(zhì)量的語言模型預(yù)訓(xùn)練數(shù)據(jù)。FineWeb-Edu使用基于Snowflake-arctic-embed-m嵌入構(gòu)建的線性回歸器來評估網(wǎng)頁的教育價值并選擇高質(zhì)量內(nèi)容，而DCLM方法則采用基于fastText的過濾器，該過濾器在高質(zhì)量在線資源和指令數(shù)據(jù)的正例以及隨機(jī)負(fù)例網(wǎng)頁上進(jìn)行訓(xùn)練，以識別高質(zhì)量文本。與使用未過濾的大規(guī)模數(shù)據(jù)集相比，這些基于模型的質(zhì)量過濾器顯著提高了語言模型在下游任務(wù)中的性能。

同樣，研究人員也認(rèn)識到高質(zhì)量代碼數(shù)據(jù)對于預(yù)訓(xùn)練的重要性，Phi-1使用隨機(jī)森林分類器在Code-Gen嵌入上選擇教育性代碼樣本，DeepSeek-Coder-V2采用多階段fastText管道來召回與網(wǎng)絡(luò)相關(guān)的代碼數(shù)據(jù)和GitHub上的高質(zhì)量代碼，實現(xiàn)了最先進(jìn)的編碼性能。

在本文中，論文介紹了Arctic-SnowCoder-1.3B，這是一個高性能的小型代碼模型，通過一種新穎的三步訓(xùn)練方法創(chuàng)建，專注于數(shù)據(jù)質(zhì)量的逐步提升。得益于這種方法，Arctic-SnowCoder-1.3B在所有評估的基準(zhǔn)測試中均優(yōu)于StarCoderBase-3B [19]，并在復(fù)雜且實用的BigCodeBench基準(zhǔn)測試 [46] 上超越Phi-1.5-1.3B [20] 36%，該基準(zhǔn)對實際編程至關(guān)重要。

2.2 論文的方法--Arctic-SnowCoder

這里論文將詳細(xì)解釋Arctic-SnowCoder-1.3B的訓(xùn)練方法，如圖1所示。論文首先討論原始訓(xùn)練數(shù)據(jù)的組成（見圖1），然后概述通用預(yù)訓(xùn)練階段。接下來，論文描述使用高質(zhì)量數(shù)據(jù)的協(xié)同預(yù)訓(xùn)練過程，最后，論文詳細(xì)闡述使用合成數(shù)據(jù)的增強(qiáng)預(yù)訓(xùn)練。模型架構(gòu)基于Llama-2，具體細(xì)節(jié)見表1。

表1：Arctic-SnowCoder的模型架構(gòu)細(xì)節(jié)。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

2.2.1原始數(shù)據(jù)

用于訓(xùn)練Arctic-SnowCoder-1.3B的原始預(yù)訓(xùn)練數(shù)據(jù)僅包含代碼，主要來源于用于訓(xùn)練Snowflake Arctic的編碼數(shù)據(jù)。該數(shù)據(jù)結(jié)合了The Stack v1和GitHub爬取數(shù)據(jù)的清洗后版本。從這些數(shù)據(jù)中，論文選擇了18種流行的編程語言進(jìn)行訓(xùn)練，類似于StarCoder2-3B。這些語言包括Python、Java、C++、C 、JavaScript、PHP、C#、Go、TypeScript、SQL、Ruby、Rust、Jupyter Notebook、Scala、Kotlin、Shell、vart、Swift，總計400B唯一token。

2.2.2 通用預(yù)訓(xùn)練

在通用預(yù)訓(xùn)練階段，模型使用Adam進(jìn)行訓(xùn)練，訓(xùn)練500B token，序列長度為8192，批量大小為512。學(xué)習(xí)率在600次迭代后進(jìn)行線性預(yù)熱，隨后遵循余弦衰減。論文設(shè)置最大學(xué)習(xí)率為5.3x 10^{-4}，最小學(xué)習(xí)率為5.3 x 10^{-5}，這一設(shè)置參考了DeepSeek-Coder。在此階段，論文使用了全部400B原始數(shù)據(jù)，未進(jìn)行額外的質(zhì)量過濾。論文首先按編程語言對代碼文件進(jìn)行分區(qū)，按倉庫進(jìn)行分組，然后以隨機(jī)順序連接它們，類似于StarCoder2的方法。論文展示了首先按編程語言對代碼文件進(jìn)行分區(qū)的優(yōu)勢。論文將此階段生成的模型命名為Arctic-SnowCoder-alpha。

2.2.3 高質(zhì)量數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練(Continued pretraining)

在通用預(yù)訓(xùn)練之后，論文使用從相同原始預(yù)訓(xùn)練語料庫中提取的50B高質(zhì)量token繼續(xù)預(yù)訓(xùn)練Arctic-SnowCoder-alpha。這50B高質(zhì)量token是通過將12.5B個由論文的代碼質(zhì)量注釋器評分的前百分位代碼文件token重復(fù)4次形成的。

受FineWeb-Edu和DCLM的啟發(fā)，論文在基于BERT的先進(jìn)嵌入模型Snowflake-arctic-embed-m之上訓(xùn)練了一個線性分類頭。訓(xùn)練數(shù)據(jù)包括30萬個正樣本，采樣自22萬個高質(zhì)量開源代碼文件、8萬個來自Magicoder和StarCoder2-Instruct的高質(zhì)量指令數(shù)據(jù)，以及從預(yù)訓(xùn)練語料庫中隨機(jī)選擇的300個代碼文檔。

關(guān)于代碼質(zhì)量的先前研究，如Phi-1，往往過分強(qiáng)調(diào)代碼的“教育價值”，使模型偏向于像HumanEva這樣的簡單基準(zhǔn)。論文展示了論文的注釋方法能夠帶來更平衡的模型能力提升。

此外，鑒于這些代碼文檔通常超過1000個token，超過了BERT的512個token的上下文窗口大小，論文改進(jìn)了FineWeb-Edu的流程，通過平均質(zhì)量注釋器產(chǎn)生的頂部、中部和底部部分的分?jǐn)?shù)來計算每個文件的分?jǐn)?shù)。在此階段，論文從0到最大預(yù)訓(xùn)練學(xué)習(xí)率5.3x 10^{-4}進(jìn)行1000次迭代的學(xué)習(xí)率預(yù)熱，隨后進(jìn)行線性衰減至0。此階段生成的模型稱為Arctic-SnowCoder-beta。

2.2.4 使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練

在增強(qiáng)預(yù)訓(xùn)練階段，論文利用Llama-3.1-70B-Instruct 生成比持續(xù)預(yù)訓(xùn)練階段更高質(zhì)量的數(shù)據(jù)，并將Python混合比例提高到約50%，同時保持其他語言的比例不變。Phi-1 [13]表明，類似教科書的合成預(yù)訓(xùn)練數(shù)據(jù)可以顯著提升模型性能。

然而，過度依賴此類數(shù)據(jù)可能會導(dǎo)致模型分布偏斜，從而可能損害其在實際編碼任務(wù)中的有效性。例如，論文后面展示的，Phi-1.5在HumanEvalt和MBPP+上表現(xiàn)出色，這些任務(wù)類似于教科書練習(xí)，但在BigCodeBench [46]中更復(fù)雜和實用的編碼任務(wù)上表現(xiàn)較差。為了解決這個問題，論文改編了Magicoder的OSS-Instruct方法用于預(yù)訓(xùn)練。最初，OSS-Instruct旨在通過提示模型創(chuàng)建受開源代碼片段啟發(fā)的問答對來生成現(xiàn)實的指令調(diào)優(yōu)數(shù)據(jù)。

相比之下，論文通過使用Llama-3.1-70B-Instruct生成高質(zhì)量和面向問題解決的代碼文件來生成高質(zhì)量的合成預(yù)訓(xùn)練數(shù)據(jù)，這些代碼文件以持續(xù)預(yù)訓(xùn)練階段中評分最高的代碼文檔為種子。后面論文展示了每個預(yù)訓(xùn)練階段都顯著優(yōu)于前一個階段，突顯了逐步提高數(shù)據(jù)質(zhì)量的有效性。

2.3 論文的效果

這里論文將Arctic-SnowCoder與最先進(jìn)的小型語言模型進(jìn)行比較，并展示了每個預(yù)訓(xùn)練階段的性能提升，評估了兩種形成通用預(yù)訓(xùn)練中倉庫級別數(shù)據(jù)的策略，并對持續(xù)預(yù)訓(xùn)練中的設(shè)計選擇進(jìn)行了詳細(xì)的消融分析。

2.3.1 實驗設(shè)置

論文考慮以下四個多樣化的編程基準(zhǔn)，以全面評估不同代碼模型的代碼生成能力：

?HumanEval+和MBPP+ 。HumanEval和MBPP是用于函數(shù)級代碼生成的兩個最廣泛使用的基準(zhǔn)。論文采用了EvalPlus增強(qiáng)的版本，提供了80倍/35倍的更多測試用例以進(jìn)行嚴(yán)格評估。HumanEvalt和MBPP+分別包含164和378個編碼問題。

?EvoEval 是一個程序合成基準(zhǔn)測試套件，通過將現(xiàn)有基準(zhǔn)測試演化為不同的目標(biāo)領(lǐng)域而創(chuàng)建。論文采用了其五個默認(rèn)的轉(zhuǎn)換類別，即困難、創(chuàng)造性、微妙、組合和工具使用，總計500個任務(wù)。

?BigCodeBench 通過實際且具有挑戰(zhàn)性的編程任務(wù)評估語言模型。它包含1140個編程任務(wù)，每個任務(wù)都是通過人類與語言模型的協(xié)作創(chuàng)建的，任務(wù)質(zhì)量由人類專家保證。

2.3.2 基線比較與三階段預(yù)訓(xùn)練的有效性

表 2 ：將Arctic-SnowCoder與最先進(jìn)的小型語言模型 ( \mathrm{< 3 B} ) 進(jìn)行比較，按訓(xùn)練計算量 > 1T 標(biāo)記進(jìn)行劃分。Arctic-SnowCoder-alpha和Arctic-SnowCoder-beta分別是通用預(yù)訓(xùn)練和繼續(xù)使用高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練后的檢查點(diǎn)。Arctic-SnowCoder是使用合成數(shù)據(jù)增強(qiáng)預(yù)訓(xùn)練后的最終檢查點(diǎn)。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

表2展示了多種小型語言模型（參數(shù)少于3B）在多個編碼基準(zhǔn)上的綜合比較，按其訓(xùn)練計算是否超過1T tokens進(jìn)行分類。值得注意的是，Arctic-SnowCoder表現(xiàn)出色，特別是在其有限的訓(xùn)練數(shù)據(jù)下。Arctic-SnowCoder-1.3B在BigCodeBench上達(dá)到了與訓(xùn)練數(shù)據(jù)不超過1T token的同類模型相比的最新性能，顯著優(yōu)于StarCoderBase-3B、SmolLM-1.7B和Phi-1.5-1.3B。特別是，盡管Phi-1.5-1.3B在“教科書式”基準(zhǔn)測試如HumanEval+、MBPP+和EvoEval上具有優(yōu)勢，但Arctic-SnowCoder-1.3B在更復(fù)雜和實用的Big-CodeBench上以36%的優(yōu)勢超越了Phi-1.5-1.3B。

此外，Arctic-SnowCoder-1.3B在所有評估基準(zhǔn)上均擊敗了StarCoderBase-3B，后者是StarCoder2-3B的前身，訓(xùn)練數(shù)據(jù)為1T tokens。盡管僅訓(xùn)練了555B tokens，Arctic-SnowCoder-1.3B在HumanEvalt上與經(jīng)過更廣泛訓(xùn)練的模型如StarCoder2-3B、StableCode-3B、CodeGemma-2B-v1.0和Qwen1.5-1.8B相媲美甚至超越。在EvoEval和BigCodeBench上，Arctic-SnowCoder仍然具有競爭力。

此外，該表還突顯了Arctic-SnowCoder在其訓(xùn)練階段的持續(xù)改進(jìn)：Arctic-SnowCoder-alpha、Arctic-SnowCoder-beta和最終的Arctic-SnowCoder。每個階段都建立在前一階段的基礎(chǔ)上，Arctic-SnowCoder在所有基準(zhǔn)測試中均取得了最高分?jǐn)?shù)。這種穩(wěn)步提升強(qiáng)調(diào)了高質(zhì)量和合成數(shù)據(jù)在最終階段的關(guān)鍵作用。盡管從相同的數(shù)據(jù)開始，Arctic-SnowCoder的每次迭代都縮小了與最先進(jìn)模型的差距，展示了整體訓(xùn)練方法的有效性。

2.3.3 通用預(yù)訓(xùn)練中的倉庫級數(shù)據(jù)

在通用預(yù)訓(xùn)練階段，論文采用了StarCoder2的方法，通過隨機(jī)拼接文件內(nèi)容將文件級數(shù)據(jù)隨機(jī)分組到倉庫中。在表3中，論文研究了兩種方法：（1）僅按倉庫名稱對文件進(jìn)行分組，這意味著每個訓(xùn)練文檔可以是多語言代碼文件的混合，如果倉庫是用不同語言編寫的；（2）在將文件分組到倉庫之前，先按編程語言對文件進(jìn)行分區(qū)，這意味著每個訓(xùn)練文檔僅關(guān)注一種單一語言。

表3：兩種預(yù)訓(xùn)練方法對倉庫級別數(shù)據(jù)分組的比較。（1）“按倉庫分組”將每個倉庫視為一個可能混合多種語言的單一訓(xùn)練單元，以及（2）“按語言和倉庫分組”在按倉庫分組之前先按編程語言對數(shù)據(jù)進(jìn)行分區(qū)。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

論文可以觀察到，第二種方法，即論文在一般預(yù)訓(xùn)練中最終采用的方法，明顯優(yōu)于第一種方法。

2.3.4繼續(xù)預(yù)訓(xùn)練中的設(shè)計選擇

在繼續(xù)預(yù)訓(xùn)練中，論文從預(yù)訓(xùn)練語料庫中提取高質(zhì)量的token，并訓(xùn)練一個改進(jìn)的基礎(chǔ)模型。為了獲得高質(zhì)量的token，論文采用了基于模型的質(zhì)量標(biāo)注器。在本節(jié)中，論文實驗了各種設(shè)計選擇，包括標(biāo)注器的訓(xùn)練數(shù)據(jù)、繼續(xù)預(yù)訓(xùn)練中使用的學(xué)習(xí)率以及高質(zhì)量token的最佳重復(fù)次數(shù)。

基于模型的質(zhì)量標(biāo)注器類似于FineWeb-Edu ，論文在Snowf lake-arctic-embed-m嵌入模型之上訓(xùn)練一個線性頭來為每個代碼文件評分。在表4中，論文實驗了4種變體：

?ANN-EDU：論文提示Mixtral-8x7B-Instruct標(biāo)注每個代碼文件的教育價值（1到5）。使用400k標(biāo)注數(shù)據(jù)訓(xùn)練一個線性回歸頭。對于以下變體，類似于DCLM ，論文隨機(jī)采樣負(fù)文檔并僅更改正部分。使用線性分類頭。

?ANN-INs：正樣本是來自ANN-EDU的100k教育數(shù)據(jù)（3.5+）和來自Magicoder [41]和StarCoder2-Instruct [40]的100k高質(zhì)量指令數(shù)據(jù)的混合。

?ANN-HQ: 正樣本為220k開源、合成、高質(zhì)量代碼文件。

?ANN-HQINs: 正樣本為220k ANN-HQ訓(xùn)練數(shù)據(jù)與80k來自Magicoder[41]和StarCoder2-Instruct[40]的指令數(shù)據(jù)的混合。

表4: 通過應(yīng)用基于模型的質(zhì)量標(biāo)注器（使用不同配方訓(xùn)練）進(jìn)行10B繼續(xù)預(yù)訓(xùn)練的下游性能比較

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

訓(xùn)練標(biāo)注器后，論文首先將每個標(biāo)注器應(yīng)用于整個預(yù)訓(xùn)練語料庫，為每個文件獲取一個分?jǐn)?shù)。與僅掃描前2k字符的FineWeb-Edu不同，論文掃描代碼文件的頂部、中部和底部部分，并平均這些分?jǐn)?shù)。然后，論文根據(jù)這些分?jǐn)?shù)按語言對代碼文件進(jìn)行排名，并選擇前百分位的文檔，直到達(dá)到大約10 B token。論文保持與預(yù)訓(xùn)練中使用的相同混合比例。表中顯示，結(jié)合高質(zhì)量文件和指令數(shù)據(jù)的ANN-HQINS實現(xiàn)了最佳的下游性能。

論文在圖2中進(jìn)行了額外的分析。對于每個標(biāo)注者，論文創(chuàng)建了一個驗證數(shù)據(jù)集，其中正樣本來自代碼解決方案基準(zhǔn)，負(fù)樣本來自訓(xùn)練期間未見過的隨機(jī)預(yù)訓(xùn)練數(shù)據(jù)。論文使用ROC-AUC [6]（受試者工作特征曲線下面積）分?jǐn)?shù)來評估標(biāo)注者在基準(zhǔn)數(shù)據(jù)排名中的表現(xiàn)。該圖展示了每個基準(zhǔn)的ROC-AUC分?jǐn)?shù)與基準(zhǔn)通過率之間的相關(guān)性。幾乎一致的趨勢是：較高的ROC-AUC分?jǐn)?shù)導(dǎo)致更好的基準(zhǔn)性能。良好的ROC-AUC分?jǐn)?shù)表明標(biāo)注者有效地塑造了下游任務(wù)的分布。因此，高質(zhì)量的關(guān)鍵在于與下游應(yīng)用分布的對齊。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

圖2：注釋者ROC-AUC評分與基準(zhǔn)測試pass@1之間的相關(guān)性。

學(xué)習(xí)率調(diào)度論文還在表5中研究了不同的學(xué)習(xí)率調(diào)度策略，包括（1）從最小預(yù)訓(xùn)練學(xué)習(xí)率線性退火至零，（2）使用最小預(yù)訓(xùn)練學(xué)習(xí)率的恒定調(diào)度，以及（3）重新預(yù)熱至最大預(yù)訓(xùn)練學(xué)習(xí)率后線性衰減至零。根據(jù)經(jīng)驗，論文發(fā)現(xiàn)重新預(yù)熱方法表現(xiàn)最佳，并在所有其他關(guān)于繼續(xù)預(yù)訓(xùn)練的實驗中一致使用。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

高質(zhì)量數(shù)據(jù)重復(fù)次數(shù) 最后，論文將預(yù)訓(xùn)練的token范圍從10 B擴(kuò)展到50 B。剩下的一個問題是如何確定高質(zhì)量token的最佳重復(fù)次數(shù)。論文通過選擇由ANN-HQINS排名的前百分位token進(jìn)行實驗，重復(fù)次數(shù)從1到5，如表6所示。在這種情況下，前百分位token是最高質(zhì)量的token。例如，1 x 50B表示前50B token的一次重復(fù)，而4 X12.5B表示前12.5B token的四次重復(fù)，確保所選token的質(zhì)量最佳。

根據(jù)表中的結(jié)果，重復(fù)高質(zhì)量token四次（4 x 12.5B）在下游多個評估指標(biāo)中任務(wù)中表現(xiàn)最佳，四次重復(fù)（4 x 12.5B）在HumanEval和EvoEval中得分最高。兩次重復(fù)( 2 X25.0B )和三次重復(fù)( 3 X16.7B )也表現(xiàn)出強(qiáng)勁的性能，特別是在mbpp中。五次重復(fù)( 5 x10.0B )在MBPP中得分最高，但在總體指標(biāo)上未超過四次重復(fù)。一次重復(fù)( 1 x50.0B )與多次重復(fù)相比，改進(jìn)最小。

表6：使用ANN-HQINS在50B繼續(xù)預(yù)訓(xùn)練中不同高質(zhì)量數(shù)據(jù)重復(fù)次數(shù)的下游性能。

Arctic-SnowCoder揭秘：小數(shù)據(jù)如何煉成高性能代碼模型？-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI帝國??，作者：無影寺

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

谷歌開源專業(yè)代碼模型：對硬件要求低，性能超強(qiáng)！

Aceryt ? 4690瀏覽 ? 0回復(fù)
Llama-3的競爭對手來了——可運(yùn)行在iPhone上的小體量高性能LLM模型Phi-3

51CTO內(nèi)容精選 ? 4934瀏覽 ? 0回復(fù)
騰訊PCG自研高性能大語言模型推理引擎「一念LLM」正式開源

輕薄滴假象 ? 5323瀏覽 ? 0回復(fù)
突破AI性能瓶頸！揭秘LLaMA-MoE模型的高效神經(jīng)元分配策略

AI論文解讀 ? 4294瀏覽 ? 0回復(fù)
中科大聯(lián)合華為諾亞提出Entropy Law，揭秘大模型性能、數(shù)據(jù)壓縮率以及訓(xùn)練損失關(guān)系

輕薄滴假象 ? 4109瀏覽 ? 0回復(fù)
BERT如何增強(qiáng)NLP的性能

51CTO內(nèi)容精選 ? 3384瀏覽 ? 0回復(fù)
如何獲取高質(zhì)量數(shù)據(jù)進(jìn)行代碼指令調(diào)優(yōu)？

NLP工作站 ? 4203瀏覽 ? 0回復(fù)
如何改進(jìn)RAG模型的性能？

51CTO內(nèi)容精選 ? 3981瀏覽 ? 0回復(fù)
Unsloth揭秘：如何將模型微調(diào)效率提升2-5倍

穿越時空111 ? 1.2w瀏覽 ? 0回復(fù)
Zyphra發(fā)布Zamba2-7B：新一代高性能小型語言模型

Halo咯咯 ? 4058瀏覽 ? 0回復(fù)
兩篇論文：面向AI/ML集群的高性能網(wǎng)絡(luò)傳輸協(xié)議優(yōu)化研究

chengganfei ? 5870瀏覽 ? 0回復(fù)
【AI模型對比】AI新寵Kimi與ChatGPT的全面對比：技術(shù)、性能、應(yīng)用全揭秘

唐克 ? 9603瀏覽 ? 0回復(fù)
Meta AI 發(fā)布 Llama Guard 3-1B-INT4：用于人機(jī)對話的緊湊型高性能 AI 審核模型

Halo咯咯 ? 4464瀏覽 ? 0回復(fù)
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 3950瀏覽 ? 0回復(fù)
揭秘！如何將動效描述自動轉(zhuǎn)化為動效代碼

快手技術(shù) ? 3539瀏覽 ? 0回復(fù)
中科大揭秘微調(diào)大模型的秘訣：如何精準(zhǔn)選擇數(shù)據(jù)提升AI性能

AI論文解讀 ? 4952瀏覽 ? 0回復(fù)
低成本+高性能+超靈活！Deepseek 671B + Milvus 重新定義知識庫搭建！

玄姐聊AGI ? 7484瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 6021瀏覽 ? 0回復(fù)
4000+實驗揭秘：如何在512個GPU上訓(xùn)練大語言模型？

sbf_2000 ? 3904瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

The Station：AI驅(qū)動科學(xué)發(fā)現(xiàn)的開放世界環(huán)境 4天前發(fā)布
PAN：通用、可交互、長時程的世界模型 4天前發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識圖譜，實現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)

2025 年最強(qiáng) OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復(fù)

8%價格，2倍速度！國產(chǎn)MiniMax M2暴打Claude Sonnet 4.5？我們實測后發(fā)現(xiàn)堪稱性價比之王！ 0回復(fù)

上一篇：在長上下文LLM的時代，RAG是否仍然必要？

下一篇： Llama 3.2：AI視覺革新，手機(jī)也能跑大模型

社區(qū)精華內(nèi)容

目錄

欧美一级做性受免费大片免费| 手机看片日韩av| av色在线观看| 久久久久国产精品麻豆| 国产免费一区视频观看免费 | 成人高清dvd| 性插视频在线观看| 蜜芽一区二区三区| 久久久久久久久网站| 无码一区二区三区在线| 欧美片网站免费| 福利精品视频在线| 中文字幕一区二区三区乱码| 内射后入在线观看一区| 热久久一区二区| 国a精品视频大全| 国产黄a三级三级| 少妇精品导航| 日韩午夜电影在线观看| 国产一区亚洲二区三区| 成人区精品一区二区不卡| 91看片淫黄大片一级在线观看| 国产精品网址在线| 少妇一级淫片免费放中国| 婷婷伊人综合| 亚洲色图国产精品| 中文在线观看免费视频| 福利精品在线| 色综合久久中文字幕综合网| 国产尤物av一区二区三区| av网站在线免费观看| www.性欧美| 99精品在线直播| 国产剧情精品在线| 青椒成人免费视频| 国产不卡av在线免费观看| 日韩乱码在线观看| 国产在线欧美| 欧美成人免费网| 91精品久久久久久久久久久久| 中文字幕日韩高清在线| 7799精品视频| gogogo高清免费观看在线视频| 中文字幕乱码中文乱码51精品| 欧美激情一区二区三区全黄| 久久狠狠久久综合桃花| 色一情一乱一区二区三区| 国产福利精品导航| 51国偷自产一区二区三区的来源| 国产成人无码av| 亚洲麻豆视频| 97久久精品国产| 亚欧视频在线观看| 亚洲精品日韩久久| 国产69精品久久久久99| 国产精品111| 精品999成人| 国内精品美女av在线播放| 久久久久久久福利| 亚洲三级毛片| 欧美在线一级视频| 潘金莲一级淫片aaaaaa播放| 美女尤物久久精品| 国产精品久久久av久久久| 精品久久久久久久久久久久久久久久久久| 一区福利视频| 欧美亚洲成人网| 亚洲欧美中文字幕| 日韩二区在线观看| 91免费福利视频| 精品人妻伦一区二区三区久久 | 国产又黄又猛的视频| 国内自拍亚洲| 日韩三级av在线播放| av天堂一区二区| 日本天堂一区| 在线观看久久久久久| 久久一级免费视频| 午夜精品久久| 91禁国产网站| 五月激情丁香网| 国产精品综合一区二区| 国产一区二区黄色| 国产一区二区三区福利| 最新欧美精品一区二区三区| 国产精品国三级国产av| 亚洲性受xxx喷奶水| 欧美日韩一区小说| av在线天堂网| 精品美女久久| 欧美日本中文字幕| 亚洲欧美日韩激情| 激情都市一区二区| 国产一区二区高清不卡| 中文日本在线观看| 亚洲成a人片综合在线| 国产精品亚洲二区在线观看| 麻豆久久一区| 亚洲天堂2020| 久久国产精品波多野结衣| 美女国产一区| 99国产超薄肉色丝袜交足的后果| 天天操天天干天天爱| 中文字幕精品一区二区精品绿巨人| 在线免费观看成人| 蜜桃视频m3u8在线观看| 3atv在线一区二区三区| 色婷婷av777| 欧美性色综合| 国产有码一区二区| 亚洲人视频在线观看| 亚洲日本va在线观看| 国产淫片av片久久久久久| 97se亚洲| 超碰91人人草人人干| 五月天婷婷导航| 国产99久久久国产精品免费看| 欧美二区在线| 91超碰国产在线| 日韩欧美一区二区视频| 黄色国产在线播放| 老司机亚洲精品| 精品视频高清无人区区二区三区| 欧美jizzhd欧美| 色婷婷综合久久久中文字幕| 午夜免费福利影院| 欧美日韩精品免费观看视频完整| 2019中文字幕在线| 丰满少妇被猛烈进入| 亚洲欧美怡红院| www.com黄色片| 国产一区二区三区日韩精品| 97国产精品视频| 俄罗斯嫩小性bbwbbw| 亚洲精品国产无天堂网2021| 15—17女人毛片| 国产精品亚洲人成在99www| 久久久久久久久久久91| 国产成人久久精品77777综合 | 婷婷久久青草热一区二区| 欧美少妇精品| 亚洲第一av在线| 国产无码精品久久久| 国产成人综合在线观看| 国产一二三四区在线观看| 日韩一级视频| 久久婷婷国产麻豆91天堂| 91av久久久| 亚洲视频在线观看一区| 亚洲精品成人在线播放| 香蕉视频国产精品| 91亚洲午夜在线| 影音先锋在线播放| 精品国产凹凸成av人导航| 久久久久久久国产视频| 成人精品视频.| 国精产品一区一区三区视频| 牛牛视频精品一区二区不卡| 欧洲永久精品大片ww免费漫画| 人妻少妇精品无码专区久久| 亚洲一区二区欧美| 亚洲男女在线观看| 免费精品视频| 亚洲欧美日韩精品在线| 欧美黑粗硬大| 欧美精品在线免费播放| 亚洲黄色小说网址| 精品人伦一区二区三区蜜桃网站| 女同性恋一区二区三区| 午夜在线精品偷拍| 亚洲综合视频一区| 久久久久久久久成人| 精品中文字幕在线2019| 天天射天天操天天干| 日韩欧美在线视频日韩欧美在线视频 | 97精品视频在线播放| 欧洲成人一区二区三区| 色综合天天在线| 国产在线观看免费视频软件| 国产成人综合亚洲网站| 欧美国产亚洲一区| 久久在线免费| 国产伦精品一区二区三区视频孕妇 | 精品亚洲美女网站| 日韩在线观看视频免费| 亚洲女同志亚洲女同女播放| 色综合天天做天天爱| 美女网站视频色| 丁香婷婷综合五月| 91香蕉视频导航| 欧美网站在线| 亚洲成人网上| 久久久久影视| 成人免费自拍视频| 韩日成人影院| 欧美寡妇偷汉性猛交| 日本黄色三级视频| 欧美午夜影院一区| 国产一级特黄毛片| 国产精品狼人久久影院观看方式| 午夜视频在线免费看| 久久青草久久| 福利视频一区二区三区四区| 成人网18免费网站| 精品久久精品久久| 精品国产一区二区三区2021| 国产黑人绿帽在线第一区| 青青青草视频在线| 色婷婷综合久久久久中文字幕1| 国产成年妇视频| 欧美日韩久久一区二区| 国产情侣在线视频| 亚洲欧美偷拍三级| 微拍福利一区二区| 9l国产精品久久久久麻豆| 中文字幕在线视频精品| 视频一区二区中文字幕| 精品视频在线观看一区| 天堂网在线观看国产精品| 欧美日韩国产一二| 精品丝袜久久| 成人av男人的天堂| 二区三区精品| 国产一区在线播放| 国产a亚洲精品| 国产91亚洲精品| 性欧美又大又长又硬| 欧美激情亚洲综合一区| 久久日韩视频| 视频直播国产精品| 成人福利在线| 亚洲日韩第一页| 四虎电影院在线观看| 日韩视频免费直播| av一区二区三| 91精品国产91久久久久久一区二区| 伊人中文字幕在线观看| 午夜精品福利一区二区三区蜜桃| 日韩欧美综合视频| 成人免费在线播放视频| www.xx日本| 亚洲欧美一区二区视频| 蜜桃av.com| 自拍av一区二区三区| 91传媒免费观看| 亚洲视频一区二区在线观看| 国精产品一区一区二区三区mba| 久久精品水蜜桃av综合天堂| 人妻体内射精一区二区| 久久久久久久久久美女| 欧美另类z0zx974| 国产亚洲精品超碰| 天天操天天舔天天射| 国产精品久久久久久亚洲伦 | 777视频在线| 美女视频黄a大片欧美| 国产三级生活片| 国产成人欧美日韩在线电影| 91超薄肉色丝袜交足高跟凉鞋| 国产激情精品久久久第一区二区| 成人综合久久网| 国产乱子伦一区二区三区国色天香 | 147欧美人体大胆444| 美女精品久久| 国产精品手机在线| 九色丨蝌蚪丨成人| 免费亚洲一区二区| 精品理论电影| 免费成人深夜夜行网站视频| 女人色偷偷aa久久天堂| 日本福利视频一区| 视频一区二区三区在线| 亚洲天堂网2018| 成人av电影免费在线播放| 成年人网站免费看| 一区在线中文字幕| 久久9999久久免费精品国产| 一道本成人在线| 一级淫片免费看| 亚洲成人av片| porn视频在线观看| 色综合91久久精品中文字幕| 中老年在线免费视频| 国产一区视频在线播放| 国产精品色在线网站| 日日骚一区二区网站| 欧美freesex交免费视频| 亚欧无线一线二线三线区别| 久久99精品网久久| 好吊一区二区三区视频| 综合久久久久久| 天天干天天干天天干天天| 欧美日韩国产经典色站一区二区三区| 97人妻精品视频一区| 日韩欧美你懂的| 福利片在线观看| 欧美高清视频免费观看| 国产成+人+综合+亚洲欧美| 国产精品免费区二区三区观看| 欧美成人基地| 中文字幕精品一区日韩| 国产日韩欧美| 国产九九九视频| 国产欧美综合色| 日韩三级视频在线| 91精品国产高清一区二区三区蜜臀| 欧洲av在线播放| 久久中文字幕在线视频| 欧美大片高清| 国产精品一区二区三区在线| 久久在线视频| 老头吃奶性行交视频| 成年人国产精品| 五月天丁香激情| 欧美精品久久天天躁| 免费国产在线观看| 午夜精品久久久久久99热| 精品视频成人| 在线看视频不卡| 蜜桃视频在线一区| 中国毛片在线观看| 午夜不卡av免费| 欧美性受xxxx狂喷水| 欧美日本亚洲视频| 欧美一区一区| 黑人巨大国产9丨视频| 看片网站欧美日韩| 蜜桃av免费在线观看| 欧美亚洲国产一区二区三区| 欧美伦理影视网| 欧美在线视频一区二区| 老司机精品在线| 俄罗斯av网站| 97国产一区二区| 制服.丝袜.亚洲.中文.综合懂色| 日韩欧美一区二区久久婷婷| 毛片在线不卡| 成人免费高清完整版在线观看| 精品国产乱码久久久久久果冻传媒| 欧美日韩国产在线观看| 99久久婷婷国产| 九九热精品视频在线| 日韩精品在线视频美女| a一区二区三区| 欧美亚洲爱爱另类综合| 久久婷婷av| 亚洲av无码国产精品麻豆天美| 调教+趴+乳夹+国产+精品| 日日夜夜精品免费| 91精品国产99| 国产欧美日韩在线观看视频| 欧美成人精品欧美一级乱| 国产日韩欧美激情| 最新中文字幕在线观看视频| 在线电影av不卡网址| 久久久久毛片| 久久精品国产精品亚洲精品色| 麻豆精品久久精品色综合| 国产小视频你懂的| 欧美一区二区二区| 国产盗摄精品一区二区酒店| 久精品国产欧美| 视频一区视频二区中文字幕| 国产人与禽zoz0性伦| 日韩一区二区三区视频| 91吃瓜在线观看| 欧美福利一区二区三区| 麻豆精品国产传媒mv男同| 日本妇女毛茸茸| 日韩电影免费在线观看中文字幕| 国产在线天堂www网在线观看| 精品蜜桃一区二区三区| 日韩影院免费视频| 亚洲欧美变态另类综合| 欧美一级一区二区| 97超碰免费在线| 亚洲精品在线观看免费| 国产精品原创巨作av| 天天插天天操天天干| 尤物精品国产第一福利三区| 国产精品一区免费在线| 无码专区aaaaaa免费视频| 中文字幕精品一区二区三区精品| 一本一道精品欧美中文字幕| 久久久免费精品视频| 精品国产一级毛片| 丰满人妻一区二区三区大胸| 色婷婷激情综合| 成人短视频在线| 欧美日韩另类综合| 国产高清一区日本| 日批视频免费在线观看| 欧美精品午夜视频| 欧美限制电影| 精品一区二区三区四区五区六区| 日本韩国精品在线| 欧洲成人综合网| 亚洲一区二区不卡视频| 不卡电影免费在线播放一区| 国产一区二区三区视频免费观看 |

<ul id="2cqck"></ul>

<blockquote id="2cqck"><strike id="2cqck"></strike></blockquote>

<abbr id="2cqck"></abbr>