精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Karpathy 點贊,這份報告教你如何用 LLaMa 3 創建高質量網絡數據集

人工智能 新聞
事實證明,LLM 從教育內容中學習會更好更快。部分原因是普通的互聯網爬取文章的價值不是很高,并且會分散訓練的注意力,包含太多不相關的信息。

眾所周知,對于 Llama3、GPT-4 或 Mixtral 等高性能大語言模型來說,構建高質量的網絡規模數據集是非常重要的。然而,即使是最先進的開源 LLM 的預訓練數據集也不公開,人們對其創建過程知之甚少。

最近,AI 大牛 Andrej Karpathy 推薦了一項名為 FineWeb-Edu 的工作。

圖片

這項工作將原始 15 萬億個 FineWeb token,經 Llama 3 70B 評判,過濾為 1.3 萬億個高質量(教科級)token。

事實證明,LLM 從教育內容中學習會更好更快。部分原因是普通的互聯網爬取文章的價值不是很高,并且會分散訓練的注意力,包含太多不相關的信息。

互聯網上的網頁是如此隨機和糟糕,這些奇怪的數據轉儲、廣告垃圾郵件、數兆字節的股票行情更新等等,里面混雜著「鉆石」(重要內容),那么挑戰就是把「鉆石」挑出來。

預訓練數據集對于微調可能非常有用,因為當你將模型微調到特定領域時,就會慢慢失去一般能力。模型開始慢慢忘記目標域之外的事物。并且這不僅限于知識,模型還會失去原始數據所需的一般「思維」技能。也就是說,除了廣泛的知識消失之外,計算電路也會慢慢退化。

FineWeb 是什么?

FineWeb 是一個用于 LLM 預訓練的全新大規模數據集(15 萬億 token,44TB 磁盤空間)。該數據集源自 96 個 CommonCrawl 快照,與其他開放的預訓練數據集相比,它能生成性能更好的 LLM。為了提高機器學習的清晰度,推進對如何訓練高質量大型語言模型的公開理解,團隊記錄并刪除了 FineWeb 中使用的所有設計選擇,包括對重復數據刪除和過濾策略的深入研究。

數據集獲取地址:https://huggingface.co/datasets/HuggingFaceFW/fineweb

在上述數據集的基礎上,團隊推出了 FineWeb-Edu,它是 FineWeb 的一個子集,利用可擴展的自動化高質量注釋來實現教育價值。在一些教育基準(如 MMLU、ARC 和 OpenBookQA)上,FineWeb-Edu 優于所有可公開訪問的網絡數據集。FineWeb-Edu 有兩種大小 / 過濾級別:1.3 萬億(特高級教育內容)和 5.4 萬億(高級教育內容)token(所有 token 均使用 GPT2 tokenizer)。

圖片

數據集獲取地址:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu

這兩個數據集均根據許可的 ODC-By 1.0 協議發布。

在對應的長篇報告中,團隊深入探討了如何創建一個用于 LLM 預訓練的大型高質量網絡規模數據集,并討論了大規模數據質量的處理和評估、FineWeb  配方(列出并解釋了所有的設計選擇)以及創建 FineWeb-Edu 子集的過程。

大規模數據質量的處理和評估

關于用于訓練 LLM 的網絡數據集,一個常見問題是:他們從哪里獲得這些數據?

通常有兩種選擇:

  • 自己抓取,如 OpenAI 或 Anthropic 等公司;
  • 使用抓取網頁的公共資源庫,如非營利組織 CommonCrawl 維護的資源庫。

為了構建 FineWeb,團隊沿用了一些 LLM 訓練團隊過去的做法,比如將 CommonCrawl(CC)作為起點。Common Crawl 非營利組織自 2007 年以來一直在抓取網頁,通常每 1 到 2 個月發布一次新的抓取,包含 200 到 400 TiB 通過自動網絡抓取獲得的文本內容。

例如,最新的 CC 抓取(2024 年 4 月)包含 27 億個網頁,總計 386 TiB 的未壓縮 HTML 文本內容。自 2013 年以來已發布了 96 次抓取,2008 年至 2012 年發布了 3 次抓取,采用的是不同(較舊)的格式。

接下來是評估問題。在大多數情況下,尤其是在大語言模型預訓練的情況下,「高質量」并不是一個定義明確的術語,甚至不是一個僅通過人類直接觀察就能清楚感知的文檔屬性。

在一個被認為「干凈」的特定語料庫(通常是維基百科)上訓練一個模型,并用它來檢查試圖整理的數據集的易錯性,這仍然是很常見的做法。遺憾的是,這并不總能提高下游相關任務的性能,因此,另一種常用的方法是在數據集的代表性子集上訓練小型模型,并在一組評估任務上對其進行評估。之所以使用小型模型,是因為訓練成本和時間是模型大小的函數。在第二種方法中,重要的是要選擇一組多樣化且具有代表性的數據集 - 評估任務,盡量不要過度擬合任何一個單獨的基準,因為這有可能損害預訓練后獲得的 LLM 的通用性。

在這項工作中,團隊采用了訓練小模型并在一組「early-signal」基準任務上對其進行評估的方法。考慮到上述關于評估基準過度擬合的注意事項,這可以合理地代表用于訓練這些模型的數據的質量。

最終,團隊選擇了以下幾個基準:

  • CommonSense QA
  • HellaSwag
  • OpenBook QA
  • PIQA
  • SIQA
  • WinoGrande
  • ARC
  • MMLU

FineWeb 數據處理

CommonCrawl 數據有兩種主要格式:WARC 和 WET。WARC(Web ARChive 格式)文件包含爬取網頁的原始數據,包括完整頁面 HTML 和請求元數據。WET(WARC 封裝文本)文件提供這些網站的純文本版本。

大量數據集以 WET 文件為起點。但作者認為:Common Crawl 創建這些 WET 文件的默認文本提取對于 LLM 預訓練來說并不是最佳選擇,有多種開源庫可以提供更好的文本提取。作者團隊使用 trafilatura 庫從 WARC 文件中提取文本內容,從結果來看,它提供了良好的提取質量。

基礎過濾

過濾是數據審編(curation)過程的重要組成部分。它包括刪除部分數據(單詞、文本行,甚至完整文檔),這些數據會降低模型的性能,因此在作者團隊評估驅動的數據集制作過程中被視為「質量較低」的數據。

作為過濾的基礎,作者使用了 RefinedWeb 的部分設置,包括:

  • 應用 URL 過濾;
  • 應用 fastText 語言分類器,僅保留分數≥0.65 的英文文本;
  • 應用來自 MassiveText 的質量和重復過濾器(使用默認閾值)。

作者團隊將這種過濾應用于每個文本提取的轉儲(目前有 96 個轉儲)后,獲得了大約 36 萬億個 token 的數據。

重復數據刪除

重復數據刪除是為 LLM 預訓練創建大型 Web 數據集的最重要步驟之一,旨在從數據集中識別并刪除冗余 / 重復的數據。

重復數據刪除能夠改進模型性能,并使模型更好地泛化。通過重復數據刪除獲得的性能提升可以等同于訓練效率的提升,因為通過刪除重復的內容,模型可以通過更少的訓練迭代達到相同的性能水平,或者等效地,對于給定數量的訓練 token,模型將看到更加多樣化的數據。

經過上述幾個步驟,作者團隊已經實現了類似于 RefinedWeb 的數據性能,但是與 C4(Colossal Clean Crawled Corpus)數據集相比還是遜色一些。

因此,作者團隊從 C4 數據集本身的處理過程開始,探索了更多過濾步驟,旨在達到并超越 C4 的性能。

最終的 FineWeb 數據集包含 15T token,主要按順序經歷如下步驟:

  • 基礎過濾
  • 每個轉儲獨立的 MinHash 重復數據刪除
  • 精選 C4 過濾器
  • 自定義過濾器

圖片

FineWeb-Edu 子集

圖片

FineWeb-Edu 子集基于最近出現的一種過濾 LLM 訓練數據集的新方法:使用合成數據來開發識別教育內容的分類器。

這項技術在 Llama 3 和 Phi3 的訓練中得到了顯著應用,但它對網絡數據過濾的大規模影響迄今為止尚未得到充分的公開發掘。

Phi3 模型分別在 3.3 萬億和 4.8 萬億個 token 上進行了訓練,論文中指出:

我們的訓練數據包括經過嚴格過濾的公開網絡數據(根據「教育程度」),這些數據來自各種開放的互聯網資源,以及 LLM 生成的合成數據。

同樣,Llama 3 博客文章也指出:

我們發現,前幾代 Llama 擅長識別高質量數據,因此我們使用 Llama 2 來幫助構建文本質量分類器,為 Llama 3 提供動力。

然而,這些分類器和過濾后的數據集并未公開。團隊為了進一步提高 FineWeb 的質量,利用 Llama-3-70B-Instruct 生成的注釋開發了一個教育質量分類器,創建了 FineWeb-Edu。

團隊使用 Llama-3-70B-Instruct 對來自 FineWeb 的 500k 個樣本進行了注釋,按照 0 到 5 的評分標準對每個樣本的教育質量進行評分。

圖片用于 Llama-3 教育分數注釋的提示。

關于用于標注數據的開放權重模型,團隊嘗試了多種模型,包括 Mixtral-8x7B-Instruct 和 Mixtral-8x22B-Instruct、Llama-3-70B-Instruct 以及一個收集了這三種模型分數的評審團。在實驗中,他們發現僅使用 Llama3 得出的結果最為可靠。

為了將注釋擴展到 FineWeb 中的數萬億詞條,團隊使用 Llama3-70B 注釋來訓練一個小型分類器。他們使用了「Snowflake-arctic-embed」模型,該模型帶有一個分類頭,上面有一個回歸輸出,然后在 450000 個 Llama 3 注釋上對該模型進行了 20 次訓練,凍結嵌入層和編碼器層。此處將 「Llama 3」注釋視為 ground-truth,保存了在 45k 個樣本的保留驗證集上 F1 分數最高的檢查點。訓練結束后,將分數四舍五入為 0 至 5 的整數。

然后,團隊將問題轉換為二元分類任務,使用固定閾值來確定文件是否具有教育意義。閾值為 3 時,模型在驗證集上的 F1 得分為 82%,這表明它在區分高質量教育內容方面表現出色。

最后,團隊進行了消融研究。以下是主要亮點:

  • FineWeb-Edu 超越了 FineWeb 和所有其他開放網絡數據集,在教育基準(如 MMLU、ARC 和 OpenBookQA)方面取得了顯著改進。
  • 與 C4 和 Dolma 相比,它需要的 token 數量減少了 10 倍,才能與 MMLU 的結果相媲美。
  • 這證明了使用在 LLM 注釋上訓練的分類器進行大規模數據過濾的有效性。

圖片

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-23 04:00:00

2011-06-24 14:59:41

外鏈

2023-10-15 12:07:09

2012-09-13 10:44:18

Python代碼

2011-03-04 10:11:09

JavascriptAPI

2023-05-06 12:26:41

2011-05-31 13:43:46

外鏈

2017-07-14 09:54:47

代碼函數程序

2022-10-24 08:10:21

SQL代碼業務

2020-09-18 07:57:10

代碼編碼開發

2015-08-03 10:40:59

程序員代碼質量Quora

2024-03-07 11:39:24

HadolintDockerfile工具

2020-01-09 11:30:40

AI 數據人工智能

2021-11-15 10:57:41

數據中心數字化轉型云計算

2021-08-08 14:26:24

SQL數據庫開發

2010-08-24 09:35:04

云計算SaaS

2021-03-17 09:48:48

高質量技術文章

2022-10-19 10:08:29

技術匯報研發管理

2024-04-22 14:02:53

點贊
收藏

51CTO技術棧公眾號

亚洲欧美日韩精品久久| 亚洲蜜臀av乱码久久精品蜜桃| 2019中文字幕免费视频| 欧美色图亚洲激情| 国产a亚洲精品| 亚洲卡通欧美制服中文| 免费久久99精品国产自| 国产精品久久久久久69| 91久久夜色精品国产九色| 国产一区二区三区在线观看视频| 国产精品探花在线播放| 中文在线免费二区三区| 亚洲日本青草视频在线怡红院| 国产主播一区二区三区四区| 中文字幕乱码视频| 一区二区精品| 欧美超级乱淫片喷水| 人人人妻人人澡人人爽欧美一区| 欧美专区视频| 欧美综合天天夜夜久久| 国产精品久久久久9999爆乳| 色网站在线看| 粉嫩av一区二区三区| 国产精品视频资源| 中文字幕亚洲高清| 亚洲女同另类| 最近2019年日本中文免费字幕| 国产精品一区二区人妻喷水| 成人国产精品一区二区网站| 91久久精品网| www.com毛片| wwwww亚洲| 亚洲精品网站在线观看| 亚洲一区精彩视频| 成年在线观看免费人视频| 97精品久久久久中文字幕| 91嫩草在线| 国产精品无码久久av| 日韩av成人高清| 欧洲一区二区视频| aaa人片在线| 亚洲精品社区| 97视频在线观看免费| 久久久无码一区二区三区| 亚洲电影影音先锋| 久久久91精品| 黄色录像免费观看| 99久久夜色精品国产亚洲狼| 日韩在线资源网| 殴美一级黄色片| 99久久99久久精品国产片桃花| 中文字幕av一区二区| av永久免费观看| 成人免费看片39| 伊人青青综合网站| 亚洲一二三精品| 成人一区二区| 亚洲日韩欧美视频一区| 久久久久久久毛片| 日韩不卡一区| 久久精品亚洲精品| 欧美色图亚洲视频| 国内精品久久久久久久影视麻豆| 欧美激情高清视频| 久久夜色精品亚洲| 日韩精彩视频在线观看| 国产精品天天狠天天看| 国产精品久久久久久久成人午夜| 国产精品一区二区不卡| 国产欧美丝袜| 黄色大片在线看| 国产精品人人做人人爽人人添| 中文字幕久久一区| 欧美大胆的人体xxxx| 午夜激情综合网| 国产精品欧美激情在线观看| 国产成人精品一区二三区在线观看 | 欧美极品一区二区三区| 高清欧美性猛交| 香蕉影院在线观看| 久久国产视频网| 不卡一区二区三区视频| 人成在线免费视频| 国产精品久久久久三级| 欧美精品在欧美一区二区| 美女网站在线看| 欧美视频一区二区三区在线观看| 五月天丁香花婷婷| 菁菁伊人国产精品| 日韩国产精品亚洲а∨天堂免| 国产三级av在线播放| 99热国内精品永久免费观看| 午夜精品一区二区三区在线视频 | 精品免费99久久| 97人妻精品一区二区三区免| 久久免费精品视频在这里| 欧美激情综合色| 制服丝袜在线一区| 成人性生交大合| 亚洲电影一二三区| av丝袜在线| 欧美老肥妇做.爰bbww| 国产精品麻豆入口| 欧美国产一级| 欧美专区在线观看| 精品国产免费无码久久久| 国产亚洲成年网址在线观看| 奇米777四色影视在线看| 亚洲爱爱视频| 亚洲高清不卡av| 暗呦丨小u女国产精品| 性娇小13――14欧美| 亚洲jizzjizz日本少妇| 福利成人在线观看| 午夜精品久久一牛影视| 特级西西444www| 欧美亚洲在线日韩| 97精品视频在线观看| 国产探花精品一区二区| 国产网红主播福利一区二区| 草草视频在线免费观看| 精品入口麻豆88视频| 在线视频一区二区| 欧美在线观看不卡| 国产成人精品网址| 五月天综合婷婷| 成人黄色在线| 亚洲天堂免费观看| 日本黄色片视频| 成人va在线观看| 久久人妻无码一区二区| 久久久久毛片| 夜夜嗨av色综合久久久综合网| 五月婷婷激情网| 成人黄色777网| 国产又粗又猛又爽又黄的网站 | 国产精品一区二区免费| 最爽无遮挡行房视频在线| 欧美三级视频在线| 成人小视频免费看| 奇米一区二区三区| 亚洲国产日韩美| 欧美高清免费| 色小说视频一区| 中文字幕在线网址| 中文字幕中文字幕在线一区| 久久国产精品国产精品| 日韩av久操| 亚洲xxxx3d| 天天干在线视频论坛| 精品国产伦一区二区三区观看方式 | 免费看a在线观看| 欧美日韩小视频| 小嫩苞一区二区三区| 国内成+人亚洲+欧美+综合在线| 亚洲永久激情精品| 成人黄色理论片| 久久久久久国产精品美女| 人妻妺妺窝人体色www聚色窝 | 中文字幕 自拍偷拍| 国产精品久久久久久久久久免费看| 日韩不卡一二三| 欧美gayvideo| 99九九视频| 国产传媒在线| 国产亚洲aⅴaaaaaa毛片| 在线观看不卡的av| 尤物av一区二区| 男人的天堂影院| 日日夜夜免费精品| 午夜在线视频免费观看| a看欧美黄色女同性恋| 51色欧美片视频在线观看| 北岛玲一区二区三区| 麻豆精品在线播放| 伊人久久久久久久久久| 一级片视频播放| 一级女性全黄久久生活片免费| 男男一级淫片免费播放| 久久国产欧美| 中文字幕一区二区三区有限公司 | 精品美女一区| 国产视频一区在线| 中文字幕乱码人妻二区三区| 亚洲欧美电影院| 伊人久久一区二区三区| 日韩精品乱码av一区二区| 亚洲国产日韩综合一区| 日韩精品成人在线观看| 欧美在线国产精品| 黄av在线免费观看| 日韩成人av网| 国产精品久久久久久免费播放| 亚洲高清免费在线| 99热99这里只有精品| 不卡av免费在线观看| 一道本在线免费视频| 激情久久中文字幕| 亚洲精品日韩精品| 欧美男人操女人视频| 91精品国产综合久久香蕉最新版| 黄色激情在线播放| 久久成人综合视频| 黄色小视频在线免费观看| 欧美xxxxxxxx| 国产又大又粗又硬| 黑人巨大精品欧美一区免费视频| 疯狂试爱三2浴室激情视频| 26uuu成人网一区二区三区| 制服丝袜中文字幕第一页| 99精品视频免费全部在线| 日本黄色播放器| 国产探花一区二区| 国产呦系列欧美呦日韩呦| 国产一区二区高清在线| 国产精品高潮呻吟久久av野狼| 51av在线| 欧美激情免费看| 黄色成人在线| www.亚洲免费视频| av女优在线| 亚洲视频欧洲视频| 亚洲 另类 春色 国产| 欧美一区二区三区在线观看视频| 小泽玛利亚一区二区三区视频| 亚洲图片一区二区| www.av成人| 国产精品国产馆在线真实露脸| 免费a级黄色片| 成人av中文字幕| www.黄色网| 国产成人在线视频播放| 亚洲精品在线网址| 国产一区二区三区久久久 | 在线观看欧美日韩国产| 欧美色18zzzzxxxxx| 亚洲国产成人一区| 三级视频在线看| 亚洲成人中文字幕| 蜜桃视频污在线观看| 日韩精品一区二区三区视频播放| 国产乱叫456在线| 欧美一区二区福利在线| 国产麻豆91视频| 91精品国产综合久久精品| 国产精品热久久| 欧美高清hd18日本| 国产伦一区二区| 欧美一区二区成人| 99久久精品免费看国产交换| 日韩欧美中文字幕精品| 性一交一乱一色一视频麻豆| 日韩欧美在线1卡| 成人午夜福利视频| 亚洲国产高清福利视频| 亚洲 小说区 图片区 都市| 亚洲精品中文字幕av| 国产黄色片在线观看| 在线成人激情视频| 黄色片网站在线观看| 欧美久久精品午夜青青大伊人| 69成人在线| 午夜精品一区二区三区在线播放| 亚洲少妇视频| 国产精品激情自拍| 亚洲伦理一区二区| 成人av资源| 秋霞影视一区二区三区| 四虎一区二区| 中文字幕一区二区三三| 成人黄色av片| 日本伊人色综合网| 日本中文字幕在线不卡| 99免费精品在线观看| 欧美 日韩 成人| 亚洲欧美二区三区| 久草视频一区二区| 911精品产国品一二三产区| 亚洲国产精品suv| 亚洲片在线资源| 麻豆tv在线| 97视频在线观看播放| 国产资源一区| 国内精品视频免费| 成人羞羞网站入口免费| 国产91在线亚洲| 视频一区欧美日韩| 日韩精品――色哟哟| 国产亚洲欧洲997久久综合| 日本黄色小说视频| 色综合中文字幕| a网站在线观看| 亚洲色图17p| 最新国产露脸在线观看| 国产精品99久久久久久久久| 日韩成人18| 日韩在线三级| 亚洲区一区二| 亚洲成人手机在线观看| 久久久久久麻豆| 久久久夜色精品| 欧美日韩午夜影院| 欧美少妇另类| 久久久免费高清电视剧观看| 成人黄色毛片| 欧美日韩国产综合在线| 亚洲性人人天天夜夜摸| 亚洲精品第三页| 久久综合狠狠综合久久综合88| 亚洲欧美小视频| 欧美三级视频在线播放| 日韩a在线观看| 久久久久久久久久国产| 日韩精品一页| 日韩国产精品一区二区| 国产亚洲一区在线| 手机看片国产精品| 国产精品久久久久久久久动漫 | 国内精品久久久久影院一蜜桃| 在线观看福利片| 天天色综合成人网| www.四虎在线观看| 久久天天躁狠狠躁老女人| 丁香婷婷久久| 少妇精品久久久久久久久久| 在线视频精品| japanese在线观看| 亚洲国产精品视频| 精品国产区一区二| 欧美成人免费视频| 国产一区一区| 国产又黄又爽免费视频| 蜜桃av一区二区| 国产精品久久久视频| 欧美综合久久久| 国产日本在线视频| 国产精品成av人在线视午夜片| 亚洲第一福利专区| 91专区在线观看| 99精品桃花视频在线观看| 久久精品国产亚洲av无码娇色| 日韩一区二区三区免费看 | 国产精品亚洲综合| 欧美全黄视频| 精品人妻人人做人人爽夜夜爽| 亚洲欧美另类图片小说| aaa一区二区| 欧美大肥婆大肥bbbbb| 综合久久成人| 久久久久久久久久久99| 91视频你懂的| 波多野结衣视频在线看| 中文字幕一区二区精品| 91视频亚洲| 黄色一级大片免费| 成人免费看的视频| xxxx.国产| 亚洲午夜性刺激影院| 成人看片毛片免费播放器| japanese在线视频| 高清不卡一区二区在线| 日韩无码精品一区二区三区| 亚洲人成自拍网站| 国产精品伦一区二区| 三上悠亚免费在线观看| 成人午夜视频网站| 国产午夜麻豆影院在线观看| 在线亚洲国产精品网| 免费精品一区二区三区在线观看| 成人短视频在线观看免费| 99r精品视频| 国产在线一级片| 欧美理论电影在线观看| 欧美重口另类| jizzzz日本| 亚洲成精国产精品女| 国产一级免费在线观看| 91美女片黄在线观看游戏| 亚洲福利久久| 国产综合精品久久久久成人av| 欧美一级免费观看| 三级在线观看视频| 亚洲欧美久久234| 成人免费高清视频在线观看| 亚洲欧美一二三区| 欧美大奶子在线| 久操视频免费在线观看| 三级毛片在线免费看| 国产亚洲精品久久久久久牛牛| 日韩欧美激情| 亚洲人精品午夜射精日韩| 亚洲国产精品国自产拍av| 精品人妻一区二区三区含羞草| 91超碰中文字幕久久精品| 97久久夜色精品国产| 黄色片视频免费观看| 欧美电影影音先锋| 免费观看亚洲| 欧美日韩dvd| 中文无字幕一区二区三区|