精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

FineWeb技術報告出爐!揭秘HuggingFace規模最大、質量最高預訓練數據集

人工智能 新聞
從大規模網絡爬取、精細過濾到去重技術,通過FineWeb的技術報告探索如何打造高質量數據集,為大型語言模型(LLM)預訓練提供更優質的性能。

大型語言模型(LLMs)的性能在很大程度上取決于它的預訓練數據集的質量和大小。

然而,像Llama 3和Mixtral這樣最先進的LLMs的預訓練數據集并不公開;關于它們是如何創建的,我們知之甚少。

近日,Hugging Face上的一個團隊發布了FineWeb數據集,這是一個用于LLM預訓練的新型大規模(15萬億個tokens,44TB磁盤空間)數據集。

同時,他們還通過技術報告詳細介紹了該數據集的加工決策過程:FineWeb源自96個CommonCrawl快照,它是如何通過縝密的去重和過濾策略,比其他開放預訓練數據集產生了表現更好的LLM的。

創建數據集的準備工作

開始創建數據集的第一步,需要考慮的問題是如何獲取到大規模的數據。

Common Crawl這個非營利組織自2007年以來一直在爬取網絡數據,并且每1到2個月發布一次新的爬取,包含200到400 TiB的文本內容。

于是,Common Crawl就作為了FineWeb數據集的起點。

其次,由于涉及的數據量巨大,需要一個模塊化且可擴展的代碼庫來快速迭代處理決策并適當地并行化工作負載,同時提供對數據的清晰洞察。

為此,該團隊開發了datatrove,這是一個開源數據處理庫,能夠將過濾和去重設置無縫擴展到數千個CPU核心。

在創建數據集時,需要考慮的主要問題是什么是“高質量”的數據。

一種常用的方法是在數據集的一個代表性子集上訓練小型模型,并在一組評估任務上評估它們。

研究者在兩個版本的數據集上訓練了兩個結構相同的模型,一個經過額外處理步驟,另一個沒有,以此來比較數據處理步驟對模型性能的影響。

他們選用了Commonsense QA、HellaSwag、OpenBook QA等基準測試來評估模型,并限制較長基準測試的樣本量以避免過度擬合,確保模型評估結果的可靠性和泛化能力。

數據集是怎么去重和過濾的

下圖概括了FineWeb數據集生成的主要步驟:

URL過濾→文本提取→語言過濾→Gopher過濾→MinHash去重→C4過濾器→自定義過濾器→PII(個人身份信息)移除

圖片

本文主要介紹去重和過濾的部分,因為對于創建高質量數據集來說,這兩個步驟對于提高模型性能、增加數據多樣性和清潔度方面至關重要。

數據去重

網絡中存在許多聚合器、鏡像站點或模板化頁面,這些都可能導致內容在不同域名和網頁上重復出現。

去除這些重復內容(去重)已被證明可以提高模型性能,并減少對預訓練數據的記憶,這有助于模型更好地泛化。

研究者采用了MinHash這種基于模糊哈希的去重技術,因為它可以有效地擴展到許多CPU節點,并可以調整相似性閾值(通過控制bucket的數量和大小)以及考慮的子序列長度(通過控制n-gram大小)。

研究者拆分每個文檔為5-gram,使用112個哈希函數計算minhashes。

112個哈希函數被分成14個bucket,每個bucket有8個哈希,目的是定位至少75%相似的文檔。

在任何bucket中具有相同8個minhashes的文檔被認為是彼此的重復。

需要注意的是,研究者發現一個奇怪的現象:雖然去重后數據量少了很多(比如最舊的數據包,去重后只剩下了原來10%的內容),但用這些去重后的數據去訓練模型的時候,模型的表現并沒有變好,甚至比之前用沒有去重的數據訓練的模型還要差。

圖片

在所有數據包上進行去重并沒有提高性能

這說明,有時候去重去得太狠了,可能把一些有用的內容也給去除了,留下的那些內容反而質量不高。

這也提醒我們,需要找到一個平衡點,既要去除重復、低質量的數據,也要保留足夠的、有價值的信息。

為了改進去重方法,研究者嘗試了一種新策略:對每個單獨的數據包使用MinHash技術進行獨立的去重,而不是將所有數據包合并在一起去重。

通過這種方式,平衡了每個重復次數較多的集群和重復次數較少的集群之間的分布差異,讓去重更加的「溫和」。

數據過濾

首先介紹一下C4數據集,這是一個大型語言模型(LLM)訓練的常用數據子集,它在Hellaswag基準測試中表現十分出色。

FineWeb的研究者首先參照C4的過濾策略,先是匹配它的性能,然后是超越。

通過應用所有過濾規則(去除不以標點符號結尾的行、提及JavaScript和cookie通知,以及去除不在長度閾值內的文檔,包含“lorem ipsum”或花括號{}),他們能夠匹配C4在Hellaswag上的表現。

然后,通過多次的消融研究,研究者確定了三個自定義過濾器在綜合分數上顯示出最顯著的改進:

  • 移除以標點符號結尾的行的比例≤0.12的文檔(移除了10.14%的token)
  • 移除在重復行中字符的比例≥0.1的文檔(移除了12.47%的token)
  • 移除短于30個字符的行的比例≥0.67的文檔(移除了3.73%的token)

圖片

當這三個過濾器一起應用時,大約22%的標記被移除。

這些過濾器使他們能夠進一步提高性能,并顯著地超過了C4數據集的性能,同時提供了一個更大的數據集。

FineWeb數據集的表現

通過與其他通常被認為是最高質量的公開可訪問的網絡規模數據集進行了消融比較,包括RefinedWeb(5000億個標記)、C4(1720億個標記)、Dolma v1.6(3萬億個標記)等, FineWeb(15萬億個標記)在允許訓練數萬億個標記的同時,帶來了目前最高的模型性能。

圖片

除此之外,該團隊還發布了FineWeb-Edu,FineWeb-Edu的開發采用了一種新方法,即利用合成數據來開發用于識別教育內容的分類器。

針對教育領域,通過增加教育質量評分的注釋和增加了單獨的評分系統,研究者創建了一個有效的分類器,可以在大規模數據集上識別和過濾出具有教育價值的內容。

FineWeb-Edu在教育基準測試如MMLU、ARC和OpenBookQA上取得了顯著改進,超過了 FineWeb和其他所有開放的網絡數據集。

圖片

同時,FineWeb-Edu的生成也證明了使用LLM注釋訓練的分類器在大規模數據過濾中的有效性。

在技術報告的最后,研究者表示,希望持續揭示高性能大型語言模型訓練的黑箱,并讓每個模型訓練者都能創建最先進的LLM。

他們也期待將FineWeb的經驗和學習應用到其他的非英文語言,使多語言的高質量網絡數據也能夠更容易地被獲取到。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-14 09:26:00

2013-05-09 10:30:44

開源軟件開源項目

2022-01-06 09:57:02

數據計算機神經網絡

2024-01-03 18:53:13

語言模型LLM

2025-03-18 08:00:00

豆包文生圖技術Seedream

2023-07-27 18:33:08

Go薪資JS

2025-03-13 07:00:00

2020-09-27 16:21:28

AI數據

2025-06-19 08:50:00

模型訓練數據

2024-08-14 14:22:00

2025-08-11 17:58:44

開源技術模型

2019-03-21 16:27:21

數據開發機器學習

2021-04-19 11:02:06

阿里云達摩院AI

2021-11-15 10:00:22

模型人工智能NLP

2023-07-09 15:24:58

2012-02-20 14:49:31

360垃圾短信

2020-03-25 13:51:05

人工智能自動駕駛技術

2023-12-21 13:26:13

谷歌Gemini大模型

2024-07-02 01:09:02

2024-08-28 08:25:25

Python預訓練模型情緒數據集
點贊
收藏

51CTO技術棧公眾號

9999久久久久| 久久99久久| 亚洲激情精品| 国产亚洲精品成人av久久ww| 亚洲午夜激情影院| 欧美草逼视频| 中文字幕欧美日韩一区| 成人在线免费网站| 精品一区二区无码| 欧美精品播放| 伊人青青综合网站| 欧美性生交xxxxx| 另类中文字幕国产精品| 一区二区三区欧美久久| 欧美一级二级三级| 亚洲AV无码一区二区三区少妇| 男人的天堂亚洲在线| 综合网中文字幕| 五月天丁香社区| 欧洲亚洲精品久久久久| 精品久久久久久中文字幕| 一区二区三区四区国产| 三级av在线播放| 国产精品资源站在线| 国产www精品| 国产无码精品在线观看| 97久久视频| 一区二区三区小说| 色综合久久中文字幕综合网| 亚洲欧美日韩另类精品一区二区三区| 国产视频一区二区三区四区五区| 亚洲在线日韩| 美女福利视频一区| 免费一级黄色录像| 久久这里只有精品一区二区| 在线成人午夜影院| 日韩在线第三页| 欧美sm一区| 亚洲电影在线播放| 国产一级片91| 国产三级在线播放| 国产精品乱人伦| 青青成人在线| 国产在线播放av| 久久久一区二区| 久久久综合亚洲91久久98| 亚洲国产精品无码久久| 国产伦理精品不卡| 91超碰在线电影| 99热这里是精品| 国产资源精品在线观看| 成人国产亚洲精品a区天堂华泰| 成人免费一区二区三区| 日韩av不卡在线观看| 国产精品久久久久久久av大片 | 黄色www网站| 九色91在线| 亚洲成人www| 欧美深夜福利视频| 亚洲精品成人图区| 色综合天天综合网天天看片| 国产aaa一级片| 亚洲欧美小说色综合小说一区| 狠狠久久亚洲欧美专区| 久久精品99国产| av成人免费看| 这里是久久伊人| 国产一级二级av| 大型av综合网站| 精品亚洲精品福利线在观看| 最近中文字幕免费视频| 第一会所亚洲原创| 久久精品91久久久久久再现| 农村妇女精品一区二区| 欧美成人中文| 98精品在线视频| 波多野结衣一区二区三区四区| 免费观看久久久4p| 91在线中文字幕| 色婷婷av一区二区三区之e本道| 91免费看`日韩一区二区| 日本在线一区| 伊人影院在线视频| 欧美午夜激情在线| 九九精品久久久| 黄色美女久久久| 国产亚洲欧洲在线| 欧美日韩一级大片| 蜜乳av另类精品一区二区| 成人欧美一区二区三区黑人孕妇 | 特黄视频免费看| 日韩精品三区四区| 99一区二区三区| 成人在线视频成人| 伊人色综合久久天天人手人婷| 91黄色小网站| 日韩精品中文字幕一区二区| 亚洲美女av黄| 91n在线视频| 一区二区动漫| 亚洲一区二区三区四区视频| 日本aaa在线观看| 亚洲精品视频免费观看| 欧洲av无码放荡人妇网站| 亚洲精品66| 亚洲精品在线视频| 2021亚洲天堂| 免费视频一区二区| 国外成人在线视频网站| 免费网站看v片在线a| 精品成人av一区| 国产黑丝在线视频| 精品72久久久久中文字幕| 欧美国产日韩一区二区三区| 最好看的日本字幕mv视频大全 | 成年人在线免费看片| 狠狠入ady亚洲精品| 成人精品一区二区三区电影黑人| 午夜成人免费影院| 亚洲综合色网站| 污污网站免费观看| 九九免费精品视频在线观看| 欧美激情伊人电影| 国产美女明星三级做爰| 国产女人aaa级久久久级| 久色视频在线播放| 都市激情亚洲| 久久久女人电视剧免费播放下载| 91麻豆国产在线| 日本一区二区三区久久久久久久久不| 每日在线更新av| 精品按摩偷拍| 久久久久久国产| 男人天堂网在线视频| 亚洲最大成人网4388xx| www.桃色.com| 97精品国产一区二区三区 | 少妇高潮毛片色欲ava片| 电影91久久久| 精品国产一区av| 亚洲无码精品国产| 国产欧美va欧美不卡在线 | 国产一区二区三区免费看| 神马影院我不卡| 91精品韩国| 亚洲网在线观看| 国产乡下妇女三片| 中文一区二区完整视频在线观看| 国产一级不卡毛片| 国产乱码精品一区二区三区四区| 国产成人免费av电影| 国产精品一级伦理| 欧美日韩一区二区欧美激情| 性少妇xx生活| 国产最新精品免费| 免费的一级黄色片| 国偷自产av一区二区三区| 久久久亚洲精品视频| 天堂中文网在线| 色综合视频一区二区三区高清| 扒开jk护士狂揉免费| 日韩中文字幕亚洲一区二区va在线 | 亚洲精品一区二区二区| 国产精品女上位| aaaaaaaa毛片| 极品少妇一区二区三区| 精品人伦一区二区三区| 欧美三级网址| 中文字幕亚洲综合久久筱田步美| 国产精品久久免费| 亚洲午夜精品一区二区三区他趣| 日韩av手机在线播放| 日韩精品一二区| 天天想你在线观看完整版电影免费| 最新国产一区二区| **欧美日韩vr在线| 在线日本视频| 日韩欧美123| 男人天堂2024| 亚洲欧美影音先锋| 亚洲午夜久久久久久久久| 久久亚洲精品伦理| 最新黄色av网站| 麻豆精品av| 国产精品视频一区国模私拍| 2024短剧网剧在线观看| 日韩精品中文在线观看| 在线观看视频二区| 亚洲高清久久久| 精品国产aaa| 高清在线成人网| 污污视频网站免费观看| 午夜日韩激情| 日本不卡一二三区| 99久久免费精品国产72精品九九| 秋霞成人午夜鲁丝一区二区三区| 免费在线观看黄色| 日韩精品极品视频| 99热这里只有精品1| 日本道在线观看一区二区| 国产av无码专区亚洲av毛网站| 久久精品日产第一区二区三区高清版 | 电影一区二区三区久久免费观看| 欧美洲成人男女午夜视频| 欧美成人视屏| 日韩精品免费在线观看| 国产伦精品一区二区三区四区 | 欧美一区 二区| 成人精品久久一区二区三区| 欧美电影免费观看| 久久久中精品2020中文| 好了av在线| 国产一区二区三区丝袜| 五月婷婷六月色| 欧美久久久影院| 精品久久久久久久久久久国产字幕| 亚洲一区二区三区在线播放| 免费黄色国产视频| 国产亚洲欧美色| 欧美丰满少妇人妻精品| 国产成a人亚洲| 国内av一区二区| 日本亚洲视频在线| 国产主播在线看| 亚洲一级黄色| 91大学生片黄在线观看| 99精品在线观看| 亚洲国产一区在线| 国产亚洲一卡2卡3卡4卡新区 | 国产精品永久免费视频| 欧美电影免费观看高清完整| 51精品国产黑色丝袜高跟鞋 | 国产精品青草久久久久福利99| 国产高清自产拍av在线| 国内外成人免费激情在线视频| aa在线视频| 九九热这里只有精品免费看| 黄色网页在线看| 久久综合久久88| 求av网址在线观看| 日韩在线视频观看正片免费网站| 福利视频在线播放| 国产一区二区三区在线看 | 精品av导航| 黄色91av| 亚洲精品456| 免费99视频| 国产精品美女久久久久久不卡| 日本视频一区二区不卡| 国产99久久精品一区二区300| 欧美日韩日本网| 成人91在线| 一本色道久久99精品综合| 久久亚洲国产| 日本久久高清视频| 午夜精品视频| av日韩一区二区三区| 日韩午夜一区| 亚洲人成色77777| 日本亚洲欧美天堂免费| 色91精品久久久久久久久| 国产精品亚洲一区二区三区妖精 | 亚洲综合久久久久| 国产精品成人网站| 欧美三级欧美成人高清www| 成人免费视频国产免费| 欧美日韩亚洲综合一区二区三区 | 亚洲成人av观看| 国产欧美精品日韩精品| 日韩精品一级| 久久亚洲高清| 人人狠狠综合久久亚洲婷| 婷婷视频在线播放| 亚洲福利久久| 亚洲精品怡红院| 国产乱国产乱300精品| 亚洲激情 欧美| 日本一区二区免费在线| 久久精品视频免费在线观看| 婷婷国产在线综合| 亚洲午夜无码久久久久| 日韩欧美中文字幕公布| 色欲av伊人久久大香线蕉影院| 在线中文字幕日韩| 污网站在线免费看| 日本亚洲欧洲色α| 精品国产乱码一区二区三区| 久久本道综合色狠狠五月| 欧美一级淫片| 97干在线视频| 久久av老司机精品网站导航| 999精品免费视频| 国产精品久久久久久久久动漫| 伊人国产在线观看| 欧美唯美清纯偷拍| 神马午夜在线观看| 久久精品亚洲国产| 悠悠资源网亚洲青| 亚洲精品欧美日韩专区| 要久久爱电视剧全集完整观看| 激情五月五月婷婷| 天堂成人国产精品一区| 精品久久久久久无码人妻| 国产精品美女www爽爽爽| 日韩免费黄色片| 91.成人天堂一区| 国内av一区二区三区| 久久久久久国产精品| 祥仔av免费一区二区三区四区| 美女被啪啪一区二区| 国产精品va| 8x8x成人免费视频| 久久久久久**毛片大全| 国产精彩视频在线| 91精品国产综合久久蜜臀| 国产高清视频在线| 欧美亚洲午夜视频在线观看| 精品一区二区三区中文字幕视频| 色狠狠久久av五月综合| 亚洲综合社区| 国产婷婷在线观看| 一区二区三区四区视频精品免费| 一区二区视频网站| 一本大道久久加勒比香蕉| 在线黄色的网站 | 91一区二区| 人妻丰满熟妇av无码区app| 91在线一区二区三区| 日本一区二区三区免费视频| 欧美刺激脚交jootjob| www.欧美日本韩国| 91亚洲精华国产精华| 日韩在线中文| 999这里有精品| 国产精品久久久久久福利一牛影视| 黄色污污网站在线观看| 亚洲欧美国产精品| 黑人巨大亚洲一区二区久| 欧美国产综合视频| 亚洲欧美日韩国产一区二区| 国产精品jizz| 日本高清无吗v一区| 国产福利小视频在线观看| 国产成人在线精品| 国产欧美亚洲精品a| 老司机午夜av| 欧美韩国日本不卡| 在线视频欧美亚洲| 久久久国产精彩视频美女艺术照福利| 日日夜夜一区| 男插女免费视频| 国产福利一区二区三区视频| 久久久久无码精品国产| 亚洲第一福利视频| 亚洲欧美一区二区三区| 亚洲 日韩 国产第一区| 精品在线免费视频| 亚洲国产精品免费在线观看| 欧美第一区第二区| 第一福利在线视频| 欧美精品二区三区四区免费看视频| 玖玖在线精品| 日韩av毛片在线观看| 日韩一区二区免费电影| 大黄网站在线观看| 欧美激情论坛| 韩国一区二区视频| 久久久久国产精品夜夜夜夜夜| 亚洲精品电影网站| 亚洲爱爱视频| 国产 欧美 日本| xfplay精品久久| 国产精品视频在线观看免费| 欧美日韩国产二区| 五月激激激综合网色播| 在线观看av网页| 亚洲综合丁香婷婷六月香| 麻豆导航在线观看| 91麻豆桃色免费看| 99精品视频免费观看| 调教驯服丰满美艳麻麻在线视频| 日韩午夜激情av| 国产精品迅雷| 麻豆视频传媒入口| 91年精品国产| 国产不卡av在线播放| 热99精品只有里视频精品| 亚洲h色精品| 无码人妻精品一区二区三区温州| 欧美美女黄视频| 中文字幕乱码中文乱码51精品| 一区二区在线观看网站| 成人国产精品免费网站| 一级黄色片在线| 91精品国产91久久久久福利| 忘忧草精品久久久久久久高清| jizz日本免费| 日韩欧美中文字幕公布| av成人在线播放| 国产超级av在线|