精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集

發布于 2024-5-6 09:41
瀏覽
0收藏

Meta最近開源的Llama 3模型再次證明了「數據」是提升性能的關鍵,但現狀是,開源的大模型有一堆,可開源的大規模數據卻沒多少,而收集、清洗數據又是一項極其費時費力的工作,也導致了大模型預訓練技術仍然掌握在少數高端機構的手中。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區


最近,Huggingface的機器學習團隊宣布開源了一個迄今為止,規模最大的、質量最高的、即用型(ready-to-use)數據集FineWeb


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

數據集鏈接:??https://huggingface.co/datasets/HuggingFaceFW/fineweb??


FineWeb是在對CommonCrawl數據集(2013年夏天到2024年3月,共95個dump)進行去重、清洗后,得到的一個高質量、包含15T+個tokens(根據GPT-2的分詞器)的Web數據集,也是目前公開可用的、最干凈的語言模型預訓練數據集,其主要用作英語領域的公共數據研究。


在數據處理部分,研究團隊針對LLM應用場景,對整個數據處理pipeline進行了優化,并在大規模數據處理庫datatrove上運行實現。


模型的消融實驗性能結果也顯示,FineWeb比其他開源數據集的質量更高,并且仍有進一步過濾和改進的空間,研究團隊也表示在未來將繼續探索如何提升FineWeb數據集的質量。


數據集性能

為了驗證FineWeb數據的質量,研究人員選擇RefinedWeb、C4、Dolma v1.6、The Pile、SlimPajama數據集作為對比,訓練了一系列「1.8B參數量的小模型」進行數據集性能消融實驗和評估。


選擇的評估指標為commonsense_qa (acc_norm)、hellaswag (acc/acc_norm)、openbookqa (acc/acc_norm)、piqa (acc/acc_norm)、siqa (acc/acc_norm)、winogrande (acc/acc_norm)、sciq (acc/acc_norm)、arc (acc/acc_norm)和mmlu (acc/acc_norm)的平均值,每項指標均具有三個特點:


1. 在同一數據集的不同樣本上的訓練差異很小;


2. 訓練期間,指標單調增加;


3. 在已知高質量的數據集(C4、The Pile、RedPajama)上運行,模型的分離程度(seperation)更高。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

在滾動窗口中平均5k步的平滑繪圖


實驗過程中用到的prompt都已經過格式化,以便計算和對比多項選擇問題中完整答案的對數似然。


從結果來看,使用FineWeb數據集訓練的模型性能在各個階段都是最好的。


下載使用

數據的命名規則為CC-MAIN-(year)-(week number)


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區


使用datatrove


from datatrove.pipeline.readers import ParquetReader
# limit determines how many documents will be streamed (remove for all)
# to fetch a specific dump: hf://datasets/HuggingFaceFW/fineweb/data/CC-MAIN-2024-10
data_reader = ParquetReader("hf://datasets/HuggingFaceFW/fineweb/data", limit=1000) 
for document in data_reader():
    # do something with document
    print(document)
###############################    
# OR for a processing pipeline:
###############################
from datatrove.executor import LocalPipelineExecutor
from datatrove.pipeline.readers import ParquetReader
from datatrove.pipeline.filters import LambdaFilter
from datatrove.pipeline.writers import JsonlWriter
pipeline_exec = LocalPipelineExecutor(
    pipeline=[
        ParquetReader("hf://datasets/HuggingFaceFW/fineweb/data/CC-MAIN-2024-10", limit=1000),
        LambdaFilter(lambda doc: "hugging" in doc.text),
        JsonlWriter("some-output-path")
    ],
    tasks=10
)
pipeline_exec.run()


使用huggingface_hub


from huggingface_hub import snapshot_download
folder = snapshot_download(
                "HuggingFaceFW/fineweb", 
                repo_type="dataset",
                local_dir="./fineweb/",
                allow_patterns="data/CC-MAIN-2023-50/*")


為了加快下載速度,需要確保安裝 pip install huggingface_hub[hf_transfer] 并設置環境變量 HF_HUB_ENABLE_HF_TRANSFER=1


使用datasets


from datasets import load_dataset
fw = load_dataset("HuggingFaceFW/fineweb", name="CC-MAIN-2024-10", split="train", streaming=True)


FineWeb數據卡


數據實例


下例為CC-MAIN-2021-43 的一部分,于2021-10-15T21:20:12Z進行爬取。


{
   "text": "This is basically a peanut flavoured cream thickened with egg yolks and then set into a ramekin on top of some jam. Tony, one of the Wedgwood chefs, suggested sprinkling on some toasted crushed peanuts at the end to create extra crunch, which I thought was a great idea. The result is excellent.",
   "id": "<urn:uuid:e5a3e79a-13d4-4147-a26e-167536fcac5d>",
   "dump": "CC-MAIN-2021-43",
   "url": "<http://allrecipes.co.uk/recipe/24758/peanut-butter-and-jam-creme-brulee.aspx?o_is=SimilarRecipes&o_ln=SimRecipes_Photo_7>",
   "date": "2021-10-15T21:20:12Z",
   "file_path": "s3://commoncrawl/crawl-data/CC-MAIN-2021-43/segments/1634323583083.92/warc/CC-MAIN-20211015192439-20211015222439-00600.warc.gz",
   "language": "en",
   "language_score": 0.948729,
   "token_count": 69
}

數據字段


text (字符串):主要文本內容

id (字符串):源自CommonCrawl樣本的原始唯一標識符

dump (字符串):采樣于CommonCrawl dump

url (字符串):text 所在原始頁面的 url

date (字符串):抓取日期(CommonCrawl提供)

file_path (字符串):包含此示例的單個 CommonCrawl warc 文件的 s3 路徑

language (字符串):數據集中的所有樣本均為en

language_score (float):fastText 語言分類器報告的語言預測分數

token_count (int):使用gpt2分詞器獲得的token數量


數據切分


default 子集包括整個數據集。


如果只想使用特定 CommonCrawl 轉儲中的數據,可以使用dump名稱作為子集。


根據研究人員的實驗結果來看,使用不同dump訓練后的效果有所差異:對于相對較小的訓練(<400B個token),建議使用最近的 CC-MAIN-2023-50 和 CC-MAIN-2024-10


數據創建


雖然最近經常會有大模型對權重進行開源,但這些版本通常不包含模型的訓練數據。


FineWeb的目標是為開源社區提供一個海量的、干凈的預訓練數據集,可用于推動真正開源模型(帶數據的開源模型)的極限。


源數據由 CommonCrawl 基金會在 2013-2024 年期間抓取的網頁組成。


研究人員從每個網頁的 html 中提取主頁文本,仔細過濾樣本并對每個 CommonCrawl dump/crawl進行重復數據刪除。


雖然團隊最初打算對整個數據集進行重復數據刪除,但我們的消融表明,對單獨進行重復數據刪除的轉儲/爬網樣本進行的訓練優于對所有一起進行重復數據刪除的轉儲/爬網樣本進行的訓練。


數據預處理


研究人員使用datatrove 庫來處理數據,腳本已開源。


開源15T tokens!HuggingFace放出規模最大、質量最高預訓練數據集-AI.x社區

腳本鏈接:??https://github.com/huggingface/datatrove/blob/main/examples/fineweb.py???


具體流程包括六步:


1. Url過濾,使用block-list和subword檢測技術對源自惡意和 NSFW 網站的文檔進行過濾;


2. Trafilatura,從CommonCrawl的warc文件中提取原始 HTML 文本;


3. FastText LanguageFilter,刪除en語言評分低于 0.65 的文檔;


4. 質量過濾,使用Gopher Reptition, C4 Quality filters(去除terminal_punct規則)和FineWeb自定義過濾器(刪除列表樣式的文檔、具有重復行的文檔以及可能具有錯誤行格式的啟發式方法)


5. MinHash重復數據去冗余,每次抓取都單獨進行去重,參數為5-gram、14x8哈希函數;


6. PII 格式化,對電子郵件和公共 IP 地址進行匿名化


對于電子郵件,使用正則表達式將其替換為 email@example.com 或 firstname.lastname@example.org


對于IP地址,先采用正則表達式匹配,然后過濾掉以僅匿名分配給公共網絡的 IP 地址,最后將匹配到的IP地址替換為以下隨機生成的 IP 地址之一(22.214.171.124 、126.96.36.199 、 188.8.131.52 、 220.127.116.11 和 18.104.22.168),這些地址在創建數據集時未響應 ping 請求。


由于誤報率過高,研究人員決定不對電話號碼使用正則表達式匹配。


標注


研究人員使用 language、language_score和token_count標注來增強原始樣本;與語言相關的標注由語言過濾器自動生成;token_count通過gpt2分詞器獲得。

使用數據的注意事項

數據集的社會影響


研究人員的目標是,在FineWeb數據集發布后,讓整個機器學習社區更容易進行模型訓練。


雖然過去已經公開發布了多個具有強大性能的開放權重模型,但通常沒有附帶相應的訓練數據集,而預訓練的關鍵就在于數據,不同數據集的特殊性和特征已被證明對模型的性能具有非常大的影響和作用。


由于創建高質量的訓練數據集是訓練能夠出色完成下游任務的 LLM 的基本要求,因此,利用FineWeb,不僅可以使數據集創建過程更加透明,而且借助公開的處理設置,包括所使用的代碼庫,向社區公開發布數據集,可以幫助模型創建者減輕數據集管理的時間和計算成本。


關于偏見的討論


通過在 URL 級別進行過濾,研究人員最大限度地減少數據集中存在的 NSFW 和有毒內容的數量,但最終發布的數據集中仍然存在大量可能被視為有毒或包含有害內容的文檔。


由于FineWeb源自整個網絡,因此其中常見的有害偏見都可能會在該數據集上重現。


研究人員故意避免使用基于與「gold」來源(例如維基百科或毒性分類器)的相似性來定義文本質量的機器學習過濾方法,因為這些方法會不成比例地刪除特定方言中的內容,并將其過度分類為與特定社交身份相關的有毒文本。


其他已知限制


由于應用了一些過濾步驟,代碼內容可能在該數據集中并不普遍。


如果用戶需要訓練一個可執行代碼任務的模型,研究人員建議將FineWeb與代碼數據集一起使用,例如 The Stack v2,或者還應該考慮用專門的精選資源(例如維基百科)來補充 FineWeb,因為其格式可能比FineWeb中包含的維基百科內容更好。


許可證


FineWeb數據集根據開放數據共享歸屬許可證 (ODC-By) v1.0 許可證發布,并且使用過程還須遵守 CommonCrawl 的使用條款。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/eWWa59f0Eu6G1GFMFrHA-A??

收藏
回復
舉報
回復
相關推薦
亚洲欧洲午夜一线一品| 国产高清精品网站| 亚洲另类欧美自拍| 日韩欧美在线免费观看视频| 加勒比一区二区三区在线| 石原莉奈在线亚洲三区| 在线观看亚洲区| 爱豆国产剧免费观看大全剧苏畅| 黄色网页在线看| 国产精品1区2区| 国内精品一区二区三区四区| 精品人妻一区二区三区日产乱码卜| 成人av影院在线观看| 91啪亚洲精品| 国产精品日本精品| 欧美日韩中文字幕在线观看| 粉嫩久久久久久久极品| 亚洲成人av免费| 日韩欧美在线一区二区| 国产乱码精品一区二三区蜜臂| 久久久久久久久丰满| 欧美大黄免费观看| 50路60路老熟妇啪啪| 中文字幕在线免费| 国产成a人亚洲精品| 秋霞成人午夜鲁丝一区二区三区| 手机看片国产日韩| jizz性欧美2| 精品国产91久久久| 国产精品h视频| 少妇人妻精品一区二区三区| 美女一区二区久久| 国内精品久久影院| 国产传媒视频在线| 神马日本精品| 91精品国产乱| 日韩欧美视频网站| 国产区在线观看| 国产日韩欧美一区二区三区综合| 91天堂在线视频| 一级黄色免费网站| 欧美涩涩网站| 中文字幕一精品亚洲无线一区| 亚洲av无码专区在线播放中文| 超碰一区二区| 亚洲夂夂婷婷色拍ww47| 亚洲精品无人区| 日本黄在线观看| 成人午夜伦理影院| 91在线无精精品一区二区| 影音先锋在线国产| 亚洲经典三级| 久久91精品国产91久久跳| 亚洲最大成人综合网| 国产精品视屏| 欧美日韩成人激情| 午夜视频在线瓜伦| 三级在线看中文字幕完整版| 亚洲同性gay激情无套| 茄子视频成人在线观看| 天天干天天摸天天操| 国内精品伊人久久久久影院对白| 国产精品扒开腿做爽爽爽视频| 精品一区二区三区人妻| 性欧美欧美巨大69| 亚洲一级片在线看| 久久久无码人妻精品一区| 盗摄系列偷拍视频精品tp| 欧美一区二区三区四区久久| 91制片厂毛片| 日本国产亚洲| 欧美日韩激情一区二区| 免费黄色福利视频| 丝袜老师在线| 欧美小视频在线观看| 成人一对一视频| 一区二区三区电影大全| 大桥未久av一区二区三区| 人妻无码久久一区二区三区免费| 色网在线观看| 亚洲人吸女人奶水| 妞干网这里只有精品| 羞羞网站在线免费观看| 亚洲综合免费观看高清在线观看| 欧美视频在线第一页| 亚洲性图自拍| 亚洲国产综合人成综合网站| 少妇一晚三次一区二区三区| a'aaa级片在线观看| 午夜欧美视频在线观看| 99精品人妻少妇一区二区| 久久99久久99精品免观看软件| 91精品91久久久中77777| 青青青在线视频免费观看| 青青久久精品| 亚洲风情亚aⅴ在线发布| 亚洲久久久久久| 亚洲第一二三区| 国产亚洲精品91在线| 五月天色婷婷丁香| 亚洲精品成人无限看| 午夜精品视频在线| 一级黄色av片| 国产麻豆成人精品| 久久亚洲一区二区| 成年人视频免费在线观看| 成人欧美一区二区三区视频网页| 一区二区三区欧美成人| 啦啦啦中文在线观看日本| 精品欧美aⅴ在线网站 | 亚洲mv大片欧洲mv大片| 欧美日韩成人免费| 国产高清中文字幕| 蜜臀av在线播放一区二区三区| 成人福利视频网| 欧美一级片免费| 久久精品亚洲精品国产欧美 | 黄色永久免费网站| 免费欧美网站| 亚洲片国产一区一级在线观看| 日本午夜精品视频| 91久久综合| 国产日产欧美a一级在线| 欧美 日韩 国产 精品| 中文字幕国产一区| 国产精品又粗又长| 国产精品视频一区视频二区| 亚洲国产三级网| 男人的午夜天堂| 久久久蜜桃一区二区人| 91观看网站| 都市激情在线视频| 精品久久久久久久久久久| 久久人人爽人人爽人人片av高清| 国产午夜免费视频| 蜜臀av国产精品久久久久| 国产日韩欧美亚洲一区| 免费大片在线观看www| 日韩欧美在线免费观看| 爱情岛论坛亚洲自拍| re久久精品视频| 97国产在线视频| 少妇又紧又色又爽又刺激视频| 成人午夜电影久久影院| 四虎永久免费网站| 久久91超碰青草在哪里看| 日韩av在线导航| 久久免费在线观看视频| 国产在线一区二区| 亚洲一区免费看| 日韩中文在线播放| 亚洲美女喷白浆| 日韩欧美三级在线观看| 极品尤物av久久免费看| 日韩一本精品| 成人做爰视频www网站小优视频| 日韩成人中文字幕| 亚洲免费在线视频观看| 91麻豆精品在线观看| 日韩精品一区在线视频| 看全色黄大色大片免费久久久| 欧美日韩爱爱视频| 精品国产999久久久免费| 亚洲精选一二三| 欧美一级特黄a| 久久精品国产大片免费观看| 国产精品黄页免费高清在线观看| 黄色毛片在线看| 91福利小视频| www.黄色在线| 亚洲一区日本| 欧美日韩亚洲一区二区三区四区| 妞干网免费在线视频| 精品亚洲精品福利线在观看| 国产精品人人人人| 久久久久久久久久久久久夜| 国产精品无码专区av在线播放 | 欧美精品自拍| 豆国产97在线| 久草在线中文最新视频| 日韩成人中文字幕| 亚洲 日本 欧美 中文幕| 久久先锋影音av| 韩国中文字幕av| 天堂网在线观看国产精品| 91精品国产综合久久香蕉最新版| 国产一二区在线观看| 欧美一区二区三区男人的天堂| 国产精品成人免费观看| 成人午夜伦理影院| 黄www在线观看| 日本一区二区三区视频| 国产精品美女免费视频| av网址在线看| 精品国产乱码久久久久久浪潮| 尤物视频在线观看国产| 国产日韩欧美在线一区| 涩多多在线观看| 亚洲二区视频| 欧美不卡三区| 国产精品亚洲成在人线| 欧美成人精品一区二区| 日韩a在线观看| 欧美色图第一页| 久久精品一区二区三| 成人网页在线观看| 欧美成人免费高清视频| 一区二区三区四区日韩| 久久精品日产第一区二区三区乱码| 日韩天堂在线| xvideos亚洲人网站| 天堂在线视频免费| 欧美精品粉嫩高潮一区二区| 黄色激情视频在线观看| 国产精品免费久久久久| 色男人天堂av| 免费看的黄色欧美网站| 自拍另类欧美| 日韩mv欧美mv国产网站| 91精品啪在线观看麻豆免费| 涩涩视频网站在线观看| www.日韩av.com| 天堂视频中文在线| 日韩写真欧美这视频| 免费av中文字幕| 亚洲精选视频免费看| 精品国产成人亚洲午夜福利| 福利一区在线观看| 手机看片福利日韩| 欧美国内亚洲| 亚洲精品日韩在线观看| 亚洲国产最新| 成人黄色在线免费观看| 日韩一级特黄| 国产成人激情视频| 17videosex性欧美| 萌白酱国产一区二区| www在线播放| 亚洲美女视频网站| 五月婷婷六月丁香| 日韩欧美高清dvd碟片| 一区二区www| 欧美午夜影院一区| 亚洲欧美日韩激情| 红桃视频成人在线观看| 亚洲精品久久久久久国| 亚洲国产精品成人综合| 制服丝袜第二页| av在线不卡免费看| 国产国语老龄妇女a片| 久久99热99| 久热精品在线观看视频| 久久狠狠婷婷| 干日本少妇首页| 亚洲精品黄色| 亚洲人精品午夜射精日韩| 亚洲精品电影| 国产福利片一区二区| 999国产精品视频| 亚洲在线色站| 精品精品99| 日本在线成人一区二区| 久久超碰99| 欧美日韩国产高清视频| 亚洲精品白浆高清| 黄色一区三区| 欧美一区二区三区红桃小说| 精品国产一区二区三区麻豆小说 | 成人噜噜噜噜| 91免费高清视频| 91成人短视频在线观看| 91老司机在线| 亚洲高清在线一区| 国产精品免费看一区二区三区| 永久免费精品视频| 国产伦精品一区二区三区视频孕妇| 999国产精品一区| 91成人理论电影| 精品国产乱子伦一区二区| 久久99欧美| 同性恋视频一区| 久久精品国产综合精品| 精品国产一区二区三区小蝌蚪| 亚洲欧洲日本国产| 中文字幕一区二区三区乱码图片| 久久精品国产精品亚洲精品色| 一区二区三区四区电影| 欧美一区二区激情| 午夜在线播放视频欧美| 一区二区在线播放视频| 欧美欧美黄在线二区| 欧美精品亚洲精品| 99免费精品| 国产精品999视频| 蓝色福利精品导航| 精品人妻一区二区三区日产乱码卜| 国产精品久久福利| www.国产高清| 日韩一区二区三区电影在线观看| 日本一卡二卡四卡精品| 久久成人综合视频| 中文字幕 在线观看| 亚洲va欧美va国产综合久久| 亚洲精品白浆高清| 久久久久久久香蕉| 免费看黄色91| 亚洲精品女人久久久| 亚洲精品久久久蜜桃| 日批视频免费观看| 精品处破学生在线二十三| 免费黄色在线看| 日本成人激情视频| 91精品尤物| 三级网在线观看| 免费人成黄页网站在线一区二区| 女尊高h男高潮呻吟| 亚洲午夜精品久久久久久久久| 一级特黄aaa大片在线观看| 亚洲欧美中文日韩在线| 第四色日韩影片| 51蜜桃传媒精品一区二区| 色综合天天爱| 成年人在线观看视频免费| 2023国产精品| 日本黄色片视频| 精品黑人一区二区三区久久| 国产黄色在线免费观看| 国产精品美女呻吟| 欧洲乱码伦视频免费| 免费看的黄色大片| aaa欧美日韩| 国产成人精品av久久| 精品国免费一区二区三区| 羞羞的视频在线看| 亚洲自拍偷拍视频| 亚洲最大av| 日本特黄在线观看| 亚洲同性同志一二三专区| 91好色先生tv| 久久视频国产精品免费视频在线| 日本在线视频一区二区| 日韩免费电影一区二区三区| 久久久天天操| 日本少妇高潮喷水xxxxxxx| 色综合久久天天| 精品无吗乱吗av国产爱色| 日本乱人伦a精品| 免费av一区| 麻豆av免费在线| 国产日韩欧美综合一区| av首页在线观看| 亚洲欧美激情视频| 亚洲最大成人| 久久这里精品国产99丫e6| 99热这里只有精品8| 无码人妻精品一区二区三| 亚洲观看高清完整版在线观看| 国内老熟妇对白hdxxxx| 欧美日韩高清区| 亚洲1区在线| 你真棒插曲来救救我在线观看| 懂色av中文字幕一区二区三区| 国产一级在线播放| 亚洲成人久久网| 青青草原国产在线| 国产一区二区免费电影| 亚洲精品乱码| 久久美女免费视频| 欧美三级日韩三级| a视频在线观看| 国产精品 日韩| 日日摸夜夜添夜夜添亚洲女人| 色欲AV无码精品一区二区久久| 欧美日韩免费一区二区三区视频| 色视频在线免费观看| 国产精品私拍pans大尺度在线| 亚洲蜜桃视频| 国产清纯白嫩初高中在线观看性色| 亚洲电影第三页| 男女av在线| 91热福利电影| 国产精品99免费看| 91视频免费观看网站| 欧美日韩在线精品一区二区三区激情| 免费动漫网站在线观看| 国产精品户外野外| 小小影院久久| 性欧美丰满熟妇xxxx性仙踪林| 欧美性xxxx极品高清hd直播| 日本在线看片免费人成视1000| 91在线看www| 免费永久网站黄欧美| 欧美日韩中文字幕视频| 精品女同一区二区| 美女18一级毛片一品久道久久综合| 一区二区三区三区在线| caoporm超碰国产精品| 亚洲GV成人无码久久精品| 久久九九免费视频| 国产伦精品一区二区三区免费优势|