精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

微軟開放3.1T token高質(zhì)量數(shù)據(jù)!通用/代碼/數(shù)學(xué)/問答,全領(lǐng)域超越開源

人工智能 新聞
RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,通過優(yōu)化數(shù)據(jù)處理流程,從Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等數(shù)據(jù)集,在多項(xiàng)任務(wù)中超越了現(xiàn)有開源數(shù)據(jù)集,顯著提升了模型性能。

過去幾年,大型語言模型(LLMs)已經(jīng)成為人工智能研究的一個(gè)關(guān)鍵領(lǐng)域,從大規(guī)模的自然語言數(shù)據(jù)中學(xué)習(xí),使其能夠以極高的準(zhǔn)確率執(zhí)行各種與語言相關(guān)的任務(wù)。

得益于模型擴(kuò)展性方面的進(jìn)展,研究人員能夠創(chuàng)建具有前所未有復(fù)雜度的模型。

當(dāng)前的研究趨勢(shì)是致力于構(gòu)建更大、更復(fù)雜的模型,具有數(shù)百/數(shù)千億個(gè)參數(shù),但大型語言模型的訓(xùn)練需要海量的訓(xùn)練數(shù)據(jù),尤其隨著模型參數(shù)量的上升,對(duì)于優(yōu)質(zhì)數(shù)據(jù)數(shù)量的要求也將進(jìn)一步加大,優(yōu)質(zhì)數(shù)據(jù)量的缺乏極大限制了模型能力的進(jìn)一步增長。

RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,結(jié)合了目前主流的數(shù)據(jù)處理工具以及自定義的處理模塊,進(jìn)一步優(yōu)化發(fā)展而來。

通過RedStone,研究人員構(gòu)建了包括RedStone-Web、RedStone-Code、RedStone-Math以及RedStone-QA等多個(gè)數(shù)據(jù)集,均在各類任務(wù)中超越了目前開源的數(shù)據(jù)集,能夠?yàn)榇竽P偷念A(yù)訓(xùn)練以及后訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐。

論文地址:https://arxiv.org/abs/2412.03398

倉庫鏈接:https://github.com/microsoft/RedStone

受限于公司的開源策略,RedStone僅開源了數(shù)據(jù)索引以及所有處理代碼以供社區(qū)復(fù)現(xiàn)。不過隨著受社區(qū)關(guān)注度的逐漸提高,目前已有社區(qū)復(fù)現(xiàn)版本的RedStone,依據(jù)github中項(xiàng)目描述,該復(fù)現(xiàn)的數(shù)據(jù)集在規(guī)模和質(zhì)量上與RedStone內(nèi)部數(shù)據(jù)類似。

圖1 RedStone概覽圖

如圖1所示,RedStone以Common Crawl為原始數(shù)據(jù)源,旨在使用同一的數(shù)據(jù)處理框架清洗各類目標(biāo)數(shù)據(jù)。

RedStone-Web為大規(guī)模通用的預(yù)訓(xùn)練數(shù)據(jù),為模型注入全世界通用知識(shí)。

RedStone-Code和RedStone-Math為網(wǎng)絡(luò)中的各類代碼/數(shù)學(xué)相關(guān)數(shù)據(jù),與其他開源的code、math類型數(shù)據(jù)不同的是,網(wǎng)頁中的code/math天然具有純文本和code/math交錯(cuò)的形式,例如代碼教程、題目講解等等。

因此模型可以像人類一樣借助code/math上下文中的純文本來進(jìn)一步深刻理解code/math。此外RedStone還構(gòu)建了RedStone-QA,這是一個(gè)大規(guī)模的QA數(shù)據(jù)集,最簡單直接的方式為模型注入各類知識(shí)。

對(duì)于RedStone-Web,RedStone認(rèn)為對(duì)于高質(zhì)量數(shù)據(jù)的定義至關(guān)重要,早期社區(qū)認(rèn)為文本的流暢度等指標(biāo)代表了數(shù)據(jù)的質(zhì)量,近期越來越多研究人員認(rèn)為含有教育意義的數(shù)據(jù)代表了高質(zhì)量數(shù)據(jù)。

RedStone則是在其中找了一個(gè)平衡點(diǎn),包含知識(shí)且文本流暢的,被定義為高質(zhì)量數(shù)據(jù)。其中知識(shí)可以是任何形式的,只要其中包含的內(nèi)容可以讓模型對(duì)世界的認(rèn)識(shí)得到進(jìn)一步發(fā)展。

因此在RedStone-web的構(gòu)建上,主要處理框架參考了refinedweb和redpajama,但刪除了原有的過濾模塊,使用新構(gòu)建的過濾系統(tǒng),最終獲得了總共3.1T token的高質(zhì)量通用預(yù)訓(xùn)練數(shù)據(jù)。各個(gè)其各個(gè)步驟以及對(duì)應(yīng)的數(shù)據(jù)量如圖2所示。

圖2 RedStone-Web處理步驟

除了RedStone-Web這一通用領(lǐng)域的高質(zhì)量數(shù)據(jù)集以外,RedStone認(rèn)為網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地,足以挖掘各類在通用領(lǐng)域之外被遺漏的各類數(shù)據(jù)(例如對(duì)于RedStone-Web而言有些頁面整體質(zhì)量不高,但其中的某個(gè)片段在特定領(lǐng)域?qū)儆诟哔|(zhì)量),隨后構(gòu)建了RedStone-Code、RedStone-Math以及RedStone-QA等專有數(shù)據(jù)。

其核心仍然是過濾,RedStone提出了多層過濾系統(tǒng),分別對(duì)應(yīng)不同的數(shù)據(jù)規(guī)模。例如采用fasftext對(duì)所有網(wǎng)頁進(jìn)行統(tǒng)一快速過濾,隨后使用更高性能模型精細(xì)過濾以及片段抽取。論文指出RedStone支持構(gòu)建其他類型的專有數(shù)據(jù),只需自定義好過濾器即可。通用領(lǐng)域和特定領(lǐng)域的數(shù)據(jù)構(gòu)建代碼都已開源。

圖3展示了最終各個(gè)數(shù)據(jù)集的規(guī)模。

圖3 數(shù)據(jù)集規(guī)模

為了驗(yàn)證各個(gè)數(shù)據(jù)集的質(zhì)量,作者分別使用這些數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并與開源數(shù)據(jù)集比較。如圖4所示。RedStone-Web在大部分任務(wù)中都顯著高于其他所有開源數(shù)據(jù)集,并且在平均分指標(biāo)上得到了第一的成績。這說明RedStone-Web可以顯著提升模型性能,并且使得模型的訓(xùn)練更為高效。

圖4 RedStone-Web與開源預(yù)訓(xùn)練數(shù)據(jù)集的比較

圖5 RedStone-Code結(jié)果展示

考慮到RedStone-Code是來源于網(wǎng)頁,數(shù)據(jù)是文本與代碼交錯(cuò)的形式,目前社區(qū)中并無此類數(shù)據(jù)集開源,因此在RedStone-Web基礎(chǔ)上增加RedStone-Code進(jìn)行了實(shí)驗(yàn)。

可以看到在并沒有顯示添加例如github等純代碼的數(shù)據(jù)情況下,所有數(shù)據(jù)均只來自網(wǎng)頁,RedStone-Code同樣可以顯著提升模型在代碼方面的能力,說明RedStone-Code能夠給模型注入足夠的代碼知識(shí),對(duì)于代碼數(shù)據(jù)已經(jīng)被耗盡的社區(qū)來說,這是一個(gè)能顯著進(jìn)一步擴(kuò)展代碼領(lǐng)域數(shù)據(jù)的數(shù)據(jù)集。

圖6 RedStone-Web與開源數(shù)據(jù)比較

圖6展示了RedStone-Math與社區(qū)開源數(shù)據(jù)OpenWebMath的比較,結(jié)果顯示在同樣的設(shè)置和步數(shù)下,RedStone-Math在得分上高于OpenWebMath,盡管OpenWebMath同樣來源于網(wǎng)絡(luò),但得益于構(gòu)建了更好的過濾器,最終能夠得到更高的數(shù)據(jù)質(zhì)量。

圖7 RedStone-QA與開源數(shù)據(jù)比較

在沒有依賴更多的QA數(shù)據(jù)下,只從網(wǎng)絡(luò)中爬取QA對(duì),RedStone-QA就可以讓模型相對(duì)與其他開源QA數(shù)據(jù)集得到顯著的提升(例如MMLU提升了大約10個(gè)點(diǎn)),這更說明了網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地。

除了以上這些領(lǐng)域外,RedStone的使用幾乎不受領(lǐng)域的限制,任何人都可以使用開源代碼對(duì)特定領(lǐng)域進(jìn)行爬取。

通過圖4至圖7的結(jié)果可以看到,RedStone構(gòu)建的數(shù)據(jù)在LLM預(yù)訓(xùn)練以及后訓(xùn)練中展現(xiàn)了有前景的能力,使其成為構(gòu)建LLM各類訓(xùn)練數(shù)據(jù)的多功能、實(shí)用pipeline。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-14 09:26:00

2025-08-27 07:17:00

數(shù)據(jù)驅(qū)動(dòng)數(shù)據(jù)治理大數(shù)據(jù)

2025-11-12 08:40:00

數(shù)據(jù)AI模型

2017-07-14 09:54:47

代碼函數(shù)程序

2025-04-27 09:16:00

模型AI數(shù)據(jù)

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2011-03-04 10:11:09

JavascriptAPI

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2023-09-01 14:42:39

數(shù)據(jù)研究

2025-09-23 12:39:02

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2015-08-25 08:29:11

編寫高質(zhì)量命名

2015-08-03 10:40:59

程序員代碼質(zhì)量Quora

2011-12-29 15:02:27

JavaScript

2025-02-11 16:11:12

2025-07-23 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产麻豆精品久久| 国模吧精品人体gogo| 欧美一区二区三区久久精品| 精品国产乱码久久久久久影片| 亚洲 欧美 综合 另类 中字| 日本一级在线观看| 麻豆免费精品视频| 欧美肥老妇视频| 亚洲区自拍偷拍| 国产一区二区三区国产精品| 岛国av一区二区| 超碰成人在线免费观看| 五十路在线视频| 精品在线免费视频| 777国产偷窥盗摄精品视频| 国产一区二区三区精品在线| 亚洲精品不卡在线观看| 91国内精品野花午夜精品| 一级性生活视频| 高清日韩av电影| 成人美女在线视频| 国产欧美一区二区三区在线看| 日本少妇做爰全过程毛片| 日韩激情在线| 国产丝袜一区二区三区| 午夜激情视频网| 精品裸体bbb| 欧美色videos| 国产精品无码免费专区午夜| 91涩漫在线观看| 久久免费视频一区| 国产精品免费一区二区| 国产精品欧美综合亚洲| 另类图片国产| 97久久精品视频| 青青草偷拍视频| 久久亚洲国产| 国产亚洲一区二区精品| 日本xxxx裸体xxxx| 99a精品视频在线观看| 欧美美女网站色| 污污网站免费观看| 欧美影视资讯| 91久久香蕉国产日韩欧美9色| 僵尸世界大战2 在线播放| 日本视频在线| 国产精品日产欧美久久久久| 欧美一区1区三区3区公司| 五月天激情婷婷| jlzzjlzz亚洲日本少妇| 国产高清精品一区二区| 亚洲AV无码精品自拍| 国产一区二区在线视频| 国产免费亚洲高清| 影音先锋国产资源| 天堂精品中文字幕在线| 日本在线观看天堂男亚洲| 在线观看国产亚洲| 国产欧美午夜| 欧美一区在线直播| 精品免费囯产一区二区三区| 午夜亚洲影视| 国产精品99久久久久久www| 樱花视频在线免费观看| 老牛国产精品一区的观看方式| 日韩美女激情视频| 日日夜夜狠狠操| 日本欧美加勒比视频| 国产精品爽爽爽| 91在线视频国产| 国产精品一区2区| av色综合网| 亚洲三区在线播放| 国产婷婷一区二区| 亚洲天堂av免费在线观看| 黄色av免费在线| 亚洲国产另类精品专区| 99精品在线免费视频| 成人性生活视频| 欧美主播一区二区三区美女| 国产美女18xxxx免费视频| 欧美专区视频| 日韩国产在线播放| 国内精品卡一卡二卡三| 天天做天天爱天天综合网2021 | 国产精品高精视频免费| 日韩欧美一级大片| 国产一区二区剧情av在线| 国产高清精品一区二区三区| 欧美日本网站| 亚洲欧美日韩综合aⅴ视频| 国产精品久久..4399| 国产精品扒开腿做爽爽爽视频软件| 欧美午夜免费电影| www日本在线观看| 美女亚洲一区| 久久99精品久久久久久琪琪| 亚洲 欧美 成人| 久久99国产精品久久99果冻传媒| 国产91精品一区二区绿帽| 久久免费看视频| 亚洲激情在线激情| 日韩亚洲在线视频| eeuss鲁片一区二区三区| 夜夜嗨av色一区二区不卡| 亚洲精品国产精品久久清纯直播| 国产精品wwwww| 玖玖精品一区| 国产亚洲欧美日韩一区二区| 免看一级a毛片一片成人不卡| 美女黄色成人网| 91一区二区三区| 中文字幕在线免费| 精品国产老师黑色丝袜高跟鞋| 性生活免费在线观看| 全球av集中精品导航福利| 日韩中文有码在线视频| 国产精品美女久久久久av爽| 国产高清无密码一区二区三区| 麻豆精品传媒视频| 日本h片在线| 欧美日韩国产小视频| 女人被狂躁c到高潮| 欧美在线亚洲综合一区| 国产精品情侣自拍| 亚洲 欧美 激情 另类| 亚洲自拍偷拍欧美| √天堂资源在线| 日本久久精品| 日本91av在线播放| 天天干视频在线观看| 一区二区三区美女视频| 色婷婷一区二区三区在线观看| 女人av一区| 5278欧美一区二区三区| 人妻无码中文字幕免费视频蜜桃| 亚洲欧美另类图片小说| 日日干夜夜操s8| 日韩电影在线视频| 国产精品色视频| 成人欧美一区| 欧美特级限制片免费在线观看| 亚洲第一页av| 欧美一级久久| 久久精品aaaaaa毛片| 麻豆蜜桃在线观看| 精品丝袜一区二区三区| 日韩精品手机在线| 99精品在线观看视频| 精品久久一二三| 欧美深夜视频| 日本欧美精品在线| 国产精品99999| 欧美在线免费观看亚洲| 国产精品视频在| 紧缚捆绑精品一区二区| 一区二区在线观看网站| 91九色成人| 久久av在线播放| 精品人妻一区二区三区三区四区| 亚洲激情校园春色| 中文字幕第3页| 国产农村妇女精品一二区| 久久草视频在线看| 亚洲成av在线| 日韩视频免费在线观看| 国产99视频在线| 黄色成人在线播放| 婷婷色一区二区三区| 免费看欧美女人艹b| 9999在线观看| 福利片一区二区| 国产极品精品在线观看| 免费观看在线午夜影视| 日韩欧美亚洲一区二区| 日本午夜小视频| 久久久99久久精品欧美| 亚洲欧洲日本精品| 国产精品啊啊啊| 欧美另类一区| 亚洲伊人精品酒店| 国语自产精品视频在免费| 午夜老司机福利| 一本久道久久综合中文字幕 | 国产精品无码专区av免费播放| 亚洲特黄一级片| 精品国产人妻一区二区三区| 老妇喷水一区二区三区| 伊人久久在线观看| 在线成人动漫av| 亚洲自拍在线观看| 在线看片国产福利你懂的| 自拍视频国产精品| 成人午夜免费福利| 欧美三级日韩三级| 国产精品99re| 国产精品乱子久久久久| 在线精品视频播放| 蜜桃av噜噜一区二区三区小说| 久久亚洲a v| 日韩精品久久久久久久电影99爱| 99久re热视频这里只有精品6| 惠美惠精品网| 欧美激情久久久久| 国产精品麻豆一区二区三区| 精品国产亚洲在线| 中文字幕在线观看第二页| 亚洲一二三专区| 日韩一区二区三区四区视频| 99精品久久99久久久久| 肉色超薄丝袜脚交| 日韩在线卡一卡二| 成人免费播放器| 欧美在线三区| 伊人情人网综合| 国产成人调教视频在线观看| 国产精品久久久久久久小唯西川 | 老鸭窝毛片一区二区三区| 91看片淫黄大片91| 日韩在线视屏| 日韩精品伦理第一区| 日韩有码av| 狠狠色综合一区二区| 日韩免费精品| 91精品国产自产在线| 亚洲日本网址| 欧美一级大片视频| 国产乱码精品一区二三赶尸艳谈| 欧美成人午夜视频| 免费黄色在线| 久久视频在线看| 日本中文字幕伦在线观看| 国产一区二区日韩| 欧洲天堂在线观看| 日韩精品中文字幕在线观看| 狠狠躁夜夜躁av无码中文幕| 日韩丝袜美女视频| 99精品视频免费看| 制服丝袜国产精品| 国产又粗又黄又爽的视频| 欧美影视一区在线| 国产女主播喷水视频在线观看| 黑人与娇小精品av专区| 91久久国产视频| 五月激情综合色| 国产精品黄色大片| 欧美性极品少妇精品网站| 韩国av免费观看| 天天亚洲美女在线视频| 午夜精品久久久久久久久久久久久蜜桃| 亚洲国产美国国产综合一区二区| 久久精品性爱视频| 天天综合天天做天天综合| 日韩伦人妻无码| 欧美日韩一区免费| 香蕉影院在线观看| 欧美最新大片在线看| 在线观看日批视频| 欧美精选一区二区| jizz中国少妇| 亚洲国产成人精品电影| 天天干天天操av| 亚洲天堂男人天堂女人天堂| 91福利在线视频| 久久精品国产91精品亚洲| 26uuu亚洲电影在线观看| 欧美高清视频在线观看| 久草在线中文最新视频| 日韩男女性生活视频| 青青在线精品| ts人妖另类在线| 制服丝袜日韩| 9999在线观看| 亚洲免费黄色| 丁香婷婷激情网| 国产伦精品一区二区三区在线观看 | 日韩欧美国产三级电影视频| 天天摸天天干天天操| 亚洲一品av免费观看| 国产在线观看91| 91高清免费视频| 日韩黄色三级| 国产一区在线免费| 欧美一二区在线观看| 成人黄色片免费| 新67194成人永久网站| www.天天射.com| 成人亚洲精品久久久久软件| 日本二区在线观看| 亚洲欧美日韩国产成人精品影院 | 精品日韩欧美一区二区| 男女视频在线观看免费| 欧美精品日韩三级| 欧美自拍电影| 成人黄视频免费| japanese国产精品| 免费高清一区二区三区| 日韩国产欧美三级| 亚洲日本久久久| 国产精品久久久久久久久久免费看| 妺妺窝人体色www聚色窝仙踪| 91九色02白丝porn| 国产91久久久| www.精品av.com| 亚洲私拍视频| 懂色一区二区三区av片| 日韩情爱电影在线观看| 精品少妇一区二区三区在线| 国产精品一区专区| 日本免费www| 精品久久久久久国产| 国产三级精品在线观看| 亚洲欧美日韩国产中文专区| 免费毛片在线看片免费丝瓜视频| 国产精品久久久亚洲| 久久综合另类图片小说| 无码毛片aaa在线| 日日噜噜夜夜狠狠视频欧美人| 熟妇高潮一区二区| 亚洲视频在线一区观看| 国产免费www| 国产手机视频精品| 99爱在线观看| 国产传媒一区二区| 自拍偷拍欧美专区| 色天使在线观看| 中文字幕免费不卡| 亚洲s码欧洲m码国产av| 亚洲国产三级网| 波多野结衣在线观看| 亚洲xxxx在线| 欧美粗暴jizz性欧美20| 精品国产鲁一鲁一区二区三区| 中文字幕高清一区| 中文文字幕一区二区三三| 亚洲欧美综合v| www.精品| 欧美日韩一区二区视频在线观看| 国产日韩高清一区二区三区在线| 蜜臀av粉嫩av懂色av| 亚洲国产色一区| 国产刺激高潮av| 性欧美暴力猛交69hd| 女仆av观看一区| 亚洲 欧美 日韩 国产综合 在线 | 久久精品国产第一区二区三区最新章节| 欧美激情麻豆| av漫画在线观看| 亚洲地区一二三色| 午夜av免费观看| 欧美一级免费看| 精品视频网站| 国产精品一区二区羞羞答答| 中文幕一区二区三区久久蜜桃| 中文字幕 人妻熟女| 在线播放日韩欧美| 日韩国产大片| 久久亚洲国产成人精品无码区| 国产成人在线电影| 日韩女同强女同hd| 亚洲老头老太hd| 国产综合av| 2021狠狠干| 成人爱爱电影网址| 欧美成人精品欧美一级乱黄| 亚洲久久久久久久久久久| 最新日韩一区| 国产对白在线播放| 高清不卡在线观看av| 色一情一乱一伦| www.日韩系列| 国产精品久久久网站| 韩国日本美国免费毛片| 亚洲欧洲另类国产综合| 性生活黄色大片| 欧美一级视频免费在线观看| 日韩成人精品一区| 国产伦理在线观看| 日韩欧美在线免费| 九七电影韩国女主播在线观看| 91久久伊人青青碰碰婷婷| 一本久道久久久| 岛国片在线免费观看| 精品国产乱码久久久久久久| 欧美成人影院| 国产日韩欧美大片| 久久人人爽爽爽人久久久| 一级黄色大片免费| 欧美黄色三级网站| 国产欧美日韩在线一区二区| 日本一二三区在线| 色综合久久久久综合体桃花网| 国产原创在线观看| 免费影院在线观看一区| 麻豆精品在线播放| 劲爆欧美第一页| 中文字幕免费精品一区| 国产成人精品福利| 亚洲欧美自拍另类日韩| 午夜电影久久久|