精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智源千萬級指令微調數據集Infinity-Instruct持續迭代,Llama3.1僅微調即可接近GPT-4

人工智能
Infinity Instruct未來將開源基礎、對話指令數據處理的全流程代碼,以及模型訓練代碼。同時,智源將探索擴展Infinity Instruct數據策略到對齊、預訓練階段,支持語言模型構建全生命周期的高質量數據需求。

指令微調是引導語言模型落地、構建高性能對話模型的關鍵一步。針對目前開源的指令數據集質量低、覆蓋領域少、數據信息不透明等問題,智源研究院推出了千萬級指令微調數據集Infinity Instruct。該數據集今年6月發布,近日完成了新一輪迭代,包括Infinity-Instruct-7M基礎指令數據集和Infinity-Instruct-Gen對話指令數據集。

Infinity-Instruct-7M包含744萬條數學、代碼、常識問答等領域的基礎指令數據,用于進一步全面提升預訓練模型的基礎能力。Opencompass測試結果顯示,經過在Infinity-Instruct-7M數據集上的微調,Llama3.1-70B、Mistral-7B-v0.1綜合能力評價可基本對齊官方自己發布的對話模型,且InfInstruct-7M-Mistral-7B的綜合評分超過了GPT-3.5,InfInstruct-7M-Llama3.1-70B已十分接近GPT-4。

*官方匯報結果

Infinity-Instruct-Gen包含149萬條合成的復雜指令,用于提升模型在各種真實對話場景中回復的魯棒性?;谠摂祿瑢涍^Infinity-Instruct-7M增強的模型做進一步SFT,即可取得超過官方對話模型的效果。而大多數的官方對話模型除了做基本的SFT外,還會做DPO/RLHF等對齊訓練以提升模型的對話能力,產生額外的訓練成本。

智源在MTBench、AlpacaEval2、Arena-Hard三個主流榜單上評測了Infinity-Instruct 7M+Gen對模型對話能力的增益,其中,AlpacaEval2和Arena-Hard與真實人類評價榜單Chatbot Arena有很高的一致率,MTBench則評測模型的多輪對話能力。

如下左圖所示,InfInstruct-7M-Gen-Mistral-7B,InfInstruct-7M-Gen-Llama3.1-8B,InfInstruct-7M-Gen-Llama3.1-70B等經過Infinity Instruct微調的模型已經超越了官方對話模型的性能。Arena-Hard上InfInstruct-7M-Gen-Llama3.1-70B(66)超過了Llama3.1-70B-Instruct(55.7)和Llama3.1-405B-Instruct(64.1)。此外,如右下圖所示,AlpacaEval2.0榜單上,InfInstruct-7M-Gen-Llama3.1-70B(46.1)更是超過了GPT4-0314(35.3),非常接近GPT4-1106(50)的水準,真正實現了GPT-4級別的對話能力。

Infinity Instruct數據集今年6月在Flopsera,Huggingface等平臺發布后,快速到達了Huggingface Dataset的Trending第一,且吸引大量基于Infinity Instruct的開源微調工作。

下載使用 Infinity-Instruct可在Huggingface、DataHub、Flopsera等平臺下載。

Huggingface: https://huggingface.co/datasets/BAAI/Infinity-Instruct

DataHub: https://data.baai.ac.cn/details/InfinityInstruct

Flopsera: http://open.flopsera.com/flopsera-open/details/InfinityInstruct

Huggingface提供了快速下載Infinity-Instruct系列數據集及模型的代碼。

##數據集下載 
 
from datasets import load_dataset 
dataset_7M = load_dataset('BAAI/Infinity-Instruct','7M',split='train') 
dataset_Gen = load_dataset('BAAI/Infinity-Instruct','Gen',split='train') 
 
##模型下載 
 
from transformers import AutoModelForCausalLM, AutoTokenizer 
model_llama3_1_70B = AutoModelForCausalLM.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Llama3_1-70B", 
 
    torch_dtype=torch.bfloat16, 
 
    device_map="auto" 
 
) 
 
tokenizer_llama3_1_70B = AutoTokenizer.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Llama3_1-70B") 
 
model_mistral_7B = AutoModelForCausalLM.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Mistral-7B", 
 
   torch_dtype=torch.bfloat16, 
 
   device_map="auto" 
 
) 
 
tokenizer_mistral_7B = AutoTokenizer.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Mistral-7B")

Infinity-Instruct給每一條指令數據標注了語種、能力類型、任務類型、數據來源等信息,便于使用者根據自身需要篩選數據子集。

技術路線

智源研究院搜集了7500萬余條開源指令作為待選指令池,采用數據選擇與指令合成兩條途徑快速迭代,構建高質量的基礎、對話指令數據集,以填補開源對話模型與GPT-4之間的基礎能力、對話能力差距。

基礎指令數據篩選

對于基礎指令數據集,篩選流程主要考慮訓練數據集和目標數據集數據分布的對齊,基于DSIR的思路,在訓練數據集上進行排序,選取訓練集的子集,擬合目標數據集的分布。

對話數據集生成、進化、評價

對于對話指令數據集,Infinity-Instruct首先采樣了部分高質量的開源指令集,并為每條指令分配一組標簽,描述完成指令所需的能力和知識。標簽系統共有兩個級別:

第一級標簽: 宏觀類別,如 "自然語言處理 "和 "數學推理"。共包括 26 個類別。

第二集標簽:刻畫具體任務,包含超過1.5w個類別。

基于此系統,就能識別指令集的內容分布以及完成不同任務所需的能力,構建一個高質量的種子數據集。隨后,Infinity-Instruct參考WizardLM的方法對種子指令在廣度、深度方向上進行擴展,并用AI Agent從指令合規性的角度剔除未能進化的數據。最后,進化后的指令作為初始輸入,使用AI Agent扮演不同角色,為每條指令生成 2 至 4 輪對話。

數據去污、去重

為避免構造的數據存在自身重復、或與評測榜單重復的樣本,Infinity-Instruct對所有數據應用了MinHash進行去重。并基于BGE檢索剔除了和AlpacaEval、MT-Bench等評測榜單重復的樣本。

訓練框架

考慮到微調成本,項目使用FlagScale去掉訓練樣本中不必要的pad,壓縮樣本量,同時應用模型切分、切分支持大模型在數百萬量級指令數據集上的訓練。初步測試可比傳統微調框架,如FastChat+Accelerate快三倍以上。

未來規劃 Infinity Instruct未來將開源基礎、對話指令數據處理的全流程代碼,以及模型訓練代碼。同時,智源將探索擴展Infinity Instruct數據策略到對齊、預訓練階段,支持語言模型構建全生命周期的高質量數據需求。

Infinity RLAIF:基于Infinity Instruct標簽體系以及生成指令構建了50K 對齊數據的第一個版本,實驗結果顯示,Infinity-Gemma-2-9B-SimPO 在AlpacaEval上達到 73.4,在Arena Hard上達到 59.1。未來會進行更多對齊數據、算法的探索。

Infinity Math:基于多個開源數學數據集構建了可無限擴增的數學領域指令數據集,其中POT指令數據可提升在多個7B的基礎語言模型和基礎代碼模型的zero-shot數學能力180%-510%,相關論文被CIKM 2024接收,歡迎引用。

@misc{zhang2024inifinitymath, 
 
    title={InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning}, 
 
    author={Bo-Wen Zhang and Yan Yan and Lin Li and Guang Liu}, 
 
    year={2024}, 
 
    eprint={2408.07089}, 
 
    archivePrefix={arXiv}, 
 
    primaryClass={cs.LG}, 
 
    url={https://arxiv.org/abs/2408.07089}, 
 
}

責任編輯:張燕妮 來源: 智源研究院官方賬號
相關推薦

2023-06-08 11:27:10

模型AI

2024-02-05 09:00:00

2023-05-29 09:29:52

GPT-4語言模型

2023-09-06 16:44:03

2025-05-27 15:19:52

GPUMetaGPT-4o

2024-07-09 12:54:57

2024-07-22 08:17:00

模型性能

2023-08-25 13:12:59

AI開源

2023-04-13 15:54:00

AI數據

2023-08-27 14:44:04

代碼編程語言

2024-01-22 07:10:00

AI視頻

2025-03-25 10:27:14

SFT 指令微調

2023-04-10 09:23:36

模型AI

2023-07-25 09:23:23

Llama 2GPT-4

2024-07-24 11:30:04

2025-03-21 08:00:00

大型語言模型視覺語言微調

2023-08-27 12:54:59

GPT-4神秘版本Code

2024-07-02 13:25:22

2024-07-29 13:38:06

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能
點贊
收藏

51CTO技術棧公眾號

√…a在线天堂一区| 9999国产精品| 日韩欧美在线免费| 天天综合狠狠精品| 国产喷水福利在线视频| 韩日视频一区| 亚洲欧美成人网| 国产九九在线观看| 欧美aaaxxxx做受视频| 久久网站最新地址| 成人午夜在线视频一区| 精品无码久久久久| 欧美三级美国一级| 日韩欧美激情一区| 少妇人妻互换不带套| 国产美女av在线| 99精品视频在线免费观看| 国产精品久久97| 久久久久久激情| 欧美在线电影| 亚洲国产女人aaa毛片在线| 天堂中文视频在线| 538视频在线| 国产精品电影一区二区三区| 国产女主播一区二区三区| 一区二区三区麻豆| 99综合在线| 操日韩av在线电影| 无码 人妻 在线 视频| 91九色鹿精品国产综合久久香蕉| 欧美亚洲国产一区二区三区| 日本精品久久久久久久久久| 免费高清完整在线观看| 久久久精品黄色| 国产伦一区二区三区色一情| 国产又粗又大又爽| 日韩综合一区二区| 韩剧1988免费观看全集| 超碰手机在线观看| 99国产**精品****| 亚洲一级黄色av| 无套内谢大学处破女www小说| 麻豆精品国产| 在线电影院国产精品| 免费观看成人在线视频| sm捆绑调教国产免费网站在线观看| 欧美国产禁国产网站cc| 免费av在线一区二区| 日本免费一区视频| 粉嫩av亚洲一区二区图片| 成人网欧美在线视频| 99re热视频| 日日夜夜一区二区| 国产成人精品视频在线| 亚洲日本视频在线观看| 国产精品视频| 欧美亚洲国产视频小说| 五月婷婷开心网| 亚洲久色影视| 性色av一区二区三区| 国产午夜免费视频| 亚洲无毛电影| 97精品国产aⅴ7777| 国产无遮挡又黄又爽在线观看| 影音先锋中文字幕一区二区| 久久久久久亚洲精品不卡| 欧美三级在线免费观看| 欧美二区视频| 欧美激情奇米色| 麻豆一区二区三区精品视频| 亚洲国产精品一区| 欧美亚洲一区在线| 欧美一级淫片免费视频黄| 日日欢夜夜爽一区| 国产日本欧美一区| 国产视频在线免费观看| 国产91精品精华液一区二区三区| 国产精品视频一区二区三区经| 性生交大片免费看女人按摩| 成人精品免费网站| 麻豆亚洲一区| av网站在线免费观看| 国产精品久久久久久久久免费桃花| 亚洲视频欧美在线| www在线观看播放免费视频日本| 最新日韩在线视频| 搞av.com| 韩国三级一区| 欧美一区日韩一区| 荫蒂被男人添免费视频| 国产免费播放一区二区| www.欧美精品一二三区| 久久综合综合久久| 日韩国产欧美在线视频| 91精品视频在线看| 四季av日韩精品一区| 国产午夜精品美女毛片视频| 成人手机视频在线| 国产激情在线播放| 欧美日韩电影一区| 久久精品aⅴ无码中文字字幕重口| 亚洲裸色大胆大尺寸艺术写真| 在线观看久久久久久| 欧美激情国产精品免费| 久久精品30| 亚洲最大成人免费视频| 日韩精品视频无播放器在线看 | 国产三级小视频| 高清不卡一二三区| 视频在线99| 国产后进白嫩翘臀在线观看视频| 日韩欧美成人区| av在线免费看片| 亚洲三级网页| 欧美裸身视频免费观看| 日日夜夜操视频| 国产成人免费在线| 日本一区二区三区www| 国产精品69xx| 欧美久久久久免费| 中文字字幕码一二三区| 综合av在线| 国产精品电影一区| 日本xxxxxwwwww| 亚洲女人****多毛耸耸8| 欧美极品欧美精品欧美图片| 亚洲精品一区国产| www.日韩欧美| 成人免费视频国产免费| 成av人片一区二区| 青青草视频国产| 日本在线中文字幕一区二区三区| 欧美精品一区二区三区蜜臀| 亚洲精品卡一卡二| 在线综合视频| 国产精品自拍首页| 欧美14一18处毛片| 日韩欧美一级精品久久| fc2ppv在线播放| 奇米精品一区二区三区在线观看一 | 永久免费网站在线| 欧美日韩精品三区| 极品蜜桃臀肥臀-x88av| 老司机亚洲精品| 欧美日韩一区二区视频在线| 丝袜老师在线| 亚洲精品一区二区三区不| 香蕉免费毛片视频| 99久久精品国产一区| 免费一级特黄毛片| 国产调教精品| 97人人做人人爱| 天堂中文在线资源| 五月开心婷婷久久| 久久中文字幕人妻| 西西人体一区二区| 日本一区免费观看| 四虎4545www国产精品| 一本色道久久综合狠狠躁篇怎么玩| 欧美精品韩国精品| 欧美极品xxx| 亚洲无吗一区二区三区| 欧美大人香蕉在线| 91亚洲国产精品| 女人天堂av在线播放| 亚洲高清在线观看| 九九热在线免费观看| 久久亚洲捆绑美女| 男人添女人下面免费视频| 国产精品97| 99久久国产免费免费| av电影免费在线看| 亚洲欧美日韩精品| 一二区在线观看| 亚洲精品乱码久久久久| 日本不卡视频一区| 久久高清免费观看| 亚洲欧洲日夜超级视频| 精品欧美视频| 韩国三级电影久久久久久| 久久精品蜜桃| 在线播放91灌醉迷j高跟美女| 精品无码久久久久成人漫画| 成人高清免费观看| 已婚少妇美妙人妻系列| 亚洲电影在线一区二区三区| 粉嫩av免费一区二区三区| 一二三四视频在线中文| 精品国产依人香蕉在线精品| 亚洲老妇色熟女老太| 色就色 综合激情| 日韩一级片大全| 99精品欧美一区二区蜜桃免费 | 亚洲欧洲精品在线观看| gogo人体一区| 国产精品久久二区| 欧美男男video| 亚洲人成在线观看网站高清| 国产剧情久久久| 色狠狠综合天天综合综合| 国产精品 欧美激情| 久久久久久一级片| 亚洲少妇中文字幕| 久久国产精品一区二区| www国产精品内射老熟女| 欧美xxxxx视频| 欧美国产一二三区| 精品国产亚洲一区二区三区在线 | 欧美精品一区二区三区蜜桃| 男操女视频网站| 亚洲成人在线网站| 黄色片子在线观看| 国产日产精品一区| 国产制服丝袜在线| 国产精品一品二品| 在线免费观看av的网站| 国产亚洲一级| av在线免费观看国产| 五月激情综合| 日韩国产在线一区| 久久爱www成人| 国产精品国产三级欧美二区| 国产高清日韩| 国产精品尤物福利片在线观看| 欧美freesex黑人又粗又大| 欧美日本亚洲视频| 日本中文字幕视频在线| 国产亚洲精品久久| 免费黄网站在线观看| 亚洲第一福利网| 亚洲av少妇一区二区在线观看| 欧美日韩免费观看一区二区三区| 亚洲另类在线观看| 精品福利在线看| www.youjizz.com亚洲| 日韩毛片一二三区| 国产喷水在线观看| 亚洲国产高清不卡| 成人小视频免费看| 国产精品三级视频| 激情五月深爱五月| 国产精品网曝门| 日韩丰满少妇无码内射| 国产亚洲成年网址在线观看| 免费看黄色aaaaaa 片| 91碰在线视频| 人妻少妇精品视频一区二区三区| 白白色 亚洲乱淫| 精品人妻一区二区免费视频| 成人av资源站| 日本一级片在线播放| 91在线国内视频| 90岁老太婆乱淫| 中文字幕免费在线观看视频一区| 中字幕一区二区三区乱码| 国产日韩精品一区二区浪潮av| 国产一二三四区在线| 欧美国产精品久久| 91杏吧porn蝌蚪| 亚洲国产精品视频| 日韩精品1区2区| 91黄色在线观看| 亚洲无码精品在线播放| 6080午夜不卡| 亚洲精品一级片| 亚洲大胆人体视频| 你懂的视频在线免费| 中文字幕精品在线| 黄色精品免费看| 国模精品一区二区三区色天香| 黄色在线观看www| 国产精品嫩草影院一区二区| 91成人福利社区| 国产精品裸体一区二区三区| 欧美毛片免费观看| 亚洲精品一品区二品区三品区| 婷婷六月综合| 一女被多男玩喷潮视频| 日日夜夜免费精品视频| 1314成人网| 久久夜色精品国产噜噜av| 国产精品一区二区亚洲| 亚洲综合激情小说| av一级在线观看| 日韩欧美亚洲另类制服综合在线| 天天干视频在线观看| 这里只有精品在线观看| 羞羞网站在线免费观看| 青草青草久热精品视频在线网站| 欧美黄色a视频| 国产呦系列欧美呦日韩呦| japanese国产精品| 成人小视频在线观看免费| 久久免费国产| 性一交一黄一片| 国产亲近乱来精品视频| 久操视频免费在线观看| 欧美艳星brazzers| 欧美熟妇乱码在线一区| 一区二区三区视频免费| 国产在线观看www| 成人激情视频免费在线| 国产精品欧美日韩一区| 国产91在线亚洲| 人禽交欧美网站| 人妻在线日韩免费视频| 亚洲欧美日韩国产中文在线| 蜜臀精品一区二区三区| 精品成人在线观看| 男人的天堂在线视频免费观看| 91av在线国产| 午夜电影一区| 椎名由奈jux491在线播放| 亚洲一区二区三区高清不卡| 日本55丰满熟妇厨房伦| 国产精品色哟哟| 手机看片久久久| 337p日本欧洲亚洲大胆精品 | 欧美极品美女电影一区| 国产成+人+综合+亚洲欧美| 久久久综合亚洲91久久98 | 日日摸日日碰夜夜爽无码| 国内欧美视频一区二区| 国产美女永久免费无遮挡| 精品久久久精品| 亚洲精品久久久久久动漫器材一区| xxxxx91麻豆| 欧洲成人一区| 日韩久久久久久久| 午夜亚洲精品| 大尺度做爰床戏呻吟舒畅| 一区二区三区在线观看国产 | 麻豆成人久久精品二区三区红 | 国产乱子伦精品无码码专区| 夜夜嗨av一区二区三区免费区| 在线成人av观看| 久久精品美女| 国产日韩欧美一区二区三区在线观看| 色黄视频免费看| 亚洲精品乱码久久久久久黑人| 国产三级漂亮女教师| 久久久成人av| 久久丁香四色| 一本色道久久88亚洲精品综合| 国产一区视频网站| 一区视频免费观看| 日韩欧美综合一区| 手机在线免费观看av| 99久久伊人精品影院| 狠狠干成人综合网| 中文在线观看免费视频| 午夜欧美2019年伦理| 天天综合天天色| 青青草国产精品一区二区| 免费一区二区三区视频导航| 免费男同深夜夜行网站 | 欧美女孩性生活视频| free性欧美hd另类精品| julia一区二区中文久久94| 狠狠入ady亚洲精品| 日韩aaaaa| 日本福利一区二区| 日本在线免费看| 91在线|亚洲| 精品91久久久久| 中文字幕在线看高清电影| 在线亚洲一区观看| 麻豆视频在线| 豆国产97在线| 玖玖视频精品| 日韩免费av一区| 精品久久人人做人人爽| 日韩伦理精品| 亚洲日本精品国产第一区| 国产精品中文欧美| 啦啦啦免费高清视频在线观看| 国产一区二区动漫| 国产欧美88| jizzjizzxxxx| 亚洲欧美影音先锋| 无码国产伦一区二区三区视频| 国产成人精品免高潮在线观看| 亚洲成av人片一区二区密柚| 中文字幕在线观看视频www| 性做久久久久久免费观看欧美| 狠狠v欧美ⅴ日韩v亚洲v大胸| 91精品国产综合久久香蕉最新版| 伊人狠狠色j香婷婷综合| 久久午夜精品视频| 日韩精品一区二区三区中文不卡| 一区二区三区短视频| 久久精品在线免费视频| 国产午夜精品在线观看| 亚洲精品久久久久avwww潮水| 国产精品xxx视频| 黄色亚洲精品| 99热这里只有精品4| 亚洲码在线观看| 玖玖精品一区| 在线观看国产一级片|