精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機器學習 | 從0開始大模型之模型DPO訓練

人工智能 機器學習
DPO 訓練器對數據集的格式有具體的要求,包括三個部分:提示(prompt):提示的格式為:prompt: 文本;選中(chosen):選中文本的格式為:chosen: 文本;拒絕(rejected):拒絕選中文本的格式為:rejected: 文本。

1、為什么需要DPO

Rafailov等人在2023年發表了一篇論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》,該論文提出了一種新的訓練方法,稱為直接偏好優化(DPO),該論文介紹:

雖然大規模無監督語言模型 (LM) 可以學習廣泛的世界知識和一些推理技能,但由于其訓練完全無監督,因此很難精確控制其行為。  
現有的獲得這種可控性的方法是收集模型生成相對質量的人類標簽,并微調無監督語言模型以符合這些偏好,通常使用從人類反饋中進行強化學習 (RLHF)。  
然而,RLHF 是一個復雜且通常不穩定的過程,首先要擬合一個反映人類偏好的獎勵模型,然后使用強化學習微調大型無監督語言模型以最大化這個估計的獎勵,而不會偏離原始模型太遠。  
在該論文中,利用獎勵函數和最優策略之間的映射來表明,這個受約束的獎勵最大化問題可以通過一個階段的策略訓練進行精確優化,本質上是解決人類偏好數據的分類問題。  
由此產生的算法,稱之為直接偏好優化 (DPO),穩定、高效且計算量小,無需擬合獎勵模型、在微調期間從 LM 中采樣或執行重大超參數調整。

由此可見,DPO 主要解決RLHF不穩定的問題,直接使用人類偏好數據訓練模型。

2、DPO的訓練原理

DPO 的訓練原理如下圖所示(出自原論文):

DPODPO

主要包括兩個步驟:

  • 數據收集:收集一個偏好數據集,其中包含給定提示的生成結果的正負選擇對;
  • 優化:直接最大化 DPO 損失的對數似然函數,該損失函數是偏好數據集上的交叉熵損失和模型生成結果的對數似然性之間的加權平均值;

具體公式推導可以參考這篇博客:https://www.cnblogs.com/lemonzhang/p/17910358.html。

3、DPO的代碼實現

3.1 收集數據

DPO 訓練器對數據集的格式有具體的要求,包括三個部分:

  • 提示(prompt):提示的格式為:prompt: 文本;
  • 選中(chosen):選中文本的格式為:chosen: 文本;
  • 拒絕(rejected):拒絕選中文本的格式為:rejected: 文本;
  • 示例:
{
    "id": 0,
    "prompt": "最近,馬其頓流行歌手托瑟·普羅埃斯基在一場巡回展覽中被紀念。",
    "chosen": "\"最近,馬其頓流行歌手托斯·普羅埃斯基在一場展覽中被人們銘記。\" 讓我幫你理解。這意味著他們舉辦了一場特別的展示(我們稱之為展覽),以幫助人們記住馬其頓這個地方的歌手托斯·普羅埃斯基有多特別。這有點像翻看你的相冊來回憶快樂時光,但規模更大,更專注于他成名后的工作和生活。",
    "rejected": "哦!你想知道這句話的意思嗎?好的,讓我告訴你!??\n\n所以,“Son d?nem”在英語中意思是“Last period”。而“Makedon”在英語中是“Macedonian”。而“pop ?ark?c?s?”在英語中意思是“pop singer”!??\n\n所以,句子“Son d?nem Makedon pop ?ark?c?s? Tose Proeski gezer sergide an?l?yor”的意思是“Last period Macedonian pop singer Tose Proeski正在舞臺上表演?!??\n\n希望這有幫助,小伙伴!??"
}

DPO的數據可以搜索huggingface的DPO數據集,地址為:https://huggingface.co/datasets?sort=trending&search=dpo 。

比如 https://huggingface.co/datasets/Anthropic/hh-rlhf 的數據集如下:

hh-rlhfhh-rlhf

3.2 TRL

引入 TRL 庫,支持 DPO 訓練器,訓練樣例代碼:

training_args = DPOConfig(
    beta=0.1,
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model()

如上訓練默認是保存 safetensors 格式的模型,如果想保存 pytorch 格式的模型, 可以改為如下代碼:

training_args = DPOConfig(
    beta=0.1,
    save_safetensors=False, // 設置為False,改為保存為pytorch格式的模型   
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model(
    output_dir=f"./out/dpo_sft_xxx.pth"
)

3.3 訓練

Transformer的代碼和前面的一樣,可以參考預訓練的代碼,如下就是初始化模型和 DPO 訓練的代碼:

def init_model():
    from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
    AutoConfig.register(MyPretrainConfig.model_type, MyPretrainConfig)
    AutoModelForCausalLM.register(MyPretrainConfig, Transformer)
    my_tokenizer = "./my_tokenizer"
    tokenizer = AutoTokenizer.from_pretrained(my_tokenizer, trust_remote_code=True, use_fast=False)
    ckp = f'./out/full_sft_{lm_config.dim}.pth.{batch_size}'

    print(f"lmconfigs: {lm_config.to_json_string()}")
    with open(ckp_path + "/config.json", 'w') as f:
        f.write(lm_config.to_json_string())

    # 拷貝文件到指定的目錄
    for item in os.listdir(my_tokenizer):
        src_item = os.path.join(my_tokenizer, item)
        if os.path.isfile(src_item):
            dest_item = os.path.join(ckp_path, item)
            shutil.copy2(src_item, dest_item)
    shutil.copy2(ckp, ckp_path + "/pytorch_model.bin")

    model = AutoModelForCausalLM.from_pretrained(ckp_path, trust_remote_code=True).to(device)

    def count_parameters(model):
        return sum(p.numel() for p in model.parameters() if p.requires_grad)
    
    tokenizer.pad_token = tokenizer.eos_token
    print(f'LLM總參數量:{count_parameters(model) / 1e6:.3f} 百萬')
    model = model.to(device)
    return model, tokenizer

if __name__ == '__main__':
    lm_config = MyPretrainConfig()
    max_seq_len = lm_config.max_seq_len
    out_dir = 'out'
    epochs = 20             # 訓練輪數
    batch_size = 8          # batch_size
    learning_rate = 1e-5    # 學習率
    device = 'cuda:0'       # or cpu
    dtype = 'bfloat16'

    ckp_path = f'./my_checkpoint'
    if not os.path.exists(ckp_path):
        os.makedirs(ckp_path)

    model, tokenizer = init_model()
    training_config = DPOConfig(
        output_dir=ckp_path,
        per_device_train_batch_size=1,
        remove_unused_columns=False,
        report_to="none",
        save_steps=2000,
        learning_rate=learning_rate,
        save_safetensors=False,
    )

    # 下載訓練圖片:https://huggingface.co/datasets/jingyaogong/minimind_dataset/tree/main/dpo
    dataset_path = f'{basepath}/dpo_train_data.json'
    train_dataset = load_dataset('json', data_files=dataset_path)
    dpo_trainer = DPOTrainer(
        model,
        ref_model=None,
        args=training_config,
        beta=0.1,
        train_dataset=train_dataset['train'],
        tokenizer=tokenizer,
        max_length=512,
        max_prompt_length=512
    )
    dpo_trainer.train()
    dpo_trainer.save_model(
        output_dir=f"./out/dpo_sft_{lm_config.dim}.pth.{batch_size}"
    )
  • init_model 函數主要是注冊和加載預訓練的模型,并將 tokeinzer 的一些配置文件都拷貝到 ./my_checkpoint 方便后續的訓練;
  • DPOConfig 主要是配置訓練的一些參數,比如保存的模型路徑、學習率等;
  • DPOTrainer 是 DPO 訓練器,將模型載入后調用 train 進行訓練,參數說明如下:

model: transformers.PreTrainedModel,預訓練模型

ref_model: transformers.PreTrainedModel,參考模型

args: DPOConfig,用于訓練的 DPO 配置參數

train_dataset: datasets.Dataset,訓練數據集

tokenizer: transformers.PreTrainedTokenizerBase,分詞器

model_init: 用于訓練的模型初始化器,如果指定為 None,則將使用默認的模型初始化器

optimizer: torch.optim.Optimizer,優化器

callbacks: 用于訓練的回調函數

  • dpo_trainer.save_model 保存模型,傳入 output_dir 參數,指定保存的模型路徑

4、總結

至此,訓練系列按照步驟寫完了,現在總結訓練流程:

模型訓練流程模型訓練流程

不過驗證下來,訓練效果不是很好,這個也是從0開始訓練會遇到的問題,因此接下來會完成幾個事項:

  • 模型迭代優化,解決訓練效果不好的問題;
  • 模型嘗試新的模型和解決方案,解決訓練速度問題;
  • 加入多模態訓練集,將語言大模型改進為多模態模型;
  • 最后將整個模型訓練完成后,將代碼開源。
責任編輯:武曉燕 來源: 周末程序猿
相關推薦

2024-12-26 00:46:25

機器學習LoRA訓練

2024-11-04 00:24:56

2025-04-03 15:40:41

機器學習大模型DeepSeek

2024-12-09 00:00:10

2024-09-09 07:46:16

2025-04-03 15:46:53

2025-01-10 08:38:10

2020-08-10 15:05:02

機器學習人工智能計算機

2017-03-24 15:58:46

互聯網

2022-03-28 09:00:00

SQL數據庫機器學習

2023-06-24 19:59:40

2022-09-06 08:00:00

機器學習金融數據科學

2017-07-11 10:19:24

淺層模型機器學習優化算法

2018-11-07 09:00:00

機器學習模型Amazon Sage

2024-06-24 08:25:00

2017-10-09 12:55:29

機器學習KaggleStacking

2020-10-13 07:00:00

機器學習人工智能

2018-05-16 09:26:41

基線模型機器學習AI

2018-03-09 09:00:00

前端JavaScript機器學習

2022-09-19 15:37:51

人工智能機器學習大數據
點贊
收藏

51CTO技術棧公眾號

久久九九热re6这里有精品 | 中文字幕日韩欧美| 国产成人精品视频ⅴa片软件竹菊| 99中文字幕一区| 国产精品一级片| 日本成人黄色片| 少妇被躁爽到高潮无码文| 久久久免费毛片| 欧美久久久久久久久久| 又粗又黑又大的吊av| 日本www在线观看| 99久久久精品| 92福利视频午夜1000合集在线观看| 九九热国产视频| 国产精品传媒精东影业在线| 日韩精品免费一线在线观看| 亚洲女人在线观看| 亚洲一区二区三区四区| 亚洲一区二区三区四区在线免费观看| 日产精品高清视频免费| 人妻妺妺窝人体色www聚色窝| 免费精品视频最新在线| 9.1国产丝袜在线观看| 人妻少妇精品一区二区三区| 成人免费电影网址| 精品香蕉在线观看视频一| 中文字幕55页| 亚洲狼人综合| 欧美日韩在线一区二区| 97av视频在线观看| heyzo在线播放| 亚洲欧美日韩系列| 一本一生久久a久久精品综合蜜| 天堂在线免费av| 不卡av在线免费观看| 91视频-88av| 在线观看日批视频| 日本一不卡视频| 国产91热爆ts人妖在线| 欧美三级一区二区三区| 欧美久久成人| 欧美成人高清视频| 日韩在线观看免| 日韩精品第一区| 在线日韩欧美视频| 日韩影视一区二区三区| 影视先锋久久| 亚洲欧洲一区二区三区久久| 国产精品毛片一区二区| 欧美日韩一区二区三区四区不卡 | 午夜精品一区在线观看| 成年女人18级毛片毛片免费| 中文字幕在线播放网址| 亚洲精品久久久久久国产精华液| 亚洲一区在线免费| 欧美一区二区三区| 中文字幕在线不卡一区| 色香蕉在线观看| 国产高清一区二区三区视频| 亚洲精品国产品国语在线app| 黄频视频在线观看| 91小视频xxxx网站在线| 樱桃视频在线观看一区| www.日本在线视频| 波多野结衣视频一区二区| 精品福利在线观看| 国产美女三级视频| 深夜视频一区二区| 在线播放/欧美激情| 亚洲图片 自拍偷拍| 欧美国产中文高清| 精品国产亚洲一区二区三区在线观看 | 小泽玛利亚一区二区免费| 亚洲深深色噜噜狠狠爱网站| 欧美另类第一页| 日韩福利片在线观看| 久久国产精品亚洲77777| 国产成人精品在线视频| 在线观看免费视频一区| 国产91色综合久久免费分享| 精品无人乱码一区二区三区的优势| 五月激情六月婷婷| 国产视频一区二区在线观看| 亚洲欧洲日韩精品| 久草在线新免费首页资源站| 欧美色道久久88综合亚洲精品| 已婚少妇美妙人妻系列| 国产美女精品视频免费播放软件| 欧美精品一区二区不卡| 日韩中文字幕有码| 亚洲精品午夜av福利久久蜜桃| 欧美激情视频网站| av手机天堂网| 国产成人av电影在线| 久久精品日产第一区二区三区乱码 | 成人自拍在线| 亚洲情综合五月天| 久久久久久久蜜桃| 日韩黄色片在线观看| 亚洲aa在线观看| 男人天堂网在线| 亚洲美女偷拍久久| 粉嫩虎白女毛片人体| 日韩精品视频中文字幕| 精品香蕉一区二区三区| 国产成人自拍网站| 视频精品一区二区| 国产一区二区在线观看免费播放| 日本黄色片在线观看| 精品国产电影一区| 1314成人网| 色乱码一区二区三区网站| 97国产一区二区精品久久呦| 一区二区三区免费在线| 91视频观看视频| 超碰10000| 成人激情视屏| 亚洲另类欧美自拍| 国产精品成人av久久| 蜜桃精品视频在线观看| 久久精品国产一区二区三区日韩| 国产在线看片| 欧美写真视频网站| 一级片视频免费看| 一区二区高清| 国产精品青青草| 影音先锋中文在线视频| 欧美日韩一区 二区 三区 久久精品| 91传媒理伦片在线观看| 午夜精品剧场| 91精品中文在线| 淫片在线观看| 在线观看视频一区二区欧美日韩| 亚洲黄色免费在线观看| 欧美三区美女| 国产精品国产精品国产专区蜜臀ah| 国产调教视频在线观看| 欧美日本国产一区| 青青青手机在线视频| 日韩福利视频导航| 日韩欧美精品一区二区| 91精品影视| 一区二区成人av| 永久免费无码av网站在线观看| 99精品视频在线观看| 丝袜人妻一区二区三区| 成功精品影院| 国语对白做受69| 污视频网站免费观看| 亚洲成a人在线观看| 少妇极品熟妇人妻无码| 欧美三级午夜理伦三级中文幕| 亚洲中国色老太| 日本在线观看高清完整版| 欧美一区二区成人| 欧美日韩在线视频免费| 国产ts人妖一区二区| 久久人妻无码一区二区| 日韩欧美中文在线观看| 欧美国产中文字幕| 天天干天天草天天射| 精品高清一区二区三区| 熟女高潮一区二区三区| 日本伊人午夜精品| 国产欧美自拍视频| 91成人在线精品视频| 韩国精品久久久999| 欧美香蕉爽爽人人爽| 在线亚洲一区二区| 欧美美女性生活视频| 国产成人在线免费观看| 黄网站欧美内射| 亚洲永久精品唐人导航网址| 国产精品福利无圣光在线一区| 二区在线观看| 日韩欧美中文字幕制服| 日本熟妇毛茸茸丰满| 国产清纯美女被跳蛋高潮一区二区久久w| 日韩av播放器| 亚洲激情中文| 精品国产一区二区三区麻豆免费观看完整版 | 欧美另类综合| 蜜桃麻豆www久久国产精品| 在线成人视屏| 欧美噜噜久久久xxx| 午夜小视频免费| 欧美性大战xxxxx久久久| 91视频免费在线看| 国产视频亚洲色图| 中文字幕人妻熟女人妻a片| 香蕉久久国产| 中文字幕一区二区三区有限公司| 成人激情自拍| 国产精品视频久久久久| 男女视频在线| 色av吧综合网| 青青青草网站免费视频在线观看| 欧美日韩大陆在线| 日韩和一区二区| 亚洲天堂成人网| 亚洲精品午夜视频| 国产精品99久久久久久宅男| 美女av免费在线观看| 国产精品麻豆久久| 日本一区二区三区精品视频| 亚洲网一区二区三区| 国产欧美精品xxxx另类| av资源在线| 久久中文字幕在线| 国产福利在线看| 亚洲电影成人av99爱色| 91麻豆国产在线| 欧美综合欧美视频| 日本在线视频免费| 亚洲女爱视频在线| 亚洲综合欧美综合| 91网站在线观看视频| 不许穿内裤随时挨c调教h苏绵 | 91精品国产高清91久久久久久| 日韩精品电影在线观看| 日日摸日日碰夜夜爽无码| 婷婷激情图片久久| 日本欧洲国产一区二区| 日韩最新在线| 国模精品娜娜一二三区| 国产免费区一区二区三视频免费 | 中文字幕不卡在线播放| 在线免费观看成年人视频| 国产91精品一区二区麻豆亚洲| 九色porny自拍| 日本麻豆一区二区三区视频| 免费无码不卡视频在线观看| 国产一区亚洲| 国产传媒久久久| 欧美福利专区| 最近免费观看高清韩国日本大全| 日韩欧美午夜| 尤物一区二区三区| 久久理论电影| 亚洲综合网中心| 日韩av有码| 相泽南亚洲一区二区在线播放| 国产91精品对白在线播放| 蜜桃传媒视频麻豆第一区免费观看| 米奇精品关键词| 国产亚洲一区在线播放| ccyy激情综合| 国产精品视频一区二区三区经| 一区二区三区免费在线看| 成人av播放| 超碰成人免费| 精品999在线观看| 日韩动漫一区| 四虎影院一区二区三区| 日韩综合网站| 免费成人深夜夜行网站视频| 欧美精品观看| 欧美 日韩 国产 高清| 久久精品1区| 男女爽爽爽视频| 久久成人免费日本黄色| 制服丝袜中文字幕第一页 | 亚洲一区站长工具| 国产视频一区在线| 黄色电影免费在线看| 亚洲人成人99网站| av在线电影网| 日韩在线观看高清| 制服丝袜中文字幕在线| 欧美精品激情在线| 少妇在线看www| 国产精品美女免费| 久久三级中文| 国产一区二区精品免费| 日韩精选在线| 一区二区视频在线播放| 国产真实久久| 欧美日韩在线不卡视频| 毛片av一区二区三区| 日本人dh亚洲人ⅹxx| av成人免费在线观看| 林心如三级全黄裸体| 亚洲精品视频一区| 欧美激情亚洲综合| 欧美午夜影院一区| 精品国产免费无码久久久| 日韩高清欧美高清| 日本三级在线视频| 午夜精品一区二区三区在线视| 成人视屏在线观看| 国产精品免费一区二区三区| 国产精品手机在线播放| 欧美日韩视频免费在线观看| 亚洲国产导航| 婷婷六月天在线| 成人综合婷婷国产精品久久蜜臀 | 悠悠色在线精品| 在线观看日本网站| 日韩精品在线一区二区| 久久国产精品高清一区二区三区| www.亚洲一区| 少妇视频在线观看| 999精品视频一区二区三区| 国产精品亚洲片在线播放| 欧美视频在线观看视频| 蜜桃精品视频在线| 亚洲av无码一区二区三区网址| 国产精品久久久久久亚洲伦| 国产对白videos麻豆高潮| 在线不卡中文字幕| 国产永久av在线| 97在线视频国产| 玖玖玖视频精品| 亚洲国产成人不卡| 国产精品日韩久久久| 中文字幕第10页| 国产精品久久久久四虎| 一级成人黄色片| 亚洲成人黄色在线观看| 免费av在线| 国产精品一区av| 国产一区网站| 欧美色图另类小说| av动漫一区二区| 国产一级特黄aaa大片| 日韩一区二区电影| 日本中文字幕在线2020| 国产98色在线| 亚洲素人在线| www国产精品内射老熟女| 国产91精品一区二区麻豆亚洲| 国产免费嫩草影院| 欧美三级电影网| 成人免费在线观看| 国产成+人+综合+亚洲欧美丁香花| 米奇精品关键词| 波多野结衣之无限发射| 丰满白嫩尤物一区二区| 精品欧美一区二区久久久久| 欧美妇女性影城| 黄色小网站在线观看| 国产精品视频一| 日韩欧美精品综合| 牛夜精品久久久久久久| 中文字幕免费不卡在线| av手机天堂网| 中文字幕亚洲自拍| 亚洲国产综合在线观看| 女女同性女同一区二区三区按摩| 久久精品99久久久| 少妇高潮在线观看| 制服丝袜中文字幕一区| 成人福利片网站| 粉嫩av四季av绯色av第一区| 狠狠噜噜久久| 成人h动漫精品一区| 色猫猫国产区一区二在线视频| 你懂的免费在线观看| 国产精品久久久久久久久久久久 | 日韩毛片在线免费观看| aaa一区二区三区| 久久久久久久国产| 欧美日韩导航| 黑森林精品导航| 亚洲久草在线视频| 四虎在线视频免费观看| 国产精品成人v| 午夜亚洲福利| 日本一区二区在线免费观看| 色婷婷国产精品综合在线观看| 91短视频版在线观看www免费| 91久久精品国产| 日韩午夜在线| 女人裸体性做爰全过| 精品嫩草影院久久| 不卡av播放| 日韩视频在线观看视频| 99久久久精品| 亚洲一级片免费看| 欧美激情一区二区久久久| 久久99国产成人小视频| 爽爽爽在线观看| 婷婷开心激情综合| av大片在线播放| 成人av男人的天堂| 热久久国产精品| 五月天丁香激情| 亚洲奶大毛多的老太婆| 日韩中文字幕无砖| 无码精品国产一区二区三区免费| 国产精品高清亚洲| 天天操天天干天天| 国产日韩欧美夫妻视频在线观看 | 中文字幕一区二区三区在线观看| 丰满人妻熟女aⅴ一区| 国产精品激情av电影在线观看 | 亚洲午夜精品久久久久久久久| 精品美女视频在线观看免费软件| 亚洲综合在线中文字幕| 久久不射网站|