精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Huggingface微調BART的代碼示例:WMT16數據集訓練新的標記進行翻譯

開發 前端
BART模型是用來預訓練seq-to-seq模型的降噪自動編碼器(autoencoder)。它是一個序列到序列的模型,具有對損壞文本的雙向編碼器和一個從左到右的自回歸解碼器,所以它可以完美的執行翻譯任務。

如果你想在翻譯任務上測試一個新的體系結構,比如在自定義數據集上訓練一個新的標記,那么處理起來會很麻煩,所以在本文中,我將介紹添加新標記的預處理步驟,并介紹如何進行模型微調。

因為Huggingface Hub有很多預訓練過的模型,可以很容易地找到預訓練標記器。但是我們要添加一個標記可能就會有些棘手,下面我們來完整的介紹如何實現它,首先加載和預處理數據集。

加載數據集

我們使用WMT16數據集及其羅馬尼亞語-英語子集。load_dataset()函數將從Huggingface下載并加載任何可用的數據集。

import datasets

dataset = datasets.load_dataset("stas/wmt16-en-ro-pre-processed", cache_dir="./wmt16-en_ro")

圖片

在上圖1中可以看到數據集內容。我們需要將其“壓平”,這樣可以更好的訪問數據,讓后將其保存到硬盤中。

def flatten(batch):
batch['en'] = batch['translation']['en']
batch['ro'] = batch['translation']['ro']

return batch

# Map the 'flatten' function
train = dataset['train'].map( flatten )
test = dataset['test'].map( flatten )
validation = dataset['validation'].map( flatten )

# Save to disk
train.save_to_disk("./dataset/train")
test.save_to_disk("./dataset/test")
validation.save_to_disk("./dataset/validation")

下圖2可以看到,已經從數據集中刪除了“translation”維度。

標記器

標記器提供了訓練標記器所需的所有工作。它由四個基本組成部分:(但這四個部分不是所有的都是必要的)

Models:標記器將如何分解每個單詞。例如,給定單詞“playing”:i) BPE模型將其分解為“play”+“ing”兩個標記,ii) WordLevel將其視為一個標記。

Normalizers:需要在文本上發生的一些轉換。有一些過濾器可以更改Unicode、小寫字母或刪除內容。

Pre-Tokenizers:為操作文本提供更大靈活性處理的函數。例如,如何處理數字。數字100應該被認為是“100”還是“1”、“0”、“0”?

Post-Processors:后處理具體情況取決于預訓練模型的選擇。例如,將 [BOS](句首)或 [EOS](句尾)標記添加到 BERT 輸入。

下面的代碼使用BPE模型、小寫Normalizers和空白Pre-Tokenizers。然后用默認值初始化訓練器對象,主要包括

1、詞匯量大小使用50265以與BART的英語標記器一致

2、特殊標記,如<s><pad>

3、初始詞匯量,這是每個模型啟動過程的預定義列表。

from tokenizers import normalizers, pre_tokenizers, Tokenizer, models, trainers

# Build a tokenizer
bpe_tokenizer = Tokenizer(models.BPE())
bpe_tokenizer.normalizer = normalizers.Lowercase()
bpe_tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()

trainer = trainers.BpeTrainer(
vocab_size=50265,
special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"],
initial_alphabet=pre_tokenizers.ByteLevel.alphabet(),
)

使用Huggingface的最后一步是連接Trainer和BPE模型,并傳遞數據集。根據數據的來源,可以使用不同的訓練函數。我們將使用train_from_iterator()。

def batch_iterator():
batch_length = 1000
for i in range(0, len(train), batch_length):
yield train[i : i + batch_length]["ro"]

bpe_tokenizer.train_from_iterator( batch_iterator(), length=len(train), trainer=trainer )

bpe_tokenizer.save("./ro_tokenizer.json")

BART微調

現在可以使用使用新的標記器了。

from transformers import AutoTokenizer, PreTrainedTokenizerFast

en_tokenizer = AutoTokenizer.from_pretrained( "facebook/bart-base" );
ro_tokenizer = PreTrainedTokenizerFast.from_pretrained( "./ro_tokenizer.json" );
ro_tokenizer.pad_token = en_tokenizer.pad_token

def tokenize_dataset(sample):
input = en_tokenizer(sample['en'], padding='max_length', max_length=120, truncation=True)
label = ro_tokenizer(sample['ro'], padding='max_length', max_length=120, truncation=True)

input["decoder_input_ids"] = label["input_ids"]
input["decoder_attention_mask"] = label["attention_mask"]
input["labels"] = label["input_ids"]

return input

train_tokenized = train.map(tokenize_dataset, batched=True)
test_tokenized = test.map(tokenize_dataset, batched=True)
validation_tokenized = validation.map(tokenize_dataset, batched=True)

上面代碼的第5行,為羅馬尼亞語的標記器設置填充標記是非常必要的。因為它將在第9行使用,標記器使用填充可以使所有輸入都具有相同的大小。

下面就是訓練的過程:

from transformers import BartForConditionalGeneration
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

model = BartForConditionalGeneration.from_pretrained( "facebook/bart-base" )

training_args = Seq2SeqTrainingArguments(
output_dir="./",
evaluation_strategy="steps",
per_device_train_batch_size=2,
per_device_eval_batch_size=2,
predict_with_generate=True,
logging_steps=2, # set to 1000 for full training
save_steps=64, # set to 500 for full training
eval_steps=64, # set to 8000 for full training
warmup_steps=1, # set to 2000 for full training
max_steps=128, # delete for full training
overwrite_output_dir=True,
save_total_limit=3,
fp16=False, # True if GPU
)

trainer = Seq2SeqTrainer(
model=model,
args=training_args,
train_dataset=train_tokenized,
eval_dataset=validation_tokenized,
)

trainer.train()

過程也非常簡單,加載bart基礎模型(第4行),設置訓練參數(第6行),使用Trainer對象綁定所有內容(第22行),并啟動流程(第29行)。上述超參數都是測試目的,所以如果要得到最好的結果還需要進行超參數的設置,我們使用這些參數是可以運行的。

推理

推理過程也很簡單,加載經過微調的模型并使用generate()方法進行轉換就可以了,但是需要注意的是對源 (En) 和目標 (RO) 序列使用適當的分詞器。

總結

雖然在使用自然語言處理(NLP)時,標記化似乎是一個基本操作,但它是一個不應忽視的關鍵步驟。HuggingFace的出現可以方便的讓我們使用,這使得我們很容易忘記標記化的基本原理,而僅僅依賴預先訓練好的模型。但是當我們希望自己訓練新模型時,了解標記化過程及其對下游任務的影響是必不可少的,所以熟悉和掌握這個基本的操作是非常有必要的。

本文代碼:https://github.com/AlaFalaki/tutorial_notebooks/blob/main/translation/hf_bart_translation.ipynb

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2023-08-21 10:20:03

開源模型

2024-05-23 12:57:59

2024-02-19 00:12:50

AI代碼

2022-12-19 15:16:46

機器學習模型

2024-03-01 09:00:00

大型語言模型數據集LLM

2022-07-13 16:09:19

模型AI訓練

2024-01-24 13:37:36

大型語言模型人工智能

2024-04-19 12:50:58

人工智能OpenAI

2023-02-19 15:26:51

深度學習數據集

2024-11-04 14:42:12

2024-04-15 12:50:00

大型語言模型ReFT

2021-09-08 07:44:26

人工智能keras神經網絡

2023-08-15 16:20:42

Pandas數據分析

2023-12-28 11:59:26

Zephyr語言模型微調版本

2025-11-12 08:59:07

2020-10-11 22:05:22

機器翻譯谷歌AI

2024-02-26 07:46:54

Markdown語法標記語言有序列表

2023-12-11 21:35:48

2022-10-25 08:00:00

Huggingfac開源庫數據倉庫

2024-01-30 01:12:37

自然語言時間序列預測Pytorch
點贊
收藏

51CTO技術棧公眾號

国产女人高潮毛片| 韩国女同性做爰三级| av香蕉成人| 国产91精品在线观看| 久久人人爽人人| 国产精品探花一区二区在线观看| 日韩av免费| 亚洲欧美日韩人成在线播放| 国内视频一区二区| 国产精品无码一区| 国产精品啊啊啊| 亚洲视频一区二区| 人妻换人妻仑乱| 日本蜜桃在线观看视频| 国产精品天美传媒沈樵| 成人国产一区二区| 日批视频免费在线观看| 中文字幕一区二区三区欧美日韩| 日韩精品在线影院| 久久精品久久99| 欧美极度另类| 亚洲午夜在线视频| 色一情一区二区三区四区| 精品国自产拍在线观看| 肉色丝袜一区二区| 欧美激情中文字幕在线| 任你操精品视频| 日韩欧美在线精品| 日韩女优电影在线观看| 艹b视频在线观看| 欧亚av在线| 一区av在线播放| 五月天亚洲综合小说网| 凸凹人妻人人澡人人添| 国产一区二区三区四区在线观看| 国产精品aaa| 国产成人一区二区三区影院在线| 亚洲综合婷婷| www国产亚洲精品久久网站| 三级男人添奶爽爽爽视频| 国产电影一区二区| 欧美三级三级三级| 免费观看日韩毛片| a'aaa级片在线观看| **性色生活片久久毛片| 日韩一二三区不卡在线视频| 四虎影院在线播放| 成人av免费在线播放| 91在线视频一区| 中文字幕丰满人伦在线| 久久精品国语| 欧美一级高清免费| 欧美日韩综合在线观看| 在线成人亚洲| 久久人人爽人人| 国产一级理论片| 亚洲图片在线| 国模吧一区二区三区| 青青草免费av| 激情自拍一区| 午夜精品在线观看| 日本少妇全体裸体洗澡| 99riav国产精品| 88国产精品欧美一区二区三区| 中文字幕一区二区三区手机版| 国产一区亚洲| 久久久久久久成人| 日韩av女优在线观看| 99国产精品私拍| 情事1991在线| 中文字幕免费高清网站| 蜜臀久久久99精品久久久久久| 国产精品久久久久久网站| 亚洲av无码乱码国产精品fc2| 日韩精品成人一区二区三区 | a级毛片免费观看在线| 国产精品成人一区二区三区夜夜夜| 亚洲美女搞黄| 成人三级网址| 亚洲成人精品在线观看| 91视频 -- 69xx| 国产日韩电影| 欧美丰满嫩嫩电影| 好吊操视频这里只有精品| 女人抽搐喷水高潮国产精品| 亚洲免费电影在线观看| 欧美巨胸大乳hitomi| 亚洲乱码电影| 91国产精品视频在线| 国产成人自拍偷拍| 国产一区二区伦理片| 国产伦视频一区二区三区| 免费人成在线观看网站| 国产欧美一区二区精品仙草咪| 国产精品jizz在线观看老狼| av中文资源在线资源免费观看| 色综合久久久久网| 一级黄色片在线免费观看| 久久99精品国产自在现线| 最新日韩中文字幕| 国产大片中文字幕在线观看| 免费av成人在线| 国产精品中出一区二区三区| 最新97超碰在线| 亚洲国产一区二区在线播放| 青青在线视频免费| 视频在线一区| 一本色道久久88亚洲综合88| 久久久久久天堂| 日韩av一区二区三区| 成人欧美一区二区三区黑人免费| 加勒比一区二区三区在线| 亚洲日本成人在线观看| 女人另类性混交zo| av综合网站| 日韩资源在线观看| 少妇一级淫片免费放中国 | 亚洲第一搞黄网站| 欧美日韩在线观看不卡| 久久大胆人体视频| 欧美成人午夜激情视频| 中文在线最新版天堂| www.久久精品| 日韩中文字幕在线不卡| 国产精品高潮久久| 亚洲美女在线看| 黄色小视频在线免费看| 国产精品亚洲专一区二区三区| 日韩国产一区久久| 中国色在线日|韩| 欧美xxxxx牲另类人与| 国产精品国产三级国产传播| 日韩一区精品字幕| 免费观看国产成人| av今日在线| 亚洲成人免费在线视频| 青青操国产视频| 国内精品在线播放| 正在播放精油久久| 四虎4545www国产精品| 日韩精品极品在线观看播放免费视频| 国产一国产二国产三| 国产成人在线色| 中文字幕色呦呦| 成人在线啊v| 久久精品国产欧美激情| 亚洲特级黄色片| 亚洲欧洲美洲综合色网| 午夜宅男在线视频| 日韩欧美一区二区三区免费看| 国产999在线| 国产有码在线| 在线观看欧美黄色| 四虎国产精品成人免费入口| 久久精品二区三区| 偷拍视频一区二区| 精品亚洲a∨| 日韩视频免费中文字幕| 国产精品主播一区二区| 亚洲理论在线观看| 国产xxx在线观看 | 久久视频在线视频| 国产高清视频免费观看| 一区二区久久久| 久久福利小视频| 免费精品视频| 性欧美videosex高清少妇| 成人在线爆射| 色偷偷噜噜噜亚洲男人的天堂| 亚洲视频一区在线播放| 亚洲精品视频免费看| 精品国产乱码久久久久夜深人妻| 亚洲激情自拍| 日本福利一区二区三区| 精品久久毛片| 欧美大片欧美激情性色a∨久久| 黄色av小说在线观看| 精品日本美女福利在线观看| 日韩一级av毛片| 狠狠色综合播放一区二区| 青草网在线观看| 亚洲宅男一区| 成人a级免费视频| 欧美wwww| 亚洲品质视频自拍网| 亚洲中文字幕一区二区| 一区二区三区在线观看欧美| 欧美成人三级伦在线观看| 丝袜国产日韩另类美女| 伊人久久在线观看| 清纯唯美亚洲经典中文字幕| 国产精品自产拍在线观看| 性直播体位视频在线观看| 亚洲免费av电影| av网站免费大全| 欧美性生交大片免网| 青青青手机在线视频| 床上的激情91.| 999精品视频在线| 欧美日韩蜜桃| 日韩jizzz| av日韩精品| 国产精品久久久久久久久久三级 | 91国内精品久久| 亚洲1卡2卡3卡4卡乱码精品| 精品av久久707| 中文字幕一区二区三区波野结| 亚洲一区二区四区蜜桃| 亚洲天堂最新地址| av在线播放成人| 爽爽爽在线观看| 狂野欧美性猛交xxxx巴西| 老司机午夜网站| 国内精品视频在线观看| 高清一区二区三区视频| 久久久久毛片| 5252色成人免费视频| av毛片在线播放| 国产一区二区av| 天天干天天做天天操| 91精品麻豆日日躁夜夜躁| 探花视频在线观看| 一区二区三区精品在线观看| 四虎地址8848| 国产午夜精品理论片a级大结局| 国产精品果冻传媒| 激情综合色播五月| 黑人粗进入欧美aaaaa| 亚洲精品字幕| 国产精品www在线观看| 中文字幕一区二区三区乱码图片 | 黄色精品一区| 永久免费在线看片视频| jvid福利在线一区二区| 免费日韩电影在线观看| 动漫3d精品一区二区三区乱码| 91精品视频在线看| 日韩一区中文| 国产精品一区二区三区久久 | 激情另类综合| 国产精品igao激情视频| 91av精品| 伊人久久99| 婷婷综合五月| 欧美h视频在线观看| 色88久久久久高潮综合影院| 日韩精品一区二区三区外面| 精品国产乱码久久久久久果冻传媒 | 精品国产一二三四区| 影音先锋在线一区| 加勒比成人在线| 国产精品v亚洲精品v日韩精品 | 欧美二区乱c少妇| 亚洲在线观看av| 这里只有精品视频在线观看| 国产日韩一级片| 日韩一级二级三级精品视频| 性一交一乱一乱一视频| 日韩精品一区二区三区四区视频 | 亚洲无限av看| 国产精品无码2021在线观看| 中文字幕久久精品| 在线观看黄色av| 美女国内精品自产拍在线播放| a篇片在线观看网站| 欧美激情一级精品国产| 国产天堂在线播放视频| 97成人精品视频在线观看| 美女日韩欧美| 国产精品视频久| 精品久久亚洲| 风间由美久久久| 在线日韩网站| 亚洲制服中文| 国内精品亚洲| 免费无码av片在线观看| 免费成人美女在线观看.| 熟妇无码乱子成人精品| 9i在线看片成人免费| 美女脱光内衣内裤| 国产精品看片你懂得| 免费在线视频一区二区| 欧美日韩午夜剧场| 中文字幕观看视频| 日韩精品中文字幕一区二区三区| 三级国产在线观看| 色爱av美腿丝袜综合粉嫩av | 欧美一区二区三区激情视频| 日韩第一页在线观看| 99国产精品久久久久久久| 宅男噜噜噜66国产免费观看| 国产成人在线色| 欧美熟妇激情一区二区三区| 亚洲男人的天堂av| 日韩在线观看第一页| 欧美日韩成人综合| 免费观看黄色av| 深夜精品寂寞黄网站在线观看| 欧美xxxx做受欧美88bbw| 国产成人av网址| 亚洲1区在线| 日日夜夜精品网站| 精久久久久久| 潘金莲激情呻吟欲求不满视频| www.66久久| 三上悠亚作品在线观看| 日韩欧美在线观看视频| 亚洲第一成年人网站| 国产一区二区三区视频在线观看| 丁香花视频在线观看| 国产精品永久免费| 日韩av网站在线免费观看| 永久免费看av| 日韩高清在线不卡| 国产激情视频网站| 亚洲美女免费视频| 奴色虐av一区二区三区| 亚洲成人久久网| 中文字幕在线观看网站| 国产精品久久久久久久久借妻| 巨人精品**| 国产91沈先生在线播放| 国产综合久久久久久久久久久久| 国产精品成人一区二区三区电影毛片| 亚洲午夜一区二区三区| 国产精品福利电影| 国产一区二区三区18| 在线免费av资源| 国产欧美日韩伦理| 女主播福利一区| 91女神在线观看| 日本一区免费视频| 欧美h在线观看| 日韩av在线网页| 9999在线视频| 国产精品入口免费| 国户精品久久久久久久久久久不卡| 手机免费av片| 国产精品伦一区二区三级视频| 无码人妻黑人中文字幕| 精品一区二区亚洲| 美女在线视频免费| 精品无码久久久久国产| 亚洲人成久久| 日本少妇xxxx| 午夜精品久久久久久久99水蜜桃 | 成人免费的视频| 强行糟蹋人妻hd中文| 日韩一二在线观看| av毛片在线播放| 风间由美一区二区三区| 亚洲国产免费看| 少妇被狂c下部羞羞漫画| 亚洲福利视频一区二区| 日韩中文字幕观看| 91国内在线视频| 夜夜春成人影院| 一区二区三区免费网站| 俄罗斯毛片基地| 欧美午夜视频网站| 午夜视频在线免费观看| 国产精品视频地址| 亚洲成av人片乱码色午夜| 51自拍视频在线观看| 一区二区三区欧美亚洲| 亚洲黄色在线播放| 久久久久久国产免费| 欧美黑白配在线| 亚洲一二三区av| 日韩一区在线播放| 亚洲精品一区二区三区四区| 91精品国产91久久久久久最新 | 欧美一级日韩一级| 欧美aaaxxxx做受视频| 国产精品久久久一区二区三区| 亚洲麻豆一区| 国产美女免费无遮挡| 欧美性猛交xxxxxx富婆| 成人av免费| 国产精品日韩一区二区三区 | 一区二区三区精密机械公司| 免费看黄色一级视频| 清纯唯美亚洲激情| 水蜜桃久久夜色精品一区| 日本一本二本在线观看| 国产精品麻豆久久久| 欧美一级性视频| 国产精品高潮呻吟久久av野狼| 亚洲精品成人| 欧美 日本 国产| 91麻豆精品国产91久久久久| 多野结衣av一区| av动漫免费观看| 26uuu久久天堂性欧美| 国产精品探花视频| 欧美最猛黑人xxxx黑人猛叫黄| 97久久夜色精品国产| 91黄色免费视频| 欧美精品日日鲁夜夜添| 超碰高清在线|