精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

徹底理解GPT tokenizers

發布于 2024-7-17 10:12
瀏覽
0收藏

你可能已經聽說過GPT這個詞,它是一種人工智能模型,可以生成各種各樣的文本,比如小說、詩歌、對話、新聞等等。GPT的全稱是Generative Pre-trained Transformer,意思是生成式預訓練變換器。生成式表示它可以根據一些輸入(比如一個單詞或一句話)來創造新的內容,預訓練表示它在使用之前已經在大量的文本數據上進行了學習,變換器表示它使用了一種叫做Transformer的神經網絡結構。

要理解GPT的工作原理,我們需要先了解一個重要的概念:token。token是文本的最小單位,可以是一個字母、一個單詞、一個標點符號或者一個符號。比如,這句話:

Hello, world!

可以被分成五個token:

Hello , world !

GPT模型在處理文本時,需要先把文本分割成token,然后把每個token轉換成一個數字,這個數字就代表了這個token的含義。這個數字叫做token ID。比如,我們可以用下面的表格來表示每個token和它對應的token ID:

token

token ID

Hello

1

,

2

world

3

!

4

那么,這句話就可以被轉換成一個數字序列:

1 2 3 4

GPT模型就是通過學習大量的這樣的數字序列,來掌握文本的規律和語義。

然后,當我們給它一個輸入(比如一個token ID或者一個數字序列),它就可以根據它學到的知識,來生成一個合理的輸出(比如一個新的token ID或者一個新的數字序列)。

但是,如果我們只用單個字母或單詞作為token,會有一些問題。首先,不同的語言有不同的詞匯量,有些語言可能有幾萬個單詞,有些語言可能有幾十萬甚至幾百萬個單詞。如果我們要給每個單詞分配一個唯一的token ID,那么我們需要很大的內存空間來存儲這些ID。其次,有些單詞可能很少出現在文本中,或者有些單詞可能是新造出來的,比如一些專有名詞、縮寫、網絡用語等等。如果我們要讓GPT模型能夠處理這些單詞,那么我們需要不斷地更新我們的token ID表格,并且重新訓練模型。

為了解決這些問題,GPT模型使用了一種叫做BPE(Byte Pair Encoding)的方法來分割文本。BPE是一種數據壓縮技術,它可以把一段文本分割成更小的子單元(subword),這些子單元可以是單個字母、字母組合、部分單詞或完整單詞。

BPE的原理是基于統計頻率來合并最常見的字母對或子單元對。比如,如果我們有下面這四個單詞:

lowlowernewestwidest

我們可以先把它們分割成單個字母:

l o wl o w e rn e w e s tw i d e s t

然后,我們可以統計每個字母對出現的次數,比如:

pair

count

l o

2

o w

2

w e

2

e r

1

n e

1

e w

1

w i

1

i d

1

d e

1

e s

1

s t

1

我們可以看到,l o,o w和w e都出現了兩次,是最常見的字母對。我們可以把它們合并成一個新的子單元,比如:

lowlow ern e westw i dest

這樣,我們就減少了一些token的數量。我們可以重復這個過程,直到達到我們想要的token的數量或者沒有更多的可合并的字母對。比如,我們可以繼續合并e r,n e,e w等等,得到:

lowlowernewestwidest

這樣,我們就把四個單詞分割成了六個子單元:

lowernewestwidest

這些子單元就是BPE的token。我們可以給它們分配token ID,比如:

token

token ID

low

5

er

6

new

7

est

8

wid

9

那么,這四個單詞就可以被轉換成下面的數字序列:

55 67 89 8

你可能會問,為什么要用BPE來分割文本呢?有什么好處呢?其實,BPE有以下幾個優點:

  • 它可以減少token的數量,從而節省內存空間和計算資源。
  • 它可以處理未知或罕見的單詞,只要把它們分割成已知的子單元就行了。比如,如果我們遇到一個新單詞lowerest,我們可以把它分割成low er est,然后用對應的token ID表示它。
  • 它可以捕捉單詞的形態變化,比如復數、時態、派生等等。比如,如果我們遇到一個單詞lowering,我們可以把它分割成low er ing,然后用對應的token ID表示它。這樣,GPT模型就可以學習到這個單詞和其他形式的關系。

當然,BPE也有一些缺點,比如:

  • 它可能會破壞一些有意義的子單元,比如把一個完整的單詞分割成兩個或多個部分。比如,如果我們遇到一個單詞tower,我們可能會把它分割成t ow er,而不是保留它作為一個整體。
  • 它可能會導致一些歧義或混淆,比如把兩個不同的單詞分割成相同的子單元序列。比如,如果我們遇到兩個單詞tow er和tower,我們可能會把它們都分割成t ow er,而不是區分它們。
  • 它可能會影響一些特殊的符號或標記的處理,比如HTML標簽、URL、郵箱地址等等。比如,如果我們遇到一個URLhttps://www.bing.com/, 我們可能會把它分割成多個子單元,比如:

https : / / www . bing . com /

這樣,可能會丟失一些原本的含義或格式。

所以,BPE并不是一種完美的方法,它只是一種權衡的方法,它在減少token數量和保留token含義之間尋找一個平衡點。不同的BPE方法可能會有不同的分割規則和結果,比如,我們可以設置一個最大的token數量,或者一個最小的合并頻率,來影響BPE的過程和輸出。

那么,GPT模型是如何使用BPE來分割文本的呢?實際上,GPT模型并不是直接使用BPE來分割文本,而是使用了一種叫做GPT-2 tokenizer的工具,這個工具是基于BPE的一種改進版本。GPT-2 tokenizer有以下幾個特點:

  • 它使用了Unicode編碼來表示每個字符,而不是ASCII編碼。這樣,它可以支持更多的語言和符號,比如中文、日文、阿拉伯文、表情符號等等。
  • 它使用了一個固定的token數量,即50257個。這個數字是根據GPT-2模型的輸入層的大小來確定的,每個輸入層可以容納50257個不同的token ID。
  • 它使用了一個預先訓練好的BPE模型來分割文本,這個BPE模型是在一個大規模的文本數據集上訓練得到的,它包含了各種各樣的文本類型和語言。

上手實踐

如果你想使用GPT-2 tokenizer來分割文本,你可以參考以下的步驟:

  • 首先,你需要安裝和導入transformers庫,這是一個提供了各種預訓練模型和工具的開源庫12。
  • 然后,你需要從預訓練的gpt2模型中加載tokenizer和model,你可以使用AutoTokenizer和GPT2DoubleHeadsModel類來實現這一功能12。
  • 接著,你需要給tokenizer添加一些特殊的token,比如[CLS]和[SEP],這些token可以幫助模型識別文本的開始和結束12。
  • 最后,你可以使用tokenizer的encode或encode_plus方法來把文本轉換成token ID的序列,并且使用model的forward方法來得到模型的輸出123。

下面是一個簡單的Python代碼示例:

# 導入transformers庫
from transformers import AutoTokenizer, GPT2DoubleHeadsModel
import torch

# 加載tokenizer和model
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = GPT2DoubleHeadsModel.from_pretrained("gpt2")

# 添加特殊的token
num_added_tokens = tokenizer.add_special_tokens({"cls_token": "[CLS]", "sep_token": "[SEP]"})

# 分割文本
text = "Hello, my dog is cute"
inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors="pt")

# 得到模型的輸出
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

一旦您了解了令牌,GPT 工具生成文本的方式就會變得更加有意義。

特別是,觀看 GPT-4 將其輸出作為獨立令牌流式傳輸回很有趣(GPT-4 比 3.5 略慢,因此更容易看到發生了什么)。


徹底理解GPT tokenizers-AI.x社區

這是我得到的 - 使用我的 llm CLI 工具從 GPT-4 生成文本:llm -s 'Five names for a pet pelican' -4。

字典中不存在的“Pelly” 占用了多個token,而字典中存在的“Captain Gulliver”則能一次性輸出。

本文轉載自 ??AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
久久中国妇女中文字幕| 岛国视频午夜一区免费在线观看| 国产精品一区二区三区毛片淫片| 欧美卡一卡二卡三| 日韩av不卡一区| 在线免费av一区| 中国女人做爰视频| 欧美孕妇性xxxⅹ精品hd| 另类综合日韩欧美亚洲| 性欧美xxxx| 欧美肥妇bbwbbw| 久久99精品国产自在现线| 欧美日韩精品一区二区在线播放| 日韩视频在线视频| 国产69精品久久app免费版| 国产美女一区二区三区| 国产91免费观看| 免费一级片视频| 成人在线免费观看91| 亚洲成人免费网站| 无码内射中文字幕岛国片| 日本资源在线| 中文在线一区二区| 久久久久久久久久码影片| 97视频免费在线| 久久精品人人| 午夜精品一区二区三区在线视频 | 国产3p露脸普通话对白| 亚洲国语精品自产拍在线观看| 99日在线视频| 精品肉辣文txt下载| 五月婷婷色综合| 无码人妻aⅴ一区二区三区日本| 欧洲伦理片一区 二区 三区| 成人激情动漫在线观看| 亚洲影视九九影院在线观看| 日本视频www色| 免费精品视频| 97超视频免费观看| 老湿机69福利| 国产二区精品| 日韩有码片在线观看| 中文字幕在线观看免费高清| 偷拍一区二区| 亚洲激情在线视频| xxxwww国产| 亚洲综合色婷婷在线观看| 欧美美女直播网站| 91热这里只有精品| 日韩一区二区三区免费| 在线中文字幕一区二区| 任你操这里只有精品| 亚洲一区站长工具| 色婷婷久久综合| 日韩黄色片视频| 最新日韩三级| 欧美在线观看视频一区二区三区| 99色精品视频| 欧美日韩123区| 91黄色小视频| 美女喷白浆视频| 国产原创一区| 欧美一区二区三区男人的天堂| 亚洲一二三不卡| 日本精品一区二区三区在线观看视频| 7777精品伊人久久久大香线蕉| 在线a免费观看| 风间由美性色一区二区三区四区| 亚洲成人网av| 亚洲第一香蕉网| 日韩精品免费一区二区三区| 久久色在线播放| 免费毛片在线播放免费| 亚洲看片一区| 国产精品18久久久久久首页狼 | 毛片aaaaaa| 999国产精品| 欧美黄色三级网站| 色网站在线播放| 日韩电影在线看| 成人疯狂猛交xxx| av在线资源观看| av资源站一区| 日本高清不卡三区| 国产1区在线| 午夜成人免费视频| 欧美婷婷精品激情| 久久影院一区二区三区| 亚洲精品美女久久久久| 欧美a在线播放| 亚洲婷婷在线| 国产精选久久久久久| 亚洲精品无码专区| 久久精品亚洲一区二区三区浴池| 一区二区免费在线观看| av在线小说| 欧美日韩极品在线观看一区| 国产精品嫩草69影院| 国产精品一国产精品| 久久久精品国产亚洲| 国产性xxxx高清| 久久精品国产精品亚洲综合| 国产伦精品一区二区三区免| 欧美黄色激情| 欧美日韩亚洲一区二区三区| 天美星空大象mv在线观看视频| 99久久香蕉| 国产亚洲欧洲黄色| 久久高清免费视频| 狠狠色综合播放一区二区| 精品国产综合区久久久久久| 毛片在线看片| 日本高清不卡一区| 国产成人av无码精品| 国产精品久久久久9999赢消| 欧美在线观看一区二区三区| a级片在线视频| 国产精品欧美一区喷水| 97成人在线观看视频| 日韩精品中文字幕吗一区二区| 在线日韩第一页| 91午夜视频在线观看| 国产盗摄一区二区三区| 91社在线播放| 国产国产一区| 伊人青青综合网站| 国产剧情在线视频| av影院午夜一区| 国产制服91一区二区三区制服| 外国电影一区二区| 亚洲欧美激情另类校园| 久久久.www| 国产一区二区毛片| 91手机视频在线| 亚洲欧美在线人成swag| 少妇av一区二区三区| 亚洲天堂视频在线播放| 久久久久久久av麻豆果冻| 国产精品后入内射日本在线观看| www.国产精品一区| 久久久噜噜噜久久久| 精品国产999久久久免费| 成人免费小视频| 91av视频免费观看| 久久福利综合| 国产原创欧美精品| 麻豆系列在线观看| 欧美一卡二卡在线| 免费一级肉体全黄毛片| 国产99久久久国产精品| 欧美图片激情小说| 精品人人人人| 91精品国产91久久久久久久久 | 成人在线综合网| a级黄色片免费| 一区二区三区国产好| 欧美激情免费视频| 好男人在线视频www| 亚洲成人动漫在线观看| yy6080午夜| 亚洲女优在线| 四虎永久国产精品| 亚洲网站三级| 欧美激情精品在线| 婷婷五月综合激情| 在线视频一区二区三| 国产精品1区2区3区4区| 国产乱淫av一区二区三区| 男人天堂新网址| 妖精视频一区二区三区免费观看| 国产成人在线播放| 色多多视频在线观看| 日韩视频免费观看高清完整版| 久久9999久久免费精品国产| 91在线播放网址| 999精彩视频| 欧美激情亚洲| 欧美在线视频二区| 国产一区一区| 欧美中文字幕视频| 日本高清在线观看wwwww色| 日韩欧美高清在线| 日日噜噜噜噜人人爽亚洲精品| 国产日韩欧美a| 亚洲熟女乱综合一区二区| 亚洲免费激情| 亚洲bbw性色大片| 草莓视频一区二区三区| 国产不卡av在线| 黄色av网站在线播放| 日韩经典一区二区三区| 夜夜爽8888| 黄网动漫久久久| 国产jizz18女人高潮| 成人激情午夜影院| 看看黄色一级片| 99成人精品| 国产盗摄视频在线观看| 国产99亚洲| 国产精品播放| 日韩国产大片| 欧美综合激情网| 91蜜桃在线视频| 在线午夜精品自拍| 四虎影视精品成人| 欧美成人欧美edvon| 一级片在线免费播放| 亚洲成人av中文| 久久国产高清视频| 久久久噜噜噜久噜久久综合| 中国男女全黄大片| 美女mm1313爽爽久久久蜜臀| www.com毛片| 1000部精品久久久久久久久| 一区二区三区视频| 亚洲综合小说图片| 国产一区在线免费| 97青娱国产盛宴精品视频| 成人国产精品色哟哟| 91成人在线| 国产精品高潮呻吟久久av无限| 成人观看网址| 久久91精品国产91久久跳| 77777影视视频在线观看| 亚洲人成网站免费播放| 青梅竹马是消防员在线| 亚洲第一区第一页| 精品国自产在线观看| 欧美老女人第四色| 羞羞色院91蜜桃| 在线免费不卡视频| 精品成人无码久久久久久| 欧美日韩中文字幕日韩欧美| 在线看成人av| 亚洲一区视频在线| 国产亚洲成人av| 亚洲国产一区二区三区| 久久香蕉精品视频| 亚洲一区二区欧美日韩| 国产精品1234区| 亚洲成av人片在www色猫咪| 久久国产精品二区| 亚洲自拍偷拍图区| 国产精品6666| 亚洲不卡一区二区三区| 日韩成人免费在线视频| 午夜成人免费视频| 亚洲天堂一区在线| 色婷婷久久久久swag精品 | 黄色片在线观看免费| 欧美精彩视频一区二区三区| 一区二区三区伦理片| 国产清纯美女被跳蛋高潮一区二区久久w| 免费看黄色的视频| 国产精品青草久久| 欧美爱爱免费视频| 一区二区在线观看免费视频播放| 欧美日韩免费做爰视频| 亚洲高清免费在线| 国产精品美女久久久久av爽| 一本到不卡精品视频在线观看| www.国产毛片| 欧美丝袜自拍制服另类| 国产乱人乱偷精品视频| 精品免费视频一区二区| 日本a一级在线免费播放| 国产香蕉97碰碰久久人人| 免费在线你懂的| 欧美激情一区二区三区在线视频观看| 阿v视频在线| 国产精品久久久久福利| 国产区一区二| 国产精品一 二 三| 成人久久一区| 影音先锋男人的网站| 在线精品观看| 天天爽人人爽夜夜爽| 国产精品自拍在线| 女~淫辱の触手3d动漫| ...xxx性欧美| 日本网站在线播放| 欧美精品色一区二区三区| 亚洲精品视频91| 一区二区三区国产视频| 综合久久2019| 国产激情久久久| 美国十次综合久久| 欧美一区二视频在线免费观看| 欧美激情成人| 人人妻人人添人人爽欧美一区| 日韩电影免费在线观看网站| 久久无码人妻一区二区三区| 91亚洲精品乱码久久久久久蜜桃| 你懂得视频在线观看| 亚洲国产va精品久久久不卡综合| 伊人久久久久久久久久久久 | 国产精品成人va在线观看| 伊人久久一区| 欧美日韩另类综合| 很黄很黄激情成人| 牛夜精品久久久久久久| 波多野结衣在线一区| 成人黄色短视频| 色综合天天在线| 国产丰满果冻videossex| 亚洲午夜激情免费视频| av资源一区| 亚洲专区国产精品| 成人av二区| 久久久一本二本三本| 国产乱子伦视频一区二区三区| 日韩一级av毛片| 欧美日韩国产丝袜另类| 性欧美一区二区三区| 色综合伊人色综合网| 欧美日韩精品免费观看视完整| 国产一区免费观看| 国产精品激情电影| 亚洲国产午夜精品| 国产精品久久久久影院色老大| 中文字幕视频网站| 日韩电影中文 亚洲精品乱码| 亚洲制服国产| 成人国产在线视频| 久久精品高清| 三级在线视频观看| 久久精品免费在线观看| 国产精品suv一区二区三区| 精品捆绑美女sm三区| av大大超碰在线| 91精品久久久久久久久青青| 全球成人免费直播| 尤蜜粉嫩av国产一区二区三区| 久久久久久久综合色一本| 99精品视频99| 亚洲国产精品成人va在线观看| 欧美人与禽性xxxxx杂性| 亚洲a区在线视频| 亚洲精品国产偷自在线观看| 爱豆国产剧免费观看大全剧苏畅| 欧美激情一区二区三区四区| 人人妻人人爽人人澡人人精品| 亚洲男女自偷自拍图片另类| 美女高潮视频在线看| 精品乱码一区二区三区| 99在线|亚洲一区二区| 中文字幕影片免费在线观看| 性久久久久久久| 视频在线观看你懂的| 国产成人精品视| 国产精品中文字幕亚洲欧美| 日韩在线第三页| 欧美国产在线观看| 91成品人影院| 久久国内精品一国内精品| 成人噜噜噜噜| 国产成人永久免费视频| 成人免费精品视频| 国产 日韩 欧美 在线| 亚洲色图国产精品| 国产第一亚洲| 日韩中文在线字幕| 不卡av在线免费观看| 久久久免费高清视频| 中文字幕不卡av| 欧美国产亚洲精品| 少妇人妻在线视频| 中文字幕第一区二区| 国产精品视频无码| 久久久久久久影院| 伊甸园亚洲一区| 2025韩国理伦片在线观看| 亚洲欧美韩国综合色| 特黄视频在线观看| 国产精品1区2区在线观看| 亚洲午夜精品一区二区国产| 国产chinese中国hdxxxx| 一本色道综合亚洲| 哥也色在线视频| 国语精品免费视频| 美女视频黄免费的久久| 久久r这里只有精品| 日韩乱码在线视频| 国产成人免费av一区二区午夜| 国产玉足脚交久久欧美| 国产午夜亚洲精品不卡| 精品人妻一区二区三区三区四区 | 岛国精品在线观看| 9i精品福利一区二区三区| 久久精品成人动漫| 日韩精品免费一区二区三区竹菊| 亚洲综合日韩欧美| 亚洲超丰满肉感bbw| 1769在线观看| 久久国产精品一区二区三区| 九九热在线视频观看这里只有精品| 国产精品30p| 久久久成人精品视频| 伊人久久大香线蕉| 亚洲欧美日韩中文字幕在线观看|