精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

解讀AI大模型,從了解token開始 精華

發布于 2024-9-25 12:41
瀏覽
0收藏

上次??《科普神文,一次性講透AI大模型的核心概念》??一文中,我基于結合大量示例及可視化的圖形手段給大家科普了AI大模型的相關算法和核心概念。

但是收到不少非技術背景的小伙伴反饋,相關的算法內容的解釋技術性還是太強,很難完全理解。所以這次,題主從最基礎的概念“token”著手,跳過了復雜的算法邏輯,這次一定讓你建立起對AI大模型工作原理的清晰認知。

什么是token?最小的語義單元

你可能會好奇,大規模語言模型是如何工作的呢?它們是如何從數據中學習到語言的呢?它們是如何根據輸入來生成合理的文本延續的呢?為了回答這些問題,我們需要從最基礎的概念開始講起:token。

在自然語言處理(NLP)中,token是指文本中最小的語義單元。比如,一個句子可以被分割成若干個單詞,每個單詞就是一個token。例如,“I love you”這個句子可以被分割成三個token:“I”,“love”和“you”。token可以幫助我們把文本分解成更容易處理和分析的部分。

但是,并不是所有的語言都可以用空格來劃分單詞。有些語言,比如中文、日語等,沒有明顯的單詞邊界。在這種情況下,我們需要用一些更復雜的方法來進行tokenization(分詞)。比如,我們可以用一些規則或者統計模型來判斷哪些字或者字組合構成了一個有意義的token。例如,“我愛你”這個句子可以被分割成兩個token:“我”和“愛你”。當然,這種方法并不完美,有時候會出現錯誤或者歧義。

除了單詞之外,還有一些其他的符號也可以被視為token。比如,標點符號、數字、表情符號等等。這些符號也可以傳達一些信息或者情感。例如,“I love you!”和“I love you?”就不同于“I love you”,因為感嘆號和問號表達了不同的語氣和態度。

總之,token就是文本中的最小有意義的單位,它們可以幫助我們把文本分解成更容易處理和分析的部分。不同的語言和場景可能需要不同的tokenization方法。接下來,我們要看看GPT系列采用了什么樣的token類型?

GPT系列采用了什么樣的token類型?

解讀AI大模型,從了解token開始-AI.x社區

GPT系列是一系列基于Transformer的生成式預訓練模型,它們可以用來生成各種類型的文本。目前,已經有了GPT-2、GPT-3和GPT-4等不同版本的模型,它們的區別主要在于模型的大小、訓練數據的規模和質量、以及生成能力的強度。

GPT系列的模型都是基于子詞(subword)來進行tokenization的。子詞是指比單詞更小的語言單位,它們可以根據語料庫中的詞頻和共現頻率來自動劃分。比如,一個單詞“transformer”可以被劃分成兩個子詞“trans”和“former”,或者三個子詞“t”,“rans”和“former”,或者四個子詞“t”,“r”,“ans”和“former”,等等。不同的劃分方法會產生不同數量和長度的子詞。一般來說,子詞越多越短,就越能覆蓋更多的語言現象,但也會增加模型的計算復雜度;子詞越少越長,就越能減少模型的計算復雜度,但也會損失一些語言信息。

GPT系列采用了一種叫做Byte Pair Encoding(BPE)的子詞劃分方法。BPE是一種基于數據壓縮原理的算法,它可以根據語料庫中出現頻率最高的字節對(byte pair)來合并字節,從而生成新的字節。比如,如果語料庫中出現頻率最高的字節對是“ns”,那么BPE就會把所有的“ns”替換成一個新的字節“Z”,從而減少字節總數。這個過程可以重復進行,直到達到預設的字節總數或者沒有更多的字節對可以合并為止。這樣,BPE就可以把原始的字節序列轉換成一個由新字節組成的子詞序列。

例如,“obsessiveness”這個單詞可以被BPE轉換成以下子詞序列:

  • 原始字節序列:o b s e s s i v e n e s s
  • 第一次合并:o b s e Z i v e n e Z (假設Z代表ss)
  • 第二次合并:o b s E i v e n E (假設E代表e Z)
  • 最終子詞序列:o b s E i v e n E(如果沒達到預設的字節要求,可合并只出現一次的子詞)

當然,這只是一個簡單的例子,實際上BPE會根據大規模的語料庫來生成更多更復雜的子詞。GPT系列使用了不同大小的BPE詞典來存儲所有可能出現的子詞。比如,GPT-3使用了50,257個子詞。

總之,GPT系列采用了基于BPE算法的子詞作為token類型,主要目的是以無損的方式壓縮文本的內容,從而以保證語言覆蓋度和計算效率之間達到一個平衡。接下來,我們要看看如何用子詞來表示和生成文本?

如何用子詞來表示和生成文本?

我們已經知道了GPT系列使用了子詞作為token類型,并且通過上文講述的BPE或其他相關算法我們可以將文本內容轉換為由子詞組合而成的序列,也就是術語中分詞過程。

有了子詞序列之后,我們就可以用子詞來表示和生成文本了嗎?答案是否定的。因為語言模型是基于神經網絡的,而神經網絡只能處理數值數據,而不能處理文本數據。因此,我們還需要做第二件事情:將子詞序列轉換為數值向量。

這里,我們需要介紹兩個重要的概念:編碼(encoding)和解碼(decoding)。

編碼和解碼

將子詞序列轉換為數值向量的過程叫做編碼(Encoding),它是語言模型的第二步。編碼的目的是將一個個離散且無序的token映射到一個個連續且有序的向量空間中,從而方便語言模型進行計算和學習。比如,我們可以用以下的BPE詞典來表示上面的例子:

子詞

數值編碼

子詞

數值編碼

o

1

i

5

b

2

v

6

s

3

e

7

E

4

n

8

那么,編碼和解碼就可以按照以下的規則進行:

  • 編碼:根據BPE算法,將文本分割成最長的匹配子詞,然后根據BPE詞典,將每個子詞替換成其對應的數值編碼,從而得到一個數值向量。比如,“obsessiveness”這個單詞可以被編碼為[1, 2, 3, 4, 5,6,7,8,4]這個數值向量。
  • 解碼:根據BPE詞典,將每個數值編碼替換成其對應的子詞,然后根據BPE算法,將相鄰的子詞合并成最長的匹配單詞,從而得到一個文本。比如,[1, 2, 3, 4, 5,6,7,8,4]這個數值向量可以被解碼為“obsessiveness”這個單詞。

通過編碼和解碼,我們就可以實現文本和子詞序列向量之間的互相轉換。但是,這還不夠。我們還需要讓GPT系列能夠理解和生成這些子詞序列。為了做到這一點,我們還需要進行另外兩個步驟:嵌入(embedding)和預測(prediction)。

嵌入和預測

我們已經知道,子詞分詞和編解碼,可以把文本轉換成數字,就像我們用數字來表示電話號碼一樣。但是,這樣的數字只是一種編碼方式,它們并不能告訴我們子詞之間有什么關系。比如,我們怎么知道“貓”和“狗”是兩種動物,而“貓”和“桌子”是不同的東西呢?

為了讓GPT系列能夠理解子詞之間的關系,我們需要進行嵌入(embedding)。嵌入就是把每個子詞用一個特征向量來表示,這個特征向量可以反映出子詞的含義、用法、情感等方面的信息。

特征向量的計算算法比較復雜,但計算原理比較容易理解,GPT只需要基于互聯網上大量的文本資料,統計出兩個詞語在相鄰/句子/文章中共同出現的概率并通過權重來匯總計算,就能分析出某個詞語與另外一個詞語的親密度的數值,并將這個數值作為特征向量來描述這個詞語。比如,“貓”在互聯網的資料中與“動物”等詞語一同出現的次數多,所以“貓”的特征向量可能包含了它是一種動物、有毛發、喜歡吃魚、會發出喵喵聲等信息。

通過嵌入,我們就可以把每個子詞看作是高維空間中的一個點,而這些點之間的距離和方向,就可以表示出子詞之間的相似度和差異度。比如,“貓”和“狗”的點因為同為寵物,可能會比較接近,相對“狗”而言,“貓”和“?!钡狞c可能會比較遠離。

解讀AI大模型,從了解token開始-AI.x社區

在完成嵌入后,我們就可以進行預測(prediction)。預測就是根據給定的文本,計算出下一個子詞出現的概率。比如,如果給定的文本是“我家有一只”,那么下一個子詞可能是“貓”或者“狗”,而不太可能是“桌子”或者“電視”。這個概率的計算,就是基于特征向量表進行的。

解讀AI大模型,從了解token開始-AI.x社區

通過嵌入和預測,我們就可以實現從數字到文本,或者從文本到數字的轉換。但是,這還不夠。我們還需要讓GPT系列能夠根據給定的文本來生成新的文本。為了做到這一點,我們還需要進行最后一個步驟:生成(generation)。

生成與自回歸

生成是指根據給定的文本來生成新的文本的過程。生成可以分為兩種模式:自回歸(autoregressive)和自編碼(autoencoding),GPT系列主要采用了自回歸模式。

那么什么是自回歸?簡單理解就是想象這么一副畫面:

一個人在拍連環畫,每一頁連環畫都是前一張連環畫的延續。也就是說,人需要看前一張畫乃至前多張畫才能知道該畫什么內容。類似地,自回歸模型中的每個時間點都需要前一個時間點的信息才能計算出當前時間點的輸出值。就像拍連環畫一樣,自回歸模型中各個時間點之間存在著緊密的聯系和依賴關系,這種聯系在預測時間序列數據時非常有用。

解讀AI大模型,從了解token開始-AI.x社區

例如,“I love you”這個句子可以被GPT系列生成為以下的文本:

  • I love you more than anything in the world.
  • I love you and I miss you so much.
  • I love you, but I can't be with you.

總之,GPT系列使用了子詞、數值向量、實數向量和Transformer模型來表示和生成文本。通過編碼、解碼、嵌入、預測和生成等步驟,它可以實現從文本到文本的轉換。

整體過程可以參考GPT官方的示意圖,如下:

解讀AI大模型,從了解token開始-AI.x社區

總結

今天,我們學習了GPT系列是如何用子詞來表示和生成文本的。我們了解了token相關的概念和文本生成的步驟,通過這些概念和步驟,我們可以理解GPT系列是如何從文本到文本的轉換。

本文轉載自 ??AI小智??,作者: AI小智

收藏
回復
舉報
回復
相關推薦
а天堂中文在线资源| 日本免费不卡一区二区| 精品黑人一区二区三区国语馆| 亚洲精品a级片| 精品国产乱子伦一区| 男人日女人bb视频| 一区二区三区视频网站| 国产98色在线|日韩| 日韩美女视频中文字幕| 丁香花五月激情| 伊甸园亚洲一区| 欧美一级欧美三级| 18禁男女爽爽爽午夜网站免费| 免费看美女视频在线网站| 成人精品鲁一区一区二区| 国产91色在线|免| 久久久精品视频免费观看| 欧美巨大xxxx| 337p亚洲精品色噜噜噜| 18禁免费无码无遮挡不卡网站| 黄色在线播放网站| 久久色在线视频| 国产高清在线精品一区二区三区| 欧美日韩a v| 亚洲精品国产日韩| 久久精品亚洲94久久精品| mm131美女视频| 波多野结衣在线一区二区| 欧美无砖砖区免费| 欧美国产亚洲一区| 欧美午夜大胆人体| 国产精品美女久久久久aⅴ国产馆| 精品国产免费人成电影在线观...| 国产模特av私拍大尺度| 日韩电影在线一区| 日本精品视频在线| 日韩精品久久久久久久酒店| 亚洲色图插插| www.亚洲天堂| 午夜激情福利电影| 欧美一区二区麻豆红桃视频| 亚洲欧美精品伊人久久| 国产熟女高潮一区二区三区| 美国十次综合久久| 欧美精品粉嫩高潮一区二区| 中文字幕一区二区三区四区在线视频| freexxx性亚洲精品| 亚洲综合精品久久| 日韩久久久久久久久久久久| 亚洲图区一区| 亚洲精品美腿丝袜| 黄色片免费在线观看视频| 黄色网页在线播放| 中文字幕一区二区三区精华液| 手机看片福利永久国产日韩| 国产大片在线免费观看| 国产欧美精品区一区二区三区 | 西野翔中文久久精品字幕| 精品国产免费一区二区三区香蕉| 国产老头和老头xxxx×| 日韩在线观看中文字幕| 91精品国产综合久久久久久久久久| 亚洲一区二区三区四区五区xx| 国产精品字幕| 欧美精品久久99| 三级网站免费看| 亚洲精品高潮| 亚洲国产成人久久综合一区| 欲求不满的岳中文字幕| 蜜臀av免费一区二区三区| 亚洲日韩第一页| 国产一区二区三区视频播放| 久久久久久久久久久妇女| 久久躁狠狠躁夜夜爽| 久久亚洲AV无码| 中文一区二区| 国产精品大片wwwwww| 一二三区中文字幕| 国产精品系列在线播放| 精品不卡在线| 国产粉嫩一区二区三区在线观看 | 亚洲精品久久久一区二区三区| xxxx黄色片| 欧美精品一区二区三区精品| 日日骚久久av| 久久精品免费av| 日韩激情中文字幕| 亚洲自拍欧美色图| 特黄视频在线观看| 国产精品污www在线观看| 制服国产精品| 日韩电影毛片| 91麻豆精品国产91久久久久久久久| 18禁一区二区三区| 久久99国产精品视频| 久久在线精品视频| 羞羞影院体验区| 久久黄色级2电影| 精品高清视频| 国产福利在线播放麻豆| 欧美日韩亚洲成人| 香蕉视频xxxx| 国产欧美一区| 97国产成人精品视频| 中文字幕在线观看国产| 成人va在线观看| 水蜜桃一区二区| 国产污视频在线播放| 欧美精品久久天天躁| 亚洲专区区免费| 欧美视频久久| 国产精品欧美一区二区| 欧美视频在线观看一区二区三区| 亚洲国产精品黑人久久久| 97碰在线视频| **欧美日韩在线| 亚洲成人三级在线| 男人av资源站| 日韩国产高清影视| 精品伦理一区二区三区| bt在线麻豆视频| 欧美午夜电影网| 亚洲第一页av| 在线亚洲国产精品网站| 99在线影院| 51xtv成人影院| 欧美色图12p| 久久丫精品忘忧草西安产品| 国产欧美在线| 激情伦成人综合小说| 2020国产在线视频| 欧美绝品在线观看成人午夜影视| 天天躁夜夜躁狠狠是什么心态| 国产亚洲福利| 精品视频第一区| av影片在线| 欧美一区二区三区喷汁尤物| 天堂网中文在线观看| 免费成人在线影院| 亚洲乱码国产乱码精品天美传媒| 极品视频在线| 亚洲精品国产品国语在线| 懂色av.com| 99r国产精品| 日本不卡在线观看视频| 日韩激情网站| 国产福利视频一区| 国产尤物视频在线| 色综合色狠狠综合色| 老牛影视av老牛影视av| 麻豆91精品| 亚洲电影一二三区| 高清av一区| 日日摸夜夜添一区| 91国内精品视频| 中文字幕在线观看不卡| 妞干网在线播放| 国产精品调教视频| 国内精品视频在线| 欧美天堂在线视频| 亚洲第一福利一区| 亚洲av成人精品一区二区三区 | 一色桃子一区二区| 无码人妻精品一区二区| 久久综合资源网| aⅴ在线免费观看| 亚洲制服一区| 国产999在线| eeuss影院在线观看| 欧美在线观看视频在线| 五月激情四射婷婷| 国产精品1区2区| 国产一区二区片| 国产在线播放精品| 热久久美女精品天天吊色| 麻豆导航在线观看| 91精品福利在线一区二区三区| 青草影院在线观看| 成人听书哪个软件好| 精品视频一区二区在线| 精品国产一区二区三区久久久樱花| 国产成人精品电影| 午夜av在线播放| 亚洲国产精品va在线观看黑人| 中文字幕在线字幕中文| 91麻豆免费在线观看| www.com毛片| 91久久久精品国产| 国产成人成网站在线播放青青| 国产免费拔擦拔擦8x高清在线人| 亚洲人免费视频| 亚洲一区二区人妻| 一区二区欧美精品| aaaaa级少妇高潮大片免费看| 日本伊人色综合网| 神马午夜伦理影院| 伊甸园亚洲一区| 亚洲一区精品电影| 黄色软件视频在线观看| 在线一区二区日韩| 亚洲经典一区二区三区| 91久久一区二区| 欧美三根一起进三p| 91麻豆免费看| 人妻换人妻仑乱| 日韩高清在线观看| 久久久99精品视频| 国产欧美日韩精品一区二区免费 | 日本中文字幕在线视频观看| 中文字幕中文字幕精品| www.久久久| 99久久综合国产精品二区| 欧美日韩不卡合集视频| 国产永久免费高清在线观看 | 亚洲免费视频成人| 日本激情小视频| 粉嫩av一区二区三区| www.com黄色片| 99在线观看免费视频精品观看| 中文字幕欧美日韩一区二区三区| 亚洲人成伊人成综合图片| 国产精品日韩久久久久| 亚洲三级欧美| 九九九久久国产免费| www.久久热.com| 日韩av网址在线| 国产又粗又猛又爽又黄91| 色婷婷综合在线| 国产真实乱人偷精品视频| 亚洲欧美中日韩| 无码人妻丰满熟妇啪啪欧美| 久久久亚洲欧洲日产国码αv| 无码人妻少妇色欲av一区二区| 日本欧美在线看| aaa毛片在线观看| 亚洲精品护士| 成人免费播放器| 午夜精品视频| www.亚洲一区二区| 日韩欧美一区二区三区在线视频| 色一情一乱一伦一区二区三区| 久久大胆人体视频| 粉嫩精品一区二区三区在线观看| 亚洲精品tv| 国产精品av在线播放| 成人做爰视频www网站小优视频| 午夜精品福利视频| 日本色护士高潮视频在线观看| 久久久精品在线观看| 久草中文在线观看| 色妞在线综合亚洲欧美| 国产视频网站在线| 亚洲欧美在线一区| 韩国中文免费在线视频| 精品性高朝久久久久久久| 天天综合天天综合| 日韩av中文字幕在线播放| 亚洲第一大网站| 亚洲国产一区二区三区在线观看 | 美女一区二区久久| 四季av一区二区三区| 久久电影网电视剧免费观看| 亚洲视频第二页| 国产一区在线不卡| 我要看一级黄色大片| 国产一区二区h| 久久精品无码一区二区三区毛片| 国产精品夜夜嗨| 中文字幕永久免费| 久久婷婷一区二区三区| 欧美黄色激情视频| 国产精品欧美久久久久一区二区 | 成人羞羞在线观看网站| 综合色婷婷一区二区亚洲欧美国产| 日韩欧美视频专区| 久久天天东北熟女毛茸茸| 欧美三区美女| 国产成人艳妇aa视频在线| 亚洲在线成人| 爱情岛论坛成人| 国产一区二区伦理片| 国产亚洲视频一区| 97精品视频在线观看自产线路二| 欧美bbbbb性bbbbb视频| 国产精品丝袜91| 四虎永久免费地址| 黄色精品在线看| 一级久久久久久| 欧美一区二区久久| 国产不卡av在线播放| 日韩精品黄色网| 欧美jizzhd69巨大| 欧美国产激情18| 久久青青色综合| 国产99久久久欧美黑人| 久久伊人精品| 久久精品国产理论片免费| 99精品美女| 青娱乐自拍偷拍| 美女精品自拍一二三四| 亚洲精品乱码久久久久久9色| 久久精品视频一区二区三区| 日韩女优一区二区| 欧美午夜精品久久久久久浪潮| 在线永久看片免费的视频| 日韩情涩欧美日韩视频| 精品av中文字幕在线毛片| 久久夜精品va视频免费观看| 丰满的护士2在线观看高清| 国产精品爽爽爽| 六月丁香久久丫| 免费看啪啪网站| 国产毛片久久| 久久久久无码国产精品一区李宗瑞| 国产午夜亚洲精品不卡| 精品少妇久久久久久888优播| 欧美日产国产精品| 亚洲人午夜射精精品日韩| 久久av.com| 日本美女久久| 欧美一区二区三区四区在线观看地址 | 9191久久久久久久久久久| 天天干天天色天天| 日韩亚洲第一页| 免费一区二区三区四区| 免费日韩av电影| 在线观看一区视频| 日韩成人av影院| 亚洲三级电影网站| 国产又粗又猛又黄视频| 亚洲精品久久久久久久久久久| 美女尤物在线视频| 亚洲xxxxx| 999视频精品| 中文字幕66页| 国产精品午夜电影| 国产一卡二卡三卡| 亚洲福利在线观看| xxx在线免费观看| 成人高清视频观看www| 欧美三级情趣内衣| 成人性生生活性生交12| 久久久久国产精品麻豆| 在线观看免费av片| 日韩精品免费一线在线观看| 欧美aa一级| 鲁丝片一区二区三区| 国产精品一页| 国产精品一二三区在线观看| 欧美日韩亚洲激情| 性感美女福利视频| 91精品国产91| 精品99久久| 天堂社区在线视频| 国产精品你懂的在线| 91丨porny丨在线中文 | 午夜av电影一区| 五月天久久久久久| 91精品成人久久| 天海翼精品一区二区三区| 日韩精品在线视频免费观看| 9色porny自拍视频一区二区| 欧美成人aaaaⅴ片在线看| 亚洲第一精品久久忘忧草社区| 啊啊啊久久久| 欧美裸体网站| 另类欧美日韩国产在线| 欧美 日韩 国产 一区二区三区| 91精品国模一区二区三区| 成人ww免费完整版在线观看| 国产精品永久免费| 第一会所亚洲原创| 黄色a级三级三级三级| 亚洲在线视频网站| 天天综合天天综合| 97色在线视频观看| 久久视频在线| 国产男女无遮挡猛进猛出| 亚洲尤物在线视频观看| 久香视频在线观看| 成人国产精品久久久| 欧美日韩hd| brazzers精品成人一区| 欧美撒尿777hd撒尿| 性欧美video高清bbw| 蜜桃成人在线| 久久99精品国产麻豆不卡| 久久综合亚洲色hezyo国产| 精品成人免费观看| 国产成人精品一区二区三区免费| 亚洲国产日韩综合一区| 国产乱码精品一区二区三| 国产成人精品777777| 中文字幕v亚洲ⅴv天堂| 91精品入口| 国产成人精品无码播放| 一区二区国产盗摄色噜噜| 日本免费一区视频| 国产精品日日摸夜夜添夜夜av| 欧美私人啪啪vps|