精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)

發(fā)布于 2025-2-13 13:00
瀏覽
0收藏

LLaMA是目前很多SOTA開源大模型的基礎(chǔ),包括DeepSeek、千問等在內(nèi)的很多大模型的模型機(jī)構(gòu)大體上都沿用了LLaMA。因此,LLaMA在模型結(jié)構(gòu)的設(shè)計(jì)上可以說是目前大模型的一種最佳實(shí)踐。這篇文章就給大家匯總一下LLaMA的核心模型結(jié)構(gòu)。

LLaMA的主體結(jié)構(gòu)仍然基于Transformer,本文主要介紹LLaMA各個(gè)版本相比于Transformer的改進(jìn)部分,包括Pre-Normalization、RMSNorm、SwiGLU激活函數(shù)、Rotray Embedding等部分。

1.Pre-Normalization

基礎(chǔ)的Transformer每一層的計(jì)算邏輯是attention->add->norm->ffn->add->norm。其中norm為LayerNormalization。這種在attention和add之后的norm稱為Post-Normalization。而LLaMA中采用了Pre-Normalization,主要源自于ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE(ICLR 2020)這篇文章。其核心是將LayerNormalization放在每層Transformer的輸入位置。兩者的差異如下圖和表所示。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

文中通過分析實(shí)驗(yàn)和分析發(fā)現(xiàn),Post-Normalization方法在訓(xùn)練開始階段模型的輸出層的梯度范數(shù)比較大,模型層數(shù)越靠后梯度越大,這給訓(xùn)練的初始階段帶來了不穩(wěn)定性。而使用Pre-Normalization,各層的梯度范數(shù)基本想同,因次使用Pre-Normalization可以提升訓(xùn)練的穩(wěn)定性。此外,通過warm-up等策略,讓初始的學(xué)習(xí)率小一些,可以緩解Post-Normalization的這種初始階段梯度范數(shù)較大的問題。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

2.RMSNorm

基礎(chǔ)的Transformer在norm部分采用的是LayerNormalization,在LLaMA中則使用了RMSNorm,是一種針對(duì)LayerNormalization的改進(jìn),出自論文Root Mean Square Layer Normalization(NeuIPS 2019)中。LayerNorm每一層需要計(jì)算輸入的每條樣本向量各個(gè)元素的均值和方差,然后對(duì)輸入進(jìn)行歸一化處理。這種方法雖然可以提升訓(xùn)練穩(wěn)定性,但是大幅增加了模型中的計(jì)算開銷。如下圖,相同步數(shù)下使用LayerNorm可以降低1.6的loss,而相同時(shí)間下只能降低1.1的loss,說明LayerNorm的計(jì)算開銷較大。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

為了解決這個(gè)問題,文中提出的RMSNorm將LayerNorm進(jìn)行了簡化,原來的LayerNorm是計(jì)算均值和方差,而RMSNorm改為計(jì)算元素的均方根,用均方根進(jìn)行歸一化。這樣做雖然犧牲了LayerNorm對(duì)輸入數(shù)據(jù)的re-centering能力,但是最終效果和LayerNorm差不多,說明LayerNorm的有效并不來源于re-centering。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

從實(shí)驗(yàn)效果看,使用RMSNorm模型收斂更快,也取得了更好的效果。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

3.SwiGLU

基礎(chǔ)的Transformer結(jié)構(gòu)中,激活函數(shù)使用的是ReLU。而LLaMA中將所有ReLU更換為SwiGLU激活函數(shù),以此來提升模型的表現(xiàn)。SwiGLU發(fā)表于文章GLU Variants Improve Transformer(2020)中,SwiGLU是Swish激活函數(shù)和GLU激活函數(shù)的結(jié)合,Swish、GLU、SwiGLU激活函數(shù)的形式分別如下:

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

這里面的核心是利用了門控的思路,原始的輸入過一個(gè)sigmoid,得到一個(gè)0~1的和輸入向量維度相同的gate,以此對(duì)原始輸入各個(gè)維度進(jìn)行縮放。論文中在基于Transformer Encoder-Decoder的語言模型中,分別進(jìn)行了預(yù)訓(xùn)練、finetune等不同激活函數(shù)的效果測試,都驗(yàn)證了SwiGLU相比ReLU等其他激活函數(shù)可以取得更好的效果。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

4.Rotary Position Embedding

基礎(chǔ)的Transformer中采用絕對(duì)位置編碼,即每個(gè)位置映射成一個(gè)embedding,或者用三角函數(shù)定義位置編碼。但是絕對(duì)位置編碼的核心問題在于,無法支持超出訓(xùn)練長度的建模,因?yàn)檫@些embedding在訓(xùn)練過程中沒見過。在文本生成中,需要靈活支持很長的文本生成場景,因此絕對(duì)位置編碼的弊端就顯露出來。

旋轉(zhuǎn)位置編碼發(fā)表于論文ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(2023)中,是一種相對(duì)位置編碼方法,能夠靈活支持不同長度的文本輸入和輸出。其核心出發(fā)點(diǎn)是將位置編碼信息放到attention的計(jì)算中,通過query和key的內(nèi)積引入相對(duì)編碼,目標(biāo)是尋找一個(gè)函數(shù)f,其內(nèi)積能夠?qū)崿F(xiàn)只和query和key的向量輸入,以及兩個(gè)元素的相對(duì)位置相關(guān):

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

對(duì)應(yīng)的函數(shù)在2維的情況下可以表示為如下形式,滿足上述需求:

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

這里利用了復(fù)數(shù)的計(jì)算實(shí)現(xiàn)相對(duì)位置編碼,整體的計(jì)算流程未,對(duì)于 token 序列中的每個(gè)詞嵌入向量,首先計(jì)算其對(duì)應(yīng)的 query 和 key 向量,然后對(duì)每個(gè) token 位置都計(jì)算對(duì)應(yīng)的旋轉(zhuǎn)位置編碼,接著對(duì)每個(gè) token 位置的 query 和 key 向量的元素按照 兩兩一組應(yīng)用旋轉(zhuǎn)變換,最后再計(jì)算 query 和 key 之間的內(nèi)積得到 self-attention 的計(jì)算結(jié)果。下圖是論文中的示意圖計(jì)算流程示意圖。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

5.Grouped-Query Attention

為了提升infer的運(yùn)算效率,LLaMA將基礎(chǔ)Transformer中的self-attention改成了GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints(2023)中提出的grouped-query attention。在多頭self-attention中,每和head內(nèi)都會(huì)進(jìn)行一次QKV的映射,再進(jìn)行attention計(jì)算。而Grouped-query會(huì)將多個(gè)head分成多個(gè)組,每個(gè)組內(nèi)的query使用相同的K和V,而不再每個(gè)head都進(jìn)行一次映射,以此節(jié)省計(jì)算開銷。

一文帶你看懂開源大模型基石LLaMA核心技術(shù)點(diǎn),DeepSeek/千問等LLM的模型結(jié)構(gòu)基礎(chǔ)-AI.x社區(qū)圖片

本文轉(zhuǎn)載自 ??圓圓的算法筆記??,作者: Fareise


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
97超碰资源| 欧美精品一区二区三区很污很色的 | 看片的网站亚洲| 久久777国产线看观看精品| 老熟妇精品一区二区三区| 欧美va视频| 亚洲另类中文字| 欧美一区二区在线视频观看| a在线观看免费| 久久尤物视频| 欧美精品videos| 久久久精品成人| 国产欧美自拍一区| 69成人精品免费视频| 99精品人妻少妇一区二区| 日本成人网址| 国产日韩欧美在线一区| 成人午夜电影在线播放| 最近中文字幕在线观看视频| 一区二区国产精品| 欧美xxxx14xxxxx性爽| 蜜桃久久精品成人无码av| 成人免费直播在线| 欧美一级片在线看| 男操女免费网站| 色是在线视频| 亚洲观看高清完整版在线观看 | 91黄色精品| 日本成人一级片| 在线亚洲成人| 久久久欧美一区二区| 51精品免费网站| 成人羞羞视频在线看网址| 精品一区二区三区三区| 国产国语性生话播放| 极品国产人妖chinesets亚洲人妖| 欧美日韩国产片| 亚洲天堂av线| 色综合一本到久久亚洲91| 精品欧美一区二区三区| 成人免费毛片在线观看| 男女羞羞视频在线观看| 亚洲精品亚洲人成人网在线播放| 亚洲日本欧美在线| 91在线视频| 国产欧美精品一区aⅴ影院| 欧美大香线蕉线伊人久久国产精品| 欧美一级特黄aaaaaa| 国产aⅴ综合色| 国产精品美女诱惑| 天堂在线中文网| 99精品国产91久久久久久| 国产伦精品一区二区三区在线 | 91在线观看地址| 精品乱子伦一区二区三区| 无码精品黑人一区二区三区| 9i在线看片成人免费| 精品亚洲欧美日韩| 青青草免费在线| 久久蜜桃香蕉精品一区二区三区| 欧美日韩一区在线播放| 岛国大片在线观看| 国产精品国产a| 熟女视频一区二区三区| 四虎影视国产在线视频| 亚洲第一主播视频| 人妻久久久一区二区三区| 欧美xxxx做受欧美88bbw| 五月天激情小说综合| 欧美成人黑人猛交| 欧美aaaaaa| 欧美xxxxxxxx| wwwwxxxx国产| 97人人精品| 欧美精品videosex性欧美| 粉嫩aⅴ一区二区三区| 男人的天堂成人在线| 国产精品自拍小视频| 99热这里只有精品66| 波多野结衣中文一区| 日韩成人在线资源| av片哪里在线观看| 精品色蜜蜜精品视频在线观看| 精品久久久久久久无码| 国产一区二区三区视频在线| 亚洲精品www久久久久久广东| 日本xxxxxxxxx18| 自拍日韩欧美| 情事1991在线| 国产高清免费在线观看| 99视频在线精品| 一本一本久久a久久精品综合妖精| 天堂av资源在线观看| 欧美伊人久久久久久久久影院| 在线视频一二区| 婷婷激情久久| 欧美老女人性生活| 国产99久久久久久免费看| 国产精品一区二区久久精品爱涩| 久久久久久久久久久久久9999| 国产视频中文字幕在线观看| 粉嫩老牛aⅴ一区二区三区| 日韩av一卡二卡三卡| 亚洲第一福利专区| 欧美激情精品久久久久久变态| 波多野结衣小视频| 成人黄色国产精品网站大全在线免费观看| 亚洲精品白虎| 中文在线8资源库| 欧美videos中文字幕| 男人的天堂官网 | www.久久久精品| 果冻天美麻豆一区二区国产| 久久精品欧美视频| 波多野结衣一区二区三区在线| 成人免费视频网站在线观看| 致1999电视剧免费观看策驰影院| 美女100%一区| 成人女性视频| 日韩精品在线视频| 麻豆91精品91久久久| 蜜臀精品一区二区三区在线观看| 国产一区二区在线观看免费播放| 巨大荫蒂视频欧美大片| 欧美在线观看你懂的| 少妇一级淫免费观看| 欧美三级不卡| 亚洲999一在线观看www| 日韩在线免费电影| 在线免费不卡电影| 波多野结衣av在线免费观看| 雨宫琴音一区二区在线| 国产成人av一区二区三区| 制服丝袜中文字幕在线| 欧美久久一二区| 欧日韩不卡视频| 美腿丝袜亚洲三区| 亚洲欧美成人一区| 日韩一区二区三区免费视频| 亚洲免费av网址| 天堂中文在线网| 久久久一区二区三区| 激情六月丁香婷婷| 九九视频精品全部免费播放| 538国产精品一区二区免费视频 | 国产对白在线播放| 最近中文字幕免费视频| 欧美日韩亚洲在线观看| 国产91久久婷婷一区二区| 十九岁完整版在线观看好看云免费| 亚欧色一区w666天堂| 亚洲色偷偷色噜噜狠狠99网| 影音先锋亚洲精品| 精品日韩欧美| 波多视频一区| 怡红院精品视频| 亚洲天堂视频在线| 亚洲免费在线观看视频| 欧美午夜精品一区二区| 日韩亚洲国产精品| 免费国产一区二区| 日本h片久久| 久久最新资源网| 欧美性受xxxx狂喷水| 欧美日韩中文字幕综合视频 | 国产99视频在线| 亚洲电影第三页| 一本色道久久综合亚洲精品图片 | av在线网站免费观看| 国色天香一区二区| 久久亚洲一区二区| 99久久久国产精品免费调教网站| 久久成人国产精品| 天天操天天操天天| 在线精品视频一区二区三四| 欧美h片在线观看| 成人激情视频网站| 欧美性猛交久久久乱大交小说 | 国产女人aaa级久久久级 | 久久视频在线看| 日韩一级片免费| 欧美三级在线视频| 精品人妻在线播放| 国产日韩精品久久久| 欧美一区二区三区影院| 亚洲综合三区| 宅男一区二区三区| 欧美一区 二区| 成人黄色影片在线| 欧美少妇网站| 啊v视频在线一区二区三区| 人人妻人人澡人人爽精品日本| 欧洲av在线精品| 国产真实的和子乱拍在线观看| 国产日韩欧美在线一区| 精品无码av一区二区三区| 日本不卡视频在线观看| 国产精品12345| 国产精品久久久久久麻豆一区软件 | 国产91亚洲精品| av在线免费网站| 亚洲人成啪啪网站| 亚洲欧美另类一区| 欧美日韩高清一区二区不卡 | 9999热视频在线观看| www日韩中文字幕在线看| 亚洲欧洲综合在线| 欧美videos中文字幕| 91精东传媒理伦片在线观看| 欧美性生交大片免费| 欧美三级日本三级| 国产精品欧美久久久久一区二区 | 精品中文字幕一区二区三区av| 99久久久精品免费观看国产| 四虎国产精品免费久久| 日韩免费不卡av| 国产色播av在线| 欧美国产日韩一区二区| 免费黄色在线| 在线电影av不卡网址| 日韩av成人| 日韩高清不卡av| 性色av蜜臀av| 欧美一卡二卡在线观看| 伊人22222| 精品视频免费在线| 中文字幕 国产| 欧美在线看片a免费观看| 四虎精品永久在线| 日韩欧美精品网站| 国产成人免费观看视频| 亚洲成人你懂的| 国产一级一片免费播放| 一区二区日韩av| 黄色一级片在线免费观看| 亚洲欧美另类在线| 亚洲国产精品免费在线观看| 亚洲免费观看视频| 日韩在线观看视频一区二区| 亚洲欧美日韩久久| 最新一区二区三区| 亚洲精品综合在线| 欧美日韩激情在线观看| 亚洲国产精品一区二区www在线| 久久久久99精品成人片试看| 尤物在线观看一区| 不卡的免费av| 午夜欧美视频在线观看| av中文在线播放| 国产对白在线播放| 色欧美自拍视频| 午夜精品一区二区三区在线观看| 这里只有精品国产| 午夜精品免费在线| 日韩精品一区二区三区国语自制| 亚洲一区二区三区四区的| 久久久久久免费观看| 亚洲国产中文字幕| 制服.丝袜.亚洲.中文.综合懂色| 精品国产鲁一鲁一区二区张丽| 国产一级精品视频| 日本精品一区二区三区四区的功能| 丰满人妻老熟妇伦人精品| 在线观看日韩av先锋影音电影院| 黄色片视频免费| 欧美日韩国产免费| 亚洲精品久久久久久动漫器材一区| 欧美精品一区二区三| 日韩在线免费播放| 国产不卡免费视频| 免费不卡av网站| 不卡高清视频专区| 欧美多人猛交狂配| 一区在线中文字幕| 国产午夜福利一区二区| 日韩欧美高清视频| 亚洲天堂中文网| 欧美va亚洲va在线观看蝴蝶网| 色视频在线观看免费| 一区二区成人av| 超碰在线观看免费版| 国语自产精品视频在免费| 日韩av大片站长工具| 国产色视频一区| 激情小说亚洲图片| 一区二区三区在线视频111| 国产综合视频| 免费激情视频在线观看| 国产乱色国产精品免费视频| 国精产品一区一区三区免费视频| 国产精品麻豆一区二区 | 最好看的中文字幕久久| 日本最新中文字幕| 欧美日韩在线播放三区| 高潮毛片7777777毛片| 亚洲性xxxx| 久久五月精品中文字幕| 国产成人在线视频| 综合激情网...| 亚洲精品第一区二区三区| 亚洲人成免费| 伊人免费视频二| 国产欧美精品在线观看| 好吊妞视频一区二区三区| 欧美一区二区在线不卡| 牛牛热在线视频| 操日韩av在线电影| 电影在线观看一区二区| 久久久综合亚洲91久久98| 亚洲天天影视网| 韩国视频一区二区三区| 91视频免费观看| 精品一区在线视频| 7777精品伊人久久久大香线蕉| 国产福利小视频在线观看| 97国产精品人人爽人人做| 福利一区三区| 国产91av视频在线观看| 免费在线视频一区| 国产熟妇久久777777| 欧美日韩一区二区在线| 丰满人妻一区二区三区免费| 久久视频精品在线| 欧美极品在线| 亚洲精品不卡| 蜜臀av性久久久久蜜臀aⅴ| 男人舔女人下部高潮全视频| 一本大道久久a久久精品综合| 人妻妺妺窝人体色www聚色窝 | 日韩电影第一页| 欧美6一10sex性hd| 99高清视频有精品视频| 午夜天堂精品久久久久| 国产精品自在自线| 国产精品无圣光一区二区| 一级黄色在线观看| 亚洲网站视频福利| 快播电影网址老女人久久| 欧美日韩亚洲一区二区三区在线观看| 国产精品社区| 中日韩精品一区二区三区| 色婷婷av一区二区三区大白胸| 久久国产精品高清一区二区三区| 欧美整片在线观看| 欧美男同视频网| 手机看片福利日韩| 欧美国产日韩a欧美在线观看| 亚洲性猛交富婆| 精品国内自产拍在线观看| 日韩欧美激情电影| 精品无码国模私拍视频| 99精品视频在线观看| 亚洲天堂男人av| 伊人一区二区三区久久精品| 韩国精品视频在线观看 | 深夜福利视频一区二区| 欧美极品jizzhd欧美| 久久久噜噜噜| 亚洲熟女毛茸茸| 欧美电影免费观看完整版| av手机在线观看| 欧洲精品久久| 国内精品伊人久久久久av影院| 99久久婷婷国产综合| 亚洲电影在线观看| 超碰国产一区| 中文字幕一区二区三区5566| 国产乱码精品一区二区三区忘忧草 | 国产有码在线| 成人免费网视频| 99xxxx成人网| 人人妻人人澡人人爽| 日韩女优av电影| 欧美大胆性生话| 中文字幕色一区二区| 99久久久久久99| 中文无码av一区二区三区| 欧美华人在线视频| 欧美美女视频| 涩视频在线观看| 国产第一页第二页| 一区二区亚洲欧洲国产日韩| 欧美日韩黄网站| 日本中文字幕片| 亚洲乱码中文字幕综合| 黄色软件在线观看| 99久久精品免费看国产一区二区三区 | 小明看看成人免费视频| 亚洲成av人片在线观看| 91官网在线| 国产高清自拍一区| 麻豆极品一区二区三区| 日韩成人免费在线视频| 中文字幕亚洲情99在线| 欧美理伦片在线播放| 欧美一级特黄aaa| 日韩欧美极品在线观看| 日本中文字幕中出在线| 亚洲高清资源综合久久精品| 成人a免费在线看|