精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

從 Llama 1 到 3.1：Llama 模型架構演進詳解原創(chuàng)

發(fā)布于 2024-11-25 10:31

瀏覽

0收藏

編者按： 面對 Llama 模型家族的持續(xù)更新，您是否想要了解它們之間的關鍵區(qū)別和實際性能表現(xiàn)？本文將探討 Llama 系列模型的架構演變，梳理了 Llama 模型從 1.0 到 3.1 的完整演進歷程，深入剖析了每個版本的技術創(chuàng)新，還通過實際實驗對比了 Llama 2 和 Llama 3 在推理速度、答案長度和相對答案質(zhì)量（RAQ）等關鍵指標上的表現(xiàn)差異。
根據(jù)本文， Llama 模型的架構演變主要經(jīng)歷了以下三個階段：
Llama 1：基于原始 Transformer 架構，引入了預歸一化、RMSNorm、SwiGLU 激活函數(shù)和旋轉(zhuǎn)式位置編碼等改進，提升了模型的訓練穩(wěn)定性和性能。
Llama 2：在 Llama 1 的基礎上，將上下文長度擴展至 4096，并引入了分組查詢注意力 (GQA) 機制，有效降低了推理過程中的內(nèi)存需求，提升了推理速度。
Llama 3：進一步將 GQA 應用于小型模型，并采用更高效的分詞器 TikToken，擴大了詞匯表的數(shù)量，同時將上下文長度翻倍，并大幅增加了訓練數(shù)據(jù)量。

作者 | Luís Roque

編譯 | 岳揚

01 Introduction

Meta 公司推出了其大語言模型 Llama 的三個主要版本。Llama 在 2023 年初的首度亮相，為開源自然語言處理（NLP）社區(qū)帶來了重大突破。Meta 一直通過分享最新的模型版本，為這一社區(qū)貢獻力量。

在這里，我們需要區(qū)分“開放型（open） LLM”與“開源（open-source） LLM”。 傳統(tǒng)上，開源軟件會在特定的公共許可證下公開源代碼，允許用戶使用和修改。在 LLM 領域，開放型 LLM 會公開模型權重和初始代碼，而開源 LLM 則會更進一步，在寬松的許可下共享整個訓練過程，包括訓練數(shù)據(jù)。目前，包括 Meta 的 Llama 在內(nèi)的多數(shù)模型，都屬于開放型 LLM，因為它們并未公開用于訓練的數(shù)據(jù)集。

Llama 經(jīng)歷了三次重要的架構更新。 版本 1 對原始的 Transformer 架構進行了多項改進。版本 2 在大模型中引入了分組查詢注意力（GQA）機制。版本 3 將這一機制擴展到了小模型，同時引入了更高效的分詞器，還擴大了詞匯量。版本 3.1 并未對核心架構做出調(diào)整，主要的變化在于訓練數(shù)據(jù)的清洗、上下文長度的增加以及對更多語言的支持。

本文探討了 Llama 的架構演變，著重介紹其主要進步及其對 LLM 未來發(fā)展的影響。文章最后通過一個實驗對 Llama 2 和 Llama 3 進行了比較，使用了推理速度、答案長度和相對答案質(zhì)量（RAQ，Relative Answer Quality）框架[1]等指標進行評估。RAQ 框架提供了一個客觀的評分系統(tǒng)，用于檢驗 LLM 的回答準確度，對于評估特定應用場景尤為有用。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

Figure 1: Llama family (image by author with DALL-E)

02 Llama: A Family of Open LLMs

2.1 Llama 1：該系列首個模型問世

Llama 系列的第一個模型，Llama 1 [2]，是建立在 Vaswani 等人在 2017 年提出的編碼器-解碼器 Transformer 架構之上的[3]。該架構曾是 NLP 領域的重大創(chuàng)新，并且至今仍是 LLM 模型的基礎架構。

Llama 1 在其核心設計中采納了這一架構，并在此基礎上進行了多項優(yōu)化，包括：

預歸一化技術

借鑒了 GPT3 [4]架構中提高訓練穩(wěn)定性的方法，Llama 1 也采用了對每個 Transformer 子層的輸入進行歸一化的策略，而不僅僅是對輸出進行歸一化處理，具體細節(jié)如圖 2 所示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 2：原始 Transformer 架構與 Llama 1 架構的不同之處，特別是在 Transformer 子層中，對每個輸入都進行了歸一化處理（圖片由作者提供）

此外，Llama 1 還采用了 RMSNorm [5] 來替代傳統(tǒng)的 LayerNorm 函數(shù)，這一改變在保持訓練穩(wěn)定性和提升模型收斂速度的同時，大幅提高了計算效率。

RMSNorm 之所以能更高效，是因為其創(chuàng)造者發(fā)現(xiàn) LayerNorm 的優(yōu)勢在于 rescaling invariance（譯者注：指的是歸一化過程能夠適應輸入數(shù)據(jù)的縮放，使得網(wǎng)絡對這種縮放不敏感。），而非 recentering invariance（譯者注：如果輸入數(shù)據(jù)的均值發(fā)生了變化，但數(shù)據(jù)的分布形狀和范圍保持不變，那么具有 recentering invariance 的算法或函數(shù)的輸出應該不受影響。）?；谶@一發(fā)現(xiàn)，他們省略了歸一化過程中的均值計算，使得算法更加簡潔，而效果不減，且運算效率顯著提升。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 3：層歸一化（LayerNorm）與均方根歸一化（RMSNorm）之間的方程差異（圖片由作者提供）

SwiGLU 激活函數(shù)

在激活函數(shù)的選擇上，研究者們采用了 SwiGLU [6] 函數(shù)來替代傳統(tǒng)的 ReLU 函數(shù)，這一改變旨在提升模型的性能。兩者的核心差異在于：

ReLU 函數(shù)會將所有負數(shù)輸入直接歸零，而正數(shù)輸入則保持不變。
相比之下，SwiGLU 函數(shù)含有一個可學習的參數(shù) β，能夠調(diào)節(jié)函數(shù)的插值程度。隨著 β 值的增大，SwiGLU 的行為將逐漸接近 ReLU，這一點如圖 4 所示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 4：ReLU 與 SwiGLU 在不同 β 值下的行為對比，可以看到當 β 達到 100 時，兩者的曲線趨于一致。

旋轉(zhuǎn)式位置編碼（Rotary Positional Embeddings）

在大語言模型（LLMs）中，位置編碼起到了至關重要的作用，這是因為 Transformer 架構本身不區(qū)分單詞的順序。也就是說，如果沒有位置編碼的輔助，Transformer 會將單詞順序不同但單詞相同的兩個句子視為相同的句子。 例如，如果沒有位置編碼，下面兩個句子的含義 Transformer 將無法區(qū)分：

Sentence 1: Llama 2 is better than Llama 1 Sentence 2: Llama 1 is better than Llama 2
句子1：Llama 2的性能優(yōu)于Llama 1。句子2：Llama 1的性能優(yōu)于Llama 2。

在論文[3]中，提出了一種通過正弦和余弦函數(shù)實現(xiàn)的絕對位置編碼（Absolute Positional Embeddings）。序列中的每個位置都有其獨特的編碼（positional embedding），它們與詞向量相加，從而確保即使單詞相同，不同順序的句子也能表達不同的意思。

簡單來說，我們可以假設句子中的單詞是用一維向量而不是多維向量來編碼的。如圖 5 所示，在詞向量中，“1”和“2”的表示值是相同的。但是，在加入了位置編碼之后，它們的表示值就變得不同了（分別從0.88變?yōu)?.04，以及從0.26變?yōu)?.1）。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 5：絕對位置編碼(Absolute Positional Embeddings)(圖片由作者提供）

盡管絕對位置編碼已經(jīng)解決了 Transformer 不區(qū)分順序的問題，但它生成的位置編碼是相互獨立的，沒有考慮到序列中單詞之間的相對位置關系。 這意味著在模型看來，位置 1 和位置 2 之間的相關性與位置 1 和位置 500 之間的相關性并無差異。然而，我們知道實際情況并非如此，因為在位置上更接近的單詞，其相關性理論上應該更高。

旋轉(zhuǎn)式位置編碼[7]（RoPE）能夠解決上述問題，它通過將序列中的每個位置轉(zhuǎn)換成詞嵌入的旋轉(zhuǎn)變量來模擬單詞間的相對位置關系。 以前文的 “Llama 2 is better than Llama 1” 為例，假設詞嵌入現(xiàn)在是二維的。那么，“better ”一詞將由基于其位置 m (4) 和常數(shù) θ 的原始二維向量的二維旋轉(zhuǎn)向量來表示。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 6：展示了如何通過旋轉(zhuǎn)式位置編碼（Rotary Positional Embedding）將原始向量轉(zhuǎn)換為新的向量。這一轉(zhuǎn)換是基于向量在序列中的位置（例如，m=4）和常數(shù)θ來進行的（圖片由作者提供）

采用這種方式，即便在原句中增加更多詞匯，單詞之間的相對距離也能得到保持。比如，在句子 “The LLM Llama 2 is better than Llama 1” 中添加兩個單詞，盡管“better”和“than”的位置從（4和5）變?yōu)椋?和7），但由于旋轉(zhuǎn)量保持一致，兩個向量之間的相似性（即左圖中向量的點積與右圖中的點積相同）依舊不變。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 7：旋轉(zhuǎn)式位置編碼維持 tokens 間相對距離的能力（圖片由作者提供）

2.2 Llama 2：Llama 1 的升級版

Llama 2 [8] 保留了 Llama 1 對原始 Transformer 架構所做的所有改動。在此基礎上，還將處理上下文的長度擴展至 4096，相較于之前的 2048，翻了一番。同時，對于 34B 和 70B 這樣的大型模型，Llama 2 使用 Grouped-Query Attention (GQA) [10] 取代了傳統(tǒng)的 Multi-Head Attention (MHA) [9]。

由于需要大量內(nèi)存來加載所有的注意力頭的 queries、keys 和 values ，MHA 成為了 Transformer 的性能瓶頸。針對這一問題，有兩種解決方案：

Multi-Query Attention [9]（MQA）通過在注意力層使用單一的鍵和值頭（key and value），配合多個查詢頭（query heads）來大幅降低內(nèi)存需求。但這種做法可能會降低模型的質(zhì)量，并導致訓練過程不穩(wěn)定，因此像 T5 這樣的其他開源大語言模型并未采用此方法。
GQA 則采用了一種折中方案，它將查詢值（query values）分為 G 組（GQA-G），每組共享一個鍵和值頭（key and value head）。如果 GQA 的組數(shù)為 1（GQA-1），則相當于 MQA，所有查詢（queries）都集中在一組；而如果組數(shù)等于頭數(shù)（GQA-H），則與 MHA 相當，每個查詢（query）自成一組。這種方法減少了每個查詢（query）組中的鍵和值頭（keys and values）數(shù)量，從而縮小了鍵值緩存的大小，減少了需要加載的數(shù)據(jù)量。與 MQA 相比，這種更為溫和的縮減方式在提升推理速度的同時，也降低了解碼過程中的內(nèi)存需求，且模型質(zhì)量更接近 MHA，速度幾乎與 MQA 持平。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 8：MHA、GQA 和 MQA 方法概覽（圖片由作者提供）

2.3 Llama 3: Size and Tokenization

Llama 3 [11] 將處理上下文的長度從 4096 擴展至 8192，并將 GQA 使用到了較小規(guī)模的模型（8B）。同時，研究者們還將分詞工具從 Sentence Piece [12] 更換為 OpenAI 模型所采用的 TikToken [13]。因為新的詞匯表容量增加到了 128k 個 tokens，較之前的 32k 有了大幅提升，這一變更顯著提升了模型的性能。

這兩種分詞工具的主要差異在于，在輸入的 tokens 已經(jīng)存在于詞匯表中時，TikToken 會跳過字節(jié)對編碼（BPE） [14] 的合并規(guī)則。 例如，如果“generating”這個詞已經(jīng)在詞匯表中了，那么它將作為一個完整的 token 返回，而不是將其拆分為“generating”和“ing”這兩個最小單元的 tokens 。

2.4 Llama 3.1

在 2024 年 7 月發(fā)布的 Llama 3.1，實現(xiàn)了上下文長度（128K tokens）的顯著提升，并新增了對 8 種語言的支持。此次發(fā)布版本的一個重要亮點是更大的 Llama 3.1 405B 模型。在此之前，開放式的 LLMs（大語言模型）通常模型規(guī)模都低于 100 B。

最后，我們可以從下表中總結一下 Llama 模型的演變情況：

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

表 1：比較 Llama 模型在上下文長度、詞匯表大小、訓練數(shù)據(jù)集大小以及支持語言數(shù)量方面的演變。

03 Llama 2 與 Llama 3：模型比較

在本節(jié)中，我們將 Llama2 和 Llama 3 模型在 SQuAD 數(shù)據(jù)集上進行測試。SQuAD 是一個采用 CC BY-SA 4.0 許可協(xié)議的問答數(shù)據(jù)集（??https://huggingface.co/datasets/rajpurkar/squad）。該閱讀理解數(shù)據(jù)集（reading?? comprehension dataset）由一系列維基百科文章的問題組成。模型需要根據(jù)上下文，檢索出問題的正確答案。對于本次模型比較，數(shù)據(jù)集中有三個較為重要的字段：

問題（question）——模型需要回答的問題。
上下文（context）——模型需要從中提取答案的背景信息。
答案（answers）——問題的文本答案。

評估過程將包括三個量化指標：第一個是評估推理速度，第二個是確定答案長度，第三個是評估準確性。 對于準確性的評估，我們使用 RAQ [1]。RAQ 通過一個獨立的 LLM 對 Llama 2 和 Llama 3 的答案進行排序，排序的依據(jù)是它們與真實答案的接近程度。

我們首先下載這兩個模型的 .gguf 格式文件，以便能夠在 CPU 上運行它們，并將它們放置在 model/ 文件夾下。

我們使用了每個模型的 instruct 版本，并進行了 4-bit 量化：

nous-hermes-Llama-2-7b.Q4_K_M.gguf，來自 ??https://huggingface.co/TheBloke/Nous-Hermes-Llama-2-7B-GGUF??
Meta-Llama-3-8B-Instruct-Q4_K_M.gguf，來自 ??https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct-GGUF??

在完成上述操作之后，接下來我們會導入所有需要的庫，以及我們自定義的一個生成器。這個生成器是一個函數(shù)或者類，它能夠接受我們想要使用的模型作為輸入?yún)?shù)。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

這個類的作用是從 config.yaml 配置文件中載入模型參數(shù)，這些參數(shù)的具體設置包括：設定上下文長度為 1024，調(diào)節(jié)模型運行的“temperature ”為 0.7，以及限制輸出的最大 tokens 數(shù)為2000。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

此外，系統(tǒng)還構建了一個基于 LangChain 的提示詞模板。這個模板的作用是在將問題和相關上下文提交給大語言模型之前，對它們進行格式化處理，以便獲得更準確的響應。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

函數(shù) get_llm_response 負責接收已加載的大語言模型、相關上下文以及問題，并輸出模型的回答以及一系列量化評估指標。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

評估結束后，我們將各項指標進行了可視化展示，并發(fā)現(xiàn) Llama 3 的速度比 Llama 2 快，其平均生成速度達到每秒 1.1 個單詞，而 Llama 2 的生成速度僅為每秒 0.25 個單詞。在答案長度方面，Llama 3 輸出的答案較長，平均為 70 個單詞，相比之下，Llama 2 7B 的答案平均長度只有 15 個單詞。根據(jù)相對答案質(zhì)量（RAQ，Relative Answer Quality）評估框架，Llama 3 在平均排名上拔得頭籌，約為 1.25，而 Llama 2 的表現(xiàn)則稍遜一籌，其平均排名大約為 1.8。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

圖 9：Llama 2 7B vs Llama 3 8B（圖片由作者提供）

表 2 展示了不同語言模型性能的 Dunn 事后檢驗（Dunn post-hoc test）結果。每個單元格顯示了兩種模型之間的性能差異是否在 5 %的顯著性水平（significance level）上具有統(tǒng)計意義。"Significant" 意味著存在統(tǒng)計上的顯著差異（p值不超過0.05），而 "Not Significant" 則意味著模型之間的性能差異不具備統(tǒng)計顯著性（p值超過0.05）。根據(jù)檢驗結果，Llama 3 與 Llama 2 在性能上的差異是顯著的。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

表 2：不同 LLM 模型性能排名差異的顯著性分析

最后，從定性角度，我們分析了兩種模型對某一特定問題的回答：“What percentage of improvement over energy code requirements will be the goal of all new construction and renovations?”。這一問題基于以下上下文信息得出答案，兩者均正確地回答了問題。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

然后，如下所示，Llama 2 在回答過程中先是表示答案不在給定上下文中，但最終卻又引用了上下文中的內(nèi)容來給出答案，顯得前后矛盾。而 Llama 3 則能夠準確地從上下文中找到答案，并簡潔明了地作出了正確回應。

從 Llama 1 到 3.1：Llama 模型架構演進詳解-AI.x社區(qū)

04 Conclusions

Llama 模型在發(fā)展過程中不斷進行改進，使模型在處理語言任務時更加高效、表現(xiàn)更佳，并且能夠適應更廣泛的應用場景。從最初的 Llama 1 開始，引入了如 RMSNorm 輸入歸一化和更平滑的激活函數(shù)等基礎性改變，后續(xù)的每個模型版本都是在此基礎上進一步改進。

Llama 2 通過采用 GQA 提高推理效率，對這一方法進行了優(yōu)化，為 Llama 3 的進一步提升鋪平道路。Llama 3 在此基礎上，將 GQA 應用于更小型的模型，采用了詞匯表數(shù)量更大的高效分詞器，將上下文長度翻倍，并大幅增加了訓練數(shù)據(jù)量。

Llama 3.1 版本開啟了新的篇章。它將上下文長度進一步擴展至 128K 個 token，增加了對更多語言的支持，并推出了迄今為止最大的開放式模型 —— 405B 模型。

Llama 模型的連續(xù)升級，使得它們在各種應用場景中都具有卓越的適應性。至今，Llama 模型已累計下載超過 3 億次，而將其集成到利用私有 LLM 技術的數(shù)千種產(chǎn)品中，僅僅是一個開始。頗具諷刺意味的是，Llama 現(xiàn)在在推動開放式 AI 的發(fā)展道路上走在了前列，取代了曾經(jīng)更為開放的 OpenAI 所占據(jù)的位置。

References

[1] Luís Roque, Rafael Guedes. “Research to Production: Relative Answer Quality (RAQ) and NVIDIA NIM.” Towards Data Science. Medium, 2024.

[2] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. “Llama: Open and Efficient Foundation Language Models.” arXiv preprint arXiv:2302.13971, 2023.

[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need.” arXiv preprint arXiv:1706.03762, 2017.

[4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020.

[5] Biao Zhang, Rico Sennrich. “Root Mean Square Layer Normalization.” arXiv preprint arXiv:1910.07467, 2019.

[6] Noam Shazeer. “GLU Variants Improve Transformer.” arXiv preprint arXiv:2002.05202, 2020.

[7] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv preprint arXiv:2104.09864, 2021.

[8] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv preprint arXiv:2307.09288, 2023.

[9] Noam Shazeer. “Fast Transformer Decoding: One Write-Head is All You Need.” arXiv preprint arXiv:1911.02150, 2019.

[10] Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv preprint arXiv:2305.13245, 2023.

[11] Meta AI. “Introducing Llama 3.” Meta AI Blog, 2024.

[12] Taku Kudo, John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.” arXiv preprint arXiv:1808.06226, 2018.

[13] OpenAI. “TikToken.” GitHub.

[14] Rico Sennrich, Barry Haddow, Alexandra Birch. “Neural Machine Translation of Rare Words with Subword Units.” arXiv preprint arXiv:1508.07909, 2015.

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Luís Roque

Serial entrepreneur and leader in the AI space. I develop AI products for businesses and invest in AI-focused startups.

??https://www.linkedin.com/in/luisbrasroque/??

END

本期互動內(nèi)容 ??

?文章提到 Llama 模型采用了多項技術優(yōu)化，如 GQA 和高效分詞器等。你認為在這些優(yōu)化中，哪一項對模型性能提升最關鍵？為什么？

原文鏈接：

??https://towardsdatascience.com/the-evolution-of-llama-from-llama-1-to-llama-3-1-13c4ebe96258??

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

最強模型Llama 3.1 405B正式發(fā)布，扎克伯格：開源引領新時代

輕薄滴假象 ? 3462瀏覽 ? 0回復
最強大模型 Llama 3.1-405B 架構設計剖析

玄姐聊AGI ? 4908瀏覽 ? 0回復
解析Llama 3.1 與Meta 的 AI 戰(zhàn)略，以及新的開放前沿模型生態(tài)系統(tǒng)

lintoms ? 3781瀏覽 ? 0回復
一大堆Llama3.1-Chinese正在襲來

NLP工作站 ? 4471瀏覽 ? 0回復
基于Llama 3.1和一臺MacBook搭建商用級知識庫

玄姐聊AGI ? 4462瀏覽 ? 0回復
AI界的新寵：揭秘Llama 3.1如何革新AI合成技術

ermulong ? 3625瀏覽 ? 0回復
微軟開源Phi-3.5：支持手機、平板電腦，性能超Llama 3.1

Aceryt ? 3661瀏覽 ? 0回復
ViT篇外：NVIDIA Llama-3.1-Minitron 4B

魯班模錘1 ? 4073瀏覽 ? 0回復
阿里史上最大規(guī)模開源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 3508瀏覽 ? 0回復
Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 4345瀏覽 ? 0回復
Llama 3.1 405B，教你白嫖使用最強開源大模型

小虎哦哦 ? 4607瀏覽 ? 0回復
Python語言openAI庫詳解：從入門到精通（從0到1手把手教程）

唐克 ? 7906瀏覽 ? 0回復
LLaMA-Factory 微調(diào)與部署詳細流程：從入門到實踐

AI悠閑區(qū) ? 2.7w瀏覽 ? 0回復
Dolphin 3.0 發(fā)布（Llama 3.1 + 3.2 + Qwen 2.5）：本地優(yōu)先、可操縱的 AI 模型

Halo咯咯 ? 4143瀏覽 ? 0回復
Good Fire AI 針對 Llama 3.1 8B 和 Llama 3.3 70B 的開源稀疏自動編碼器 (SAE)

Halo咯咯 ? 3568瀏覽 ? 0回復
MCP 架構設計演進：從 Local MCP Server 到 Remote MCP Server 開源架構設計實現(xiàn)

玄姐聊AGI ? 1.2w瀏覽 ? 0回復
從 MCP 到 A2A，AI Agent 應用架構設計演進之路

玄姐聊AGI ? 3323瀏覽 ? 0回復
NVIDIA開源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 3352瀏覽 ? 0回復
從 Local MCP Server 到 Remote MCP Server 架構設計演進

玄姐聊AGI ? 3759瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

當前的“LLM 智能”，是來自模型突破，還是工程堆砌？ 3天前發(fā)布
分享一名海外獨立開發(fā)者的 AI 編程工作流 5天前發(fā)布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現(xiàn)當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

馬斯克新模型屠榜，包攬前二！馬斯克：已經(jīng)沒有真正能考AI的測試題了，終極測試是現(xiàn)實世界 0回復

上一篇： AI像人一樣操控電腦：多模態(tài)AI Agents和屏幕交互新范式

下一篇：長上下文語言模型評估體系探析

社區(qū)精華內(nèi)容

目錄

中国av免费看| 日产精品久久久久久久蜜臀| 中文字幕亚洲精品在线| 神马电影久久| 欧美高清激情brazzers| 亚洲一区视频在线观看视频| 久久天堂av综合合色| 欧美图片自拍偷拍| 黄色成人免费网| 国产精品美女一区二区三区 | 美女网站色91| 欧美人在线视频| 在线观看国产精品一区| 亚洲国产一区二区三区网站| 在线看国产一区二区| 天天想你在线观看完整版电影免费| 四虎在线免费看| 国产揄拍国内精品对白| 国产999在线观看| 九九九久久久久| 成人一区不卡| 亚洲精品久久久久中文字幕二区| 五月天视频在线观看| 爱情电影社保片一区| 一区二区三区不卡视频| 性高潮久久久久久久久| 日本v片在线免费观看| 高清日韩电视剧大全免费| 国产精品丝袜视频| 亚洲影院在线播放| 亚洲国产免费看| 久久艳片www.17c.com| 国产18无套直看片| 夜夜春成人影院| 亚洲国产一区自拍| 最新中文字幕日本| 精品国产欧美| 欧美久久久影院| 奇米影音第四色| 欧美成人性网| 欧美日韩国产在线| 美脚丝袜脚交一区二区| 日韩av官网| 亚洲女人的天堂| 欧美一级免费在线观看| 在线视频91p| 羞羞色午夜精品一区二区三区| av资源久久| 欧美日韩另类国产亚洲欧美一级| 97在线播放视频| 色偷偷色偷偷色偷偷在线视频| 亚洲一区在线观看免费观看电影高清| 强开小嫩苞一区二区三区网站 | 精品国产自在精品国产浪潮| 国产伦精品一区二区三区视频女| 亚洲人成精品久久久| 日韩极品精品视频免费观看| 国产精品入口麻豆| 美女一区二区在线观看| 亚洲白拍色综合图区| 日本一级大毛片a一| 91精品尤物| 亚洲精品在线免费观看视频| 少妇精品无码一区二区三区| 欧美精品中文| 亚洲品质视频自拍网| 国产人妻一区二区| blacked蜜桃精品一区| 亚洲视频999| 无码人中文字幕| 亚洲蜜桃视频| 久久久久久久激情视频| 国产无遮挡呻吟娇喘视频| 久久男女视频| 成人久久一区二区| 国产高中女学生第一次| av在线不卡免费看| 日本一区二区精品| 麻豆网在线观看| 一区二区三区在线视频观看| 国产精品网站免费| 欧美成人黑人| 91.麻豆视频| 丰满人妻一区二区三区免费视频棣| 噜噜噜狠狠夜夜躁精品仙踪林| 精品视频偷偷看在线观看| 免费成人深夜天涯网站| 天天综合一区| 97国产在线视频| 中文字字幕在线中文乱码| 男人天堂av在线播放| 九九精品在线| 久久在线视频在线| 日本在线观看中文字幕| 日韩成人免费电影| 99re在线视频上| 欧美zozo| 一区二区三区免费看视频| 国产一区二区视频播放| 国产激情欧美| 91精品欧美久久久久久动漫| 添女人荫蒂视频| 99re66热这里只有精品8| 海角国产乱辈乱精品视频| 69亚洲精品久久久蜜桃小说| 国产精品91一区二区| 日本欧美色综合网站免费| 色婷婷av在线| 在线观看免费亚洲| 9.1在线观看免费| 欧美激情电影| 欧美一级片一区| 性欧美18一19性猛交| 国产偷v国产偷v亚洲高清| www成人免费| 欧美男女视频| 国产午夜精品视频免费不卡69堂| 久久精品波多野结衣| 久久精品国产77777蜜臀| 精品亚洲欧美日韩| 制服丝袜在线播放| 欧美日韩三级一区| 91av在线免费| 激情视频一区二区三区| 成人国产精品一区二区| 精品视频三区| 欧美日韩亚洲一区二区| 国产吃瓜黑料一区二区| 国产精品久久久久一区二区三区厕所| 日本久久久久亚洲中字幕| www.av在线.com| ●精品国产综合乱码久久久久| 日韩中文字幕二区| 国产日韩欧美综合一区| 欧美贵妇videos办公室| 国产绿帽刺激高潮对白| 国产精品久久久久久亚洲伦| 国产 porn| 国精一区二区| 亚洲自拍另类| 欧美一区二区三区图| 人妻精品一区一区三区蜜桃91| 亚洲欧美日韩电影| 欧美第一页浮力影院| 欧美精品一二| 国产精品成人aaaaa网站| 青青草观看免费视频在线| 亚洲午夜精品网| 伊人影院在线观看视频| 综合日韩在线| 国产精品国产一区二区| 免费看电影在线| 亚洲成人黄色在线| 日本最新中文字幕| 波多野结衣精品在线| 欧美人成在线观看| 久久影院资源站| 26uuu国产精品视频| 青青青免费视频在线2| 欧美视频不卡中文| 乐播av一区二区三区| 日韩精品福利网| 亚洲草草视频| 超碰国产精品一区二页| 美乳少妇欧美精品| 亚洲高清视频网站| 丁香五六月婷婷久久激情| 人妻无码一区二区三区| 日本欧美大码aⅴ在线播放| 亚洲一区二区精品在线| 亚洲三级在线| 久久免费视频这里只有精品| 污视频软件在线观看| 色婷婷亚洲婷婷| 日韩免费av一区| 国产九色精品成人porny| 男的插女的下面视频| 日韩电影不卡一区| 国产伦精品一区二区三区精品视频| 亚洲成人三级| 精品乱人伦小说| 影音先锋在线国产| 国产精品久久久久桃色tv| 亚洲三级在线视频| 日韩一级在线| 亚洲一区二区三区加勒比| 精品国产亚洲一区二区三区在线 | 亚洲日本无吗高清不卡| 精品一区二区三区中文字幕视频| 久久久综合av| 最新国产在线观看| 欧美不卡视频一区| 黄色污污网站在线观看| 亚洲精选一二三| 亚洲天堂网一区二区| 久久精品国产99国产| 欧美深夜福利视频| 欧美国产一区二区三区激情无套| 丁香婷婷久久久综合精品国产| 电影一区二区三区| 久久国产精品久久久久| 欧美日韩免费做爰大片| 日韩一区二区在线看| 黄色污污网站在线观看| 一区二区三区免费网站| 久久视频精品在线观看| www.99精品| 国产高清999| 视频在线观看一区| 男人添女人荫蒂免费视频| 成人高清电影网站| 国产亚洲精品美女久久久m| 欧美亚洲福利| 国产极品精品在线观看| 男男gaygays亚洲| 日韩中文字幕网站| 青青青手机在线视频观看| 精品欧美一区二区久久| 中国a一片一级一片| 亚洲成人精品一区二区| 成年人午夜剧场| 国产精品免费看片| 中文字幕在线1| 99热国产精品| 性农村xxxxx小树林| 国产一区二区三区黄视频| 精品少妇无遮挡毛片| 亚洲欧美日本国产专区一区| 99热这里只有精品免费| 久久久久久影院| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 久久97视频| 欧美日韩精品一区| 清纯唯美亚洲经典中文字幕| 国产中文一区二区| 粉嫩久久久久久久极品| 99免费在线观看视频| 国产在线一区不卡| 成人国内精品久久久久一区| 天堂综合在线播放| 成人国产精品日本在线| 国产成年精品| 91社区国产高清| 欧美三级一区| av免费精品一区二区三区| 国产精品99久久免费| 成人免费淫片aa视频免费| 国产精品伦一区二区| 国产精品欧美激情在线播放| 韩日一区二区| 成人免费在线视频网址| 国产午夜亚洲精品一级在线| 91九色对白| 97人人澡人人爽91综合色| 国产欧美综合精品一区二区| 欧美男男freegayvideosroom| 狠狠爱一区二区三区| 日韩高清影视在线观看| 热re99久久精品国产99热| 国产一区三区在线播放| 日韩视频在线播放| 欧美韩日高清| 无码人妻精品一区二区蜜桃网站| 亚洲网站在线| 黄色影院一级片| 视频一区国产视频| 国产wwwxx| 国产精品99久久久| 亚洲色偷偷色噜噜狠狠99网| 久久久久久久综合日本| 中文字幕精品亚洲| 一区二区三区中文免费| 99视频在线看| 欧美中文字幕亚洲一区二区va在线| 这里只有精品999| 欧美一激情一区二区三区| 免费激情视频网站| 亚洲天堂第一页| 国产原创精品视频| 欧美黄色性视频| 免费电影日韩网站| 国产日韩欧美中文在线播放| 2023国产精华国产精品| 欧美美乳视频网站在线观看| 99tv成人| 波多野结衣50连登视频| 久久成人免费网站| 亚洲男人在线天堂| 中文字幕精品一区| 久久精品久久国产| 欧美主播一区二区三区| 国产欧美自拍| 国产亚洲精品久久| 美足av综合网| 国产精品欧美激情| 国产美女撒尿一区二区| 亚洲精品影院| 99亚洲视频| 天天干天天av| 久久综合999| 九九热国产在线| 欧美色图天堂网| 天堂av手机版| 久国内精品在线| 福利一区二区| 久久久久久亚洲精品不卡4k岛国 | 日本三区在线观看| 国产精品66部| 一级免费黄色录像| 日韩欧美精品中文字幕| 精品黑人一区二区三区国语馆| 国产亚洲美女精品久久久| 国产精品vvv| 国产激情一区二区三区在线观看 | 野外做受又硬又粗又大视频√| 日本特黄久久久高潮| 国产黑丝一区二区| 亚洲激情网站免费观看| 中国女人一级一次看片| 精品亚洲精品福利线在观看| 欧洲一区二区三区| 成人日韩av在线| 欧美hd在线| 成人免费xxxxx在线视频| 99在线精品观看| 久一区二区三区| 日韩亚洲欧美成人一区| 欧美猛烈性xbxbxbxb| 国产精品福利小视频| 自拍亚洲一区| 欧美日韩激情视频在线观看| 国产成人免费在线视频| 少妇影院在线观看| 3d动漫精品啪啪1区2区免费| www.91在线| 国产美女高潮久久白浆| 欧美肉体xxxx裸体137大胆| 久久婷婷五月综合色国产香蕉| 成年人国产精品| 国产午夜福利片| 精品国产凹凸成av人网站| 最新av在线播放| 91丝袜脚交足在线播放| 欧美日韩亚洲一区二区三区在线| 国产精品探花在线播放| 日韩美女精品在线| 国产精品国产精品国产专区| 日韩在线精品一区| 四虎国产精品免费久久5151| 一区二区成人国产精品| 九一九一国产精品| 日本中文在线视频| 欧美一区二区三区影视| 在线免费观看的av| 国产不卡一区二区在线观看| 一区三区视频| 日本黄色特级片| 在线免费亚洲电影| 在线免费看a| 亚洲自拍偷拍色图| 欧美视频日韩| 国产三级国产精品| 在线一区二区三区四区| 91大神在线网站| 97se国产在线视频| 亚洲乱码久久| 国产午夜福利一区| 91麻豆精品国产91久久久 | 欧美日韩在线一区| 免费黄色片在线观看| 国产日韩在线精品av| 中文字幕一区二区三区乱码图片| 乱码一区二区三区| 欧美日韩中文在线| av天在线观看| 99国产精品久久久久老师| 一本一道久久综合狠狠老精东影业| 30一40一50老女人毛片| 欧美日韩中字一区| 色呦呦网站在线观看| 精品在线视频一区二区| 免费在线成人网| 久久一二三四区| 国产午夜精品一区二区三区| 欧美9999| 久久久久狠狠高潮亚洲精品| 中文字幕在线观看不卡视频| 高h调教冰块play男男双性文| 国产成人在线亚洲欧美| 五月婷婷亚洲| 菠萝菠萝蜜网站| 正在播放一区二区| 在线天堂中文资源最新版| 亚洲欧美精品在线观看| 成人av片在线观看| 成人一级免费视频| 久久久噜噜噜久久久| 久久高清免费| 韩国无码一区二区三区精品| 3atv在线一区二区三区|