精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

現(xiàn)代LLM架構(gòu)設(shè)計(jì)一覽:從DeepSeek-V3到Kimi K2

人工智能
Kimi 2并非橫空出世。早期的Kimi 1.5模型在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》論文中討論過(guò),也同樣令人印象深刻。然而,它不幸地與DeepSeek R1模型論文在同一天(1月22日)發(fā)布。此外,據(jù)我所知,Kimi 1.5的權(quán)重從未公開(kāi)共享。

主要內(nèi)容

現(xiàn)代LLM架構(gòu)的演進(jìn)主要圍繞以下幾個(gè)核心目標(biāo):

  1. 提高推理效率:通過(guò)GQA、MLA、滑動(dòng)窗口注意力、MoE等技術(shù)減少內(nèi)存占用和計(jì)算量。
  2. 增強(qiáng)訓(xùn)練穩(wěn)定性:通過(guò)歸一化層(如RMSNorm)的放置和QK-Norm等技術(shù)優(yōu)化訓(xùn)練過(guò)程。
  3. 優(yōu)化模型容量與性能:通過(guò)MoE實(shí)現(xiàn)更大參數(shù)量和知識(shí)吸收能力,同時(shí)保持推理效率。
  4. 探索位置編碼的替代方案:如NoPE,挑戰(zhàn)傳統(tǒng)位置編碼的必要性。

這些架構(gòu)創(chuàng)新共同推動(dòng)了LLM在性能、效率和可擴(kuò)展性方面的持續(xù)進(jìn)步。

I. 核心架構(gòu)演進(jìn)與效率提升

1. 注意力機(jī)制的演變:

  • 多頭注意力(MHA):傳統(tǒng)機(jī)制。
  • 分組查詢注意力(GQA):MHA的計(jì)算和參數(shù)高效替代方案,通過(guò)共享鍵(key)和值(value)投影來(lái)減少內(nèi)存使用和推理帶寬。
  • 多頭潛注意力(MLA):DeepSeek V3/R1采用,通過(guò)將鍵和值張量壓縮到較低維空間來(lái)節(jié)省KV緩存內(nèi)存,并在推理時(shí)解壓縮。相比GQA,MLA在建模性能上可能更優(yōu)。
  • 滑動(dòng)窗口注意力:Gemma 3采用,限制每個(gè)Token的上下文大小,實(shí)現(xiàn)局部注意力,大幅減少KV緩存內(nèi)存需求。Gemma 3調(diào)整了局部與全局注意力的比例(5:1),并縮小了窗口大小。

2. 專家混合(MoE)架構(gòu):

  • 概念:用多個(gè)專家層(每個(gè)也是一個(gè)前饋模塊)替換Transformer塊中的前饋模塊。
  • 優(yōu)勢(shì):大幅增加模型總參數(shù)量(提高容量),但通過(guò)路由器僅激活少數(shù)專家(保持推理效率),實(shí)現(xiàn)稀疏性。
  • 應(yīng)用:DeepSeek V3/R1和Llama 4廣泛采用。DeepSeek V3引入了“共享專家”機(jī)制,進(jìn)一步提升性能。
  • 模型對(duì)比:DeepSeek V3(671B參數(shù),9個(gè)活躍專家)和Llama 4 Maverick(400B參數(shù),2個(gè)活躍專家)在專家數(shù)量和活躍參數(shù)量上存在差異。Qwen3也提供了MoE變體。

II. 訓(xùn)練穩(wěn)定性與歸一化策略

1. 歸一化層放置:

  • Post-Norm:原始Transformer架構(gòu),歸一化層在注意力模塊和前饋模塊之后。
  • Pre-Norm:GPT-2及多數(shù)LLM采用,歸一化層在注意力模塊和前饋模塊之前,有助于梯度行為和訓(xùn)練穩(wěn)定性。
  • OLMo 2的Post-Norm變體:歸一化層在注意力模塊和前饋模塊之后,但仍在殘差層內(nèi)部,旨在提高訓(xùn)練穩(wěn)定性。
  • Gemma 3的混合歸一化:在分組查詢注意力模塊周圍同時(shí)使用Pre-Norm和Post-Norm的RMSNorm,兼顧兩者優(yōu)點(diǎn)。

2. QK-Norm:

概念:在多頭注意力模塊內(nèi)部,對(duì)查詢(q)和鍵(k)在應(yīng)用旋轉(zhuǎn)位置嵌入(RoPE)之前添加另一個(gè)RMSNorm層。

作用:與Post-Norm結(jié)合,有助于穩(wěn)定訓(xùn)練。OLMo 2和Gemma 2/3都使用了QK-Norm。

III. 位置編碼的探索

1. 傳統(tǒng)位置編碼:

  • 絕對(duì)位置嵌入:早期GPT架構(gòu)通過(guò)額外嵌入層添加位置信息。
  • 旋轉(zhuǎn)位置嵌入(RoPE):通過(guò)旋轉(zhuǎn)查詢和鍵向量相對(duì)于其Token位置來(lái)編碼位置信息。

2. 無(wú)位置嵌入(NoPE):

概念:SmolLM3采用,不顯式添加任何位置信號(hào)(不固定、不學(xué)習(xí)、不相對(duì))。

原理:模型通過(guò)因果注意力掩碼(阻止關(guān)注未來(lái)Token)隱含地保留了方向感。

優(yōu)勢(shì):研究表明,NoPE可能不需要位置信息注入,并具有更好的長(zhǎng)度泛化能力。

IV. 特定模型亮點(diǎn)與優(yōu)化

1. DeepSeek V3/R1:

特點(diǎn):龐大的671B參數(shù)MoE模型,推理時(shí)僅激活37B參數(shù),效率高。

關(guān)鍵技術(shù):多頭潛注意力(MLA)和專家混合(MoE)與共享專家。

2. OLMo 2:

特點(diǎn):非營(yíng)利組織AI2的模型,以訓(xùn)練數(shù)據(jù)和代碼透明度著稱。

關(guān)鍵技術(shù):RMSNorm的Post-Norm變體放置,以及QK-Norm,共同穩(wěn)定訓(xùn)練損失。

3. Gemma 3/3n:

特點(diǎn):Google模型,注重27B規(guī)模,詞匯量大。

關(guān)鍵技術(shù):滑動(dòng)窗口注意力(大幅減少KV緩存內(nèi)存),獨(dú)特的混合歸一化層放置。

Gemma 3n:針對(duì)小型設(shè)備優(yōu)化,引入逐層嵌入(PLE)和MatFormer概念。

4. Mistral Small 3.1:

  • 特點(diǎn):24B參數(shù),在多項(xiàng)基準(zhǔn)測(cè)試中超越Gemma 3 27B,速度更快。
  • 可能原因:自定義Token分詞器,縮小KV緩存和層數(shù),放棄滑動(dòng)窗口注意力而使用常規(guī)GQA(可能結(jié)合FlashAttention)。

5. Llama 4:

  • 特點(diǎn):采用MoE架構(gòu),與DeepSeek-V3相似,但使用GQA。
  • MoE配置:更經(jīng)典的MoE設(shè)置,專家數(shù)量更少但規(guī)模更大。

6. Qwen3:

  • 特點(diǎn):提供密集模型和MoE模型兩種變體,性能優(yōu)秀。
  • MoE變體:235B-A22B,不再使用共享專家(與DeepSeek V3不同)。

7. SmolLM3:

  • 特點(diǎn):相對(duì)較小的3B參數(shù)模型,性能良好。
  • 關(guān)鍵技術(shù):無(wú)位置嵌入(NoPE),通過(guò)因果注意力掩碼實(shí)現(xiàn)順序感知。

8. Kimi 2:

  • 特點(diǎn):1T參數(shù)的開(kāi)源模型,性能卓越,與DeepSeek-V3架構(gòu)高度相似。
  • 關(guān)鍵技術(shù):MoE模塊中更多專家,MLA模塊中更少注意力頭。使用了Muon優(yōu)化器變體。

自最初的GPT架構(gòu)開(kāi)發(fā)至今已有七年。乍一看,從GPT-2(2019年)回顧到DeepSeek-V3和Llama 4(2024-2025年),這些模型在結(jié)構(gòu)上仍然如此相似,或許令人驚訝。

當(dāng)然,位置嵌入(positional embeddings)已從絕對(duì)位置嵌入(absolute)演變?yōu)樾D(zhuǎn)位置嵌入(Rotary Positional Embedding, RoPE),多頭注意力(Multi-Head Attention, MHA)已在很大程度上被分組查詢注意力(Grouped-Query Attention)取代,而更高效的SwiGLU也取代了GELU等激活函數(shù)。但除了這些細(xì)微的改進(jìn),我們是否真正看到了突破性的變革,或者僅僅是在完善相同的架構(gòu)基礎(chǔ)?

對(duì)比LLM以確定哪些關(guān)鍵要素有助于其良好(或不佳)性能是出了名的挑戰(zhàn):數(shù)據(jù)集、訓(xùn)練技術(shù)和超參數(shù)差異巨大,且通常文檔記錄不詳。

然而,我認(rèn)為深入研究架構(gòu)本身的結(jié)構(gòu)變化,以了解2025年LLM開(kāi)發(fā)者正在探索的方向,仍然具有重要價(jià)值。(其中一部分如圖1所示。)

圖1:本文涵蓋的部分架構(gòu)圖1:本文涵蓋的部分架構(gòu)

因此,在本文中,我將重點(diǎn)關(guān)注定義當(dāng)今旗艦開(kāi)源模型的架構(gòu)發(fā)展,而非基準(zhǔn)性能或訓(xùn)練算法。

(您可能還記得,我前不久撰寫了關(guān)于多模態(tài)LLM的文章;在本文中,我將重點(diǎn)關(guān)注近期模型的文本能力,并將多模態(tài)能力的討論留待下次。)

提示:這是一篇相當(dāng)全面的文章,因此我建議使用導(dǎo)航欄訪問(wèn)目錄(只需將鼠標(biāo)懸停在Substack頁(yè)面的左側(cè))。

1. DeepSeek V3/R1

您可能已經(jīng)不止一次聽(tīng)說(shuō)過(guò),DeepSeek R1在2025年1月發(fā)布時(shí)產(chǎn)生了巨大影響。DeepSeek R1是一款基于DeepSeek V3架構(gòu)構(gòu)建的推理模型,DeepSeek V3于2024年12月推出。

盡管我在此處的重點(diǎn)是2025年發(fā)布的架構(gòu),但我認(rèn)為將DeepSeek V3納入其中是合理的,因?yàn)樗窃?025年DeepSeek R1發(fā)布后才獲得廣泛關(guān)注和采用的。

在本節(jié)中,我將重點(diǎn)介紹DeepSeek V3中引入的兩種關(guān)鍵架構(gòu)技術(shù),它們提高了其計(jì)算效率,并使其區(qū)別于許多其他LLM:

  • 多頭潛注意力(Multi-Head Latent Attention, MLA)
  • 專家混合(Mixture-of-Experts, MoE)

1.1 多頭潛注意力(MLA)

在討論多頭潛注意力(MLA)之前,讓我們簡(jiǎn)要回顧一下其背景,以闡明其使用動(dòng)機(jī)。為此,我們從分組查詢注意力(Grouped-Query Attention, GQA)開(kāi)始,近年來(lái),GQA已成為MHA的一種計(jì)算和參數(shù)效率更高的新型替代方案。

簡(jiǎn)而言之,GQA的總結(jié)如下。與MHA中每個(gè)注意力頭都擁有自己的鍵(key)和值(value)集不同,為了減少內(nèi)存使用,GQA將多個(gè)注意力頭分組以共享相同的鍵和值投影。

圖2:MHA與GQA的對(duì)比其中,分組大小為2,表示一個(gè)鍵值對(duì)由兩個(gè)查詢共享圖2:MHA與GQA的對(duì)比其中,分組大小為2,表示一個(gè)鍵值對(duì)由兩個(gè)查詢共享

例如,如圖2所示,如果存在2個(gè)鍵值組和4個(gè)注意力頭,那么頭1和頭2可能共享一組鍵和值,而頭3和頭4共享另一組。這減少了鍵和值計(jì)算的總量,從而降低了內(nèi)存使用并提高了效率(根據(jù)消融研究,對(duì)模型性能沒(méi)有顯著影響)。

因此,GQA的核心思想是通過(guò)在多個(gè)查詢頭之間共享鍵和值頭來(lái)減少它們的數(shù)量。這(1)降低了模型的參數(shù)數(shù)量,(2)減少了推理期間鍵和值張量(tensor)的內(nèi)存帶寬使用,因?yàn)樾枰鎯?chǔ)和從KV緩存中檢索的鍵和值更少。

雖然GQA主要是一種針對(duì)MHA的計(jì)算效率優(yōu)化方案,但消融研究(例如原始GQA論文和Llama 2論文中的研究)表明,在LLM建模性能方面,其表現(xiàn)與標(biāo)準(zhǔn)MHA相當(dāng)。

現(xiàn)在,多頭潛注意力(MLA)提供了一種不同的內(nèi)存節(jié)省策略,它與KV緩存特別契合。MLA不像GQA那樣共享鍵和值頭,而是將鍵和值張量壓縮到較低維空間中,然后將其存儲(chǔ)在KV緩存中。

圖3:MLA(用于DeepSeek V3和R1)與常規(guī)MHA的對(duì)比圖3:MLA(用于DeepSeek V3和R1)與常規(guī)MHA的對(duì)比

在推理時(shí),這些壓縮后的張量會(huì)在使用前被投影回原始大小,如圖3所示。這增加了一次額外的矩陣乘法,但減少了內(nèi)存使用。

(順便提一下,查詢(query)也在訓(xùn)練期間被壓縮,但推理時(shí)不會(huì)。)

順便說(shuō)一句,MLA并非DeepSeek V3的新技術(shù),其前身DeepSeek-V2也使用了(甚至引入了)它。此外,V2論文包含了一些有趣的消融研究,可能解釋了DeepSeek團(tuán)隊(duì)選擇MLA而非GQA的原因(參見(jiàn)圖4)。

圖4:DeepSeek-V2論文中的標(biāo)注表格,https://arxiv.org/abs/2405.圖4:DeepSeek-V2論文中的標(biāo)注表格,https://arxiv.org/abs/2405.

如圖4所示,GQA的性能似乎不如MHA,而MLA在建模性能方面優(yōu)于MHA,這可能是DeepSeek團(tuán)隊(duì)選擇MLA而非GQA的原因。(如果能看到MLA和GQA在“每Token KV緩存節(jié)省”方面的對(duì)比,那會(huì)很有趣!)

在進(jìn)入下一個(gè)架構(gòu)組件之前,總結(jié)一下本節(jié):MLA是一種巧妙的技巧,可以減少KV緩存內(nèi)存使用,同時(shí)在建模性能方面甚至略優(yōu)于MHA。

1.2 專家混合(MoE)

DeepSeek中另一個(gè)值得強(qiáng)調(diào)的主要架構(gòu)組件是其專家混合(MoE)層的使用。雖然DeepSeek并非MoE的發(fā)明者,但它在今年重新興起,我們稍后將介紹的許多架構(gòu)也采用了它。

您可能已經(jīng)熟悉MoE,但快速回顧一下可能會(huì)有所幫助。

MoE的核心思想是用多個(gè)專家層替換Transformer塊中的每個(gè)前饋(FeedForward)模塊,其中每個(gè)專家層也是一個(gè)前饋模塊。這意味著我們將單個(gè)前饋塊替換為多個(gè)前饋塊,如圖5所示。

圖片圖片

圖5:DeepSeek V3/R1中專家混合(Mixture-of-Experts, MoE)模塊(右)與采用標(biāo)準(zhǔn)前饋(FeedForward)塊的LLM(左)的示意圖

Transformer塊內(nèi)部的前饋塊(圖中深灰色塊所示)通常包含模型總參數(shù)的很大一部分。(請(qǐng)注意,Transformer塊以及前饋塊在LLM中會(huì)重復(fù)多次;在DeepSeek-V3的例子中,重復(fù)了61次。)

因此,用多個(gè)前饋塊替換單個(gè)前饋塊(如MoE設(shè)置中所做)會(huì)大幅增加模型的總參數(shù)數(shù)量。然而,關(guān)鍵的技巧在于我們不會(huì)為每個(gè)Token都使用(“激活”)所有專家。相反,一個(gè)路由器(router)會(huì)為每個(gè)Token選擇一小部分專家。

由于一次只激活少數(shù)專家,MoE模塊通常被稱為稀疏(sparse),與始終使用完整參數(shù)集的密集(dense)模塊形成對(duì)比。然而,通過(guò)MoE實(shí)現(xiàn)的大量總參數(shù)增加了LLM的容量(capacity),這意味著它可以在訓(xùn)練期間吸收更多知識(shí)。但稀疏性保持了推理效率,因?yàn)槲覀儾粫?huì)同時(shí)使用所有參數(shù)。

例如,DeepSeek-V3每個(gè)MoE模塊有256個(gè)專家,總參數(shù)量為671B。但在推理期間,一次只有9個(gè)專家處于活躍狀態(tài)(1個(gè)共享專家加上路由器選擇的8個(gè))。這意味著每個(gè)推理步驟只使用了37B參數(shù),而不是全部671B。

DeepSeek-V3的MoE設(shè)計(jì)的一個(gè)顯著特點(diǎn)是使用了共享專家(shared expert)。這是一個(gè)始終對(duì)每個(gè)Token都活躍的專家。這

圖片圖片

圖6:“DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models”論文中的標(biāo)注圖,https://arxiv.org/abs/2401.06066

個(gè)想法并不新鮮,在DeepSeek 2024 MoE和2022 DeepSpeedMoE論文中已經(jīng)引入。

共享專家的好處首次在DeepSpeedMoE論文中被提及,他們發(fā)現(xiàn)它比沒(méi)有共享專家更能提升整體建模性能。這可能是因?yàn)槌R?jiàn)或重復(fù)的模式不必由多個(gè)獨(dú)立專家學(xué)習(xí),這使得它們有更多空間學(xué)習(xí)更專業(yè)的模式。

1.3 DeepSeek總結(jié)

總而言之,DeepSeek-V3是一個(gè)龐大的671B參數(shù)模型,在發(fā)布時(shí)其性能超越了其他開(kāi)源模型,包括405B參數(shù)的Llama 3。盡管參數(shù)量更大,但由于其專家混合(MoE)架構(gòu),它在推理時(shí)效率更高,每個(gè)Token僅激活一小部分(僅37B)參數(shù)。

另一個(gè)關(guān)鍵的顯著特點(diǎn)是DeepSeek-V3使用了多頭潛注意力(MLA)而非分組查詢注意力(GQA)。MLA和GQA都是標(biāo)準(zhǔn)多頭注意力(MHA)的推理高效替代方案,尤其是在使用KV緩存時(shí)。雖然MLA實(shí)現(xiàn)起來(lái)更復(fù)雜,但DeepSeek-V2論文中的一項(xiàng)研究表明,它比GQA提供了更好的建模性能。

2. OLMo 2

非營(yíng)利組織Allen Institute for AI的OLMo系列模型因其在訓(xùn)練數(shù)據(jù)和代碼方面的透明度以及相對(duì)詳細(xì)的技術(shù)報(bào)告而引人注目。

雖然您可能不會(huì)在任何基準(zhǔn)測(cè)試或排行榜上找到OLMo模型名列前茅,但它們非常簡(jiǎn)潔,更重要的是,由于其透明度,它們是開(kāi)發(fā)LLM的絕佳藍(lán)圖。

盡管OLMo模型因其透明度而受歡迎,但它們也并非表現(xiàn)不佳。事實(shí)上,在1月發(fā)布時(shí)(在Llama 4、Gemma 3和Qwen 3之前),OLMo 2模型處于計(jì)算性能的帕累托前沿,如圖7所示。

圖片圖片

圖7:不同LLM的模型基準(zhǔn)性能(越高越好)與預(yù)訓(xùn)練成本(FLOPs;越低越好)對(duì)比圖這是OLMo 2論文中的標(biāo)注圖,https://arxiv.org/abs/2501.00656

如本文前面所述,我旨在僅關(guān)注LLM架構(gòu)細(xì)節(jié)(而非訓(xùn)練或數(shù)據(jù)),以保持文章篇幅適中。那么,OLMo2中有哪些有趣的架構(gòu)設(shè)計(jì)選擇呢?主要?dú)w結(jié)為歸一化:RMSNorm層的放置以及QK-norm的添加,我將在下面討論。

另一件值得一提的是,OLMo 2仍然使用傳統(tǒng)的多頭注意力(MHA)而不是MLA或GQA。

2.1 歸一化層放置

總體而言,OLMo 2在很大程度上遵循了原始GPT模型的架構(gòu),類似于其他當(dāng)代LLM。然而,也有一些值得注意的偏差。讓我們從歸一化層開(kāi)始。

與Llama、Gemma和大多數(shù)其他LLM類似,OLMo 2從LayerNorm切換到了RMSNorm。

但由于RMSNorm已是老生常談(它基本上是LayerNorm的簡(jiǎn)化版本,可訓(xùn)練參數(shù)更少),我將跳過(guò)RMSNorm與LayerNorm的討論。

然而,RMSNorm層的放置位置值得討論。原始Transformer(來(lái)自“Attention is all you need”論文)將兩個(gè)歸一化層分別放置在Transformer塊中的注意力模塊和前饋模塊之后。

這也被稱為Post-LN或Post-Norm。

GPT和之后的大多數(shù)其他LLM將歸一化層放置在注意力模塊和前饋模塊之前,這被稱為Pre-LN或Pre-Norm。Post-Norm和Pre-Norm的對(duì)比如圖所示。

圖8:Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對(duì)比圖8:Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對(duì)比

2020年,Xiong等人表明,Pre-LN在初始化時(shí)能產(chǎn)生更良好的梯度行為。此外,研究人員提到,Pre-LN即使在沒(méi)有仔細(xì)學(xué)習(xí)率預(yù)熱的情況下也能很好地工作,而學(xué)習(xí)率預(yù)熱對(duì)于Post-LN來(lái)說(shuō)是至關(guān)重要的工具。

現(xiàn)在,我之所以提到這一點(diǎn),是因?yàn)镺LMo 2采用了一種Post-LN的形式(但使用RMSNorm而不是LayerNorm,所以我稱之為Post-Norm)。

在OLMo 2中,歸一化層不是放置在注意力層和前饋層之前,而是放置在之后,如圖所示。然而,請(qǐng)注意,與原始Transformer架構(gòu)不同,歸一化層仍然在殘差層(跳躍連接)內(nèi)部。

那么,他們?yōu)槭裁匆淖儦w一化層的位置呢?原因是它有助于訓(xùn)練穩(wěn)定性,如下圖所示。

圖片圖片

圖9:顯示Pre-Norm(如GPT-2、Llama 3等)與OLMo 2的Post-Norm變體訓(xùn)練穩(wěn)定性對(duì)比圖這是OLMo 2論文中的標(biāo)注圖,https://arxiv.org/abs/2501.00656

不幸的是,這張圖顯示的是重排序與QK-Norm結(jié)合的結(jié)果,而QK-Norm是一個(gè)獨(dú)立的概念。因此,很難判斷歸一化層重排序本身貢獻(xiàn)了多少。

2.2 QK-Norm

既然上一節(jié)已經(jīng)提到了QK-norm,并且我們稍后討論的其他LLM,如Gemma 2和Gemma 3,也使用了QK-norm,那么讓我們簡(jiǎn)要討論一下這是什么。

QK-Norm本質(zhì)上是另一個(gè)RMSNorm層。它放置在多頭注意力(MHA)模塊內(nèi)部,并在應(yīng)用RoPE之前應(yīng)用于查詢(q)和鍵(k)。為了說(shuō)明這一點(diǎn),下面是我為Qwen3從零實(shí)現(xiàn)編寫的分組查詢注意力(GQA)層的一個(gè)摘錄(GQA中QK-norm的應(yīng)用類似于OLMo中的MHA):

class GroupedQueryAttention(nn.Module):
    def __init__(
        self, d_in, num_heads, num_kv_groups,
        head_dim=None, qk_norm=False, dtype=None
    ):
        # ...


        if qk_norm:
            self.q_norm = RMSNorm(head_dim, eps=1e-6)
            self.k_norm = RMSNorm(head_dim, eps=1e-6)
        else:
            self.q_norm = self.k_norm = None


    def forward(self, x, mask, cos, sin):
        b, num_tokens, _ = x.shape


        # Apply projections
        queries = self.W_query(x) 
        keys = self.W_key(x)
        values = self.W_value(x) 


        # ...


        # Optional normalization
        if self.q_norm:
            queries = self.q_norm(queries)
        if self.k_norm:
            keys = self.k_norm(keys)


        # Apply RoPE
        queries = apply_rope(queries, cos, sin)
        keys = apply_rope(keys, cos, sin)


        # Expand K and V to match number of heads
        keys = keys.repeat_interleave(self.group_size, dim=1)
        values = values.repeat_interleave(self.group_size, dim=1)


        # Attention
        attn_scores = queries @ keys.transpose(2, 3)
        # ...

如前所述,QK-Norm與Post-Norm一起,穩(wěn)定了訓(xùn)練。請(qǐng)注意,QK-Norm并非由OLMo 2發(fā)明,而是可以追溯到2023年的《Scaling Vision Transformers》論文。

2.3 OLMo 2總結(jié)

簡(jiǎn)而言之,OLMo 2值得注意的架構(gòu)設(shè)計(jì)決策主要是RMSNorm的放置:RMSNorm放置在注意力模塊和前饋模塊之后而非之前(一種Post-Norm變體),以及在注意力機(jī)制內(nèi)部為查詢和鍵添加RMSNorm(QK-Norm),兩者共同有助于穩(wěn)定訓(xùn)練損失。

圖片圖片

圖10:Llama 3與OLMo 2的架構(gòu)對(duì)比

下面是進(jìn)一步并排比較OLMo 2和Llama 3的圖;可以看出,除了OLMo 2仍然使用傳統(tǒng)的MHA而不是GQA之外,這兩種架構(gòu)在其他方面相對(duì)相似。(然而,OLMo 2團(tuán)隊(duì)在3個(gè)月后發(fā)布了一個(gè)使用GQA的32B參數(shù)變體。)

3. Gemma 3

Google的Gemma模型一直表現(xiàn)出色,我認(rèn)為與Llama系列等其他熱門模型相比,它們一直有點(diǎn)被低估。

Gemma的一個(gè)顯著特點(diǎn)是其相當(dāng)大的詞匯量(以更好地支持多種語(yǔ)言),以及更側(cè)重于27B規(guī)模(而非8B或70B)。但請(qǐng)注意,Gemma 2也有較小規(guī)模的版本:1B、4B和12B。

27B的規(guī)模達(dá)到了一個(gè)非常好的平衡點(diǎn):它比8B模型能力強(qiáng)得多,但又不像70B模型那樣資源密集,并且在我的Mac Mini上本地運(yùn)行良好。

那么,Gemma 3還有哪些有趣之處呢?如前所述,Deepseek-V3/R1等其他模型使用專家混合(MoE)架構(gòu)來(lái)在給定模型大小的情況下減少推理時(shí)的內(nèi)存需求。

Gemma 3使用了一種不同的“技巧”來(lái)降低計(jì)算成本,即滑動(dòng)窗口注意力(sliding window attention)。

3.1 滑動(dòng)窗口注意力

通過(guò)滑動(dòng)窗口注意力(最初在2020年的LongFormer論文中引入,并且Gemma 2也已使用),Gemma 3團(tuán)隊(duì)成功大幅減少了KV緩存中的內(nèi)存需求,如下圖所示。

圖片圖片

圖11:Gemma 3論文(https://arxiv.org/abs/2503.19786)中的標(biāo)注圖,展示了通過(guò)滑動(dòng)窗口注意力(sliding window attention)實(shí)現(xiàn)的KV緩存內(nèi)存節(jié)省

那么,什么是滑動(dòng)窗口注意力呢?如果我們把常規(guī)自注意力(self-attention)看作一種全局注意力機(jī)制,因?yàn)槊總€(gè)序列元素都可以訪問(wèn)所有其他序列元素,那么我們可以把滑動(dòng)窗口注意力看作局部注意力,因?yàn)樗拗屏水?dāng)前查詢位置周圍的上下文大小。這在下圖中有所說(shuō)明。

圖12:常規(guī)注意力(左)與滑動(dòng)窗口注意力(右)的對(duì)比圖12:常規(guī)注意力(左)與滑動(dòng)窗口注意力(右)的對(duì)比

請(qǐng)注意,滑動(dòng)窗口注意力可以與多頭注意力(Multi-Head Attention)和分組查詢注意力(Grouped-Query Attention)一起使用;Gemma 3使用的是分組查詢注意力。

如上所述,滑動(dòng)窗口注意力也被稱為局部注意力,因?yàn)榫植看翱趪@并隨當(dāng)前查詢位置移動(dòng)。相比之下,常規(guī)注意力是全局的,因?yàn)槊總€(gè)Token都可以訪問(wèn)所有其他Token。

現(xiàn)在,如上文簡(jiǎn)要提及,Gemma 2的前代架構(gòu)也曾使用滑動(dòng)窗口注意力。Gemma 3的不同之處在于,它們調(diào)整了全局(常規(guī))注意力與局部(滑動(dòng))注意力之間的比例。

例如,Gemma 2使用一種混合注意力機(jī)制,以1:1的比例結(jié)合滑動(dòng)窗口(局部)和全局注意力。每個(gè)Token可以關(guān)注附近4k Token窗口的上下文。

Gemma 2在每隔一層使用滑動(dòng)窗口注意力,而Gemma 3現(xiàn)在采用5:1的比例,這意味著每5個(gè)滑動(dòng)窗口(局部)注意力層只有1個(gè)完整的注意力層;此外,滑動(dòng)窗口大小從4096(Gemma 2)減少到僅1024(Gemma 3)。這使得模型的重點(diǎn)轉(zhuǎn)向更高效的局部計(jì)算。

根據(jù)他們的消融研究,滑動(dòng)窗口注意力的使用對(duì)建模性能的影響微乎其微,如下圖所示。

圖片圖片

圖13:Gemma 3論文(https://arxiv.org/abs/2503.19786)中的標(biāo)注圖,顯示滑動(dòng)窗口注意力對(duì)LLM生成輸出的困惑度影響甚微

雖然滑動(dòng)窗口注意力是Gemma 3最顯著的架構(gòu)特征,但我想簡(jiǎn)要回顧一下歸一化層的放置,作為對(duì)之前OLMo 2部分的補(bǔ)充。

3.2 Gemma 3中的歸一化層放置

一個(gè)雖小但有趣的細(xì)節(jié)是,Gemma 3在其分組查詢注意力模塊周圍同時(shí)使用了Pre-Norm和Post-Norm設(shè)置的RMSNorm。

這與Gemma 2類似,但仍然值得強(qiáng)調(diào),因?yàn)樗煌冢?)原始Transformer(“Attention is all you need”)中使用的Post-Norm,(2)由GPT-2推廣并在之后許多其他架構(gòu)中使用的Pre-Norm,以及(3)我們之前看到的OLMo 2中的Post-Norm變體。

圖14:OLMo2與Gemma 3的架構(gòu)對(duì)比;請(qǐng)注意Gemma 3中額外的歸一化層圖14:OLMo2與Gemma 3的架構(gòu)對(duì)比;請(qǐng)注意Gemma 3中額外的歸一化層

我認(rèn)為這種歸一化層放置是一種相對(duì)直觀的方法,因?yàn)樗骖櫫薖re-Norm和Post-Norm的優(yōu)點(diǎn)。在我看來(lái),額外的一點(diǎn)歸一化不會(huì)有什么壞處。在最壞的情況下,如果額外的歸一化是冗余的,這會(huì)通過(guò)冗余增加一點(diǎn)效率低下。然而,在實(shí)踐中,由于RMSNorm在整體上相對(duì)廉價(jià),這應(yīng)該不會(huì)產(chǎn)生任何明顯的影響。

3.3 Gemma 3總結(jié)

Gemma 3是一款表現(xiàn)良好的開(kāi)源LLM,在我看來(lái),它在開(kāi)源社區(qū)中有點(diǎn)被低估了。最有趣的部分是使用滑動(dòng)窗口注意力來(lái)提高效率(未來(lái)將其與MoE結(jié)合會(huì)很有趣)。

此外,Gemma 3具有獨(dú)特的歸一化層放置,將RMSNorm層放置在注意力模塊和前饋模塊之前和之后。

3.4 額外內(nèi)容:Gemma 3n

在Gemma 3發(fā)布幾個(gè)月后,Google發(fā)布了Gemma 3n,這是一個(gè)為小型設(shè)備效率而優(yōu)化的Gemma 3模型,目標(biāo)是在手機(jī)上運(yùn)行。

Gemma 3n為實(shí)現(xiàn)更高效率而進(jìn)行的一項(xiàng)改變是所謂的逐層嵌入(Per-Layer Embedding, PLE)參數(shù)層。其核心思想是僅將模型參數(shù)的一個(gè)子集保留在GPU內(nèi)存中。然后,文本、音頻和視覺(jué)模態(tài)等Token層特定的嵌入會(huì)按需從CPU或SSD流式傳輸。

下圖說(shuō)明了PLE內(nèi)存節(jié)省,列出了標(biāo)準(zhǔn)Gemma 3模型的5.44B參數(shù)。這可能指的是Gemma 3的4B參數(shù)變體。

圖片圖片

圖15:Google的Gemma 3n博客(https://developers.googleblog.com/en/introducing-gemma-3n/)中的標(biāo)注圖,說(shuō)明了PLE內(nèi)存節(jié)省

5.44B與4B參數(shù)之間的差異是因?yàn)镚oogle在報(bào)告LLM參數(shù)數(shù)量時(shí)有一種有趣的方式。他們通常會(huì)排除嵌入?yún)?shù),以使模型看起來(lái)更小,除非在這種情況下,為了使模型看起來(lái)更大而方便地包含它們。這并非Google獨(dú)有,這種方法已成為該領(lǐng)域的普遍做法。

另一個(gè)有趣的技巧是MatFormer概念(Matryoshka Transformer的縮寫)。例如,Gemma 3n使用一個(gè)共享的LLM(Transformer)架構(gòu),可以將其切片成更小、可獨(dú)立使用的模型。每個(gè)切片都經(jīng)過(guò)訓(xùn)練以獨(dú)立運(yùn)行,因此在推理時(shí),我們只需運(yùn)行您需要的部分(而不是整個(gè)大型模型)。

4. Mistral Small 3.1

Mistral Small 3.1 24B于3月發(fā)布,緊隨Gemma 3之后,其值得注意之處在于在多項(xiàng)基準(zhǔn)測(cè)試中(數(shù)學(xué)除外)超越了Gemma 3 27B,同時(shí)速度更快。

Mistral Small 3.1比Gemma 3推理延遲更低的原因可能在于其自定義Token分詞器,以及縮小了KV緩存和層數(shù)。除此之外,它是一個(gè)標(biāo)準(zhǔn)架構(gòu),如下圖所示。

圖16:Gemma 3 27B與Mistral 3.1 Small 24B的架構(gòu)對(duì)比圖16:Gemma 3 27B與Mistral 3.1 Small 24B的架構(gòu)對(duì)比

有趣的是,早期的Mistral模型曾使用滑動(dòng)窗口注意力,但它們似乎在Mistral Small 3.1中放棄了它。因此,由于Mistral使用常規(guī)分組查詢注意力而非Gemma 3中帶滑動(dòng)窗口的分組查詢注意力,也許能夠通過(guò)使用更多優(yōu)化的代碼(即FlashAttention)來(lái)節(jié)省額外的推理計(jì)算。例如,我推測(cè)雖然滑動(dòng)窗口注意力減少了內(nèi)存使用,但它不一定減少推理延遲,而這正是Mistral Small 3.1關(guān)注的重點(diǎn)。

5. Llama 4

本文前面關(guān)于專家混合(MoE)的廣泛介紹再次發(fā)揮了作用。Llama 4也采用了MoE方法,并且遵循了與DeepSeek-V3非常相似的相對(duì)標(biāo)準(zhǔn)架構(gòu),如下圖所示。(Llama 4包含原生多模態(tài)支持,類似于Gemma和Mistral等模型。然而,由于本文重點(diǎn)關(guān)注語(yǔ)言建模,我們只關(guān)注文本模型。)

圖17:DeepSeek V3(671B參數(shù))與Llama 4 Maverick(400B參數(shù))的架圖17:DeepSeek V3(671B參數(shù))與Llama 4 Maverick(400B參數(shù))的架

雖然Llama 4 Maverick架構(gòu)總體上與DeepSeek-V3非常相似,但仍有一些值得強(qiáng)調(diào)的有趣差異。

首先,Llama 4像其前身一樣使用分組查詢注意力(Grouped-Query Attention),而DeepSeek-V3使用多頭潛注意力(Multi-Head Latent Attention),我們?cè)诒疚拈_(kāi)頭討論過(guò)。現(xiàn)在,DeepSeek-V3和Llama 4 Maverick都是非常大的架構(gòu),DeepSeek-V3的總參數(shù)量大約比Llama 4 Maverick大68%。然而,DeepSeek-V3的活躍參數(shù)量(37B)是Llama 4 Maverick(17B)的兩倍多。

Llama 4 Maverick使用更經(jīng)典的MoE設(shè)置,專家數(shù)量更少但規(guī)模更大(2個(gè)活躍專家,每個(gè)隱藏層大小為8192),而DeepSeek-V3則有更多活躍專家(9個(gè)活躍專家,每個(gè)隱藏層大小為2048)。此外,DeepSeek在每個(gè)Transformer塊(除了前3個(gè))都使用MoE層,而Llama 4則在每隔一個(gè)Transformer塊中交替使用MoE和密集模塊。

鑒于架構(gòu)之間存在許多細(xì)微差異,很難確定它們對(duì)最終模型性能的確切影響。然而,主要結(jié)論是,MoE架構(gòu)在2025年顯著流行起來(lái)。

6. Qwen3

Qwen團(tuán)隊(duì)持續(xù)提供高質(zhì)量的開(kāi)源LLM。當(dāng)我協(xié)助共同指導(dǎo)NeurIPS 2023的LLM效率挑戰(zhàn)賽時(shí),我記得獲勝的頂級(jí)解決方案都基于Qwen2。

現(xiàn)在,Qwen3是另一個(gè)熱門模型系列,在其規(guī)模類別中位居排行榜前列。它有7個(gè)密集模型:0.6B、1.7B、4B、8B、14B和32B。還有2個(gè)MoE模型:30B-A3B和235B-A22B。

6.1 Qwen3(密集模型)

我們首先討論密集模型架構(gòu)。截至本文撰寫之時(shí),0.6B模型很可能是目前最小的當(dāng)前代開(kāi)源模型。根據(jù)我的個(gè)人經(jīng)驗(yàn),考慮到其小巧的尺寸,它的性能確實(shí)非常出色。如果您打算在本地運(yùn)行它,它具有出色的Token/秒吞吐量和較低的內(nèi)存占用。更重要的是,由于其體積小巧,它也易于本地訓(xùn)練(用于教育目的)。

因此,Qwen3 0.6B已經(jīng)取代了Llama 3 1B,滿足了我大部分的需求。這兩種架構(gòu)的對(duì)比圖如下。

圖片圖片

圖18:Qwen3 0.6B與Llama 3 1B的架構(gòu)對(duì)比;請(qǐng)注意,Qwen3是層數(shù)更深(deeper)的架構(gòu),而Llama 3是注意力頭數(shù)更寬(wider)的架構(gòu)

如果您對(duì)不依賴外部第三方LLM庫(kù)、可讀性強(qiáng)的Qwen3實(shí)現(xiàn)感興趣,我最近從零開(kāi)始(純PyTorch)實(shí)現(xiàn)了Qwen3。

上圖中顯示的計(jì)算性能數(shù)據(jù)基于我在A100 GPU上運(yùn)行的從零開(kāi)始的PyTorch實(shí)現(xiàn)。可以看出,Qwen3的內(nèi)存占用更小,因?yàn)樗w架構(gòu)更小,而且隱藏層和注意力頭也更少。然而,它使用的Transformer塊比Llama 3更多,這導(dǎo)致運(yùn)行時(shí)間更慢(Token/秒生成速度更低)。

6.2 Qwen3(MoE模型)

如前所述,Qwen3也有兩種MoE變體:30B-A3B和235B-A22B。為什么有些架構(gòu),如Qwen3,會(huì)同時(shí)提供常規(guī)(密集)和MoE(稀疏)變體呢?

如本文開(kāi)頭所述,MoE變體有助于降低大型基礎(chǔ)模型的推理成本。提供密集和MoE版本使用戶可以根據(jù)其目標(biāo)和限制靈活選擇。

密集模型通常更易于微調(diào)、部署和在各種硬件上進(jìn)行優(yōu)化。

另一方面,MoE模型則針對(duì)規(guī)模化推理進(jìn)行了優(yōu)化。例如,在固定的推理預(yù)算下,它們可以實(shí)現(xiàn)更高的整體模型容量(即,由于模型更大,訓(xùn)練期間可以吸收更多知識(shí)),而不會(huì)按比例增加推理成本。

通過(guò)發(fā)布這兩種類型,Qwen3系列可以支持更廣泛的使用場(chǎng)景:密集模型適用于魯棒性、簡(jiǎn)單性和微調(diào),而MoE模型則適用于大規(guī)模高效服務(wù)。

為了總結(jié)本節(jié),讓我們來(lái)看看Qwen3 235B-A22B(請(qǐng)注意,A22B代表“22B活躍參數(shù)”)與DeepSeek-V3的對(duì)比,后者擁有近兩倍的活躍參數(shù)(37B)。

圖19:DeepSeek-V3與Qwen3 235B-A22B的架構(gòu)對(duì)比圖19:DeepSeek-V3與Qwen3 235B-A22B的架構(gòu)對(duì)比

如上圖所示,DeepSeek-V3和Qwen3 235B-A22B的架構(gòu)非常相似。然而,值得注意的是,Qwen3模型不再使用共享專家(早期的Qwen模型,如Qwen2.5-MoE,確實(shí)使用了共享專家)。

不幸的是,Qwen3團(tuán)隊(duì)沒(méi)有透露他們?yōu)楹畏艞壒蚕韺<业脑颉H绻也坏貌徊聹y(cè),也許在他們將專家數(shù)量從2個(gè)(在Qwen2.5-MoE中)增加到8個(gè)(在Qwen3中)時(shí),對(duì)于他們的設(shè)置來(lái)說(shuō),共享專家對(duì)于訓(xùn)練穩(wěn)定性來(lái)說(shuō)并非必需。然后他們能夠通過(guò)只使用8個(gè)而不是8+1個(gè)專家來(lái)節(jié)省額外的計(jì)算/內(nèi)存成本。(然而,這并不能解釋為什么DeepSeek-V3仍然保留了他們的共享專家。)

更新:Qwen3的開(kāi)發(fā)者之一Junyang Lin回應(yīng)如下:

當(dāng)時(shí)我們沒(méi)有發(fā)現(xiàn)共享專家有足夠顯著的改進(jìn),并且我們擔(dān)心共享專家可能導(dǎo)致的推理優(yōu)化問(wèn)題。老實(shí)說(shuō),這個(gè)問(wèn)題沒(méi)有直接的答案。

7. SmolLM3

SmolLM3可能不像本文中介紹的其他LLM那樣受歡迎,但我認(rèn)為它仍然是一個(gè)有趣的模型,因?yàn)樗谙鄬?duì)較小且方便的3B參數(shù)模型尺寸下提供了非常好的建模性能,介于1.7B和4B的Qwen3模型之間,如下圖所示。

圖片圖片

圖20:SmolLM3發(fā)布帖(https://huggingface.co/blog/smollm3)中的標(biāo)注圖,對(duì)比了SmolLM3與Qwen3 1.7B、4B以及Llama 3 3B和Gemma 3 4B的勝率

此外,它還分享了許多訓(xùn)練細(xì)節(jié),類似于OLMo,這很罕見(jiàn),也總是值得贊賞!

如下圖所示的架構(gòu)對(duì)比圖,SmolLM3架構(gòu)看起來(lái)相當(dāng)標(biāo)準(zhǔn)。然而,最有趣的方面可能是它使用了無(wú)位置嵌入(No Positional Embeddings, NoPE)。

圖19:DeepSeek-V3與Qwen3 235B-A22B的架構(gòu)對(duì)比圖19:DeepSeek-V3與Qwen3 235B-A22B的架構(gòu)對(duì)比

7.1 無(wú)位置嵌入(NoPE)

在LLM語(yǔ)境中,NoPE是一個(gè)較舊的概念,可以追溯到2023年的一篇論文(《The Impact of Positional Encoding on Length Generalization in Transformers》),旨在移除顯式的位置信息注入(例如通過(guò)早期GPT架構(gòu)中的經(jīng)典絕對(duì)位置嵌入層或現(xiàn)今的RoPE)。

在基于Transformer的LLM中,位置編碼通常是必需的,因?yàn)樽宰⒁饬C(jī)制獨(dú)立于順序處理Token。絕對(duì)位置嵌入通過(guò)添加一個(gè)額外的嵌入層來(lái)解決這個(gè)問(wèn)題,該層向Token嵌入添加信息。

圖22:絕對(duì)位置嵌入圖22:絕對(duì)位置嵌入

另一方面,RoPE通過(guò)旋轉(zhuǎn)查詢和鍵向量相對(duì)于其Token位置來(lái)解決這個(gè)問(wèn)題。

然而,在NoPE層中,根本沒(méi)有添加任何此類位置信號(hào):不固定、不學(xué)習(xí)、不相對(duì)。什么都沒(méi)有。

即使沒(méi)有位置嵌入,模型仍然知道哪些Token在前,這得益于因果注意力掩碼(causal attention mask)。此掩碼阻止每個(gè)Token關(guān)注未來(lái)的Token。因此,位置t的Token只能看到位置$\le$t的Token,這保留了自回歸順序。

因此,雖然沒(méi)有顯式添加位置信息,但模型的結(jié)構(gòu)中仍然隱含著方向感,并且LLM在常規(guī)的基于梯度下降的訓(xùn)練中,如果發(fā)現(xiàn)它對(duì)優(yōu)化目標(biāo)有益,則可以學(xué)習(xí)利用它。(有關(guān)更多信息,請(qǐng)查看NoPE論文的定理。)

因此,總的來(lái)說(shuō),NoPE論文不僅發(fā)現(xiàn)不需要位置信息注入,而且還發(fā)現(xiàn)NoPE具有更好的長(zhǎng)度泛化能力,這意味著LLM回答性能隨序列長(zhǎng)度增加而下降的程度更小,如下圖所示。

圖23:NoPE論文(https://arxiv.org/abs/2305.19466)中的標(biāo)注圖,圖片

圖23:NoPE論文(https://arxiv.org/abs/2305.19466)中的標(biāo)注圖,顯示NoPE具有更好的長(zhǎng)度泛化能力

請(qǐng)注意,上面所示的實(shí)驗(yàn)是在一個(gè)相對(duì)較小的GPT風(fēng)格模型上進(jìn)行的,大約有0.1B參數(shù),上下文大小也相對(duì)較小。這些發(fā)現(xiàn)如何推廣到更大、更現(xiàn)代的LLM尚不清楚。

因此,SmolLM3團(tuán)隊(duì)可能只在每第四層“應(yīng)用”了NoPE(或者說(shuō)省略了RoPE)。

8. Kimi 2

Kimi 2最近在AI社區(qū)引起了巨大轟動(dòng),因?yàn)樗且粋€(gè)開(kāi)源模型,性能令人難以置信。根據(jù)基準(zhǔn)測(cè)試,它與Google的Gemini、Anthropic的Claude和OpenAI的ChatGPT等最優(yōu)秀的專有模型不相上下。

一個(gè)值得注意的方面是它使用了相對(duì)較新的Muon優(yōu)化器的一種變體,而非AdamW。據(jù)我所知,這是Muon首次用于如此規(guī)模的生產(chǎn)模型(此前,它只被證明可以擴(kuò)展到16B)。這帶來(lái)了非常好的訓(xùn)練損失曲線,這可能有助于將該模型推向上述基準(zhǔn)測(cè)試的頂端。

雖然人們?cè)u(píng)論說(shuō)損失異常平滑(因?yàn)闆](méi)有尖峰),但我認(rèn)為它并非異常平滑(例如,參見(jiàn)下圖中OLMo 2的損失曲線;此外,梯度的L2范數(shù)可能是一個(gè)更好的衡量訓(xùn)練穩(wěn)定性的指標(biāo))。然而,值得注意的是損失曲線的衰減程度。

然而,如本文引言所述,訓(xùn)練方法論是另一個(gè)話題。

圖片圖片

圖24:Kimi K2發(fā)布博客文章(https://moonshotai.github.io/Kimi-K2/)和OLMo 2論文(https://arxiv.org/abs/2305.19466)中的標(biāo)注圖

該模型本身?yè)碛?T參數(shù),這確實(shí)令人印象深刻。

截至本文撰寫之時(shí),它可能是這一代最大的LLM(考慮到Llama 4 Behemoth尚未發(fā)布、專有LLM不計(jì)入在內(nèi),以及Google的1.6T Switch Transformer是不同代次的編碼器-解碼器架構(gòu))。

Kimi 2也回歸了本源,它使用了我們?cè)诒疚拈_(kāi)頭介紹的DeepSeek-V3架構(gòu),只是將其規(guī)模擴(kuò)大了,如下圖所示。

圖25:DeepSeek V3與Kimi K2的架構(gòu)對(duì)比圖25:DeepSeek V3與Kimi K2的架構(gòu)對(duì)比

如上圖所示,Kimi 2.5與DeepSeek V3基本相同,只是在MoE模塊中使用了更多專家,在多頭潛注意力(Multi-head Latent Attention, MLA)模塊中使用了更少的注意力頭。

Kimi 2并非橫空出世。早期的Kimi 1.5模型在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》論文中討論過(guò),也同樣令人印象深刻。然而,它不幸地與DeepSeek R1模型論文在同一天(1月22日)發(fā)布。此外,據(jù)我所知,Kimi 1.5的權(quán)重從未公開(kāi)共享。

因此,Kimi K2團(tuán)隊(duì)很可能吸取了這些教訓(xùn),并在DeepSeek R2發(fā)布之前,將Kimi K2作為開(kāi)源模型共享。截至本文撰寫之時(shí),Kimi K2是最令人印象深刻的開(kāi)源模型。

這么多年過(guò)去了,LLM的發(fā)布仍然令人興奮,我很好奇接下來(lái)會(huì)發(fā)生什么!

參考資料:Raschka, S. (2025, July 19). The big LLM architecture comparison. AI Magazine. Retrieved from https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

責(zé)任編輯:武曉燕 來(lái)源: Andy730
相關(guān)推薦

2025-07-29 07:46:00

2025-08-08 09:23:00

2025-02-19 10:49:30

2025-02-12 08:30:18

2009-07-16 14:09:24

Flex3到Flex4

2025-07-17 08:14:22

2025-03-26 10:38:40

2025-03-28 04:30:00

2025-01-03 09:27:14

2025-07-16 09:29:39

2010-03-18 10:29:11

Hyper-V

2010-09-10 16:19:59

Squid 3.0Squid 2.7

2022-06-15 15:18:50

深度學(xué)習(xí)圖像分割

2025-05-21 14:01:22

AIDeepSeek-V硬件

2025-01-03 19:38:33

2025-04-02 02:17:00

2025-07-22 11:38:38

2025-02-10 09:42:14

2009-06-22 17:20:33

J2EE框架

2025-11-10 16:57:11

Kimi k2ClaudeGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

91麻豆精品国产91| 亚洲国产精品成人综合色在线婷婷 | 久久九九热re6这里有精品| 欧美日韩在线另类| 中文字幕中文字幕99| 国产小视频一区| 日本不卡在线视频| 欧美黄色片免费观看| 中文字幕成人动漫| 欧美视频三区| 在线免费观看日韩欧美| 欧美高清中文字幕| 欧美成人hd| 久久婷婷综合激情| av成人在线电影| 艳妇乳肉豪妇荡乳av无码福利| 国语自产精品视频在线看8查询8| 伊人亚洲福利一区二区三区| 这里只有精品在线观看视频| 欧美日韩免费电影| 色婷婷综合久久久久中文一区二区 | 国内在线观看一区二区三区| 一区二区三区黄色| 中文字幕一区三区久久女搜查官| 久久伊人成人网| 日本三级2019| 久久99青青| 精品国产亚洲在线| 色综合五月婷婷| 成人mm视频在线观看| 精品久久久久久国产91| 韩国无码av片在线观看网站| 日本在线免费看| 国产亚洲女人久久久久毛片| 久久精品五月婷婷| 黄色片一区二区| 国产精品一区二区你懂的| 国产在线不卡精品| 中文字幕日韩三级| 日日夜夜精品免费视频| 欧美亚洲国产日本| 日产欧产va高清| 激情久久一区| 亚洲3p在线观看| 国产亚洲欧美久久久久| 亚洲国产日韩欧美在线| 日韩一区视频在线| 国产白丝一区二区三区| 日韩1区2区| 一区二区三区精品99久久| 国产aⅴ激情无码久久久无码| 久久九九热re6这里有精品| 欧美精品一区二区在线观看| 手机免费看av片| 精品国产午夜肉伦伦影院| 日韩一区二区精品| 国产成人精品一区二区三区在线观看| 久久av偷拍| 日韩三级电影网址| 日本道中文字幕| 精品国产导航| 亚洲欧美综合图区| 东方伊人免费在线观看| 日本久久精品| 久久韩剧网电视剧| 精品国产欧美日韩不卡在线观看| 在线观看免费一区二区| 欧美激情视频在线| 青青草成人av| 日日嗨av一区二区三区四区| 国产精品你懂得| 国产伦理一区二区| 岛国精品在线播放| 久久精品日产第一区二区三区精品版| 久草在现在线| 亚洲天堂成人网| 久久久久99精品成人片| 超碰aⅴ人人做人人爽欧美| 欧美三级乱人伦电影| 天堂在线中文在线| 卡通动漫精品一区二区三区| 亚洲男女自偷自拍图片另类| 纪美影视在线观看电视版使用方法| 视频在线不卡免费观看| 欧美国产极速在线| www.久久精品视频| 久久国内精品自在自线400部| 亚洲在线www| 日韩在线免费播放| 亚洲欧洲韩国日本视频| 日韩a∨精品日韩在线观看| 日本美女一区| 欧美一级高清大全免费观看| 中文在线永久免费观看| 99久久久久国产精品| 久久免费国产视频| 中日韩av在线| 成人动漫精品一区二区| 亚洲精美视频| 理论不卡电影大全神| 欧美日韩精品免费| 中文字幕免费在线播放| 久久久精品久久久久久96| 97国产成人精品视频| 国产精品系列视频| 91麻豆精品在线观看| 日韩最新中文字幕| 希岛爱理一区二区三区av高清| 日韩欧美中文一区二区| 在线观看国产精品一区| 在线日韩电影| 成人免费午夜电影| 黄色av免费在线观看| 亚洲综合在线免费观看| 欧美日韩中文不卡| 美女精品一区最新中文字幕一区二区三区 | 天堂在线资源网| 成人欧美一区二区三区视频网页| 黄色片久久久久| 一区二区三区在线资源| 日韩在线中文字| 黄色在线免费观看| www.av亚洲| 男人天堂新网址| 亚洲最大的免费视频网站| 亚洲欧美日韩一区在线| 日本中文字幕免费| 成人午夜在线播放| 欧美日韩午夜爽爽| 精品视频一区二区三区| 少妇高潮 亚洲精品| 91麻豆精品在线| 久久综合99re88久久爱| 91专区在线观看| 911亚洲精品| 久久久久久久国产| 精品欧美一区二区精品少妇| 亚洲欧美日韩久久精品| 午夜免费看视频| 成人免费在线观看av| 日韩免费在线看| 青青草超碰在线| 欧美视频13p| 欧美图片一区二区| 亚洲中午字幕| 欧美大陆一区二区| 欧美aa视频| 亚洲人成电影在线观看天堂色| 91美女免费看| 久久久国产精华| 999在线免费视频| japanese国产精品| 国产日韩精品一区二区| 丝袜美腿美女被狂躁在线观看| 欧美日韩国产高清一区二区| 亚洲人与黑人屁股眼交| 国产综合久久久久影院| 狠狠干视频网站| 99久久香蕉| 538国产精品一区二区在线| 手机看片福利在线观看| 91九色02白丝porn| 国产sm调教视频| 久久99精品国产麻豆不卡| 91免费网站视频| 136导航精品福利| 91国自产精品中文字幕亚洲| 美女毛片在线看| 欧美日韩中文另类| 真实国产乱子伦对白在线| 国产91富婆露脸刺激对白| 少妇人妻在线视频| 九九久久成人| 成人免费福利在线| 高清电影在线免费观看| 亚洲美女福利视频网站| 91精品国产乱码久久| 亚洲精品欧美激情| 国产又粗又长又爽| 麻豆视频一区二区| www.18av.com| 免费看成人吃奶视频在线| 国产日本欧美一区二区三区| 久久中文字幕无码| 欧美日韩伦理在线免费| 国产在线999| 精品极品在线| 日韩中文字幕在线视频| 免费av一级片| 欧美三级在线看| 久久午夜无码鲁丝片| 久久精品欧美一区二区三区不卡| 99日在线视频| 在线综合欧美| 国产av不卡一区二区| 久久影视三级福利片| 91精品久久久久久久久久久久久久| 久草在线视频网站| 这里只有精品在线观看| 性色av蜜臀av| 欧美在线制服丝袜| 国产对白videos麻豆高潮| 国产精品婷婷午夜在线观看| 艳妇乳肉豪妇荡乳xxx| 毛片av中文字幕一区二区| 国产v片免费观看| 99久久视频| 婷婷久久伊人| 人妖一区二区三区| 91人人爽人人爽人人精88v| 巨茎人妖videos另类| 久久久久久综合网天天| 蜜桃视频网站在线| 一夜七次郎国产精品亚洲| 免费观看黄色av| 7777女厕盗摄久久久| 高潮毛片又色又爽免费| 亚洲成人免费影院| 日本一级二级视频| 国产精品女同一区二区三区| 风间由美一二三区av片| 懂色av一区二区在线播放| 91亚洲免费视频| 久久一区二区三区四区五区| 人人妻人人添人人爽欧美一区| 欧美黄色免费| 香蕉精品视频在线| 日韩成人三级| 日韩高清av电影| 中文有码一区| 蜜桃成人在线| 牛牛视频精品一区二区不卡| 国产精品免费一区二区三区在线观看| 亚洲一区二区小说| 国产精品永久免费视频| 视频二区不卡| 国产精品69av| 欧美free嫩15| 国产成人综合一区二区三区| 台湾佬成人网| 国产精品aaa| 色成人免费网站| 国产精品久久色| 色综合天天色| 国产美女精品视频免费观看| 国产成+人+综合+亚洲欧美| 国产精品福利网站| 外国电影一区二区| 国产精品视频自拍| 电影一区电影二区| 国产三级精品网站| 亚洲人体在线| 亚洲最大的网站| 亚洲精品国产九九九| 国产精品区一区| 风间由美一区二区av101| 精品国产福利| 免费看成人哺乳视频网站| 偷拍视频一区二区| 午夜影院欧美| 老子影院午夜伦不卡大全| 亚洲免费黄色| 五月婷婷之综合激情| 精品一区二区三区日韩| 91亚洲一线产区二线产区| 97se亚洲国产综合自在线不卡 | 欧美激情国产精品| 国产不卡人人| 国产精品爱久久久久久久| 日韩三级一区| 成人性色av| 在线看成人短视频| 中文字幕日韩一区二区三区不卡| 欧美激情综合色综合啪啪| 无码专区aaaaaa免费视频| 久久综合狠狠| 中文字幕第三区| 99久久综合狠狠综合久久| 欧洲美一区二区三区亚洲| 亚洲天堂免费看| 久久久国产精品成人免费| 欧美日韩中文一区| 熟妇人妻av无码一区二区三区| 亚洲色图偷窥自拍| 最爽无遮挡行房视频在线| 2019精品视频| 天堂久久一区| 精品国产免费一区二区三区 | 欧美激情国产精品日韩| 久久精品72免费观看| 少妇一级淫免费观看| 国产精品国产三级国产有无不卡| 久久免费在线观看视频| 欧美在线高清视频| 国产77777| 日韩在线观看视频免费| av影片在线| 国产日韩综合一区二区性色av| 国产精品久久久网站| 亚洲一区二区三区色| 亚洲福利精品| 成人av毛片在线观看| 26uuu国产在线精品一区二区| 国产精品 欧美激情| 欧美亚洲高清一区| 狠狠躁日日躁夜夜躁av| xxx成人少妇69| 日韩电影av| 国产精品一区二区三区在线观| 国产精品久久久久久| 亚洲成熟丰满熟妇高潮xxxxx| 国产精品一级二级三级| 国产精品www爽爽爽| 粉嫩老牛aⅴ一区二区三区| 午夜精品久久久久久久91蜜桃| 少妇高潮久久久久久潘金莲| 日韩激情电影免费看| 操人视频欧美| 91成人网在线观看| 国产wwwxx| 国产亚洲短视频| 中文字幕国产在线观看| 亚洲国产精品va在线观看黑人| 国产最新在线| 国产欧美一区二区三区久久人妖 | 亚洲精品中字| 玖玖精品视频| 国产全是老熟女太爽了| 欧美日韩精品在线观看| 国产精品特级毛片一区二区三区| 亚洲图片在区色| 美女18一级毛片一品久道久久综合| 不卡一区二区三区视频| 欧美日韩亚洲一区三区| 一级日本黄色片| 亚洲日本在线a| 99er热精品视频| 久久夜精品香蕉| 国模大尺度视频一区二区| 手机成人av在线| 国产乱子轮精品视频| 国产一二三四区| 欧美一区二区三区在线看 | 日本一区二区在线免费播放| 美女午夜精品| 成年人免费在线播放| 久久精品视频网| 日本免费观看视| 日韩久久免费电影| 人人草在线视频| 任我爽在线视频精品一| 免费在线看一区| 亚洲人做受高潮| 日韩视频在线你懂得| 国产白丝在线观看| 精品乱子伦一区二区三区| 亚洲免费中文| 欧美人与性囗牲恔配| 欧美日韩aaaaaa| 在线观看av免费| 国模精品娜娜一二三区| 亚洲综合社区| 欧美日韩中文字幕视频| 欧美高清dvd| 日本不卡影院| 六十路精品视频| 日韩av午夜在线观看| 永久免费看片视频教学| 亚洲精品一区二区三区影院| 在线免费三级电影网站| 亚洲成人a**址| 国产一区二区不卡老阿姨| 日本一区二区不卡在线| 国产亚洲美女精品久久久| 亚洲国产精选| 热99这里只有精品| 亚洲国产成人一区二区三区| 精品人妻少妇嫩草av无码专区| 97视频在线观看免费| 日韩精品1区| 亚洲少妇中文字幕| 色综合久久久久综合| 国产色在线观看| 久久亚裔精品欧美| 国内一区二区在线| 可以免费在线观看的av| 日韩小视频在线| 免费看久久久| 日本三级黄色网址| 性做久久久久久久久| 在线观看精品一区二区三区| 国产91亚洲精品一区二区三区| 日韩黄色一级片| 日韩激情一区二区三区| 亚洲性av网站| 高清精品视频| 岛国毛片在线播放| 日韩欧美黄色动漫| 牛牛在线精品视频| 亚洲一区二区三区精品在线观看 |