從DeepSeek-V3到Kimi K2：八種現代 LLM 架構大比較

2025-07-29 07:46:00

自最初的 GPT 架構開發以來，已經過去了七年。乍一看，回顧 GPT-2（2019 年），展望 DeepSeek-V3 和 Llama 4（2024-2025 年），人們可能會驚訝于這些模型在結構上仍然如此相似。

當然，位置嵌入已經從絕對嵌入演進到旋轉嵌入（RoPE），多頭注意力機制已基本被分組查詢注意力機制所取代，而更高效的 SwiGLU 也取代了 GELU 等激活函數。但在這些細微的改進背后，我們是否真正看到了突破性的變化，還是僅僅在打磨相同的架構基礎？

LLM架構子集：DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2

圖片

一、DeepSeek V3/R1

DeepSeek V3 中引入的兩種關鍵架構技術，這些技術提高了其計算效率，并使其有別于許多其他 LLM：多頭潛在注意力（MLA）、混合專家（MoE）：

1.1 多頭潛在注意力（MLA）

MLA旨在解決傳統多頭注意力（MHA）在大規模模型中內存占用過高的問題。與分組查詢注意力（GQA）相比，MLA通過壓縮鍵和值張量來進一步減少內存使用。

MHA 與 GQA 的比較。此處，組大小為 2，其中兩個查詢共享一個鍵值對。

圖片

在MLA中，鍵和值張量在存儲到KV緩存之前會被壓縮到一個低維空間。在推理時，這些壓縮的張量會被重新投影回原始大小。這種設計雖然增加了額外的矩陣乘法操作，但顯著降低了內存占用。

MLA（用于 DeepSeek V3 和 R1）與常規 MHA 的比較。

圖片

1.2 混合專家（MoE）

MoE將傳統的前饋模塊替換為多個專家層，每個專家層也是一個前饋模塊。在推理時，一個路由器會選擇一小部分專家進行激活。例如，DeepSeek V3有256個專家，但每次推理僅激活9個專家（1個共享專家和8個由路由器選擇的專家）。

V3/R1 中的混合專家 (MoE) 模塊（右）與具有標準前饋塊的 LLM（左）的比較圖。

圖片

2. OLMo 2

2.1 歸一化層放置

OLMo 2采用后歸一化（Post-Norm）策略，與大多數LLM采用的前歸一化（Pre-Norm）不同。這種設計旨在提高訓練穩定性。

在OLMo 2中，歸一化層被放置在注意力模塊和前饋模塊之后，而不是之前。這種設計與原始Transformer架構中的Post-LN類似，但使用了RMSNorm而非LayerNorm。

Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對比圖。

圖片

研究表明，后歸一化有助于訓練穩定性，尤其是在不使用精心設計的學習率預熱策略時。OLMo 2的訓練損失曲線表明，這種設計在訓練過程中表現更為穩定。

Pre-Norm（如GPT-2、Llama 3和許多其他模型中使用的）與OLMo 2的Post-Norm變體的訓練穩定性對比圖。

圖片

2.2 QK-Norm

QK-Norm是在多頭注意力模塊中引入的額外RMSNorm層，應用于查詢（q）和鍵（k）之前。這種設計有助于在應用RoPE之前對輸入進行歸一化，從而減少訓練過程中的數值不穩定。

圖片

OLMo 2 和 Llama 3；可以看出，除了 OLMo 2 仍然使用傳統的 MHA 而非 GQA 之外，它們的架構在其他方面相對相似。

Llama 3 和 OLMo 2 的架構比較。

圖片

3. Gemma 3

3.1 滑動窗口注意力

滑動窗口注意力旨在減少KV緩存的內存需求，同時保持模型的性能。這種設計特別適用于需要處理長序列的任務。

通過滑動窗口注意力實現的KV緩存內存節省。

圖片

滑動窗口注意力限制了每個查詢位置的上下文范圍，使其僅關注局部窗口內的內容。與傳統的全局注意力機制相比，這種設計顯著減少了KV緩存的內存占用。例如，Gemma 3將滑動窗口大小從Gemma 2的4096減少到1024，并調整了全局與局部注意力的比例。

常規注意力（左）和滑動窗口注意力（右）的對比圖。

圖片

研究表明，滑動窗口注意力對模型的建模性能影響極小，但在內存使用上帶來了顯著的優化。這種設計使得Gemma 3在處理長序列時更加高效。

常規注意力（左）和滑動窗口注意力（右）的對比圖。

圖片

3.2 歸一化層放置

Gemma 3在注意力模塊和前饋模塊前后都放置了RMSNorm層。這種設計結合了前歸一化和后歸一化的優點，既保持了訓練穩定性，又提高了推理效率。

OLMo 2和Gemma 3的架構對比圖；注意Gemma 3中額外的歸一化層。

圖片

4. Mistral Small 3.1

Mistral Small 3.1通過自定義分詞器、縮小KV緩存和減少層數來優化模型。此外，它放棄了滑動窗口注意力，轉而使用更高效的FlashAttention技術。

這些優化使得Mistral Small 3.1在推理延遲上優于Gemma 3，同時保持了較高的性能。這種設計特別適合需要快速推理的應用場景。

OLMo 2和Gemma 3的架構對比圖；注意Gemma 3中額外的歸一化層。

圖片

5. Llama 4

Llama 4采用了與DeepSeek V3類似的架構，但在某些細節上進行了優化，以提高模型的性能和效率。

深度求索V3（6710億參數）和Llama 4 Maverick（4000億參數）的架構對比圖。

圖片

Llama 4使用了分組查詢注意力（GQA）而非多頭潛在注意力（MLA），并且在MoE模塊中使用了更少但更大的專家。此外，Llama 4在每個Transformer塊中交替使用MoE模塊和密集模塊。

6. Qwen3

6.1 密集模型

Qwen3 0.6B和Llama 3 1B的架構對比圖

圖片

Qwen3的密集模型采用了較深的架構（更多Transformer塊），具有更多的層，而 Llama 3 是一種更寬的架構，具有更多的注意力頭。Qwen3 的內存占用較小，但生成速度較慢。

6.2 MoE模型

DeepSeek-V3 和 Qwen3 235B-A22B 的架構比較。

圖片

Qwen3的MoE模型采用了與DeepSeek V3類似的架構，但在某些細節上有所不同，例如不使用共享專家。這種設計使得模型在訓練時能夠學習更多知識，而在推理時保持高效。

7. SmolLM3

SmolLM3 架構看起來相當標準。不過，最有趣的一點或許是它使用了 NoPE（無位置嵌入）。

Qwen3 4B 和 SmolLM3 3B 的架構比較。

圖片

7.1 無位置嵌入（NoPE）

NoPE不使用任何位置嵌入（絕對位置嵌入或旋轉位置嵌入），而是依賴因果注意力掩碼來保持序列的自回歸順序。這種設計使得模型在訓練過程中能夠學習到隱式的位置信息。

絕對位置嵌入示例

圖片

研究表明，NoPE在長度泛化方面表現更好，即在處理更長序列時性能下降較少。這種設計使得SmolLM3在處理長序列任務時表現優異。

圖片

8. Kimi 2

Kimi 2采用了DeepSeek V3的架構，并進行了擴展。它使用了Muon優化器而非AdamW，這可能是其訓練損失曲線表現優異的原因之一。此外，Kimi 2在MoE模塊中使用了更多的專家，在MLA模塊中使用了更少的頭。

DeepSeek V3 和 Kimi K2 的架構比較。

圖片

這些設計使得Kimi 2在訓練過程中表現優異，訓練損失曲線平滑且下降迅速。這可能有助于該模型躍居上述基準測試的榜首

圖片

責任編輯：武曉燕來源：數據STUDIO

GPT 架構 GPT-2