從DeepSeek-V3到Kimi K2:八種現代 LLM 架構大比較
自最初的 GPT 架構開發以來,已經過去了七年。乍一看,回顧 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人們可能會驚訝于這些模型在結構上仍然如此相似。
當然,位置嵌入已經從絕對嵌入演進到旋轉嵌入(RoPE),多頭注意力機制已基本被分組查詢注意力機制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函數。但在這些細微的改進背后,我們是否真正看到了突破性的變化,還是僅僅在打磨相同的架構基礎?
LLM架構子集:DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2
圖片
一、DeepSeek V3/R1
DeepSeek V3 中引入的兩種關鍵架構技術,這些技術提高了其計算效率,并使其有別于許多其他 LLM:多頭潛在注意力(MLA)、混合專家(MoE):
1.1 多頭潛在注意力(MLA)
MLA旨在解決傳統多頭注意力(MHA)在大規模模型中內存占用過高的問題。與分組查詢注意力(GQA)相比,MLA通過壓縮鍵和值張量來進一步減少內存使用。
MHA 與 GQA 的比較。此處,組大小為 2,其中兩個查詢共享一個鍵值對。
圖片
在MLA中,鍵和值張量在存儲到KV緩存之前會被壓縮到一個低維空間。在推理時,這些壓縮的張量會被重新投影回原始大小。這種設計雖然增加了額外的矩陣乘法操作,但顯著降低了內存占用。
MLA(用于 DeepSeek V3 和 R1)與常規 MHA 的比較。
圖片
1.2 混合專家(MoE)
MoE將傳統的前饋模塊替換為多個專家層,每個專家層也是一個前饋模塊。在推理時,一個路由器會選擇一小部分專家進行激活。例如,DeepSeek V3有256個專家,但每次推理僅激活9個專家(1個共享專家和8個由路由器選擇的專家)。
V3/R1 中的混合專家 (MoE) 模塊(右)與具有標準前饋塊的 LLM(左)的比較圖。
圖片
2. OLMo 2
2.1 歸一化層放置
OLMo 2采用后歸一化(Post-Norm)策略,與大多數LLM采用的前歸一化(Pre-Norm)不同。這種設計旨在提高訓練穩定性。
在OLMo 2中,歸一化層被放置在注意力模塊和前饋模塊之后,而不是之前。這種設計與原始Transformer架構中的Post-LN類似,但使用了RMSNorm而非LayerNorm。
Post-Norm、Pre-Norm和OLMo 2的Post-Norm變體的對比圖。
圖片
研究表明,后歸一化有助于訓練穩定性,尤其是在不使用精心設計的學習率預熱策略時。OLMo 2的訓練損失曲線表明,這種設計在訓練過程中表現更為穩定。
Pre-Norm(如GPT-2、Llama 3和許多其他模型中使用的)與OLMo 2的Post-Norm變體的訓練穩定性對比圖。
圖片
2.2 QK-Norm
QK-Norm是在多頭注意力模塊中引入的額外RMSNorm層,應用于查詢(q)和鍵(k)之前。這種設計有助于在應用RoPE之前對輸入進行歸一化,從而減少訓練過程中的數值不穩定。
圖片
OLMo 2 和 Llama 3;可以看出,除了 OLMo 2 仍然使用傳統的 MHA 而非 GQA 之外,它們的架構在其他方面相對相似。
Llama 3 和 OLMo 2 的架構比較。
圖片
3. Gemma 3
3.1 滑動窗口注意力
滑動窗口注意力旨在減少KV緩存的內存需求,同時保持模型的性能。這種設計特別適用于需要處理長序列的任務。
通過滑動窗口注意力實現的KV緩存內存節省。
圖片
滑動窗口注意力限制了每個查詢位置的上下文范圍,使其僅關注局部窗口內的內容。與傳統的全局注意力機制相比,這種設計顯著減少了KV緩存的內存占用。例如,Gemma 3將滑動窗口大小從Gemma 2的4096減少到1024,并調整了全局與局部注意力的比例。
常規注意力(左)和滑動窗口注意力(右)的對比圖。
圖片
研究表明,滑動窗口注意力對模型的建模性能影響極小,但在內存使用上帶來了顯著的優化。這種設計使得Gemma 3在處理長序列時更加高效。
常規注意力(左)和滑動窗口注意力(右)的對比圖。
圖片
3.2 歸一化層放置
Gemma 3在注意力模塊和前饋模塊前后都放置了RMSNorm層。這種設計結合了前歸一化和后歸一化的優點,既保持了訓練穩定性,又提高了推理效率。
OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。
圖片
4. Mistral Small 3.1
Mistral Small 3.1通過自定義分詞器、縮小KV緩存和減少層數來優化模型。此外,它放棄了滑動窗口注意力,轉而使用更高效的FlashAttention技術。
這些優化使得Mistral Small 3.1在推理延遲上優于Gemma 3,同時保持了較高的性能。這種設計特別適合需要快速推理的應用場景。
OLMo 2和Gemma 3的架構對比圖;注意Gemma 3中額外的歸一化層。
圖片
5. Llama 4
Llama 4采用了與DeepSeek V3類似的架構,但在某些細節上進行了優化,以提高模型的性能和效率。
深度求索V3(6710億參數)和Llama 4 Maverick(4000億參數)的架構對比圖。
圖片
Llama 4使用了分組查詢注意力(GQA)而非多頭潛在注意力(MLA),并且在MoE模塊中使用了更少但更大的專家。此外,Llama 4在每個Transformer塊中交替使用MoE模塊和密集模塊。
6. Qwen3
6.1 密集模型
Qwen3 0.6B和Llama 3 1B的架構對比圖
圖片
Qwen3的密集模型采用了較深的架構(更多Transformer塊),具有更多的層,而 Llama 3 是一種更寬的架構,具有更多的注意力頭。Qwen3 的內存占用較小,但生成速度較慢。
6.2 MoE模型
DeepSeek-V3 和 Qwen3 235B-A22B 的架構比較。
圖片
Qwen3的MoE模型采用了與DeepSeek V3類似的架構,但在某些細節上有所不同,例如不使用共享專家。這種設計使得模型在訓練時能夠學習更多知識,而在推理時保持高效。
7. SmolLM3
SmolLM3 架構看起來相當標準。不過,最有趣的一點或許是它使用了 NoPE(無位置嵌入)。
Qwen3 4B 和 SmolLM3 3B 的架構比較。
圖片
7.1 無位置嵌入(NoPE)
NoPE不使用任何位置嵌入(絕對位置嵌入或旋轉位置嵌入),而是依賴因果注意力掩碼來保持序列的自回歸順序。這種設計使得模型在訓練過程中能夠學習到隱式的位置信息。
絕對位置嵌入示例
圖片
研究表明,NoPE在長度泛化方面表現更好,即在處理更長序列時性能下降較少。這種設計使得SmolLM3在處理長序列任務時表現優異。
圖片
8. Kimi 2
Kimi 2采用了DeepSeek V3的架構,并進行了擴展。它使用了Muon優化器而非AdamW,這可能是其訓練損失曲線表現優異的原因之一。此外,Kimi 2在MoE模塊中使用了更多的專家,在MLA模塊中使用了更少的頭。
DeepSeek V3 和 Kimi K2 的架構比較。
圖片
這些設計使得Kimi 2在訓練過程中表現優異,訓練損失曲線平滑且下降迅速。這可能有助于該模型躍居上述基準測試的榜首





































