從 DeepSeek R1 到 Kimi K2 八種大模型架構(gòu)設(shè)計(jì)剖析 原創(chuàng)
從最早的 GPT 到現(xiàn)在,已經(jīng)過(guò)去7年了。回頭看看 GPT-2(2019年),再看看最新的 DeepSeek-V3 和 Llama 4(2024-2025年),你可能會(huì)驚訝:這些大模型在結(jié)構(gòu)上居然還是那么像!
當(dāng)然,細(xì)節(jié)上還是有不少改進(jìn)的,比如:位置編碼從固定的變成了旋轉(zhuǎn)的(RoPE),注意力機(jī)制從多頭注意力(Multi-Head Attention)換成了更省算力的分組查詢注意力(Grouped-Query Attention),激活函數(shù)也從 GELU 換成了更高效的 SwiGLU。但說(shuō)到底,這些只是小修小補(bǔ),底層架構(gòu)還是原來(lái)那一套。
那么問(wèn)題來(lái)了:這些大模型到底變沒(méi)變?還是說(shuō),我們只是在給老架構(gòu)“拋光打蠟”?
其實(shí),要比較這些大模型,搞清楚它們?yōu)槭裁幢憩F(xiàn)好(或者不好)特別難,因?yàn)橛?xùn)練數(shù)據(jù)、訓(xùn)練方法和超參數(shù)都不一樣,而且很多細(xì)節(jié)都沒(méi)公開(kāi)。
不過(guò),我覺(jué)得還是有必要專(zhuān)門(mén)聊聊架構(gòu)本身的變化,看看2025年的開(kāi)發(fā)者們到底在折騰啥。(下圖是本文要講的幾個(gè)代表性模型)

所以,這篇文章不聊跑分,也不聊訓(xùn)練技巧,就專(zhuān)門(mén)講講現(xiàn)在主流開(kāi)源大模型在架構(gòu)上的新花樣。
下文我們對(duì)主流的8個(gè)開(kāi)源大模型(DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral 3.1、Llama 4、Qwen 3、SmolLM3、Kimi K2)架構(gòu)設(shè)計(jì)詳細(xì)剖析之。
一、8種大模型技術(shù)架構(gòu)剖析
1、DeepSeek V3/R1 大模型架構(gòu)設(shè)計(jì)
DeepSeek V3/R1 通過(guò)兩項(xiàng)關(guān)鍵架構(gòu)設(shè)計(jì)技術(shù)優(yōu)化了計(jì)算效率,使其在眾多大語(yǔ)言模型中脫穎而出:多頭潛在注意力(MLA) 和 混合專(zhuān)家(MoE)。
1.1 多頭潛在注意力(MLA)
MLA 的核心目標(biāo)是解決傳統(tǒng)多頭注意力(MHA)在大規(guī)模模型中內(nèi)存占用過(guò)高的問(wèn)題。與分組查詢注意力(GQA)相比,MLA 通過(guò)進(jìn)一步壓縮鍵(Key)和值(Value)張量,顯著降低了內(nèi)存使用量。

- MHA 與 GQA 的對(duì)比在 GQA 中,多個(gè)查詢(Query)可以共享一組鍵值對(duì),從而減少冗余。例如,當(dāng)組大小為 2 時(shí),兩個(gè)查詢共享一個(gè)鍵值對(duì),這已經(jīng)是一個(gè)顯著的改進(jìn)。然而,MLA 更進(jìn)一步,通過(guò)壓縮技術(shù)進(jìn)一步優(yōu)化內(nèi)存占用。
- MLA 的工作原理在 MLA 中,鍵和值張量在存儲(chǔ)到 KV 緩存之前會(huì)被壓縮到一個(gè)低維空間。在推理階段,這些壓縮的張量會(huì)被重新投影回原始大小。雖然這一過(guò)程增加了額外的矩陣乘法操作,但顯著降低了內(nèi)存占用,從而在推理時(shí)能夠處理更長(zhǎng)的上下文。
- MLA 與 MHA 的對(duì)比MLA 通過(guò)壓縮技術(shù),顯著減少了 KV 緩存的內(nèi)存占用,同時(shí)保持了高效的推理能力。

1.2 混合專(zhuān)家(MoE)
MoE 將傳統(tǒng)的前饋模塊替換為多個(gè)專(zhuān)家層,每個(gè)專(zhuān)家層本身也是一個(gè)前饋模塊。在推理階段,一個(gè)路由器會(huì)選擇一小部分專(zhuān)家進(jìn)行激活,從而實(shí)現(xiàn)計(jì)算資源的高效利用。

- MoE 的工作原理以 DeepSeek V3 為例,模型中包含 256 個(gè)專(zhuān)家層,但每次推理時(shí),僅激活 9 個(gè)專(zhuān)家(1 個(gè)共享專(zhuān)家和 8 個(gè)由路由器選擇的專(zhuān)家)。這種設(shè)計(jì)使得模型在推理時(shí)只需激活一小部分專(zhuān)家,從而顯著降低了計(jì)算量。
- MoE 與傳統(tǒng)前饋模塊的對(duì)比傳統(tǒng)的前饋模塊在每次推理時(shí)都會(huì)激活所有神經(jīng)元,而 MoE 通過(guò)選擇性激活專(zhuān)家,顯著降低了計(jì)算量,同時(shí)保留了模型的高容量和多樣性。
通過(guò) MLA 和 MoE,DeepSeek V3/R1 在保持高性能的同時(shí),顯著優(yōu)化了內(nèi)存和計(jì)算資源的使用,使其在大規(guī)模應(yīng)用中更具優(yōu)勢(shì)。
2、OLMo 2 大模型架構(gòu)設(shè)計(jì)
2.1 歸一化層放置:后歸一化(Post-Norm)的妙用
OLMo 2 采用了后歸一化(Post-Norm)策略,這與大多數(shù)大語(yǔ)言模型(LLM)常用的前歸一化(Pre-Norm)截然不同。這種架構(gòu)設(shè)計(jì)的核心目的是提升訓(xùn)練過(guò)程的穩(wěn)定性。
- 后歸一化與前歸一化的對(duì)比在 OLMo 2 中,歸一化層被放置在注意力模塊和前饋模塊的后面,而不是像傳統(tǒng)方法那樣放在前面。這種設(shè)計(jì)與最初的 Transformer 架構(gòu)中的 Post-LN(后歸一化)類(lèi)似,但它使用了RMSNorm而不是常見(jiàn)的LayerNorm。
- 穩(wěn)定性提升研究表明,后歸一化在訓(xùn)練時(shí)更加穩(wěn)定,尤其是在沒(méi)有精心設(shè)計(jì)的學(xué)習(xí)率預(yù)熱策略的情況下。OLMo 2 的訓(xùn)練損失曲線顯示,這種設(shè)計(jì)在訓(xùn)練過(guò)程中表現(xiàn)得更為平穩(wěn)。
- 對(duì)比圖示下圖展示了 Pre-Norm(如 GPT-2、Llama 3 等模型中使用)與 OLMo 2 的 Post-Norm 變體在訓(xùn)練穩(wěn)定性上的對(duì)比。


2.2 QK-Norm:多頭注意力模塊中的額外歸一化
QK-Norm 是 OLMo 2 在多頭注意力模塊中引入的一個(gè)額外的 RMSNorm 層,它被應(yīng)用于查詢(q)和鍵(k)之前。這種設(shè)計(jì)的主要作用是在應(yīng)用 RoPE(旋轉(zhuǎn)位置編碼)之前對(duì)輸入進(jìn)行歸一化,從而減少訓(xùn)練過(guò)程中的數(shù)值不穩(wěn)定。

- 架構(gòu)對(duì)比與 Llama 3 相比,OLMo 2 的架構(gòu)在某些方面相對(duì)相似,但有一個(gè)關(guān)鍵區(qū)別:OLMo 2 仍然使用傳統(tǒng)的多頭注意力(MHA),而不是 GQA(分組查詢注意力)。
- 對(duì)比圖示下圖展示了 Llama 3 和 OLMo 2 的架構(gòu)對(duì)比。

通過(guò)這些優(yōu)化,OLMo 2 在訓(xùn)練穩(wěn)定性和數(shù)值穩(wěn)定性方面表現(xiàn)出色,為大語(yǔ)言模型的開(kāi)發(fā)提供了新的思路和方向。
3、Gemma 3 大模型架構(gòu)設(shè)計(jì)
3.1 滑動(dòng)窗口注意力:內(nèi)存優(yōu)化與性能平衡
Gemma 3 采用了滑動(dòng)窗口注意力機(jī)制,旨在減少 KV 緩存的內(nèi)存需求,同時(shí)保持模型的性能。這種設(shè)計(jì)特別適合處理長(zhǎng)序列的任務(wù),例如長(zhǎng)文本生成或長(zhǎng)文檔理解。
- 內(nèi)存優(yōu)化滑動(dòng)窗口注意力通過(guò)限制每個(gè)查詢位置的上下文范圍,使其僅關(guān)注局部窗口內(nèi)的內(nèi)容,從而顯著減少了 KV 緩存的內(nèi)存占用。例如,Gemma 3 將滑動(dòng)窗口大小從 Gemma 2 的 4096 減少到 1024,并調(diào)整了全局與局部注意力的比例。
- 性能對(duì)比與傳統(tǒng)的全局注意力機(jī)制相比,滑動(dòng)窗口注意力在內(nèi)存使用上帶來(lái)了顯著的優(yōu)化,同時(shí)對(duì)模型的建模性能影響極小。這種設(shè)計(jì)使得 Gemma 3 在處理長(zhǎng)序列時(shí)更加高效。
- 對(duì)比圖示下圖展示了常規(guī)注意力(左)和滑動(dòng)窗口注意力(右)的對(duì)比。


3.2 歸一化層放置:結(jié)合前歸一化與后歸一化的優(yōu)點(diǎn)
Gemma 3 在注意力模塊和前饋模塊的前后都放置了 RMSNorm 層。這種設(shè)計(jì)結(jié)合了前歸一化和后歸一化的優(yōu)點(diǎn),既保持了訓(xùn)練穩(wěn)定性,又提高了推理效率。
- 歸一化層設(shè)計(jì)在 Gemma 3 中,每個(gè)注意力模塊和前饋模塊的前后都分別放置了一個(gè) RMSNorm 層。這種設(shè)計(jì)既利用了前歸一化在訓(xùn)練過(guò)程中的穩(wěn)定性,又利用了后歸一化在推理階段的高效性。
- 架構(gòu)對(duì)比下圖展示了 OLMo 2 和 Gemma 3 的架構(gòu)對(duì)比,注意 Gemma 3 中額外的歸一化層。

通過(guò)這些創(chuàng)新,Gemma 3 在處理長(zhǎng)序列任務(wù)時(shí)表現(xiàn)出了卓越的性能和高效的內(nèi)存管理能力,為大語(yǔ)言模型在實(shí)際應(yīng)用中的優(yōu)化提供了新的思路。
4、Mistral Small 3.1 大模型架構(gòu)設(shè)計(jì)
Mistral Small 3.1 通過(guò)一系列巧妙的優(yōu)化手段,使其在推理延遲上表現(xiàn)出色,同時(shí)保持了較高的性能。這些優(yōu)化措施包括:
4.1 自定義分詞器
Mistral Small 3.1 采用了自定義分詞器,能夠更高效地處理輸入文本,減少不必要的計(jì)算開(kāi)銷(xiāo)。
4.2 縮小 KV 緩存
通過(guò)優(yōu)化 KV 緩存的大小,Mistral Small 3.1 在內(nèi)存使用上更加高效,從而降低了推理時(shí)的內(nèi)存需求。
4.3 減少層數(shù)
減少模型層數(shù),直接降低了計(jì)算復(fù)雜度,使得模型在推理時(shí)更加輕量級(jí),速度更快。
4.4 FlashAttention 技術(shù)
Mistral Small 3.1 放棄了滑動(dòng)窗口注意力,轉(zhuǎn)而采用更高效的 FlashAttention 技術(shù)。FlashAttention 能夠在不犧牲性能的前提下,大幅減少推理延遲。
4.5 性能對(duì)比
這些優(yōu)化使得 Mistral Small 3.1 在推理延遲上優(yōu)于 Gemma 3,同時(shí)保持了較高的性能。這種設(shè)計(jì)特別適合需要快速推理的應(yīng)用場(chǎng)景,例如實(shí)時(shí)對(duì)話、在線推薦等。
4.6 架構(gòu)對(duì)比
下圖展示了 OLMo 2 和 Gemma 3 的架構(gòu)對(duì)比,注意 Gemma 3 中額外的歸一化層。

5、Llama 4 大模型架構(gòu)設(shè)計(jì)
5.1 架構(gòu)概覽
Llama 4 在整體架構(gòu)上與 DeepSeek V3 有相似之處,但在一些關(guān)鍵細(xì)節(jié)上進(jìn)行了優(yōu)化,從而提升了模型的性能和效率。
5.2 關(guān)鍵優(yōu)化點(diǎn)
5.2.1 分組查詢注意力(GQA)
與 DeepSeek V3 采用的多頭潛在注意力(MLA)不同,Llama 4 選擇了分組查詢注意力(GQA)。這種選擇在某些場(chǎng)景下能夠提供更優(yōu)的性能表現(xiàn),同時(shí)保持了計(jì)算效率。
5.2.2 混合專(zhuān)家(MoE)模塊的調(diào)整
在 MoE 模塊的設(shè)計(jì)上,Llama 4 采用了更少但更大的專(zhuān)家。這種設(shè)計(jì)減少了專(zhuān)家之間的競(jìng)爭(zhēng),同時(shí)提升了每個(gè)專(zhuān)家的處理能力,從而在整體上提高了模型的效率。
5.2.3 Transformer 塊的交替使用
Llama 4 在每個(gè) Transformer 塊中交替使用 MoE 模塊和密集模塊。這種交替結(jié)構(gòu)使得模型在處理不同類(lèi)型的輸入時(shí)更加靈活,同時(shí)平衡了計(jì)算資源的使用。
5.3 架構(gòu)對(duì)比
下圖展示了 DeepSeek V3(6710 億參數(shù))和 Llama 4 Maverick(4000 億參數(shù))的架構(gòu)對(duì)比。

通過(guò)這些優(yōu)化,Llama 4 在保持與 DeepSeek V3 類(lèi)似架構(gòu)的基礎(chǔ)上,進(jìn)一步提升了性能和效率,使其在多種應(yīng)用場(chǎng)景中表現(xiàn)出色。
6、Qwen 3 大模型架構(gòu)設(shè)計(jì)
6.1 密集模型:深度架構(gòu)的探索
Qwen3 的密集模型在架構(gòu)設(shè)計(jì)上選擇了“深度優(yōu)先”的策略,與 Llama 3 的“寬度優(yōu)先”形成鮮明對(duì)比。
- 架構(gòu)對(duì)比
Qwen3 0.6B 的密集模型采用了較深的架構(gòu),擁有更多的 Transformer 塊,這意味著它有更多層次來(lái)逐步處理和理解輸入信息。相比之下,Llama 3 1B 則是一種更寬的架構(gòu),它通過(guò)增加更多的注意力頭來(lái)提升模型的并行處理能力。

- 性能特點(diǎn)Qwen3 的這種深度架構(gòu)使得其內(nèi)存占用相對(duì)較小,但生成速度較慢。這是因?yàn)楦嗟膶哟我馕吨鼜?fù)雜的計(jì)算過(guò)程,但同時(shí)也讓模型能夠更細(xì)致地處理信息,適合對(duì)生成質(zhì)量要求較高的場(chǎng)景。
6.2 MoE 模型:高效訓(xùn)練與推理
Qwen3 的 MoE 模型在架構(gòu)上借鑒了 DeepSeek V3 的設(shè)計(jì),但在一些關(guān)鍵細(xì)節(jié)上進(jìn)行了優(yōu)化。
- 架構(gòu)對(duì)比與 DeepSeek V3 類(lèi)似,Qwen3 的 MoE 模型也采用了混合專(zhuān)家(MoE)機(jī)制,將前饋模塊拆分為多個(gè)專(zhuān)家層。然而,Qwen3 的 MoE 模型不使用共享專(zhuān)家,而是讓每個(gè)輸入獨(dú)立選擇最適合的專(zhuān)家進(jìn)行處理。

- 性能特點(diǎn)這種設(shè)計(jì)使得模型在訓(xùn)練時(shí)能夠?qū)W習(xí)更多知識(shí),因?yàn)槊總€(gè)專(zhuān)家可以獨(dú)立地處理特定類(lèi)型的輸入,從而提升模型的泛化能力。而在推理時(shí),由于只激活少數(shù)專(zhuān)家,模型能夠保持高效的計(jì)算性能,適合需要快速響應(yīng)的應(yīng)用場(chǎng)景。
通過(guò)這些設(shè)計(jì),Qwen3 在密集模型和 MoE 模型上都找到了適合自身需求的架構(gòu)平衡,既提升了性能,又優(yōu)化了效率。
7、SmolLM3 大模型架構(gòu)設(shè)計(jì)
SmolLM3 的架構(gòu)設(shè)計(jì)看似常規(guī),但其最大亮點(diǎn)在于采用了獨(dú)特的 NoPE(無(wú)位置嵌入) 技術(shù)。
7.1 無(wú)位置嵌入(NoPE):拋棄傳統(tǒng),擁抱創(chuàng)新
- NoPE 的核心理念NoPE(No Position Embedding)完全摒棄了傳統(tǒng)的位置嵌入方式,無(wú)論是絕對(duì)位置嵌入還是旋轉(zhuǎn)位置嵌入(RoPE),都不再使用。相反,它依賴(lài)因果注意力掩碼(Causal Masking)來(lái)維持序列的自回歸順序。這意味著模型在訓(xùn)練過(guò)程中能夠自主學(xué)習(xí)到隱式的位置信息,而不是依賴(lài)顯式的位置編碼。
- 對(duì)比傳統(tǒng)位置嵌入傳統(tǒng)的位置嵌入(如絕對(duì)位置嵌入)會(huì)為序列中的每個(gè)位置分配一個(gè)固定的嵌入向量,幫助模型理解位置關(guān)系。然而,這種方法在處理長(zhǎng)序列時(shí)可能會(huì)遇到性能瓶頸。例如,絕對(duì)位置嵌入在處理過(guò)長(zhǎng)序列時(shí),位置信息可能會(huì)變得過(guò)于復(fù)雜,導(dǎo)致模型難以有效學(xué)習(xí)。

- NoPE 的優(yōu)勢(shì)研究表明,NoPE 在長(zhǎng)度泛化方面表現(xiàn)出色,即在處理更長(zhǎng)序列時(shí),性能下降幅度較小。這種設(shè)計(jì)使得 SmolLM3 在處理長(zhǎng)序列任務(wù)時(shí)表現(xiàn)優(yōu)異,例如長(zhǎng)文本生成、長(zhǎng)文檔理解等場(chǎng)景。
- 架構(gòu)對(duì)比下圖展示了 Qwen3 4B 和 SmolLM3 3B 的架構(gòu)對(duì)比,注意 SmolLM3 中獨(dú)特的 NoPE 設(shè)計(jì)。

通過(guò)這種創(chuàng)新設(shè)計(jì),SmolLM3 在保持架構(gòu)簡(jiǎn)潔的同時(shí),顯著提升了對(duì)長(zhǎng)序列任務(wù)的處理能力,為大語(yǔ)言模型的設(shè)計(jì)提供了新的思路。
8、Kimi K2 大模型架構(gòu)設(shè)計(jì)
8.1 架構(gòu)設(shè)計(jì)
Kimi K2 在架構(gòu)上繼承并擴(kuò)展了 DeepSeek V3 的設(shè)計(jì)。它采用了混合專(zhuān)家(MoE)架構(gòu),擁有 384 個(gè)專(zhuān)家,每層激活其中 8 個(gè),這種稀疏設(shè)計(jì)在保證性能的同時(shí)優(yōu)化了計(jì)算效率。此外,Kimi K2 在多頭潛在注意力(MLA)模塊中使用了 更少的頭(64 個(gè)),進(jìn)一步降低了推理過(guò)程中的資源消耗。
8.2 MuonClip 優(yōu)化器
Kimi K2 的一大亮點(diǎn)是采用了 MuonClip 優(yōu)化器。這種優(yōu)化器在 Muon 的基礎(chǔ)上引入了 QK-Clip 技術(shù),通過(guò)動(dòng)態(tài)裁剪注意力 logits 來(lái)防止訓(xùn)練不穩(wěn)定。具體來(lái)說(shuō),QK-Clip 在每次更新后直接對(duì)查詢(query)和鍵(key)投影的權(quán)重矩陣進(jìn)行重縮放,從而在源頭控制注意力 logits 的規(guī)模。這一改進(jìn)使得 Kimi K2 在 15.5 萬(wàn)億 token 的預(yù)訓(xùn)練過(guò)程中實(shí)現(xiàn)了零損失 spike,確保了大規(guī)模訓(xùn)練的穩(wěn)定性和連續(xù)性。
8.3 訓(xùn)練表現(xiàn)
這些設(shè)計(jì)使得 Kimi K2 在訓(xùn)練過(guò)程中表現(xiàn)優(yōu)異,訓(xùn)練損失曲線平滑且下降迅速。這種優(yōu)異的訓(xùn)練表現(xiàn)可能有助于 Kimi K2 在多個(gè)基準(zhǔn)測(cè)試中躍居榜首,其性能與谷歌的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等頂級(jí)專(zhuān)有模型不相上下。

8.4 架構(gòu)對(duì)比
下圖展示了 DeepSeek V3 和 Kimi K2 的架構(gòu)對(duì)比。可以看到,Kimi 2 在 MoE 模塊中使用了更多的專(zhuān)家,而在 MLA 模塊中使用了更少的頭,這些調(diào)整使其在處理長(zhǎng)上下文時(shí)更加高效。

通過(guò)這些創(chuàng)新設(shè)計(jì),Kimi K2 不僅在訓(xùn)練效率和穩(wěn)定性上表現(xiàn)出色,還在多個(gè)領(lǐng)域?qū)崿F(xiàn)了卓越的性能,成為開(kāi)源模型中的佼佼者。
二、8種大模型架構(gòu)設(shè)計(jì)對(duì)比總結(jié)剖
今天,我們深入探討了幾款前沿大語(yǔ)言模型(LLM)的架構(gòu)設(shè)計(jì)及其優(yōu)化策略。這些模型通過(guò)獨(dú)特的架構(gòu)創(chuàng)新,在性能、效率和穩(wěn)定性方面取得了顯著進(jìn)展。
1. DeepSeek V3/R1
- 多頭潛在注意力(MLA):通過(guò)壓縮鍵和值張量,顯著降低了內(nèi)存占用,優(yōu)化了推理效率。
- 混合專(zhuān)家(MoE):在推理時(shí)僅激活部分專(zhuān)家,大幅減少了計(jì)算量,同時(shí)保留了模型的高容量。
2. OLMo 2
- 后歸一化(Post-Norm):與傳統(tǒng)的前歸一化相比,后歸一化提升了訓(xùn)練穩(wěn)定性,尤其在沒(méi)有精心設(shè)計(jì)的學(xué)習(xí)率預(yù)熱策略時(shí)。
- QK-Norm:在多頭注意力模塊中引入額外的 RMSNorm 層,減少數(shù)值不穩(wěn)定,優(yōu)化訓(xùn)練過(guò)程。
3. Gemma 3
- 滑動(dòng)窗口注意力:通過(guò)限制每個(gè)查詢位置的上下文范圍,顯著減少了 KV 緩存的內(nèi)存占用,適合處理長(zhǎng)序列任務(wù)。
- 歸一化層放置:在注意力模塊和前饋模塊的前后都放置了 RMSNorm 層,結(jié)合了前歸一化和后歸一化的優(yōu)點(diǎn),提升了訓(xùn)練穩(wěn)定性和推理效率。
4. Mistral Small 3.1
- 自定義分詞器:優(yōu)化了輸入文本的處理,減少了計(jì)算開(kāi)銷(xiāo)。
- 縮小 KV 緩存:降低了內(nèi)存需求,提升了推理效率。
- FlashAttention 技術(shù):替代了滑動(dòng)窗口注意力,進(jìn)一步減少了推理延遲,適合快速推理場(chǎng)景。
5. Llama 4
- 分組查詢注意力(GQA):相比多頭潛在注意力(MLA),GQA 提供了更優(yōu)的性能表現(xiàn)。
- 混合專(zhuān)家(MoE)模塊調(diào)整:采用更少但更大的專(zhuān)家,減少了專(zhuān)家間的競(jìng)爭(zhēng),提升了處理能力。
- Transformer 塊交替使用:在每個(gè) Transformer 塊中交替使用 MoE 模塊和密集模塊,提升了靈活性和效率。
6. Qwen3
- 密集模型:采用較深的架構(gòu),擁有更多 Transformer 塊,適合對(duì)生成質(zhì)量要求較高的場(chǎng)景。
- MoE 模型:借鑒 DeepSeek V3 的架構(gòu),但不使用共享專(zhuān)家,提升了訓(xùn)練時(shí)的知識(shí)學(xué)習(xí)能力和推理時(shí)的效率。
7. SmolLM3
- 無(wú)位置嵌入(NoPE):完全摒棄傳統(tǒng)位置嵌入,依賴(lài)因果注意力掩碼維持序列順序,提升了長(zhǎng)度泛化能力,適合長(zhǎng)序列任務(wù)。
8. Kimi K2
- 架構(gòu)擴(kuò)展:基于 DeepSeek V3,采用更多專(zhuān)家和更少的注意力頭,優(yōu)化了計(jì)算效率。
- MuonClip 優(yōu)化器:引入 QK-Clip 技術(shù),防止訓(xùn)練不穩(wěn)定,確保了大規(guī)模訓(xùn)練的連續(xù)性。
- 訓(xùn)練表現(xiàn):訓(xùn)練損失曲線平滑且下降迅速,有助于模型在基準(zhǔn)測(cè)試中取得優(yōu)異成績(jī)。
這些大模型通過(guò)不同的架構(gòu)優(yōu)化策略,在各自的領(lǐng)域中展現(xiàn)了卓越的性能和效率。這些創(chuàng)新不僅推動(dòng)了大語(yǔ)言模型的發(fā)展,也為未來(lái)的大模型架構(gòu)設(shè)計(jì)提供了寶貴的參考。
本文轉(zhuǎn)載自???玄姐聊AGI?? 作者:玄姐

















