Attention Sink產生的起點?清華&美團首次揭秘MoE LLM中的超級專家機制
稀疏激活的混合專家模型(MoE)通過動態路由和稀疏激活機制,極大提升了大語言模型(LLM)的學習能力,展現出顯著的潛力?;谶@一架構,涌現出了如 DeepSeek、Qwen 等先進的 MoE LLM。
然而,隨著模型參數的迅速膨脹,如何高效部署和推理成了新的挑戰。為此,學術界和工業界紛紛聚焦于模型壓縮技術,尤其是面向 MoE 模型的 “專家級壓縮”。研究者們通過剪枝、量化、合并等方法,剔除或簡化那些 “非關鍵” 專家,從而在保證性能的同時,顯著減小模型體積。
分析專家的重要性差異不僅有助于推動更高效的模型壓縮,還為深入理解 MoE LLM 的內部行為機制提供了關鍵視角。然而,現有方法多依賴經驗性準則來識別重要專家,缺乏對專家重要性深度的探討。因此,本研究聚焦于一個此前被忽視的重要問題:
MoE LLM 中是否普遍存在一類在前向推理過程中發揮關鍵重要作用的專家子集?
通過對多個主流開源 MoE LLM(包括 DeepSeek 系列、Qwen3 系列、Mixtral 等)進行深入實證分析,來自清華大學和美團的研究人員首次發現并確認了這一特殊且至關重要的專家子集的廣泛存在。盡管這些專家數量極為有限,但它們對模型性能的影響卻舉足輕重。
例如,在 Qwen3-30B-A3B 模型中,僅裁剪 3 個專家(從約 6000 個專家中)就足以顯著降低模型性能,而隨機裁剪其他專家影響較小(如 圖 1 所示)。
圖片
圖 1:對 Qwen3-30B-A3B 模型進行專家裁剪分析。裁剪三個超級專家將導致模型困惑度(PPL)顯著退化。而隨機裁剪上百個非超級專家的影響較小。
研究人員將這些專家命名為超級專家(Super Experts),并從以下三個方面進行了逐漸深入的系統分析:
1) 在不同模型和輸入數據領域中的分布規律;
2) 對非推理與推理模型能力的重要性;
3) 深入分析及理解壓縮超級專家對注意力機制的影響。
此外,作者還開發了一套自動化工具,能夠快速且精準地識別新模型中的超級專家。

- 論文鏈接:https://arxiv.org/abs/2507.23279
- 開源地址:https://github.com/ZunhaiSu/Super-Experts-Profilling
超級專家:發現及定位
研究以 Qwen 最新的混合專家大語言模型 Qwen3-30B-A3B 為例,展示了發現超級專家的過程。隨后,通過對不同模型和輸入數據領域的分析,深入探討了超級專家的分布特征,并進一步揭示了其在多個模型中的廣泛存在。
超級專家的概念源于對密集結構大型語言模型中一個現象 —— 大值激活(Massive Activations)—— 的深入研究。大值激活指的是在大模型的解碼器層之間傳遞的隱藏狀態(hidden states)中,出現極端的激活離群點,其數值遠遠超出普通激活值,可能大上萬倍。研究人員首先在多個開源 MoE LLM 中驗證了這一現象的普遍性。
然而,研究并未止步于此,而是進一步提出了以下關鍵問題:
在 MoE LLM 中,這類大值激活是如何產生的?是所有激活的專家協同作用的結果,還是由少數關鍵專家主導?
通過對模型內部數據流的細致觀察,研究得出了一個重要發現:這些大值激活現象是由極少數特定專家所誘導的。這些專家在其 down_proj 層的輸出中,會產生罕見且極端的激活離群值。
這些離群值通過殘差連接累加到下一層的輸入中,通過一次或多次放大,最終導致大值激活現象的出現。作者將這些誘導大值激活現象的專家稱為 超級專家(Super Experts)。圖 2 以 Qwen3-30B-A3B 模型為例,生動地展示了這一機制。
圖片
圖 2:第 1 層的第 68 號專家、第 2 層的第 92 號專家,以及第 3 層的第 82 號專家,共同構成了一條 “激活放大鏈”。第 1 層的超級專家首先產生初始激活峰值,該峰值在傳遞至第 2 層后,被對應層的超級專家進一步放大,并持續向后層傳播。最終在模型后續層中形成了穩定且大幅的激活值。
為了直接驗證這一機制,作者還進行了逐層超級專家裁剪的消融實驗。如 圖 3 所示,當裁剪某一層的超級專家時,該層對大值激活的影響將直接消失;當裁剪所有超級專家時,原本顯著的大值激活現象也隨之完全消失。這無可辯駁地證明了,超級專家正是模型中大值激活的直接源頭。
圖片
圖 3:Qwen3-30B-A3B 超級專家裁剪消融實驗。
在驗證了超級專家的存在后,作者接下來討論如何精準且自動地識別他們?;诔墝<矣绊懘笾导せ町a生的特性,研究提出了簡潔且有效的量化定義方法。
首先統計所有專家在各層 down_proj 輸出的最大激活幅值。設 L 為形成大值激活的層集,ale 表示第 l 層中專家 e 在 down_proj 輸出的最大激活幅值,且 A = {ale} 為模型中所有此類值的集合。
若專家 e 在第 l 層滿足以下條件,則將其分類為超級專家:

其中,
,且
。
基于該定義,作者開發了一種自動化分析工具,并對多個 MoE LLM 進行了驗證。結果表明,該工具效果顯著(如 圖 4 和 圖 5 所示)。

圖 4:對多個 MoE LLM 的超級專家識別,加粗的為超級專家的 down_proj 輸出激活幅值。
圖片
圖 5:對多個 MoE LLM 的所有專家的 down_proj 輸出激活幅值熱力圖,其中箭頭所指清晰地標注了超級專家。
基于提出的自動化校準工具,作者對多個 MoE LLM 和不同輸入數據集領域進行了超級專家的定位,得出了以下關鍵結論:
- 超級專家普遍存在且數量稀少:在所有檢查的模型中都發現了超級專家(圖 5),數量占比通常遠小于 0.05%。例如在 Qwen3-30B-A3B 中,6144 個專家中僅有 3 個超級專家。
- 超級專家分布穩定且不受后訓練影響:研究對比了多個模型的 Base 版本與后訓練版本(如 Qwen3-30B-A3B-Base 與 Qwen3-30B-A3B),發現超級專家的分布完全一致。這意味著超級專家的形成于模型預訓練階段且在后續過程持續穩定。
- 超級專家分布跨數據領域一致:研究還在多種不同類型的數據集(如中文文本 C-Eval、代碼 HumanEval、數學 GSM8K)上進行了測試,發現超級專家的分布表現出驚人的穩定性(圖 6)。
圖片
圖 6:對多個輸入數據集領域的超級專家分析。
超級專家重要性分析
在發現并定位超級專家之后,研究繼續從非推理模型和推理模型兩個維度,研究了裁剪超級專家帶來的嚴重后果,揭示了它們的極端重要性。
對非推理模型,作者選取了 Qwen3-30B-A3B(非思考模式)、DeepSeek-V2-Lite 和 Mixtral-8x7B-v0.1 模型,在包括 ARC、BoolQ、HellaSwag、MMLU 在內的多個測試任務上進行了評估。
實驗設置了三個對照組:原始模型、裁剪超級專家的模型、以及隨機裁剪同等數量非超級專家的模型。

圖 7:對非推理模型的超級專家重要性測試。
對非推理模型的實驗結果如 圖 7 所示,可以發現裁剪超級專家后:
- 性能顯著下降:模型的平均準確率出現了 21.68% 到 27.21% 的下跌。
- 數學任務上接近崩潰:在 GSM8K 這類需要一定邏輯推理的任務上,性能下降尤為嚴重,出現了 52.71% 到 74.51% 的巨幅下跌。
- 隨機裁剪影響甚微:隨機裁剪同等數量的其他專家,對模型性能的影響幾乎可以忽略不計。
如果說裁剪超級專家對非推理任務的影響是 “重創”,那么對需要復雜邏輯和數學推理的任務而言,其影響則是 “毀滅性” 的。
研究者選取了 DeepSeek-R1 和 Qwen3-30B-A3B(思考模式),在 GPQA-Diamond、MATH-500、AIME 等高難度推理任務上進行了測試。
對推理模型的實驗結果如 圖 8 和 圖 9 所示,令人震驚,裁剪僅僅幾個超級專家后:
- 推理能力完全喪失:在 DeepSeek-R1 和 Qwen3-30B-A3B 上一致地顯示,裁剪超級專家后,對推理任務造成了重創,在 AIME 2024,AIME 2025,LiveCodeBench 等測試上,模型的 Pass@1(一次通過率)直接降為 0.00%。
- 模型思維鏈短路:如 圖 10 所示,在對 Math-500 的測試輸出進行分析時,觀察到了一個非常奇特的現象。原始模型以及隨機裁剪的模型能夠條理清晰地分析問題,而裁剪了超級專家的模型的回答會陷入無意義的、機械的重復,直到達到最大輸出長度。

圖 8:對 DeepSeek-R1 的超級專家重要性測試。

圖 9:對 Qwen3-30B-A3B(思考模式)的超級專家重要性測試。

圖 10:DeepSeek-R1 在 Math-500 上的輸出結果展示。
理解壓縮超級專家對注意力機制的影響
為什么裁剪超級專家會產生如此災難性的后果?研究在本節進一步探究和理解其背后的深層機理,將超級專家與另一個大模型中的重要現象 —— 注意力匯聚區(attention sinks)—— 聯系了起來。
在基于多頭自注意力的大型語言模型中,某些特殊的 token(通常是序列的初始 token)會吸引大量的注意力分數。先前的研究表明,盡管注意力匯聚的 token 通常語義較弱,但它們的存在對于維持注意力分數的分布至關重要,許多高效模型方法例如稀疏注意力、KV cache 壓縮技術都非常重視保留注意力匯聚區。
基于大值激活會引起注意力匯聚區的形成的現有研究,結合本文的研究發現超級專家會引發大值激活的現象。作者提出了以下 MoE LLM 內部機制因果鏈假設:
超級專家 Super Experts(根源) → 大值激活 Massive Activations(現象) → 注意力匯聚區 Attention Sinks(功能)
圖片
圖 11:原始模型的注意力分數圖,其中第一個 token 明顯形成了注意力匯聚區。
圖片
圖 12:裁剪超級專家后的對應注意力頭的注意力分數圖,明顯可以看到注意力匯聚區的缺失。
為了驗證上述假設,研究設計了一個名為 “注意力匯聚區衰減率”(Attention Sink Decay Rate) 的量化指標,用于衡量裁剪超級專家對注意力機制的破壞程度。
如 圖 13 所示,在裁剪超級專家后,模型所有層的注意力匯聚區衰減率都穩定在 90% 左右,甚至接近 100%。這表明超級專家的壓縮,嚴重地破壞了模型內部至關重要的注意力機制,驗證了上述提出的機制因果鏈。
圖 11 以及 圖 12 對裁剪前后注意力分數圖進行的可視化分析,清晰地驗證了注意力匯聚的破壞性影響。
圖片
圖 13:Qwen3-30-A3B 注意力匯聚區衰減率分析。
結語
本研究揭示了廣泛存在于 MoE LLM 中的超級專家機制,并通過分析超級專家的分布規律、其對模型能力的重要性以及在注意力機制中的關鍵作用,進行了系統性探討。
該研究的四大核心貢獻是:
1. 首次識別并系統性地分析了超級專家這一前所未見的重要機制。在多個主流 MoE LLM 中廣泛驗證了超級專家的存在,并揭示超級專家分布的顯著穩定性。此外,本文還構建了自動化檢測工具,可高效識別新模型中的超級專家。
2. 實證驗證超級專家的關鍵作用。大量實驗顯示,超級專家對模型整體能力,尤其是數學推理任務至關重要。對于如 AIME、Math-500 等測試集,裁剪超級專家后模型表現近乎 “完全崩潰”,測試表現幾乎降至 0。
3. 揭示壓縮超級專家對注意力機制的影響。研究證實 MoE LLM 依賴超級專家形成注意力 “匯聚區”,該機制對于注意力分數的合理分布至關重要,而一旦超級專家被裁剪,該機制將遭受嚴重破壞,進而顯著削弱模型性能。
4. 為 MoE LLM 的壓縮策略提供新方向。超級專家的發現不僅擴展了對 MoE LLM 內部行為的理解,也為未來設計更加穩健的面向 MoE LLM 壓縮方案提供了理論依據。
未來的研究將聚焦于探索超級專家在模型預訓練過程中的形成機制,并利用超級專家開發更為高效的 MoE LLM 壓縮方法。






























