Mamba 架構上頂會ICLR 2026，AI大腦核心Transformer的王座還能坐穩嗎？

2025-10-17 10:23:00

人工智能新聞

隨著模型訓練、部署規模和計算需求的爆炸式增長，我們發現，算力和能源需求就像無底洞，那怎么才能讓AI既聰明，又便宜，還能跑得快？

Transformer統治了AI大模型領域。有人認為，實現AGI，Transformer就夠了！

還有人認為，還需要幾次底層架構革新。例如，華為《智能世界-2035》報告里就這樣說。

隨著模型訓練、部署規模和計算需求的爆炸式增長，我們發現，算力和能源需求就像無底洞，那怎么才能讓AI既聰明，又便宜，還能跑得快？

Transformer架構的計算復雜度和序列長度的二次方成正比。你要處理的文本長度增加一倍，計算量就要翻四倍。同時，它的內存占用也隨著序列長度線性增長。用它實現AGI，能源和算力需求不可想象。

學術界和工業界都在尋找出路。

Mamba登上了舞臺。Mamba-3目前正在頂會ICLR 2026接受雙盲評審。

它沒有選擇在Transformer的框架上修修補補，而是另辟蹊徑，從一個更古老也更基礎的理論——狀態空間模型（SSM）里找到了靈感。

Mamba-3的故事，本質上是一個關于效率和智慧的權衡與進化。它從推理效率這個最實際、最要命的問題出發，引入了三個改進：一個更具表現力的遞歸方式，一套更聰明的狀態更新規則，以及一個更能榨干硬件性能的多輸入多輸出（MIMO）架構。

Mamba-3到底耍了什么新花樣，它又如何與Transformer掰手腕呢？

萬丈高樓平地起

要理解Mamba-3的精妙，先聊聊什么是狀態空間模型（SSM）。

這個概念最早并不是為自然語言處理（NLP）準備的，它的老本行是預測連續變化的系統，比如電路里的信號，氣象云圖的變幻，或者一個運動物體的飛行軌跡。從數學和概念上講，它和循環神經網絡（RNN）是近親，都是那種一步一步處理序列，并保留一個‘記憶’來影響下一步決策的模型。

顧名思義，SSM的核心是‘狀態空間’。你可以把它想象成一個描述系統當前所有狀況的快照，里面包含了所有關鍵變量。SSM的工作就是接收一個輸入序列x(t)，把它映射到一個看不見的潛在狀態h(t)，這個h(t)就好像是RNN里的隱藏狀態，然后根據這個狀態預測出輸出y(t)。

所有SSM都圍繞著兩個核心方程運轉：

狀態方程：h'(t)=A*h(t)+B*x(t)
輸出方程：y(t)=C*h(t)+D*x(t)

這里的A, B, C, D四個參數，通常是權重矩陣，它們定義了系統的動態。在控制理論這些傳統領域，這些矩陣是固定的，代表一個已知的系統。而在深度學習里，它們變成了需要通過訓練來優化的參數，由神經網絡的可學習權重來表示。

SSM的經典形態是為連續信號設計的，但我們處理的文本、圖片、聲音，在計算機里都是離散的數據。這就需要一個‘離散化’的步驟。

你可以把離散化想象成對一個連續流動的信號進行周期性采樣。這個過程引入了一個新參數，叫做步長（Δ），它決定了我們多久采一次樣。離散化的方法有很多種，但包括Mamba在內的大多數現代SSM都用了一種簡單的方式，叫零階保持（ZOH）。

經過離散化，SSM就能像RNN一樣處理序列數據了。

但是，早期的離散SSM并不實用，因為它繼承了RNN的一些老毛病，比如訓練效率低，而且記性不好，很難捕捉序列里距離很遠的兩個元素之間的關系，也就是所謂的‘長距離依賴’問題。

轉機出現在2021年，一個叫Albert Gu的研究者和他的同事們提出了結構化狀態空間序列模型，簡稱S4。這個工作為后來的Mamba鋪平了道路。

S4模型做了兩件大事。

第一是通過卷積實現高效訓練。離散SSM雖然在推理時像RNN一樣快，但訓練起來卻奇慢無比。S4的作者們發現，由于SSM只涉及線性的加法和乘法運算，這一連串的遞歸操作可以展開成一個一維的卷積核。這個卷積核可以直接把輸入序列x一步到位地映射到輸出y。而卷積運算，可以使用一種叫‘快速傅里葉變換’的算法來高效計算。

這就帶來了一個絕妙的好處：在訓練時，當整個輸入序列都已知的情況下，S4可以像一個卷積神經網絡（CNN）一樣，并行地、高效地進行計算；而在推理時，當我們需要一個一個地生成token時，它又可以變回RNN的形態，享受極快的速度和極低的內存占用。兩全其美。

第二是通過結構化矩陣解決長記性問題。為了讓SSM能夠記住更久遠的信息，S4沒有像常規的機器學習模型那樣隨機初始化它的權重矩陣A和B，而是采用了一種叫HiPPO的技術，從特殊的正交多項式（比如勒讓德多項式）推導出矩陣的結構。這種特殊的初始化方式，就像給模型裝上了一個記憶增強插件，使得它在處理長序列時的性能飆升。

S4的后續變種，比如DSS，S5，以及我們今天的主角Mamba系列，雖然在具體的初始化方案上有所不同，但都保留了HiPPO的核心思想：給矩陣A和B施加某種結構，通常是對角結構，來保證模型能夠穩定地更新狀態，并記住長期的依賴關系。

Mamba的進化之路

2023年，Tri Dao和Albert Gu（又是他）在論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了Mamba架構。這是第一個在語言建模上，能與Transformer正面抗衡的架構。

Mamba的核心創新有兩個。

第一個叫‘選擇性狀態空間模型’。它給傳統的SSM裝上了一個‘選擇’開關，讓模型能夠根據當前輸入的重要性，動態地決定要記住哪些歷史信息，忽略哪些歷史信息。這個能力，以前被認為是Transformer自注意力機制的專利。

第二個叫‘硬件感知并行掃描’。這是一個非常工程化的優化，它專門針對現代圖形處理單元（GPU）的計算特性，設計了一種高效的算法來處理SSM的遞歸計算，最大化地利用硬件資源。

一年后，還是這兩位作者，又發表了一篇論文，進一步探討了SSM和Transformer之間的深層聯系，并提出了一個更快更強的改進版，Mamba-2。

Mamba-2發現一大類SSM的計算過程，可以等價地表示為一種帶掩碼的矩陣乘法。這個發現，使得Mamba-2可以利用矩陣乘法的高效實現，訓練速度比Mamba-1提升了50%。同時，它還支持了更大的狀態維度，讓模型能夠處理更復雜的任務，尤其是在長序列上。

現在，故事發展到了Mamba-3。

Mamba-3是在Mamba-2的基礎上，從推理效率這個角度出發，做出的又一次進化。它帶來了三個核心的方法論改進。

第一個叫‘梯形離散化’。它用一種更精確的數學方法（梯形法則）來替代之前Mamba-2里相對粗糙的方法（歐拉法則），來完成從連續信號到離散序列的轉換。這個改進讓模型的遞歸更新變得更具表現力。

第二個叫‘復雜狀態空間模型’。它通過引入復數來定義SSM，使得模型的狀態更新能力大大增強，解決了許多線性模型在處理一些需要精確狀態跟蹤的任務（比如數數的奇偶性）時能力不足的問題。

第三個叫‘多輸入多輸出SSM’。這是一個純粹為了提升解碼速度和硬件效率的設計。它將原本基于外積的狀態更新，改為了基于矩陣乘法的更新，極大地提高了計算的‘算術強度’，讓GPU不再‘挨餓’。

Mamba-3的新花樣

更精確的離散化：梯形法則

結構化SSM在理論上被定義為一個連續時間系統，但實際處理的數據都是離散的。從連續到離散的轉換，也就是離散化，是關鍵一步。

Mamba-2用的是歐拉法則，你可以把它想象成用一個矩形的面積去近似一段曲線下的面積，它只考慮了區間的終點值。這種方法的誤差是O(Δt2)，雖然簡單，但不夠精確。

Mamba-3換用了一種更高級的方法：廣義梯形法則。它不再是簡單地用矩形去近似，而是用一個梯形，同時考慮了區間的起點和終點，用一個數據相關的凸組合來連接它們。這種方法的誤差降低到了O(Δt3)，精度整整提高了一個數量級。

Mamba-3在進行狀態更新時，不僅考慮了當前時間步的輸入，還回看了一眼上一個時間步的輸入。這個小小的‘回眸’，讓模型對序列動態的捕捉能力變得更加細膩和強大。

這個改進不僅提升了模型的表現力，還使得Mamba-3不再需要之前很多線性模型都依賴的一個組件——短因果卷積。這讓整個模型架構變得更加簡潔和統一。

更聰明的狀態更新：復數與旋轉

現代SSM為了追求效率，一直在簡化其核心的狀態轉移矩陣。S4模型用的是復雜的‘正規加低秩’矩陣，Mamba把它簡化為實數對角矩陣，Mamba-2更是簡化到了一個標量。這些簡化在語言建模任務上沒有帶來明顯的性能下降，但也削弱了模型在一些簡單狀態跟蹤任務上的能力。

比如，判斷一個二進制序列里‘1’的個數是奇數還是偶數（奇偶性任務）。這個任務對于單層的LSTM（長短期記憶網絡）來說是小菜一碟，但對于狀態轉移矩陣只有實數特征值的Mamba-2來說，卻難如登天。

原因在于，實數特征值只能表示狀態的‘伸縮’和‘翻轉’，無法表示‘旋轉’。而像奇偶性這樣的任務，其內在的狀態轉換恰恰是周期性的，就像一個開關在‘開’和‘關’之間切換，這在數學上最自然的表示就是旋轉。

Mamba-3為了恢復這種能力，引入了復數。

它證明了，一個復數值的SSM，在離散化后，等價于一個狀態維度加倍的實數值SSM，其狀態轉移矩陣由一系列2x2的旋轉矩陣塊構成。

更進一步，它還證明了，這種旋轉操作可以被等效地‘吸收’到輸入和輸出的投影矩陣B和C中。這最終導向了一個驚人的結論：使用復數SSM，等價于在一個普通的、基于標量轉移的SSM的輸入（B）和輸出（C）上，應用了一種數據相關的旋轉位置嵌入（RoPE）。

RoPE在很多大模型（比如Llama）里都在用，它通過給詞向量注入絕對或相對的位置信息來幫助模型理解語序。Mamba-3在這里做的，是把RoPE從一個‘數據無關’的、固定的位置編碼，變成了一個‘數據相關’的、動態的狀態旋轉器。

這個被作者稱為‘RoPE技巧’的實現，讓Mamba-3用極小的計算開銷，就獲得了強大的狀態跟蹤能力，能夠輕松解決奇偶性、模運算等Mamba-2無法完成的任務。

更極致的硬件效率：從外積到矩陣乘法

在自回歸生成（也就是一個詞一個詞地往外蹦）的場景下，性能通常用每秒生成的token數（TPS）來衡量。在這個指標上，像Mamba這樣的模型，因為只有一個固定大小的隱藏狀態，而不需要像Transformer那樣維護一個隨序列長度線性增長的KV緩存，所以具有天然的優勢。

但是，TPS這個指標沒有考慮到硬件效率。一個更底層的指標是‘算術強度’，它定義為一次操作的浮點運算次數（FLOPs）與為此移動的數據字節數的比值。

現代的GPU，就像一個超級強大的計算工廠，它的計算能力（ops）遠遠超過了它的數據搬運能力（byte）。如果算術強度太低，GPU就會把大量時間浪費在等待數據從內存里搬運過來的路上，而不是在真正地進行計算。這種情況，我們稱之為‘內存受限’。

Mamba-2的狀態更新是一個外積操作。它的算術強度是一個常數，遠低于現代GPU的理想值。這意味著，在解碼時，Mamba-2并不能充分發揮出GPU的威力。

Mamba-3做了一個看似簡單卻異常有效的改動。它把狀態更新從外積改成了矩陣乘法。

這在信號處理的語境里，恰好對應著從單輸入單輸出（SISO）系統到多輸入多輸出（MIMO）系統的泛化。

在MIMO公式下，算術強度與一個新引入的秩r成正比。通過調整r的大小，我們就可以靈活地提高算術強度，將解碼過程從‘內存受限’推向‘計算受限’，從而更充分地利用硬件，獲得更高的TPS。這個過程甚至不增加推理時的內存占用（狀態H的大小不變）。

這三板斧，共同構成了Mamba-3的核心混合器（Mixer）原語。整個Mamba-3的架構也進行了一些調整，交替使用Mamba-3塊和SwiGLU塊，并采用了預歸一化。

架構性能大比拼

在語言建模性能上，論文作者們使用FineWeb-Edu數據集的1000億個token，對Mamba-3以及Transformer、Gated DeltaNet和Mamba-2等基線模型，在180M、440M、820M和1.5B四種不同參數規模上進行了預訓練。

結果顯示，在所有模型規模上，Mamba-3在各種下游任務上的表現都全面領先。

在檢索能力方面，也就是從長文本中精確查找信息的能力，Transformer由于其可以無損回顧所有歷史信息的KV緩存機制，仍然具有優勢。這是所有固定狀態大小模型的共同短板。

實驗表明，Mamba-3在關聯回憶和問答這類任務上表現不錯，但在需要從半結構化或非結構化數據中提取信息的任務上表現不佳。不過，在合成的‘大海撈針’（NIAH）任務上，Mamba-3的表現超越或持平了基線，并且展現出了比Mamba-2更好的泛化能力。

推理效率：

在常用的bf16精度和128狀態維度設置下，Mamba-3的SISO和MIMO版本都比Mamba-2和Gated DeltaNet要快。

這張圖則更直觀地展示了Mamba-3的優勢。橫軸是狀態大小（可以看作是推理速度的代理，越小越快），縱軸是預訓練困惑度（模型性能的代理，越低越好）。Mamba-3 MIMO版本在不增加狀態大小（也就是不犧牲速度）的前提下，將性能-效率的帕累托前沿又向前推進了一步。

最后，消融實驗驗證了Mamba-3各項改進的有效性。

梯形離散化和引入的偏置項協同作用，顯著提升了模型性能。而在狀態跟蹤任務上，擁有RoPE的Mamba-3幾乎完美地解決了奇偶性和模運算任務，而沒有RoPE的Mamba-3和Mamba-2則表現得和隨機猜測差不多。

Mamba-3的故事，是關于如何在計算效率和模型能力之間尋找更優解的探索。

在需要無損記憶和精確檢索的長文本任務上，固定大小的狀態記憶機制，依然是它相較于Transformer的軟肋。作者也坦言，將Mamba-3與外部的檢索機制相結合，構建混合架構，或許是未來的一個重要方向。

你覺得Mamba-3會取代Transformer嗎？還是一個有益的補充？

責任編輯：張燕妮來源： AIGC開放社區

模型訓練 AI