Mamba 架構上頂會ICLR 2026,AI大腦核心Transformer的王座還能坐穩嗎?
Transformer統治了AI大模型領域。有人認為,實現AGI,Transformer就夠了!
還有人認為,還需要幾次底層架構革新。例如,華為《智能世界-2035》報告里就這樣說。
隨著模型訓練、部署規模和計算需求的爆炸式增長,我們發現,算力和能源需求就像無底洞,那怎么才能讓AI既聰明,又便宜,還能跑得快?
Transformer架構的計算復雜度和序列長度的二次方成正比。你要處理的文本長度增加一倍,計算量就要翻四倍。同時,它的內存占用也隨著序列長度線性增長。用它實現AGI,能源和算力需求不可想象。
學術界和工業界都在尋找出路。
Mamba登上了舞臺。Mamba-3目前正在頂會ICLR 2026接受雙盲評審。

它沒有選擇在Transformer的框架上修修補補,而是另辟蹊徑,從一個更古老也更基礎的理論——狀態空間模型(SSM)里找到了靈感。
Mamba-3的故事,本質上是一個關于效率和智慧的權衡與進化。它從推理效率這個最實際、最要命的問題出發,引入了三個改進:一個更具表現力的遞歸方式,一套更聰明的狀態更新規則,以及一個更能榨干硬件性能的多輸入多輸出(MIMO)架構。
Mamba-3到底耍了什么新花樣,它又如何與Transformer掰手腕呢?
萬丈高樓平地起
要理解Mamba-3的精妙,先聊聊什么是狀態空間模型(SSM)。
這個概念最早并不是為自然語言處理(NLP)準備的,它的老本行是預測連續變化的系統,比如電路里的信號,氣象云圖的變幻,或者一個運動物體的飛行軌跡。從數學和概念上講,它和循環神經網絡(RNN)是近親,都是那種一步一步處理序列,并保留一個‘記憶’來影響下一步決策的模型。
顧名思義,SSM的核心是‘狀態空間’。你可以把它想象成一個描述系統當前所有狀況的快照,里面包含了所有關鍵變量。SSM的工作就是接收一個輸入序列x(t),把它映射到一個看不見的潛在狀態h(t),這個h(t)就好像是RNN里的隱藏狀態,然后根據這個狀態預測出輸出y(t)。
所有SSM都圍繞著兩個核心方程運轉:
- 狀態方程:
h'(t)=A*h(t)+B*x(t) - 輸出方程:
y(t)=C*h(t)+D*x(t)
這里的A, B, C, D四個參數,通常是權重矩陣,它們定義了系統的動態。在控制理論這些傳統領域,這些矩陣是固定的,代表一個已知的系統。而在深度學習里,它們變成了需要通過訓練來優化的參數,由神經網絡的可學習權重來表示。
SSM的經典形態是為連續信號設計的,但我們處理的文本、圖片、聲音,在計算機里都是離散的數據。這就需要一個‘離散化’的步驟。
你可以把離散化想象成對一個連續流動的信號進行周期性采樣。這個過程引入了一個新參數,叫做步長(Δ),它決定了我們多久采一次樣。離散化的方法有很多種,但包括Mamba在內的大多數現代SSM都用了一種簡單的方式,叫零階保持(ZOH)。
經過離散化,SSM就能像RNN一樣處理序列數據了。
但是,早期的離散SSM并不實用,因為它繼承了RNN的一些老毛病,比如訓練效率低,而且記性不好,很難捕捉序列里距離很遠的兩個元素之間的關系,也就是所謂的‘長距離依賴’問題。
轉機出現在2021年,一個叫Albert Gu的研究者和他的同事們提出了結構化狀態空間序列模型,簡稱S4。這個工作為后來的Mamba鋪平了道路。
S4模型做了兩件大事。
第一是通過卷積實現高效訓練。離散SSM雖然在推理時像RNN一樣快,但訓練起來卻奇慢無比。S4的作者們發現,由于SSM只涉及線性的加法和乘法運算,這一連串的遞歸操作可以展開成一個一維的卷積核。這個卷積核可以直接把輸入序列x一步到位地映射到輸出y。而卷積運算,可以使用一種叫‘快速傅里葉變換’的算法來高效計算。
這就帶來了一個絕妙的好處:在訓練時,當整個輸入序列都已知的情況下,S4可以像一個卷積神經網絡(CNN)一樣,并行地、高效地進行計算;而在推理時,當我們需要一個一個地生成token時,它又可以變回RNN的形態,享受極快的速度和極低的內存占用。兩全其美。
第二是通過結構化矩陣解決長記性問題。為了讓SSM能夠記住更久遠的信息,S4沒有像常規的機器學習模型那樣隨機初始化它的權重矩陣A和B,而是采用了一種叫HiPPO的技術,從特殊的正交多項式(比如勒讓德多項式)推導出矩陣的結構。這種特殊的初始化方式,就像給模型裝上了一個記憶增強插件,使得它在處理長序列時的性能飆升。
S4的后續變種,比如DSS,S5,以及我們今天的主角Mamba系列,雖然在具體的初始化方案上有所不同,但都保留了HiPPO的核心思想:給矩陣A和B施加某種結構,通常是對角結構,來保證模型能夠穩定地更新狀態,并記住長期的依賴關系。
Mamba的進化之路
2023年,Tri Dao和Albert Gu(又是他)在論文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》中首次提出了Mamba架構。這是第一個在語言建模上,能與Transformer正面抗衡的架構。
Mamba的核心創新有兩個。
第一個叫‘選擇性狀態空間模型’。它給傳統的SSM裝上了一個‘選擇’開關,讓模型能夠根據當前輸入的重要性,動態地決定要記住哪些歷史信息,忽略哪些歷史信息。這個能力,以前被認為是Transformer自注意力機制的專利。
第二個叫‘硬件感知并行掃描’。這是一個非常工程化的優化,它專門針對現代圖形處理單元(GPU)的計算特性,設計了一種高效的算法來處理SSM的遞歸計算,最大化地利用硬件資源。
一年后,還是這兩位作者,又發表了一篇論文,進一步探討了SSM和Transformer之間的深層聯系,并提出了一個更快更強的改進版,Mamba-2。
Mamba-2發現一大類SSM的計算過程,可以等價地表示為一種帶掩碼的矩陣乘法。這個發現,使得Mamba-2可以利用矩陣乘法的高效實現,訓練速度比Mamba-1提升了50%。同時,它還支持了更大的狀態維度,讓模型能夠處理更復雜的任務,尤其是在長序列上。
現在,故事發展到了Mamba-3。

Mamba-3是在Mamba-2的基礎上,從推理效率這個角度出發,做出的又一次進化。它帶來了三個核心的方法論改進。
第一個叫‘梯形離散化’。它用一種更精確的數學方法(梯形法則)來替代之前Mamba-2里相對粗糙的方法(歐拉法則),來完成從連續信號到離散序列的轉換。這個改進讓模型的遞歸更新變得更具表現力。
第二個叫‘復雜狀態空間模型’。它通過引入復數來定義SSM,使得模型的狀態更新能力大大增強,解決了許多線性模型在處理一些需要精確狀態跟蹤的任務(比如數數的奇偶性)時能力不足的問題。
第三個叫‘多輸入多輸出SSM’。這是一個純粹為了提升解碼速度和硬件效率的設計。它將原本基于外積的狀態更新,改為了基于矩陣乘法的更新,極大地提高了計算的‘算術強度’,讓GPU不再‘挨餓’。
Mamba-3的新花樣
更精確的離散化:梯形法則
結構化SSM在理論上被定義為一個連續時間系統,但實際處理的數據都是離散的。從連續到離散的轉換,也就是離散化,是關鍵一步。
Mamba-2用的是歐拉法則,你可以把它想象成用一個矩形的面積去近似一段曲線下的面積,它只考慮了區間的終點值。這種方法的誤差是O(Δt2),雖然簡單,但不夠精確。
Mamba-3換用了一種更高級的方法:廣義梯形法則。它不再是簡單地用矩形去近似,而是用一個梯形,同時考慮了區間的起點和終點,用一個數據相關的凸組合來連接它們。這種方法的誤差降低到了O(Δt3),精度整整提高了一個數量級。

Mamba-3在進行狀態更新時,不僅考慮了當前時間步的輸入,還回看了一眼上一個時間步的輸入。這個小小的‘回眸’,讓模型對序列動態的捕捉能力變得更加細膩和強大。
這個改進不僅提升了模型的表現力,還使得Mamba-3不再需要之前很多線性模型都依賴的一個組件——短因果卷積。這讓整個模型架構變得更加簡潔和統一。
更聰明的狀態更新:復數與旋轉
現代SSM為了追求效率,一直在簡化其核心的狀態轉移矩陣。S4模型用的是復雜的‘正規加低秩’矩陣,Mamba把它簡化為實數對角矩陣,Mamba-2更是簡化到了一個標量。這些簡化在語言建模任務上沒有帶來明顯的性能下降,但也削弱了模型在一些簡單狀態跟蹤任務上的能力。
比如,判斷一個二進制序列里‘1’的個數是奇數還是偶數(奇偶性任務)。這個任務對于單層的LSTM(長短期記憶網絡)來說是小菜一碟,但對于狀態轉移矩陣只有實數特征值的Mamba-2來說,卻難如登天。
原因在于,實數特征值只能表示狀態的‘伸縮’和‘翻轉’,無法表示‘旋轉’。而像奇偶性這樣的任務,其內在的狀態轉換恰恰是周期性的,就像一個開關在‘開’和‘關’之間切換,這在數學上最自然的表示就是旋轉。
Mamba-3為了恢復這種能力,引入了復數。
它證明了,一個復數值的SSM,在離散化后,等價于一個狀態維度加倍的實數值SSM,其狀態轉移矩陣由一系列2x2的旋轉矩陣塊構成。
更進一步,它還證明了,這種旋轉操作可以被等效地‘吸收’到輸入和輸出的投影矩陣B和C中。這最終導向了一個驚人的結論:使用復數SSM,等價于在一個普通的、基于標量轉移的SSM的輸入(B)和輸出(C)上,應用了一種數據相關的旋轉位置嵌入(RoPE)。
RoPE在很多大模型(比如Llama)里都在用,它通過給詞向量注入絕對或相對的位置信息來幫助模型理解語序。Mamba-3在這里做的,是把RoPE從一個‘數據無關’的、固定的位置編碼,變成了一個‘數據相關’的、動態的狀態旋轉器。
這個被作者稱為‘RoPE技巧’的實現,讓Mamba-3用極小的計算開銷,就獲得了強大的狀態跟蹤能力,能夠輕松解決奇偶性、模運算等Mamba-2無法完成的任務。
更極致的硬件效率:從外積到矩陣乘法
在自回歸生成(也就是一個詞一個詞地往外蹦)的場景下,性能通常用每秒生成的token數(TPS)來衡量。在這個指標上,像Mamba這樣的模型,因為只有一個固定大小的隱藏狀態,而不需要像Transformer那樣維護一個隨序列長度線性增長的KV緩存,所以具有天然的優勢。
但是,TPS這個指標沒有考慮到硬件效率。一個更底層的指標是‘算術強度’,它定義為一次操作的浮點運算次數(FLOPs)與為此移動的數據字節數的比值。
現代的GPU,就像一個超級強大的計算工廠,它的計算能力(ops)遠遠超過了它的數據搬運能力(byte)。如果算術強度太低,GPU就會把大量時間浪費在等待數據從內存里搬運過來的路上,而不是在真正地進行計算。這種情況,我們稱之為‘內存受限’。
Mamba-2的狀態更新是一個外積操作。它的算術強度是一個常數,遠低于現代GPU的理想值。這意味著,在解碼時,Mamba-2并不能充分發揮出GPU的威力。
Mamba-3做了一個看似簡單卻異常有效的改動。它把狀態更新從外積改成了矩陣乘法。
這在信號處理的語境里,恰好對應著從單輸入單輸出(SISO)系統到多輸入多輸出(MIMO)系統的泛化。

在MIMO公式下,算術強度與一個新引入的秩r成正比。通過調整r的大小,我們就可以靈活地提高算術強度,將解碼過程從‘內存受限’推向‘計算受限’,從而更充分地利用硬件,獲得更高的TPS。這個過程甚至不增加推理時的內存占用(狀態H的大小不變)。
這三板斧,共同構成了Mamba-3的核心混合器(Mixer)原語。整個Mamba-3的架構也進行了一些調整,交替使用Mamba-3塊和SwiGLU塊,并采用了預歸一化。
架構性能大比拼
在語言建模性能上,論文作者們使用FineWeb-Edu數據集的1000億個token,對Mamba-3以及Transformer、Gated DeltaNet和Mamba-2等基線模型,在180M、440M、820M和1.5B四種不同參數規模上進行了預訓練。
結果顯示,在所有模型規模上,Mamba-3在各種下游任務上的表現都全面領先。

在檢索能力方面,也就是從長文本中精確查找信息的能力,Transformer由于其可以無損回顧所有歷史信息的KV緩存機制,仍然具有優勢。這是所有固定狀態大小模型的共同短板。
實驗表明,Mamba-3在關聯回憶和問答這類任務上表現不錯,但在需要從半結構化或非結構化數據中提取信息的任務上表現不佳。不過,在合成的‘大海撈針’(NIAH)任務上,Mamba-3的表現超越或持平了基線,并且展現出了比Mamba-2更好的泛化能力。

推理效率:

在常用的bf16精度和128狀態維度設置下,Mamba-3的SISO和MIMO版本都比Mamba-2和Gated DeltaNet要快。

這張圖則更直觀地展示了Mamba-3的優勢。橫軸是狀態大小(可以看作是推理速度的代理,越小越快),縱軸是預訓練困惑度(模型性能的代理,越低越好)。Mamba-3 MIMO版本在不增加狀態大小(也就是不犧牲速度)的前提下,將性能-效率的帕累托前沿又向前推進了一步。
最后,消融實驗驗證了Mamba-3各項改進的有效性。

梯形離散化和引入的偏置項協同作用,顯著提升了模型性能。而在狀態跟蹤任務上,擁有RoPE的Mamba-3幾乎完美地解決了奇偶性和模運算任務,而沒有RoPE的Mamba-3和Mamba-2則表現得和隨機猜測差不多。
Mamba-3的故事,是關于如何在計算效率和模型能力之間尋找更優解的探索。
在需要無損記憶和精確檢索的長文本任務上,固定大小的狀態記憶機制,依然是它相較于Transformer的軟肋。作者也坦言,將Mamba-3與外部的檢索機制相結合,構建混合架構,或許是未來的一個重要方向。
你覺得Mamba-3會取代Transformer嗎?還是一個有益的補充?




































