蘋果AI選Mamba：Agent任務比Transformer更好

2025-10-22 08:41:22

在長任務、多交互的Agent式任務中，基于SSM架構（狀態空間模型）的模型，比如Mamba，在效率與泛化能力上，展現出超越Transformer的潛力。

都說蘋果AI慢半拍，沒想到新研究直接在Transformer頭上動土。（doge）

「Mamba+工具」，在Agent場景更能打！

在最新論文《To Infinity and Beyond》中，研究團隊發現：

在長任務、多交互的Agent式任務中，基于SSM架構（狀態空間模型）的模型，比如Mamba，在效率與泛化能力上，展現出超越Transformer的潛力。

Mamba一作表示：

超越Transformer，怎么說？

Transformer的長篇累牘問題

先說說Transformer的“富貴病”。

Transformer確實很聰明，靠自注意力機制能夠同時關注輸入序列中所有詞語之間的關聯，比如閱讀文章時可以快速建立首尾關鍵信息的聯系。

但這種能力的實現需要較高的計算成本，隨著輸入序列長度的增加，其計算量會呈平方級增長。

例如，輸入1000個詞時，需要處理1000×1000=100萬次詞對關系；

要是處理有上萬個詞的長文檔，計算量會達到億級，這對普通GPU來說是不小的負擔。

而這種計算成本過高的問題還會引發連鎖反應：

首先是處理延遲顯著增加。在長序列任務中，模型的響應速度會大幅下降；
其次，在Agent類任務中表現不佳。Agent任務通常需要動態決策與迭代優化的能力，而Transformer在每一步操作中都需重新計算全局注意力，這就會導致整體效率偏低，難以滿足此類任務對實時性和靈活性的需求。

相比之下，Mamba則采用了更為輕量化的設計思路。

作為狀態空間模型（SSM）的一種，Mamba不依賴全局注意力機制，而是通過持續更新的內部狀態來理解輸入信息。

有點像人寫流水賬，只記最近進展，不翻舊賬。

這種機制帶來了三項顯著優勢：

不過，Mamba也有個明顯局限：內部狀態的存儲容量有限，在處理超長序列任務時，早期信息容易被后續輸入覆蓋，導致模型對前文關鍵信息的保留能力較弱。

針對這一問題，蘋果團隊提出了新方案——通過引入外部工具擴展模型的信息處理能力。

比如算數學題時用指針工具記數字、存進位；修代碼時用文件查看工具反復讀代碼、用運行工具測報錯……

這些工具可以在任務執行過程中提供輔助，相當給模型提供了可動態調用的外部存儲和交互接口。

這樣做的結果就是，引入工具后Mamba的性能得到顯著提升：

在多位數加法任務中，配備指針工具的Mamba展現出良好的泛化能力，經過5位數加法訓練后，能夠穩定處理1000位數的計算，準確率接近100%，而Transformer在處理20位數時已出現明顯誤差；

在代碼調試任務中，讓Mamba模擬交互式調試流程（查看文件、局部修改、執行驗證的迭代方式），面對復雜度高于訓練集的代碼庫，其正確率顯著高于Transformer；

在邏輯推理及漢諾塔等需要分步規劃的任務中，結合工具的Mamba能夠應對更復雜的問題場景，Transformer則要么算得慢，要么直接卡殼……

可以看出，Transformer聰明但慢，做事情講究從頭到尾一步到位，遇上需要反復調整的Agent式任務，就顯得又貴又笨重；

Mamba反應快但記性差，但裝上外置大腦后補足記憶短板后，效率嘎嘎提升。

這么一看，「Mamba+工具」的組合可能真要在Agent場景下搶Transformer的風頭了。

論文地址：https://arxiv.org/pdf/2510.14826

責任編輯：張燕妮來源：量子位