蘋果AI選Mamba:Agent任務比Transformer更好
都說蘋果AI慢半拍,沒想到新研究直接在Transformer頭上動土。(doge)
「Mamba+工具」,在Agent場景更能打!

在最新論文《To Infinity and Beyond》中,研究團隊發現:
在長任務、多交互的Agent式任務中,基于SSM架構(狀態空間模型)的模型,比如Mamba,在效率與泛化能力上,展現出超越Transformer的潛力。
Mamba一作表示:

超越Transformer,怎么說?
Transformer的長篇累牘問題
先說說Transformer的“富貴病”。
Transformer確實很聰明,靠自注意力機制能夠同時關注輸入序列中所有詞語之間的關聯,比如閱讀文章時可以快速建立首尾關鍵信息的聯系。
但這種能力的實現需要較高的計算成本,隨著輸入序列長度的增加,其計算量會呈平方級增長。
例如,輸入1000個詞時,需要處理1000×1000=100萬次詞對關系;
要是處理有上萬個詞的長文檔,計算量會達到億級,這對普通GPU來說是不小的負擔。
而這種計算成本過高的問題還會引發連鎖反應:
- 首先是處理延遲顯著增加。在長序列任務中,模型的響應速度會大幅下降;
- 其次,在Agent類任務中表現不佳。Agent任務通常需要動態決策與迭代優化的能力,而Transformer在每一步操作中都需重新計算全局注意力,這就會導致整體效率偏低,難以滿足此類任務對實時性和靈活性的需求。
相比之下,Mamba則采用了更為輕量化的設計思路。
「Mamba+工具」更高效
作為狀態空間模型(SSM)的一種,Mamba不依賴全局注意力機制,而是通過持續更新的內部狀態來理解輸入信息。
有點像人寫流水賬,只記最近進展,不翻舊賬。
這種機制帶來了三項顯著優勢:
- 計算量隨序列長度呈線性增長例如處理1000個詞僅需對應數量級的計算,遠低于Transformer的消耗;
- 支持流式處理能夠邊接收輸入邊進行計算,無需等待完整序列加載完畢;
- 內存占用保持穩定不會隨序列長度增加而顯著上升,在效率方面表現突出。
不過,Mamba也有個明顯局限:內部狀態的存儲容量有限,在處理超長序列任務時,早期信息容易被后續輸入覆蓋,導致模型對前文關鍵信息的保留能力較弱。
針對這一問題,蘋果團隊提出了新方案——通過引入外部工具擴展模型的信息處理能力。
比如算數學題時用指針工具記數字、存進位;修代碼時用文件查看工具反復讀代碼、用運行工具測報錯……
這些工具可以在任務執行過程中提供輔助,相當給模型提供了可動態調用的外部存儲和交互接口。

這樣做的結果就是,引入工具后Mamba的性能得到顯著提升:
在多位數加法任務中,配備指針工具的Mamba展現出良好的泛化能力,經過5位數加法訓練后,能夠穩定處理1000位數的計算,準確率接近100%,而Transformer在處理20位數時已出現明顯誤差;
在代碼調試任務中,讓Mamba模擬交互式調試流程(查看文件、局部修改、執行驗證的迭代方式),面對復雜度高于訓練集的代碼庫,其正確率顯著高于Transformer;
在邏輯推理及漢諾塔等需要分步規劃的任務中,結合工具的Mamba能夠應對更復雜的問題場景,Transformer則要么算得慢,要么直接卡殼……

可以看出,Transformer聰明但慢,做事情講究從頭到尾一步到位,遇上需要反復調整的Agent式任務,就顯得又貴又笨重;
Mamba反應快但記性差,但裝上外置大腦后補足記憶短板后,效率嘎嘎提升。
這么一看,「Mamba+工具」的組合可能真要在Agent場景下搶Transformer的風頭了。
論文地址:https://arxiv.org/pdf/2510.14826



































