比Genimi 3早發布的這篇Google論文更有意思!
今天Google Gemini 3發了!在推理、多模態理解和智能體Agent能力上全面躍升,幾乎全面 SOTA

今天分享一篇Google近期有意思的論文:ReasoningBank

1. LLM 智能體“金魚記憶”
當前大模型智能體在長周期、多任務場景下表現拉胯:
- 做完就忘,重復踩坑
- 只記“成功案例”,失敗經驗全丟
- 記憶=原始軌跡堆倉庫,檢索又慢又雜
一句話:沒有“錯題本”的學霸不是真學霸。
2. 核心貢獻速覽
ReasoningBank 能夠歸納出可復用的推理策略,使記憶項在未來任務中更具遷移性。這讓智能體得以持續進化,在 WebArena-Admin 子集上獲得比“無記憶”基線更高的累積成功率

亮點 | 一句話總結 |
ReasoningBank | 把成功+失敗軌跡蒸餾成可遷移的推理策略,人話版“錯題+經驗筆記”。 |
MaTTS | 測試時把算力花在深度探索單任務,生成多樣經驗反哺記憶,形成“越用越聰明”閉環。 |
實驗 | WebArena、Mind2Web、SWE-Bench-Verified 三基準全面 SOTA,成功率最高 ↑34%,步數 ↓16%。 |
3. 方法總覽一張圖看懂

圖 2:閉環記憶流程——檢索 → 執行 → 提煉 → 回存
步驟 | 關鍵設計 |
① 記憶抽取 | LLM-as-a-Judge 先判 success/failure,再蒸餾成 {標題, 描述, 內容} 三元組 |
② 記憶檢索 | 用 Gemini Embedding 做語義檢索,Top-k 相關策略注入系統 prompt |
③ 記憶鞏固 | 新軌跡即時提取并追加到記憶池,零參數更新,線上即用 |
ReasoningBank 記憶格式(3 件套)
字段 | 作用 |
Title | 策略關鍵詞,如“優先檢查分頁控件” |
Description | 一句話摘要 |
Content | 1-3 句可遷移的推理要點,去網站/去查詢泛化 |
失敗軌跡同樣提煉“防坑指南”,首次讓負樣本發光發熱。
4. MaTTS:把算力變成“好記性”

圖 3:Vanilla TTS vs MaTTS 并行/串行 scaling
模式 | 做法 | 好處 |
Parallel | 同一任務跑 k 條軌跡,自對比篩出一致策略 | 越大 k 越香,Best-of-N 從 49.7→55.1 |
Sequential | 單條軌跡多輪自反思,中間筆記也入庫 | 小 k 性價比最高,收斂更快 |
記憶與 scaling 形成雙飛輪:好記憶指引探索 → 多樣探索反哺更好記憶。
5. 實驗結果:數字不說謊
5.1 WebArena 成功率 & 步數

表 1:5 個子域平均,ReasoningBank 穩定領先
- Gemini-2.5-Probackbone:↑7.2% 絕對成功率,步數 ↓1.4
- 跨域 Multi 任務(最硬核):僅 ReasoningBank 還能漲,其他記憶方法直接翻車。
5.2 SWE-Bench-Verified 修 Bug

表 2:代碼補丁分辨率,↑3.4~4.4%,步數 ↓2.8
5.3 Mind2Web 跨站/跨域泛化

表 3:Cross-Domain 成功率翻倍,元素準確率 ↑4.8
6. 失敗樣本有多香?一圖勝千言

圖 7:加入失敗軌跡后,僅 ReasoningBank 能繼續提升(49.7↑from 46.5),其余方法原地踏步甚至掉分
7. 記憶也會“進化”! emergent strategy 案例

圖 6:同一條記憶從“點按鈕”→“自檢元素”→“交叉驗證”逐步長復雜,像 RL 的策略演化
8. 局限 & 未來方向
當前局限 | 未來可卷 |
僅關注記憶內容,未對比層次/ episodic 結構 | 多層記憶 + 自適應檢索 |
LLM-as-a-Judge 可能噪聲 | 引入人類或更強 verifier |
記憶條目線性拼接,無組合推理 | 可組合/可宏調的Memory DSL |
https://arxiv.org/pdf/2509.25140
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory本文轉載自???PaperAgent??

















