比Genimi 3早發布的這篇Google論文更有意思！

PaperAgent

發布于 2025-11-20 06:32

瀏覽

0收藏

今天Google Gemini 3發了！在推理、多模態理解和智能體Agent能力上全面躍升，幾乎全面 SOTA

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

今天分享一篇Google近期有意思的論文：ReasoningBank

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

1. LLM 智能體“金魚記憶”

當前大模型智能體在長周期、多任務場景下表現拉胯：

做完就忘，重復踩坑
只記“成功案例”，失敗經驗全丟
記憶=原始軌跡堆倉庫，檢索又慢又雜

一句話：沒有“錯題本”的學霸不是真學霸。

2. 核心貢獻速覽

ReasoningBank 能夠歸納出可復用的推理策略，使記憶項在未來任務中更具遷移性。這讓智能體得以持續進化，在 WebArena-Admin 子集上獲得比“無記憶”基線更高的累積成功率

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

亮點	一句話總結
ReasoningBank	把成功+失敗軌跡蒸餾成可遷移的推理策略，人話版“錯題+經驗筆記”。
MaTTS	測試時把算力花在深度探索單任務，生成多樣經驗反哺記憶，形成“越用越聰明”閉環。
實驗	WebArena、Mind2Web、SWE-Bench-Verified 三基準全面 SOTA，成功率最高 ↑34%，步數 ↓16%。

3. 方法總覽一張圖看懂

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

圖 2：閉環記憶流程——檢索 → 執行 → 提煉 → 回存

步驟	關鍵設計
① 記憶抽取	LLM-as-a-Judge 先判 success/failure，再蒸餾成 {標題, 描述, 內容} 三元組
② 記憶檢索	用 Gemini Embedding 做語義檢索，Top-k 相關策略注入系統 prompt
③ 記憶鞏固	新軌跡即時提取并追加到記憶池，零參數更新，線上即用

ReasoningBank 記憶格式（3 件套）

字段	作用
Title	策略關鍵詞，如“優先檢查分頁控件”
Description	一句話摘要
Content	1-3 句可遷移的推理要點，去網站/去查詢泛化

失敗軌跡同樣提煉“防坑指南”，首次讓負樣本發光發熱。

4. MaTTS：把算力變成“好記性”

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

圖 3：Vanilla TTS vs MaTTS 并行/串行 scaling

模式	做法	好處
Parallel	同一任務跑 k 條軌跡，自對比篩出一致策略	越大 k 越香，Best-of-N 從 49.7→55.1
Sequential	單條軌跡多輪自反思，中間筆記也入庫	小 k 性價比最高，收斂更快

記憶與 scaling 形成雙飛輪：好記憶指引探索 → 多樣探索反哺更好記憶。

5. 實驗結果：數字不說謊

5.1 WebArena 成功率 & 步數

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

表 1：5 個子域平均，ReasoningBank 穩定領先

Gemini-2.5-Probackbone：↑7.2% 絕對成功率，步數 ↓1.4
跨域 Multi 任務（最硬核）：僅 ReasoningBank 還能漲，其他記憶方法直接翻車。

5.2 SWE-Bench-Verified 修 Bug

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

表 2：代碼補丁分辨率，↑3.4~4.4%，步數 ↓2.8

5.3 Mind2Web 跨站/跨域泛化

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

表 3：Cross-Domain 成功率翻倍，元素準確率 ↑4.8

6. 失敗樣本有多香？一圖勝千言

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

圖 7：加入失敗軌跡后，僅 ReasoningBank 能繼續提升（49.7↑from 46.5），其余方法原地踏步甚至掉分

7. 記憶也會“進化”！ emergent strategy 案例

比Genimi 3早發布的這篇Google論文更有意思！-AI.x社區

圖 6：同一條記憶從“點按鈕”→“自檢元素”→“交叉驗證”逐步長復雜，像 RL 的策略演化

8. 局限 & 未來方向

當前局限	未來可卷
僅關注記憶內容，未對比層次/ episodic 結構	多層記憶 + 自適應檢索
LLM-as-a-Judge 可能噪聲	引入人類或更強 verifier
記憶條目線性拼接，無組合推理	可組合/可宏調的Memory DSL

https://arxiv.org/pdf/2509.25140
ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

本文轉載自???PaperAgent??

標簽

Genimi 3

Google

LLM

贊

回復

舉報

回復

相關推薦

大佬怎么看OpenAI 和Google 本周相繼發布的模型及未來發展的？

angel ? 4066瀏覽 ? 0回復
微軟研究院MRP：大模型動態選擇最佳解題策略的元推理提示，比CoT、ToT更有效

PaperAgent ? 5473瀏覽 ? 0回復
ACL2024 | NLP-KG：一個比Google Scholar更強大的NLP文獻搜索工具

Tang_Lan ? 5363瀏覽 ? 0回復
只要一張圖就能「還原」繪畫過程，這篇論文比爆火的Paints-UNDO實現得更早

輕薄滴假象 ? 3841瀏覽 ? 0回復
谷歌發布Imagen 3，超過SD3、DALL?E-3

Aceryt ? 3684瀏覽 ? 0回復
論文解讀：Expressive Whole-Body 3D Gaussian Avatar

智能交互引擎 ? 4193瀏覽 ? 0回復
為什么 Cursor 們讓開發者的技能更有價值，而不是被取代？

凝固的雨_1 ? 3852瀏覽 ? 0回復
谷歌AI發布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 7958瀏覽 ? 0回復
人工智能可能永遠無法擁有意識

ceesoft ? 4207瀏覽 ? 0回復
Google 發布了用于視頻生成的最先進的“Veo 2”和用于圖像創建的“Improved Imagen 3”

Halo咯咯 ? 3665瀏覽 ? 0回復
AMD發布科研Agent，論文自動化評分趨近頂會NeurIPS水平！

PaperAgent ? 3943瀏覽 ? 0回復
OmniThink：如何讓 LLM 寫出有更有深度的文章

大語言模型論文跟蹤 ? 3502瀏覽 ? 0回復
Google AI發布Gemini 2.0 Flash Thinking 模型

Halo咯咯 ? 4057瀏覽 ? 0回復
理解什么是AI Agent，看懂這篇就夠了

AIGC新知 ? 5016瀏覽 ? 0回復
Google Gemma 3：性能“炸裂”還是榜單優化？

amei2000go ? 6024瀏覽 ? 0回復
小而精的力量：Google 發布 Gemma 3 270M，讓 AI 微調進入高效時代

Halo咯咯 ? 3640瀏覽 ? 0回復
Google 發布 EmbeddingGemma：3 億參數小模型，MTEB 排名第一，能跑在手機上的文本嵌入神器

Halo咯咯 ? 5523瀏覽 ? 0回復
Meta這兩篇最新Agent Learning論文，有些意思！

PaperAgent ? 332瀏覽 ? 0回復
這篇論文說：能做研究，但風險不小

sbf_2000 ? 281瀏覽 ? 0回復

PaperAgent

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

比Genimi 3早發布的這篇Google論文更有意思！

1. LLM 智能體“金魚記憶”

2. 核心貢獻速覽

3. 方法總覽一張圖看懂

ReasoningBank 記憶格式（3 件套）

4. MaTTS：把算力變成“好記性”

5. 實驗結果：數字不說謊

5.1 WebArena 成功率 & 步數

5.2 SWE-Bench-Verified 修 Bug

5.3 Mind2Web 跨站/跨域泛化

6. 失敗樣本有多香？一圖勝千言

7. 記憶也會“進化”！ emergent strategy 案例

8. 局限 & 未來方向

目錄