AgentKB|卷不動Agent了?給你的Agent加個“經驗包”,提升復雜任務Agent效果
今天分享一篇來自耶魯大學、OPPO、UW-Madison、UNC、斯坦福、字節跳動、微軟研究院、谷歌DeepMind等眾多頂尖機構合作的論文,題目為 AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving(AGENT KB:利用跨域經驗解決智能體問題)。
這篇文章直面當前語言Agent的核心痛點:即難以在不同任務和領域之間有效地復用和遷移經驗,導致在處理復雜問題時效率低下、錯誤頻發 。該框架通過一個創新的 “推理-檢索-精煉”(Reason-Retrieve-Refine) pipeline,讓智能體能夠從過去的問題解決經驗中學習,并將成功的策略應用到新任務中。
該方法的核心思想是構建一個共享的知識庫(Knowledge Base),它不僅存儲了高層次的解題策略,還包含了詳細的執行層面的經驗(其實就是一個經驗庫!!包括workflow級別一級step級別的經驗!!!)。通過一個“教師-學生”雙階段推理模型(學生=>利用workflow級別的經驗提升plan效果,教師=>利用step級別經驗持續優化學生plan的效果,解決任務執行不成功的問題),AGENT KB能夠顯著提升智能體在復雜任務上的表現。在GAIA和SWE-bench等挑戰性基準上,該框架能帶來高達16-19個百分點的性能提升。
一、概述
? Title: AGENT KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
? URL:?? https://arxiv.org/abs/2507.06229v2??
? Authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou
? Code:?? https://github.com/OPPO-PersonalAI/Agent-KB??
1.Motivation
? 當前應用agent時,已有task的經驗無法遷移的其他領域: 當前的語言智能體在處理新類型的任務時,往往需要從零開始,無法有效利用在其他相關領域已經學到的成功策略。
? 當前Agent主要利用workflow級別的經驗(也可以說是其他Agent任務學來的的rules),沒有利用step-level(執行層)的經驗: 現有的記憶或經驗系統通常采用統一的檢索機制,無法區分問題解決不同階段的需求。例如,在初始規劃階段需要高層次的宏觀策略指導,而在執行過程中遇到問題時,則需要針對性的、細粒度的糾錯經驗。現有系統缺乏這種分層檢索能力。
? 當前agent沒有從失敗或者成功的trajectory抽象可泛化的經驗給到其他任務使用: 許多智能體系統僅僅是存儲和回放原始的執行日志,而不是從中抽象出可泛化的、普適的解題原則。這種“死記硬背”式的復用,在新問題與舊經驗只有抽象原則相似而具體細節不同時,往往會失效。
2.Methods
核心思想: 構建一個跨領域的共享“知識大腦”(AGENT KB),讓智能體學會“舉一反三”。該方法分為兩大階段:首先,通過從各種任務的執行日志中抽象和泛化 ,構建一個結構化的知識庫;然后,在解決新問題時,通過一個 “教師-學生” 模型,以“推理-檢索-精煉”(Reason-Retrieve-Refine)的模式從知識庫中獲取指導并進行迭代優化。

詳細方法和步驟:
論文提出的AGENT KB框架包含兩個核心階段:知識庫構建 (AGENT KB Construction) 和 知識庫增強推理 (AGENT KB Enhanced Inference)。

1. AGENT KB 構建階段 (左圖部分):
? 數據收集與抽象: 從多個來源(如BrowseComp, HopRAG, SWE-Bench等)收集智能體解決任務時的原始執行日志(包括成功和失敗的案例)。
? 經驗泛化: 通過自動化(使用LLM和預設模板)和人工標注(分析常見失敗模式)相結合的方式,將原始日志抽象成結構化的、可泛化的“經驗”單元。每個經驗單元包含問題模式(π)、目標(γ)、抽象后的解決方案(S)和上下文(C)等。這一步的目標是丟棄實現細節,保留核心的解題策略和模式。
? 知識庫存儲與索引: 將這些結構化的經驗存儲在一個知識庫中,并進行索引,以便快速檢索。
2. AGENT KB 增強推理階段 (右圖部分):該階段采用一個創新的 “教師-學生”雙階段推理 架構,并貫穿 “推理-檢索-精煉” (Reason-Retrieve-Refine, RRR) 的循環。
學生智能體 (Student Agent) - 宏觀規劃(利用workflow級別的經驗):

? Reason (推理): 當接收到一個新任務時,學生智能體首先對問題進行初步分析。
? Retrieve (檢索): 基于初步分析,從AGENT KB中檢索高層次的、與工作流相關的經驗模式(Workflow-level patterns),相當于尋找解決類似問題的“大綱”或“模板”。
? Refine (精煉): 結合檢索到的經驗,形成一個初始的、結構化的行動計劃。
執行與教師介入: 執行智能體按照學生制定的計劃開始執行任務。執行完畢后(無論成功或失敗),其執行軌跡(log)會被提交給教師智能體。
教師智能體 (Teacher Agent) - 微觀糾錯(利用step級別的經驗指導運行):

? Reason (推理): 教師智能體分析執行軌跡,定位其中可能存在的錯誤、低效或不精確的步驟。
? Retrieve (檢索): 針對這些具體問題,從AGENT KB中檢索細粒度的、與具體執行步驟相關的經驗(Step-level patterns),相當于查找“糾錯手冊”或“最佳實踐”。
? Refine (精煉): 教師智能體將這些細粒度的經驗整合成具體的、有針對性的指導意見,并反饋給學生智能體。
迭代優化: 學生智能體接收到教師的反饋后,會更新其計劃并進行第二輪嘗試,從而實現性能的迭代提升。
3.Conclusion
? 顯著提升智能體性能: AGENT KB框架在多個基準測試(GAIA和SWE-bench)和多種基礎模型(GPT-4.1, Claude-3.7等)上都取得了顯著的性能提升。例如,在GAIA高難度任務上,Claude-3.7的成功率從38.46%提升至57.69%;在SWE-bench代碼修復任務上,成功率提升了12.0個百分點。
GAIA表現提升不錯:

SWE表現也還可以:

? 驗證了分層經驗框架的有效性: “教師-學生”模型和雙階段的“推理-檢索-精煉”流程被證明是有效的。學生智能體負責宏觀規劃,教師智能體負責微觀糾錯,二者互補,共同提升了問題解決的質量和魯棒性。

? 實現了可泛化的跨域知識遷移: 通過將原始經驗抽象為通用模式,AGENT KB成功地讓智能體能夠將在一個領域學到的知識應用到另一個看似不同的領域,打破了經驗孤島(當時好像沒有這塊的消融啊?KB里面是用的哪個領域的知識呢??)。
4. Limitation
? 可擴展性問題: 隨著知識庫中經驗條目的增多(從數千到數百萬),當前的檢索機制(基于相似度計算)可能會面臨性能瓶頸,檢索延遲會增加,影響實時應用。
? 知識質量與過時問題: 自動生成的經驗可能包含難以察覺的細微缺陷。同時,系統缺乏一個自動“淘汰”或更新過時、低效策略的機制,可能導致知識庫中積累次優解。
? 跨域遷移的邊界: 當兩個領域的結構相似性很低時,知識遷移的效果會大打折扣。此外,框架的效果可能受限于預訓練大模型本身的能力,對模型未充分學習過的冷門或專業領域可能表現不佳。
? 知識覆蓋不完整: 當前知識庫的領域覆蓋仍然有限,在處理需要深度融合多個領域專業知識的交叉學科任務時,可能會因知識的缺失而導致推理錯誤。
5 Future Work
? 發展因果推理框架: 不僅知道某個策略有效,還要理解“為什么”有效。通過將經驗分解為因果鏈,智能體可以更靈活地組合因果片段來創造全新的解決方案。
? 集成持續學習機制: 將AGENT KB從靜態知識庫變為一個動態演化的系統。系統可以根據部署后的實際效果自動更新和優化知識庫中的策略。
? 探索跨智能體知識遷移的理論基礎: 借鑒領域自適應、元學習等理論,為經驗的可遷移性建立形式化框架,從而實現更精準、更可靠的知識檢索與遷移。
二、詳細內容
1.AGENT KB不同組件的消融結果

image-20250714114854925
? 說明: 該表展示了移除AGENT KB中不同組件(如學生代理、教師代理、推理模塊、檢索模塊、精煉模塊或使用原始工作流)后,在GAIA和SWE-bench上的性能表現。
? 總結1: 移除學生代理或教師代理都會導致性能下降,同時refine的移除導致整體準確率下降6.06個百分點,說明細粒度錯誤糾正的必要性。
? 總結2: 檢索模塊的移除也導致顯著的性能下降,表明知識接地對AGENT KB的有效性至關重要。
2.Agent KB相關詳細信息
1) Data template

2 )KB知識的來源

3)一些Experimence Example

4)生成KB的prompt

3 .Case Study
1)Student Agent的Plan的refine過程

2)Teacher Agent繼續利用step級別的經驗來refine

三、總結
亮點1: 構建了可泛化、可遷移的跨域經驗知識庫(AGENT KB),讓智能體學會“舉一反三”從已有執行經驗中學習。 通過將原始Agent執行日志“抽象化”,提取出通用的問題解決模式和策略。這使得智能體能夠從一個龐大的、集體共享的知識庫中學習,打破了以往智能體之間“經驗無法互通”的壁壘。
亮點2: “教師-學生”雙階段推理框架,有效模擬了專家學徒式的學習過程。 這種架構將復雜的解題過程分解為宏觀規劃(學生利用workflow經驗)和微觀糾錯(教師利用step級別執行經驗)兩個階段,每個階段使用不同的經驗粒度進行檢索和精煉。這比單一的檢索增強范式更加精細和高效,尤其擅長處理需要多步復雜推理的任務。
亮點3: 在GAIA以及SWE-bench兩個非常難的任務上取得非常大的效果的提升。 論文在GAIA(通用AI助手)和SWE-bench(軟件工程)這兩個不同領域的權威基準上都取得了SOTA級別的性能提升。同時,該框架也可以應用在多種不同的LLM任務上。
? 產業應用價值: AGENT KB為構建能夠持續學習和自我進化的企業級AI系統提供了現實可行的藍圖。
? 企業知識沉淀: 可用于構建企業內部的“專家智能體”,將資深員工的解題經驗和工作流沉淀為結構化知識,供新員工或其他AI助手學習,減少重復性試錯,加速新員工培訓。
? 自動化工作流優化: 在軟件開發、客戶支持、數據分析等領域,可以利用AGENT KB自動收集和優化最佳實踐工作流,構建更智能、更可靠的自動化工具。
轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

















