從日志到策略:AGENT KB 如何讓智能體無訓練學會“舉一反三”

大家好,我是肆〇柒。當下,盡管大語言模型(LLM)驅動的智能體在任務自動化、工具調用和多步推理方面取得了顯著進展,但其在復雜長期任務中的表現仍受限于錯誤糾正能力不足與缺乏可復用的高層策略。當前智能體無法有效學習彼此的問題解決經驗,也無法利用過去的成功來指導新任務中的自我反思和錯誤糾正。
正如研究者所指出的:"當前智能體,不能有效地從彼此的問題解決經驗中學習或使用過去的成功,來指導新任務中的自我反思和糾正錯誤。"這一核心挑戰源于傳統方法的局限:它們往往依賴于即時提示工程或簡單的記憶回放,難以從執行軌跡中提煉出可遷移的"經驗",更無法將這些經驗結構化為可檢索、可適配的知識。智能體系統缺乏一種機制,能夠像人類專家那樣,將零散的實踐積累轉化為系統化的專業知識庫。
本文將介紹由耶魯大學、OPPO、威斯康星大學、北卡羅來納大學、斯坦福大學、字節跳動、南京大學、All Hands AI、DeepWisdom、微軟研究院、Google DeepMind多家高校和機構聯合研發的AGENT KB(Agent Knowledge Base),這是一個極具創新性的智能體經驗知識庫系統。它通過三大核心創新機制,解決了AI智能體的"一次性學習"瓶頸:
1. 經驗抽象化:將原始執行日志提煉為可泛化的策略模式,實現跨任務、跨領域的知識遷移
2. 雙階段檢索:學生智能體檢索工作流級模式提供戰略指導,教師智能體檢索步驟級模式進行執行精煉
3. 自適應精煉:動態調整檢索到的經驗,解決新舊任務間的差異,實現精準應用
這些創新使AGENT KB能夠在無需重新訓練模型的情況下,顯著提升智能體在復雜任務中的表現。在GAIA通用任務和SWE-bench代碼修復任務中,平均提升5-19%的準確率,尤其對復雜任務(Level 3)效果顯著。

AGENT KB在不同難度級別上的性能提升
上圖:AGENT KB增強的多種基礎LLM在不同難度級別上的分數提升百分比,直觀展示了系統在復雜任務上的顯著優勢
本文將解析AGENT KB的設計哲學與技術實現,展示它如何讓智能體像人類專家一樣,從每一次失敗與成功中汲取智慧,實現真正的"持續學習"。這不僅代表了智能體技術的重要演進,更為構建具備累積學習能力的AI系統提供了可行路徑。
AGENT KB的核心理念:將執行日志轉化為可泛化的經驗
從原始日志到抽象經驗的范式轉變
傳統智能體系統通常將完整的執行軌跡(包括工具調用序列、中間推理步驟)作為"記憶"存儲。這種方法存在明顯缺陷:知識冗余、難以復用、且受限于特定框架的實現細節。
AGENT KB采取了截然不同的思路——引入經驗抽象管道(Experience Abstraction Pipeline),將原始日志轉換為標準化的推理模板。這一抽象過程的核心在于剝離具體實現細節,保留問題解決的本質模式。例如,當多個任務涉及"查找特定年份的學術論文"時,系統會識別出共同的模式:"分解復雜查詢→按時間排序→驗證最早條目",而非僅僅記住針對某個特定論文的DBLP查詢指令。
經驗抽象管道包含四個關鍵步驟:
1. 任務特征提取:識別任務的關鍵屬性和約束條件
2. 問題模式識別:將具體問題映射到通用問題類別
3. 解決方案模式提取:從執行軌跡中提取可復用的策略序列
4. 經驗標準化表示:將提取的模式轉化為結構化知識單元
這種系統化的抽象過程確保了知識的通用性和可遷移性,使智能體能夠將從一個領域學到的經驗應用于看似不同但本質相似的其他領域。
從抽象經驗到實際效果:PDB距離計算案例
下圖展示了AGENT KB如何將抽象經驗轉化為實際問題解決能力。在蛋白質結構分析任務中:

AGENT KB在PDB距離計算任務中的實際效果
上圖:PDB距離計算工作流對比。A) 原始工作流:無差別讀取前兩條記錄,常選擇溶劑記錄,產生錯誤的O-H距離(0.961?)。B) AGENT KB增強工作流:應用經驗驅動規則——過濾ANISOU/HETATM記錄,僅使用真正的ATOM條目并進行合理性檢查,正確提取主鏈N-CA對并報告1.456?的距離。
這一案例清晰展示了抽象經驗如何指導智能體避免常見陷阱,實現精準計算。AGENT KB從歷史經驗中學習到"過濾記錄類型"和"鍵長范圍檢查"等關鍵策略,并將其應用于新任務。值得注意的是,這些經驗不僅解決了當前問題,還形成了可復用的知識單元,為未來類似任務提供指導。
經驗表示的結構化設計
AGENT KB中的每條經驗都遵循統一的數據模板:
{
"question": "<問題描述>",
"agent_plan": "<智能體原始計劃>",
"agent_experience": "<詳細智能體經驗>"
}這種結構化表示確保了不同框架(如OpenHands、Smolagents)生成的經驗可以統一管理與檢索。例如,在SWE-bench任務中,當處理代碼修復問題時,系統會提取問題描述、模型生成的修復計劃以及修復過程中的關鍵經驗,形成可復用的知識單元。
經驗抽象過程
經驗抽象過程包含多個關鍵步驟:
1. 日志預處理:歸一化工具名稱、參數格式,去除框架特定實現細節
2. 推理模板填充:通過定義的模板槽位(slots)結構化問題分解邏輯
3. LLM驅動的經驗生成:使用少樣本提示(few-shot prompting)引導模型生成語義一致的經驗條目
研究者特別強調:"不是存儲原始執行日志,AGENT KB維護抽象的推理模式,捕獲可泛化的問題解決策略,創建更高效、可轉移的知識結構。"這一設計使得知識庫能夠超越具體實現,聚焦于問題解決的通用原則。
為什么抽象是關鍵?
抽象之所以成為AGENT KB的核心,是因為它解決了跨任務遷移的根本障礙。通過屏蔽低層次實現差異,系統保留了高階問題解決策略(如"將多約束問題拆解為獨立驗證步驟"),從而支持跨任務、跨領域的知識遷移。

不同模型在GAIA和SWE-bench上的性能對比
上圖:四種教師和學生智能體模型(GPT-4.1、GPT-4o、o3-mini和Claude-3.7-sonnet)在GAIA和SWE-bench lite基準測試上的性能比較,證明AGENT KB對不同基礎模型均有提升效果
實驗結果證實了這一方法的有效性:在GAIA基準測試中,使用抽象經驗的智能體在Level 3復雜任務上表現尤為突出(58.14% vs 基線53.49%)。這表明,當任務復雜度增加時,高層策略的指導價值更加顯著。
知識組織:構建經驗的層次化知識圖譜
超越扁平索引:經驗之間的語義關系建模
AGENT KB 既是一個經驗集合,更是一個層次化的知識結構。每條經驗E被編碼為多面嵌入:,其中:
- 代表問題模式嵌入
- 代表目標嵌入
- 代表解決方案步驟嵌入
- 代表上下文嵌入(可選)
這種形式化表示使得系統能夠精確捕捉經驗的多維特性。可以把多面嵌入想象成一個經驗的"多維身份證"——問題模式嵌入是"長相",目標嵌入是"職業",解決方案步驟嵌入是"技能",上下文嵌入是"社交圈"。當系統需要找類似經驗時,它會綜合比對這些維度,而不僅僅是看表面關鍵詞。


































