Anthropic 工程實踐《如何構建多智能體研究系統》
一、多智能體系統的優點
- 應對研究工作的不可預測性:研究工作通常面臨開放性問題,難以提前預知所需步驟。多智能體系統能夠根據調查過程中出現的新線索動態調整研究方向,與人類研究者類似,自主決策探索路徑,適應復雜多變的研究主題,避免了線性、一次性流程的局限性。
- 促進信息壓縮與專注:子智能體通過并行處理不同問題方面,利用各自獨立的上下文窗口,同時探索問題的多個維度,之后提煉出重要信息傳遞給主研究智能體,實現對海量信息的高效壓縮,同時各子智能體獨立運行,減少路徑依賴,保障研究的全面性與獨立性。
- 性能擴展優勢:當個體智能達到一定水平后,多智能體系統通過協同合作可實現性能的指數級增長,如同人類社會在信息時代因集體智慧和協作能力而取得的飛速發展。內部評估顯示,以 Claude Opus 4 為主智能體、Claude Sonnet 4 為子智能體的多智能體系統,在處理需要同時探索多個獨立方向的廣度優先查詢任務時,性能超出單智能體 Claude Opus 4 達 90.2%。
- 充分利用令牌資源:分析發現,在 BrowseComp 評估中,令牌使用量可解釋 80% 的性能差異,多智能體架構通過將任務分配給具有獨立上下文窗口的多個智能體,增加并行推理能力,有效擴展令牌使用,最新 Claude 模型在提升令牌使用效率方面也發揮了顯著的乘數效應。
二、架構概述

- 編排 - 工作者模式:采用主智能體協調、子智能體并行工作的架構。用戶提交查詢后,主智能體分析查詢、制定策略并創建子智能體,子智能體同時探索問題的不同方面,充當智能過濾器,通過迭代使用搜索工具收集信息并返回給主智能體,最終由主智能體整合結果并生成最終回答,區別于傳統靜態檢索的檢索增強生成(RAG)方法,該架構通過多步搜索動態發現相關信息。
- 詳細工作流程:以 LeadResearcher 為主智能體,先在內存中保存計劃,避免上下文窗口超限時丟失計劃,然后創建多個子智能體,子智能體獨立進行網絡搜索、評估工具結果并返回發現,LeadResearcher 根據返回結果決定是否需要進一步研究,可創建更多子智能體或優化策略,最終將所有發現傳遞給 CitationAgent 處理引用,確?;卮饻蚀_引用來源。
三、提示工程與智能體評估

- 像智能體一樣思考:通過模擬工具觀察智能體基于提示和工具的每一步操作,及時發現智能體的錯誤模式,如過度搜索、查詢過于冗長等,以準確的心理模型為基礎,針對性地優化提示。
- 教會協調者如何分配任務:主智能體需將查詢分解為子任務并清晰描述給子智能體,包括目標、輸出格式、工具和來源使用指南及任務邊界等,避免子智能體重復工作或遺漏信息,早期因任務描述簡單模糊導致子智能體誤解任務或執行相同搜索,后來通過詳細描述提升了任務分配的有效性。
- 根據查詢復雜度調整努力程度:在提示中嵌入努力程度的調整規則,明確不同類型任務所需的智能體數量和工具調用次數,使主智能體能高效分配資源,防止在簡單查詢上過度投入。
- 工具設計與選擇至關重要:智能體與工具的接口如同人機接口般關鍵,為智能體提供明確的工具使用啟發式規則,如優先檢查所有可用工具、匹配工具使用與用戶意圖等,同時確保工具描述清晰準確,以避免智能體因工具描述不佳而誤用工具。
- 讓智能體自我改進:Claude 4 模型具備優秀的提示工程能力,可診斷智能體失敗原因并提出改進建議,通過創建工具測試智能體,發現工具關鍵細節和問題,優化工具描述,顯著縮短后續智能體完成任務的時間。
- 先廣泛搜索再逐步縮小范圍:引導智能體采取與專家人類研究員類似的搜索策略,先進行簡短、廣泛的查詢,評估可用信息后再逐步聚焦,避免智能體直接使用過長、過于具體的查詢導致結果過少。
- 引導思考過程:利用擴展思考模式作為可控的草稿紙,主智能體借助思考規劃方法,子智能體在工具結果后進行交錯思考,評估質量、識別差距并優化下次查詢,提升智能體在適應任務方面的效果。
- 并行工具調用的優勢:復雜研究任務涉及多信息源探索,早期智能體的串行搜索效率低下,引入主智能體并行創建多個子智能體以及子智能體并行使用多個工具的方式,大幅縮短了復雜查詢的研究時間,提高了信息覆蓋范圍。
四、對智能體的有效評估
- 立即開始小樣本評估:在智能體開發早期,小規模測試案例就能顯著展現提示調整等變更的影響,及時發現低垂果實般的顯著提升效果,避免因等待大規模評估而延誤優化時機。
- 大規模有效利用大型語言模型(LLM)作為評判者:研究輸出通常為自由形式文本且答案不唯一,LLM 適合用于評判輸出,可依據評分標準評估輸出的準確性、引用準確性、完整性、來源質量和工具效率等多方面,通過單次 LLM 調用輸出分數和通過 / 失敗等級,實現與人類判斷高度一致且可擴展的評估方式。
- 人工評估彌補自動化不足:人工測試能發現自動化評估遺漏的邊緣情況,如智能體在特殊查詢上產生幻覺答案、系統故障或存在細微的來源選擇偏差等,有助于針對性地優化智能體的提示等,完善智能體的行為表現。
五、生產可靠性與工程挑戰

- 智能體的狀態保持與錯誤處理:智能體在長時間運行中需保持狀態,為此要可靠地執行代碼并處理錯誤,構建可在錯誤發生后從中斷處恢復的系統,并借助模型的智能讓智能體在工具失敗等情況下靈活適應,結合重試邏輯和定期檢查點等確定性保障措施。
- 調試新方法的需求:智能體的動態決策和非確定性增加了調試難度,添加全面的生產追蹤功能,監測智能體的決策模式和交互結構等,幫助診斷智能體失敗原因,系統性地解決問題。
- 部署的協調問題:智能體系統是高度狀態化的持續運行系統,部署更新時需防止新代碼破壞正在運行的智能體,采用彩虹部署策略,逐步將流量從舊版本轉移到新版本,確保更新過程的平穩過渡。
- 同步執行的瓶頸與異步執行的挑戰:目前主智能體的同步執行方式造成信息流瓶頸,而異步執行雖能增加并行性,卻也帶來了結果協調、狀態一致性和錯誤傳播等新的挑戰,未來隨著模型能力提升,異步執行的性能優勢將更受重視。
六、總結
構建多智能體系統從原型到生產面臨諸多挑戰,如:代碼的生產化改造、錯誤的級聯效應、狀態管理等,但這些系統在開放式研究任務中展現出巨大價值。
通過精心的工程設計、全面的測試、細致的提示與工具設計、穩健的運營實踐以及跨部門協作,能夠可靠地大規模運行,為用戶解決復雜問題帶來變革,如發現商業機會、輔助醫療決策、解決技術難題等。
七、額外建議
- 具有狀態變化的智能體的最終狀態評估:評估多輪對話中修改持久狀態的智能體時,聚焦于最終狀態而非每輪交互,對于復雜工作流,可設置離散檢查點,確保各階段狀態變化符合預期。
- 長期對話管理:生產智能體在超長對話中需智能壓縮和存儲記憶,采用總結已完成工作階段、外部存儲關鍵信息等策略,必要時創建新子智能體并保持對話連貫性。
- 子智能體輸出至文件系統以減少信息失真:通過文件系統獨立存儲子智能體輸出,僅向協調智能體傳遞輕量級引用,避免信息在多階段處理中丟失,同時降低對話歷史中的令牌開銷,特別適用于結構化輸出的生成。
本文轉載自????CourseAI????,作者:CourseAI
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















