Agent 2.0:從淺層循環(huán)到深度智能體
在過去的一年里,構(gòu)建一個(gè) AI 智能體通常意味著一件事:設(shè)置一個(gè) while 循環(huán),接收用戶提示,將其發(fā)送給 LLM,解析工具調(diào)用,執(zhí)行工具,將結(jié)果發(fā)送回去,然后重復(fù)。這就是我們所說的淺層智能體或 Agent 1.0。
這種架構(gòu)對(duì)于像“東京的天氣怎么樣,我該穿什么?”這樣的事務(wù)性任務(wù)來說非常簡(jiǎn)單,但是當(dāng)被要求執(zhí)行一個(gè)需要三天50個(gè)步驟的任務(wù)時(shí),它們總是會(huì)分心、丟失上下文、進(jìn)入無限循環(huán),或者因?yàn)槿蝿?wù)需要太多步驟而超出單個(gè)上下文窗口的限制而產(chǎn)生幻覺。
我們正在目睹向深度智能體(Deep Agents)或 Agent 2.0 的架構(gòu)轉(zhuǎn)變。這些系統(tǒng)不僅僅是在循環(huán)中做出反應(yīng)。它們結(jié)合了智能體模式(agentic patterns)來進(jìn)行規(guī)劃、管理持久化內(nèi)存/狀態(tài),并將工作委托給專門的子智能體(sub-agents)來解決多步驟的復(fù)雜問題。

Agent 1.0:“淺層”循環(huán)的局限性
要理解我們要去向何方,我們必須首先了解我們現(xiàn)在的位置。今天的大多數(shù)智能體都是“淺層”的。這意味著它們完全依賴 LLM 的上下文窗口(對(duì)話歷史)作為其狀態(tài)。
- 用戶提示:“查找蘋果股票的價(jià)格,并告訴我是否值得購買。”
- LLM 推理:“我需要使用搜索工具。”
- 工具調(diào)用:?
?search("AAPL stock price")?? - 觀察:工具返回?cái)?shù)據(jù)。
- LLM 回答:根據(jù)觀察生成響應(yīng)或調(diào)用另一個(gè)工具。
- 重復(fù):循環(huán)直到完成。
這種架構(gòu)是無狀態(tài)和短暫的。智能體的整個(gè)“大腦”都在上下文窗口之內(nèi)。當(dāng)任務(wù)變得復(fù)雜時(shí),例如“研究10個(gè)競(jìng)爭(zhēng)對(duì)手,分析他們的定價(jià)模型,制作一個(gè)比較電子表格,并撰寫一份戰(zhàn)略摘要”,它將會(huì)失敗,原因如下:
- 上下文溢出:歷史記錄被工具輸出(HTML、雜亂的數(shù)據(jù))填滿,將指令推出了上下文窗口。
- 目標(biāo)丟失:在中間步驟的噪音中,智能體忘記了最初的目標(biāo)。
- 沒有恢復(fù)機(jī)制:如果它鉆進(jìn)了一個(gè)死胡同,它很少有遠(yuǎn)見去停止、回溯并嘗試一種新方法。
淺層智能體擅長處理需要5-15個(gè)步驟的任務(wù)。它們?cè)谔幚硇枰?00個(gè)步驟的任務(wù)時(shí)則表現(xiàn)糟糕。
Agent 2.0(深度智能體)的架構(gòu)
深度智能體將規(guī)劃與執(zhí)行解耦,并在上下文窗口之外管理內(nèi)存。該架構(gòu)包含四大支柱。
支柱 1:顯式規(guī)劃
淺層智能體通過思維鏈(“我應(yīng)該先做 X,然后做 Y”)進(jìn)行隱式規(guī)劃。深度智能體使用工具來創(chuàng)建和維護(hù)一個(gè)顯式計(jì)劃,這可以是一個(gè) Markdown 文檔中的待辦事項(xiàng)列表。
在每一步之間,智能體會(huì)審查和更新這個(gè)計(jì)劃,將步驟標(biāo)記為待處理、進(jìn)行中或已完成,或添加備注。如果一個(gè)步驟失敗了,它不會(huì)只是盲目重試,它會(huì)更新計(jì)劃以適應(yīng)這個(gè)失敗。這使智能體能夠?qū)W⒂诟呒?jí)別任務(wù)。
支柱 2:分層委托(子智能體)
復(fù)雜的任務(wù)需要專業(yè)化。淺層智能體試圖在一個(gè)提示中成為萬事通。深度智能體利用“編排器 → 子智能體”的模式。
編排器將任務(wù)委托給具有干凈上下文的子智能體。子智能體(例如,“研究員”、“程序員”、“寫作者”)執(zhí)行其工具調(diào)用循環(huán)(搜索、出錯(cuò)、重試),編制最終答案,并且只將綜合后的答案返回給編排器。
支柱 3:持久化內(nèi)存
為了防止上下文窗口溢出,深度智能體利用外部內(nèi)存源,如文件系統(tǒng)或向量數(shù)據(jù)庫,作為其事實(shí)的來源。像 Claude Code 和 Manus 這樣的框架給予智能體對(duì)它們的??讀???/??寫??訪問權(quán)限。一個(gè)智能體寫入中間結(jié)果(代碼、草稿文本、原始數(shù)據(jù))。后續(xù)的智能體通過引用文件路徑或查詢來僅檢索必要的內(nèi)容。這將范式從“記住一切”轉(zhuǎn)變?yōu)椤爸涝谀睦镎业叫畔ⅰ薄?/p>
支柱 4:極致的上下文工程
更智能的模型并不需要更少的提示,它們需要更好的上下文。你無法用“你是一個(gè)有用的 AI”這樣的提示來獲得 Agent 2.0 的行為。深度智能體依賴于有時(shí)長達(dá)數(shù)千個(gè) token 的高度詳細(xì)的指令。這些指令定義了:
- 識(shí)別何時(shí)應(yīng)該在行動(dòng)前停止并規(guī)劃。
- 何時(shí)生成子智能體 vs. 自己完成工作的協(xié)議。
- 工具定義以及如何和何時(shí)使用的示例。
- 文件命名和目錄結(jié)構(gòu)的標(biāo)準(zhǔn)。
- 用于人機(jī)協(xié)作的嚴(yán)格格式。
可視化深度智能體流程
這些支柱是如何結(jié)合在一起的?讓我們來看一個(gè)深度智能體處理復(fù)雜請(qǐng)求的序列圖:“研究量子計(jì)算并撰寫一份摘要到文件中。”

結(jié)論
從淺層智能體到深度智能體(Agent 1.0 到 Agent 2.0)的轉(zhuǎn)變,不僅僅是把 LLM 連接到更多的工具上。這是從反應(yīng)式循環(huán)到主動(dòng)式架構(gòu)的轉(zhuǎn)變。這是關(guān)于圍繞模型進(jìn)行更好的工程設(shè)計(jì)。
通過實(shí)施顯式規(guī)劃、通過子智能體進(jìn)行分層委托以及使用持久化內(nèi)存,我們得以控制上下文,而通過控制上下文,我們就控制了復(fù)雜性,從而解鎖了解決需要數(shù)小時(shí)或數(shù)天,而不僅僅是數(shù)秒鐘的問題的能力。
原文鏈接:???https://www.philschmid.de/agents-2.0-deep-agents??
本文轉(zhuǎn)載自??草臺(tái)AI??,作者:RangerEX

















