Agent 2.0：從淺層循環(huán)到深度智能體

發(fā)布于 2025-11-24 00:23

瀏覽

0收藏

在過去的一年里，構(gòu)建一個(gè) AI 智能體通常意味著一件事：設(shè)置一個(gè) while 循環(huán)，接收用戶提示，將其發(fā)送給 LLM，解析工具調(diào)用，執(zhí)行工具，將結(jié)果發(fā)送回去，然后重復(fù)。這就是我們所說的淺層智能體或 Agent 1.0。

這種架構(gòu)對(duì)于像“東京的天氣怎么樣，我該穿什么？”這樣的事務(wù)性任務(wù)來說非常簡(jiǎn)單，但是當(dāng)被要求執(zhí)行一個(gè)需要三天50個(gè)步驟的任務(wù)時(shí)，它們總是會(huì)分心、丟失上下文、進(jìn)入無限循環(huán)，或者因?yàn)槿蝿?wù)需要太多步驟而超出單個(gè)上下文窗口的限制而產(chǎn)生幻覺。

我們正在目睹向深度智能體（Deep Agents）或 Agent 2.0 的架構(gòu)轉(zhuǎn)變。這些系統(tǒng)不僅僅是在循環(huán)中做出反應(yīng)。它們結(jié)合了智能體模式（agentic patterns）來進(jìn)行規(guī)劃、管理持久化內(nèi)存/狀態(tài)，并將工作委托給專門的子智能體（sub-agents）來解決多步驟的復(fù)雜問題。

Agent 2.0：從淺層循環(huán)到深度智能體-AI.x社區(qū)

Agent 1.0：“淺層”循環(huán)的局限性

要理解我們要去向何方，我們必須首先了解我們現(xiàn)在的位置。今天的大多數(shù)智能體都是“淺層”的。這意味著它們完全依賴 LLM 的上下文窗口（對(duì)話歷史）作為其狀態(tài)。

用戶提示：“查找蘋果股票的價(jià)格，并告訴我是否值得購買。”
LLM 推理：“我需要使用搜索工具。”
工具調(diào)用：??search("AAPL stock price")??
觀察：工具返回?cái)?shù)據(jù)。
LLM 回答：根據(jù)觀察生成響應(yīng)或調(diào)用另一個(gè)工具。
重復(fù)：循環(huán)直到完成。

這種架構(gòu)是無狀態(tài)和短暫的。智能體的整個(gè)“大腦”都在上下文窗口之內(nèi)。當(dāng)任務(wù)變得復(fù)雜時(shí)，例如“研究10個(gè)競(jìng)爭(zhēng)對(duì)手，分析他們的定價(jià)模型，制作一個(gè)比較電子表格，并撰寫一份戰(zhàn)略摘要”，它將會(huì)失敗，原因如下：

上下文溢出：歷史記錄被工具輸出（HTML、雜亂的數(shù)據(jù)）填滿，將指令推出了上下文窗口。
目標(biāo)丟失：在中間步驟的噪音中，智能體忘記了最初的目標(biāo)。
沒有恢復(fù)機(jī)制：如果它鉆進(jìn)了一個(gè)死胡同，它很少有遠(yuǎn)見去停止、回溯并嘗試一種新方法。

淺層智能體擅長處理需要5-15個(gè)步驟的任務(wù)。它們?cè)谔幚硇枰?00個(gè)步驟的任務(wù)時(shí)則表現(xiàn)糟糕。

Agent 2.0（深度智能體）的架構(gòu)

深度智能體將規(guī)劃與執(zhí)行解耦，并在上下文窗口之外管理內(nèi)存。該架構(gòu)包含四大支柱。

支柱 1：顯式規(guī)劃

淺層智能體通過思維鏈（“我應(yīng)該先做 X，然后做 Y”）進(jìn)行隱式規(guī)劃。深度智能體使用工具來創(chuàng)建和維護(hù)一個(gè)顯式計(jì)劃，這可以是一個(gè) Markdown 文檔中的待辦事項(xiàng)列表。

在每一步之間，智能體會(huì)審查和更新這個(gè)計(jì)劃，將步驟標(biāo)記為待處理、進(jìn)行中或已完成，或添加備注。如果一個(gè)步驟失敗了，它不會(huì)只是盲目重試，它會(huì)更新計(jì)劃以適應(yīng)這個(gè)失敗。這使智能體能夠?qū)Ｗ⒂诟呒?jí)別任務(wù)。

支柱 2：分層委托（子智能體）

復(fù)雜的任務(wù)需要專業(yè)化。淺層智能體試圖在一個(gè)提示中成為萬事通。深度智能體利用“編排器 → 子智能體”的模式。

編排器將任務(wù)委托給具有干凈上下文的子智能體。子智能體（例如，“研究員”、“程序員”、“寫作者”）執(zhí)行其工具調(diào)用循環(huán)（搜索、出錯(cuò)、重試），編制最終答案，并且只將綜合后的答案返回給編排器。

支柱 3：持久化內(nèi)存

為了防止上下文窗口溢出，深度智能體利用外部內(nèi)存源，如文件系統(tǒng)或向量數(shù)據(jù)庫，作為其事實(shí)的來源。像 Claude Code 和 Manus 這樣的框架給予智能體對(duì)它們的??讀???/??寫??訪問權(quán)限。一個(gè)智能體寫入中間結(jié)果（代碼、草稿文本、原始數(shù)據(jù)）。后續(xù)的智能體通過引用文件路徑或查詢來僅檢索必要的內(nèi)容。這將范式從“記住一切”轉(zhuǎn)變?yōu)椤爸涝谀睦镎业叫畔ⅰ薄?/p>

支柱 4：極致的上下文工程

更智能的模型并不需要更少的提示，它們需要更好的上下文。你無法用“你是一個(gè)有用的 AI”這樣的提示來獲得 Agent 2.0 的行為。深度智能體依賴于有時(shí)長達(dá)數(shù)千個(gè) token 的高度詳細(xì)的指令。這些指令定義了：

識(shí)別何時(shí)應(yīng)該在行動(dòng)前停止并規(guī)劃。
何時(shí)生成子智能體 vs. 自己完成工作的協(xié)議。
工具定義以及如何和何時(shí)使用的示例。
文件命名和目錄結(jié)構(gòu)的標(biāo)準(zhǔn)。
用于人機(jī)協(xié)作的嚴(yán)格格式。

可視化深度智能體流程

這些支柱是如何結(jié)合在一起的？讓我們來看一個(gè)深度智能體處理復(fù)雜請(qǐng)求的序列圖：“研究量子計(jì)算并撰寫一份摘要到文件中。”

Agent 2.0：從淺層循環(huán)到深度智能體-AI.x社區(qū)

結(jié)論

從淺層智能體到深度智能體（Agent 1.0 到 Agent 2.0）的轉(zhuǎn)變，不僅僅是把 LLM 連接到更多的工具上。這是從反應(yīng)式循環(huán)到主動(dòng)式架構(gòu)的轉(zhuǎn)變。這是關(guān)于圍繞模型進(jìn)行更好的工程設(shè)計(jì)。

通過實(shí)施顯式規(guī)劃、通過子智能體進(jìn)行分層委托以及使用持久化內(nèi)存，我們得以控制上下文，而通過控制上下文，我們就控制了復(fù)雜性，從而解鎖了解決需要數(shù)小時(shí)或數(shù)天，而不僅僅是數(shù)秒鐘的問題的能力。

原文鏈接：???https://www.philschmid.de/agents-2.0-deep-agents??

本文轉(zhuǎn)載自??草臺(tái)AI??，作者：RangerEX

標(biāo)簽

Agent 2.0

智能體

已于2025-11-24 00:23:17修改

贊

回復(fù)