出品 | 51CTO技術棧(微信號:blog51cto)
今年以來,多智能體(Multi-Agents)頻頻成為AI領域的熱點話題。但現(xiàn)在,越來越多開發(fā)者發(fā)現(xiàn),“多智能體協(xié)作”的酷炫演示,很多只是AI 的一場秀,并非切實可靠。
這兩天,Reddit、X平臺上關于多智能體的討論再次甚囂塵上。小編刷到一篇網友的帖子,他說自己做了超過25個Agent,為客戶服務已經兩年多,最后得出的結論是:很多人做的多智能體系統(tǒng),看起來復雜、炫技,卻沒什么必要。
許多開發(fā)者也在網上表示,日常任務中沒必要構建多智能體系統(tǒng),不僅會提升復雜度,增加成本以及上下文傳遞時間,而且流程出問題時難以調試。
圖片
另外,Cognition(知名 AI 編程智能體 Devin 的母公司)的創(chuàng)始人Walden Yan在其博客文章《不要構建多智能體系統(tǒng)》(Don’t Build Multi?Agents)中指出,當前流行的多智能體范式(如OpenAI的Swarm和Microsoft的AutoGen)違背了認知可靠性的基本原理,他認為:
“2025 年的多智能體系統(tǒng),本質上仍然脆弱、分散,決策不一致”。
那么,多智能體真的毫無必要嗎?
1.“95% 的情況下,你根本不需要多智能體”
Reddit 上這位有 25+ 項 Agent 系統(tǒng)實戰(zhàn)經驗的開發(fā)者直言:
我理解,多智能體系統(tǒng)確實很酷。看著不同的 Agent 互相對話,就像科幻電影一樣。但說真的,你們很多人造的東西更像是“AI版魯布·戈德堡機器”——復雜、炫技,卻沒什么必要。
我為客戶做 AI Agent 已經有兩年多了。真正能賺錢、而且不會每周都出問題的那些Agent,其實都非常簡單。
圖片
他舉了幾個真實的例子:
- 一個讀取郵件并自動更新 CRM 字段的 Agent(每月 200 美元,全天候運行)
- 一個幫招聘方解析簡歷、提取關鍵信息的 Agent(賣 50 美元/月)
- 一個只回答常見問題(FAQ)的客服 Agent
- 一個在評論上線前標記違規(guī)內容的內容審核 Agent
這些都不需要什么“多 Agent 協(xié)作”,不需要復雜的記憶系統(tǒng),更不需要什么“研究員 Agent”、“寫作 Agent”、“監(jiān)督 Agent”互相開會討論下一步。
而現(xiàn)在的AI Agent社區(qū),很多人是這樣的:本來只需要解決一個小任務,但看了 LangGraph、CrewAI 的介紹,就開始造龐大的系統(tǒng):研究員 Agent、撰寫 Agent、評論 Agent、監(jiān)督 Agent 一應俱全。結果系統(tǒng)幻覺嚴重、丟上下文、每月光 API 成本就 500 美元,而其實一個精心設計的 GPT-4 prompt 就能搞定。
這位身經百戰(zhàn)的開發(fā)者坦言:如果一個好的系統(tǒng)提示和單個 Agent 就能解決問題,那就別多此一舉。每多一個 Agent,就多一個故障點;每一次信息傳遞,都是上下文丟失的風險;每一次“規(guī)劃”步驟,都有可能出錯。
他還分享了自己現(xiàn)在最常用的 Agent 技術棧:
- OpenAI API(沒錯,平平無奇)
- N8N
- 帶示例的基礎 prompt
- 一個簡單的 webhook 或定時任務(cron job)
- 如果需要存儲數據,就加個 Supabase
就這樣。沒有框架,沒有復雜編排,沒有長鏈路。
另一位開發(fā)者也發(fā)帖子稱,他認為多智能體系統(tǒng)主要存在3個問題:
1. 協(xié)調開銷毀掉了性能每一次 Agent 之間的交接都會增加延遲。我曾經做過一個包含 5 個專業(yè) Agent 的內容生成系統(tǒng),而單 Agent 版本做同樣的事,不僅快了 3 倍,效果還更好。多 Agent 系統(tǒng)花在“傳遞上下文”上的時間,比花在“思考”上的還多。
2. 成本會爆炸每個 Agent 調用,都是一次新的 API 請求,而那個“規(guī)劃 Agent”還得先決定該調用哪些 Agent。恭喜,你又多燒了一堆 token——干的活還不如一個 if 條件判斷。我見過因為“多 Agent 協(xié)作”導致的賬單直接漲了三倍。
3. 調試幾乎不可能當一個 6-Agent 流程出問題時,祝你好運:是研究 Agent 輸出錯了?還是規(guī)劃 Agent 路由有誤?又或者上下文在交接時被破壞?
你不得不花上好幾個小時,埋頭翻日志,看著一群 Agent 在互相對話。
圖片
而真正的問題在于,大多數任務根本不需要“分工”。
一個經過精心提示、擁有完整上下文的單 Agent,就能干好你硬拆成五個 Agent 的工作。
你不是在建汽車裝配線,你只是在做文本生成和推理。就好比一個強壯的工人,勝過五個在搶同一個筆記本的專家。
2.多智能體架構違背「認知可靠性原則」
人工智能公司Cognition的創(chuàng)始人Walden Yan在其博客文章《不要構建多智能體系統(tǒng)》中提出了一個重要概念:「上下文工程」 (Context Engineering)。
這是繼“Prompt Engineering(提示工程)”之后,Agent 時代的新核心能力。
Walden Yan指出,構建長時間運行的 Agent 時,最核心的問題不是模型是否強大,而是上下文是否可靠傳遞。為此,他總結了兩條原則。第一,共享上下文。所有 Agent 必須共享完整的決策軌跡,而不僅僅是消息片段。
他舉了個例子:主任務是“做一個 Flappy Bird 游戲”,結果一個子 Agent 畫出了馬里奧風格的背景,另一個子 Agent 做出了一只飛行不正常的鳥。如果不同 Agent 各自理解任務,那么最終系統(tǒng)輸出的,只是把兩個錯誤的東西拼貼到一起。
圖片
第二,行動蘊含決策。每個行動背后都隱含著決策邏輯,如果多個 Agent 獨立行動、互不協(xié)調,結果必然是沖突的。這就像多個編輯同時修改一篇文章,沒有主編審稿,最后合并時發(fā)現(xiàn)風格割裂、邏輯不通。
最終Walden Yan得出的結論是:“多智能體架構天然違背了上下文一致性與決策可靠性。”這些系統(tǒng)看似模塊化,實則極度脆弱,每一個誤解、每一次遺漏的上下文,都會讓結果偏離初衷。
圖片
他認為,2025 年的多智能體系統(tǒng),本質上仍然脆弱、分散,決策不一致。
值得一提的是,為了應用上述兩條原則,Walden Yan提出了兩個方案。一是最簡單的方案,單線程線性 Agent。一個持續(xù)線性的 Agent,在連續(xù)上下文中決策與行動。這種方式穩(wěn)定、可預測,足以支撐 90% 的應用場景。但當任務極大、上下文溢出時,系統(tǒng)會遇到窗口限制。
圖片
二是上下文壓縮模型,這也是Cognition正在做的事情。他們引入了上下文壓縮模型(Context Compression Model),一個專門負責總結歷史行為與關鍵決策的 LLM。
圖片
它能把漫長的對話歷史濃縮成核心要點,從而延長 Agent 的“有效記憶”,甚至可以針對特定領域微調一個小模型來承擔這個任務。它的優(yōu)點是支持更長任務,減少上下文負擔,適合長任務(幾十分鐘甚至幾小時)。
3.哪些任務適合用多智能體?
盡管很多人都在批評多智能體系統(tǒng),但這也不代表多智能體一無是處。
那什么任務才適合多智能體呢?
Reddit上這位一開始大吐苦水的開發(fā)者指出,只有當你確實需要不同模型、不同能力時,多 Agent 才真的有意義。例如,用 GPT-5 負責推理,用 Claude 處理超長上下文,用本地模型處理隱私數據(PII)——這種才是真正的“專業(yè)分工”。
他還舉了一個例子:
我做過最好的 Agent 系統(tǒng),只有兩個 Agent:一個負責干活,另一個負責核查輸出是否符合嚴格標準——通過就放行,不通過就退回修改。
簡單、高效,而且確實提升了質量,因為驗證步驟能捕捉幻覺錯誤。
相反,則有網友提出,如果你的應用不需要大量分支式思考,也不依賴復雜的多步驟推理或多 Agent 協(xié)作,那多智能體系統(tǒng)就不適合你。
你應該把時間和預算都花在充分利用一次高質量 API 調用上,選擇你能負擔得起的最強模型。
尤其是在做 B2B/B2C 類生產力工具的團隊里,高度分支化的場景極其罕見,很多時候任務的關鍵反而是降低分支復雜度。
圖片
另外,也有網友認為,關鍵是明確并細化每個 AI 的角色,確保它們的工作不重疊。
解決幻覺的辦法,不是多 Agent 網絡,而是更清晰的角色定義。
我們該關注的重點是:讓每個 Agent 自身更強,而不是搭建更多互相扯后腿的 Agent 網絡。
圖片
總的來說,“該不該構建多智能體”這個問題目前還是眾說紛紜。
除了Coginiton,Anthropic和LangChain都是這個話題中的贊成派,分別發(fā)過文章《How we built our multi-agent research system》和《How and when to build multi-agent systems》闡述構建多智能體系統(tǒng)的經驗和可行性。
兩家團隊最終都總結,只有當任務價值高、信息面寬且可高度并行時,多智能體的 Token “燒錢”才劃算。典型就是廣域信息研究,而大部分代碼任務還不夠“寬”。
聊到這里,或許你可能已經在心里默默數過自己項目里有幾個 Agent。
這些 Agent 是真正需要的團隊協(xié)作,還是為了炫酷的架構演示?歡迎在評論區(qū)聊聊——你見過最“離譜”的多智能體設計是什么?你又認為哪種場景下,它真的有價值?
參考鏈接:
https://www.reddit.com/r/AI_Agents/comments/1oheym9/stop_building_complex_fancy_ai_agents_and_hear/
https://www.reddit.com/r/AI_Agents/comments/1o5hvhm/multiagent_systems_are_mostly_theater/
https://cognition.ai/blog/dont-build-multi-agents#a-theory-of-building-long-running-agents
https://www.anthropic.com/engineering/multi-agent-research-system
https://blog.langchain.com/how-and-when-to-build-multi-agent-systems/






























