吳恩達Agentic AI新課：手把手教你搭建Agent工作流，GPT-3.5反殺GPT-4就順手的事

2025-10-13 08:55:00

人工智能新聞

在新課中，吳恩達將Agentic工作流的開發沉淀為四大核心設計模式：反思、工具、規劃與協作，并首次強調評估與誤差分析才是智能體開發的決定性能力。

吳恩達又出新課了，這次的主題是—Agentic AI。

在新課中，吳恩達將Agentic工作流的開發沉淀為四大核心設計模式：反思、工具、規劃與協作，并首次強調評估與誤差分析才是智能體開發的決定性能力：

誰能建立起系統化的評估與誤差分析流程，持續定位并改進智能體工作流中的問題，誰就在智能體開發中領先一步。

在課程演示中，通過使用Agentic技巧，甚至可以讓GPT-3.5在編程任務中輕松秒殺GPT-4。

Agentic AI不再讓模型一次性“憋”出答案，而是學會拆解任務、反思結果、用工具修正偏差，并在多輪循環中不斷優化。

這種更像人類的工作流，讓它的表現遠超傳統的端到端Agent。

想知道這是怎么做到的？來，跟著吳老師無限進步就完了！

Agentic AI：從“調模型”到“設計系統”

首先需要明確的一點是，與其說這次的新課是吳恩達關于智能體開發的技術教程，不如說它是一門揭示Agentic AI背后系統性方法論的課程——

它關注的重點，不是如何堆疊工作流界面，而是如何讓AI像人類一樣，通過分解、執行與優化來解決復雜問題。

其中，任務分解既是構建Agentic工作流的起點，也是持續改進與優化系統的前提。

例如，我們在寫論文時，往往會先設計提綱，再查找資料、撰寫初稿、反復修改。

AI同樣需要這樣的結構化過程。

換句話說，寫作這一任務本身就是由多個相互銜接的子任務組成的。

而Agentic的核心理念，就是讓大語言模型以多步推理與分階段執行的方式工作，而非一次性生成結果。

那么，如何拆解復雜任務呢？

吳恩達在課程中指出，他通常會先分析一個現有流程，將其拆解為離散步驟，并思考哪些步驟可由大模型實現（例如通過調用 API 或工具）。

若模型暫時無法完成某一步，他會繼續將任務細化，直至能夠落地實現。

在獲得初始工作流后，接下來的關鍵是評估與改進——分析系統性能、定位薄弱環節，并不斷優化迭代。這種以“分解—執行—評估—優化”為核心的循環，正是Agentic的本質與此次課程的關鍵。

接下來，我們就來看吳恩達提出的四種Agentic設計模式。

首先是Reflection（反思）

反思的核心思想非常簡單，就是讓大模型讓檢視自己的輸出結果，并思考如何改進。

例如，我們可以讓模型先輸出一段代碼，然后將測試結果報給它，讓它在這個基礎上修改。

在這里，吳恩達在這里分享了自己利用反思方法的經驗：

首先，他指出，可以不僅在單一大模型上進行優化，還可以讓兩個模型互相配合，通過“左右互搏”獲取更優答案。

其中，使用具備推理能力的模型進行反思，通常比非推理模型效果更佳，因此在設置生成與反思模型時，可以嘗試不同的組合策略。

其次，在某些情況下，憑經驗或直覺難以判斷哪個輸出更優，這時就需要客觀的評估標準。

為此，可以人為設定量化評分機制，例如二元打分，讓大模型根據評分計算結果，從而獲得相對公正的評估。

最后，若能夠獲取外部反饋，其效果通常遠超僅依賴模型自身的反思。

例如，可以提供參考答案或正確內容，讓大語言模型參照這些信息進行自我修正，從而顯著提升輸出質量。

接下來是工具調用（Tool use）

與傳統硬編碼、固定的工作流不同，工具調用指的是由大語言模型驅動的應用能夠自主決定調用哪些功能，例如進行網頁搜索、訪問日歷、發送郵件或編寫代碼等。

模型可以通過外部函數，來實現相應的請求。作為開發者，可以提前集成多個工具，然后根據用戶請求，讓大語言模型調用。

在這里，吳恩達對比了傳統的工具調用流程和現在流行的MCP方法。

傳統流程中，開發者需要先將工具提供給大語言模型，實現對應函數，并告知模型該工具可用。

當大語言模型決定調用工具時，它會生成特定輸出，提示開發者調用該函數，獲取結果后再反饋給模型，以便模型繼續執行后續操作。

顯然，這種方式更像是開發者在主動調用工具，而非大模型自主執行。

由于實際需求復雜且多樣，開發者不可能為每個功能手動實現，最理想的方式是讓大模型能夠自主生成、調用并匹配工具。

為此，可以使用吳恩達及其團隊開發的AISuite開源庫，這一Python庫旨在簡化大語言模型與多個提供商之間的集成，讓模型能夠自主調用工具。

值得注意的是，讓模型自行編寫和調用代碼仍存在一定風險。

在測試中，吳恩達發現大語言模型偶爾會刪除代碼，因此建議在沙盒環境（如 Docker 或 e2b）中進行操作，以確保安全和可控。

與此同時，不同的開發者可能都想讓AI或程序去操作Slack、GitHub、數據庫、云服務等來獲取數據或工具。

由于每個開發者都獨立實現接口，寫不同的API調用、認證方式、數據解析，而這無異于重復造輪胎。

于是就出現了“統一協議”或“抽象層”的想法，例如Anthropic提出的MCP。

MCP/統一協議把散亂的工具調用從“各自為政”變成了“標準客戶端-服務器模式”，AI只需要像調用本地函數一樣調用服務端即可。

這極大地方便了當下的智能體工具調用流程。

接下來是規劃（planning）。

在實際開發中，如果每遇到一個請求就臨時補丁一個工具，不僅低效，而且難以形成可復用的流程。

因此，就需要規劃使大模型能夠根據不同請求，靈活調整工具序列的執行順序，從而優化性能與資源使用。

例如，出于成本和延遲的考慮，對于一些問題，如果可以通過調用函數快速解決，就不必讓模型去執行耗時的網頁搜索。

為實現這一點，吳恩達分享了一個實用技巧：可以通過提示將執行步驟轉化為JSON或代碼形式，將任務離散化，使模型能夠嚴格按照步驟執行。

通過這種方式，Agent的任務執行表現能夠得到顯著提升，同時也為后續的評估和優化提供了清晰的操作軌跡。

最后是多智能體協作（Multi-agent collaboration）。

多智能體協作（Multi-agent Collaboration）指的是構建多個具備不同專長的智能體，共同完成復雜任務，就如同一家公司雇傭多名員工，各司其職。

這個機制類似于計算機中的多線程，能夠讓開發者專注于某一個組件的優化，同時讓其他智能體處理其余任務，最后將各環節結果整合，從而提升整體效率和任務完成質量。

此外，大語言模型不僅可以調用工具，還可以調用其他智能體，實現不同層級的嵌套調用。

這種結構化協作方式類似于企業中的組織架構，使復雜任務的分工與協作更加清晰、高效，同時也為工作流的可擴展性和可維護性提供了保障。

除了以上的構建模式，吳恩達還分享了構建Agentic的實用技巧。

這里其實頗像強化學習里的采樣-評估-改進的循環。

每一步智能體工作流的構建，實際上都可以看作是一個閉環迭代反饋：

Build / Sampling（采樣）：首先搭建系統或工作流，讓模型在不同任務或請求上嘗試執行，收集輸出結果。
Evaluation/Analyze（評估）：對輸出進行分析，既有端到端的整體評估，也有組件級別的精細評估，快速定位錯誤來源。
Improvement（改進）：根據評估結果優化流程或組件，調整參數、替換模塊、改進提示詞或拆分步驟，然后進入下一輪循環。

通過這種循環，Agentic AI不斷迭代升級，就像強化學習中的智能體通過反復試驗和反饋，逐步提高策略效果。

不同的是，這里的“策略”是工作流和組件設計，即通過反思、工具調用、規劃與多智能體協作等agentic工作流，實現任務拆分、組件優化與迭代改進，從而讓AI系統在復雜場景中高效執行、持續進化。

具體來說，錯誤評估既有端到端的輸入輸出評估，也有組件級別的評估，而組件級別的評估可以更快的找到具體出現錯誤的地方，從而集中精力更好、更快的改進系統。

在構建Agentic工作流時，收集和分析錯誤是優化系統的核心環節。

這里所指的錯誤，是指某一步輸出的結果明顯低于人類專家在相同輸入下的表現。

為此，可以通過追蹤中間執行軌跡來定位問題所在的環節。

比如，如果提示詞本身沒有問題，但網頁搜索結果出現垃圾信息，則問題可能出在大語言模型調用搜索工具的環節。

如果PDF轉文檔出現錯誤，則需要檢查大語言模型的識別和提取模塊是否存在問題。

這種評估既可以依賴人工完成，也可以通過大語言模型輔助加速。

例如，可以創建高可信度的信源清單，或者編寫能夠多方求證的工具，從而提高組件級評估的效率。

接下來，通過組件級評估，可以針對特定環節進行優化：調整組件參數，例如修改RAG搜索范圍（按時間、類別等）；替換組件，包括函數或工具；改進大模型組件，例如優化提示詞、嘗試不同模型、拆分流程或進行微調。

在更換或選擇大模型組件時，吳恩達提供了一些自己的實踐直覺：

首先，多嘗試不同模型，準備多種測試問題以評估性能。

其次，參考他人如何編寫提示詞，并以此鍛煉自身提示詞設計能力。

最后，將不同模型應用于工作流中，觀察其在各個步驟的表現，從而不斷迭代和提升整個系統的可靠性與效率。

以上就是吳恩達課程的粗略梳理，課程全集可在Deeplearning.AI上訂閱收聽。

為什么是Agentic而不是Agent

對于到底是Agent還是Agentic，早在去年年初，吳恩達就提出了自己極具前瞻性的思考：Agentic作為形容詞，而非二元分類，表示系統在智能體特性（自主性）上的不同程度。

這一表述在當時有助于厘清概念，使開發者和研究者能夠更準確地理解和描述系統在智能體能力上的連續性，而不是將其簡單地劃為“是”或“不是”。

而在此次的課程中，我們又可以進一步的窺見其思考的加深：Agentic的意思是一個基于大語言模型（大語言模型）的應用程序執行多個步驟來完成一項任務。

與傳統的Agent相比，這里的關鍵區別在于任務執行方式：傳統Agent往往是端到端操作——用戶制定一個prompt，大語言模型返回一個輸出——而這種方式很少與人類的工作方式契合，AI亦然。

在課程中，吳恩達表示：Agentic AI通過將任務拆分為多個步驟，逐步推進，每一步都經過處理和優化，從而顯著優于一次性輸出答案的端到端Agent。

就像我們開頭提到的GPT3.5戰勝GPT-4的例子。

因此，學習如何將復雜任務分解為步驟，并構建組件高效執行每一步，是一項復雜但至關重要的技能，這正決定了開發者能否在各種應用場景中構建高效的代理型工作流。

更進一步，對于端到端的Agent，留給開發者優化流程的空間實際上非常有限。

我們無法通過設計和改進工作流來提升任務表現，只能依賴prompt的優化、模型能力的提升，甚至完全寄希望于模型本身。

而通過拆分組件、逐步優化，每個環節都可迭代改進，從而讓系統持續進化，這正是Agentic AI的優勢所在。

值得一提的是，當吳恩達首次提出“Agentic”這個術語，原本是為了描述基礎應用開發中快速增長的重要趨勢，但沒想到市場營銷人員將其廣泛用作標簽，使Agentic AI炒作迅速升溫。

盡管如此，吳恩達表示，在實際應用中Agentic的方法論仍然發揮著實際價值，為開發者提供了可落地、可優化的路徑。

在當下，除了成熟的代碼Agent之外，基于步驟的Agentic AI仍有廣闊的發展空間。

這為開發者探索更復雜、更智能的多步驟工作流提供了豐富機會，也體現了課程的核心理念：通過拆解任務、構建組件、逐步優化，讓AI系統真正實現高效、可控的代理型流程。

責任編輯：張燕妮來源：量子位

AI 開發者工具