精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智能體 Agent 與工作流構(gòu)建實戰(zhàn)指南:從選型決策到高效實施

開發(fā) 人工智能
本文從Anthropic的文章《Build effective agents》出發(fā),為構(gòu)建高效的工作流、Agent提出實戰(zhàn)指南。

作者 | fred

歷經(jīng)多個業(yè)務(wù)系統(tǒng)的構(gòu)建,我深感Anthropic的《Build effective agents》一文與自身實戰(zhàn)經(jīng)歷高度契合。本文在詳解工作流與Agent的技術(shù)選型標準、設(shè)計模式應(yīng)用及實施要點的同時,也融入了我的實戰(zhàn)心得與實踐經(jīng)驗總結(jié)。無論您正考慮構(gòu)建工作流系統(tǒng)還是Agent系統(tǒng),都能在此找到適合場景的最佳實踐方案。特別值得關(guān)注的是文末的工具提示工程部分,這是Agent成功實施的關(guān)鍵因素。

本文從Anthropic的文章《Build effective agents》出發(fā),為構(gòu)建高效的工作流、Agent提出實戰(zhàn)指南。我在保留原文精華的基礎(chǔ)上增強了三個核心方面:

核心內(nèi)容:

  • 技術(shù)選型指南:明確工作流/Agent選用標準。
  • 設(shè)計模式解析:通過實際業(yè)務(wù)場景展示復(fù)雜工作流模式的應(yīng)用。
  • 實踐要點擴展:增添詳細的實施建議和操作要點,將理論轉(zhuǎn)化為可執(zhí)行方案。

本文適合AI Agent技術(shù)管理者、開發(fā)者、產(chǎn)品經(jīng)理及愛好者閱讀,通過實踐層面的指導(dǎo),幫您實現(xiàn)更合理的方案與更高效的實施。

一、Agent概述

1. 什么是Agent?

"Agent"有多種定義方式。部分客戶將其視為完全自主系統(tǒng),能在較長時間內(nèi)獨立運行,使用各種工具完成復(fù)雜任務(wù)。也有人用此術(shù)語描述更固定的、預(yù)定義的工作流。Anthropic將這些變體歸類為類Agent系統(tǒng),但在工作流和智能體間做了重要區(qū)分:

2. Workflow V.S Agent

在附錄1("Agent實戰(zhàn)")中,Anthropic描述了客戶在使用這類系統(tǒng)時發(fā)現(xiàn)特別有價值的兩個應(yīng)用領(lǐng)域。

二、何時使用Agent

簡單性原則:適用場景評估

Anthropic強烈建議:在構(gòu)建LLM應(yīng)用時,尋找盡可能簡單的解決方案,只在必要時增加應(yīng)用復(fù)雜性。

關(guān)鍵權(quán)衡:類Agent系統(tǒng)通常以延遲和成本為代價換取更高性能,應(yīng)謹慎評估這種取舍。

復(fù)雜性增加的指導(dǎo)原則:

  • 選擇工作流:當(dāng)任務(wù)明確定義,需要可預(yù)測性和一致性
  • 選擇Agent:當(dāng)任務(wù)需要靈活性和模型驅(qū)動的動態(tài)決策

重要提示:對許多應(yīng)用而言,優(yōu)化單個LLM調(diào)用(通過檢索增強和上下文示例)通常已足夠有效。

三、何時、如何使用“Agent框架”

1. 框架使用的權(quán)衡考量

開發(fā)框架雖然便捷,但常存在過度抽象問題,使底層提示詞和LLM調(diào)用被隱藏。這導(dǎo)致兩個主要風(fēng)險:

  • 使用框架開發(fā)的Agent系統(tǒng)難以有效調(diào)試
  • 簡化的搭建流程使開發(fā)者容易過度增加系統(tǒng)復(fù)雜性

2. 實用開發(fā)建議

Anthropic建議采取漸進式開發(fā)方法:

  • 優(yōu)先直接使用LLM API:大多數(shù)模式可通過幾行代碼實現(xiàn)
  • 深入理解框架底層:如選擇框架,確保理解其內(nèi)部工作機制
  • 避免錯誤假設(shè):對框架底層工作原理的誤解是項目失敗的常見原因


“我們建議開發(fā)者直接使用LLM API:許多模式可以用幾行代碼實現(xiàn)。如果你使用框架,請確保理解底層代碼。對底層工作的錯誤假設(shè)是客戶錯誤的常見來源。”


參考Anthropic的cookbook[1]獲取示例實現(xiàn)。

四、Agent系統(tǒng)設(shè)計模式

本節(jié)探討生產(chǎn)環(huán)境中常見的類Agent系統(tǒng)模式。Anthropic從基礎(chǔ)構(gòu)建模塊——增強型大語言模型(LLM)開始,逐步增加復(fù)雜性,從簡單組合工作流到自主Agent。

1. 增強型LLM模式

定義:類Agent系統(tǒng)最基礎(chǔ)的模塊是"增強的LLM",即具備檢索、工具使用和記憶等功能的語言模型。Anthropic當(dāng)前的模型能夠主動使用這些功能——生成搜索查詢、選擇合適工具以及確定需要記憶的信息。

增強型LLM

工程實現(xiàn)的關(guān)鍵要點:

  • 為特定應(yīng)用場景定制增強能力
  • 確保為LLM提供簡單、文檔完善的接口

雖然實現(xiàn)這些增強功能的方法很多,一種推薦方式是通過Anthropic最近發(fā)布的模型上下文協(xié)議(MCP),該協(xié)議允許開發(fā)者通過簡單的客戶端實現(xiàn)與不斷擴展的第三方工具生態(tài)系統(tǒng)集成。

2. 工作流模式

(1) 提示鏈

定義:提示鏈將任務(wù)分解為一系列有序步驟,每個LLM調(diào)用處理前一個調(diào)用的輸出。可在任何中間步驟添加程序檢查("門控")以確保流程保持在正確軌道上。

提示鏈工作流

適用場景:

  • 任務(wù)可以輕松且清晰地分解為固定子任務(wù)時
  • 主要目標是通過犧牲延遲來提高準確性,使每個LLM調(diào)用處理更簡單的子任務(wù)

應(yīng)用示例:

  • 生成營銷文案,然后將其翻譯成不同的語言。
  • 編寫文檔大綱,檢查大綱是否符合特定標準,然后基于大綱撰寫文檔。

(2) 路由

定義:路由工作流對輸入進行分類并將其引導(dǎo)到專門的后續(xù)任務(wù)。這種工作流實現(xiàn)關(guān)注點分離,并構(gòu)建更專門化的提示。不使用路由時,為某一類輸入優(yōu)化可能會降低其他類型輸入的處理效果。

路由工作流

適用場景:

  • 復(fù)雜任務(wù)包含明顯不同類別需要單獨處理
  • 分類可由LLM或傳統(tǒng)分類模型/算法準確完成

應(yīng)用示例:

  • 引導(dǎo)不同類型客戶服務(wù)查詢(一般問題、退款請求、技術(shù)支持)進入不同的下游流程、提示和工具。
  • 將簡單/常見問題路由到較小模型(如Claude 3.5 Haiku),將困難/不常見問題路由到更強大模型(如Claude 3.5 Sonnet),優(yōu)化成本和響應(yīng)速度。

(3) 并行化

定義:并行化工作流讓LLM同時處理多個任務(wù),并通過程序化方式聚合輸出。分為兩種關(guān)鍵形式:

  • 任務(wù)拆分(Sectioning):將任務(wù)拆分為獨立的子任務(wù)并行運行
  • 投票(Voting):多次運行相同任務(wù)以獲得不同的結(jié)果

并行化工作流

適用場景:

  • 當(dāng)拆分的子任務(wù)可以并行處理以提高速度
  • 需要多種視角或不同嘗試來獲得更高置信度的結(jié)果時
  • 復(fù)雜任務(wù)涉及多種考慮因素時,由獨立LLM調(diào)用分別處理各因素效果更佳。

應(yīng)用示例:

①任務(wù)拆分(Sectioning)

  • 安全防護機制:一個模型處理用戶查詢,另一個篩選不合規(guī)內(nèi)容,比單模型同時處理兩項功能效果更好。
  • 自動化評估LLM性能:設(shè)置多個并行分支,評估模型在不同方面的表現(xiàn)。

②投票(Voting)

  • 代碼漏洞審查:多個并行LLM分支審查代碼并標記問題。
  • 內(nèi)容審核:并行評估內(nèi)容合規(guī)性,不同提示專注于不同評估維度,通過差異化投票閾值平衡誤報率與漏報率。

應(yīng)用案例:內(nèi)容審核系統(tǒng)

假設(shè)我們正在構(gòu)建一個社交媒體平臺的內(nèi)容審核系統(tǒng),需要評估用戶發(fā)布的以下內(nèi)容是否適當(dāng):

用戶發(fā)布內(nèi)容示例:

"這些政客都是垃圾,應(yīng)該被扔進海里喂鯊魚。大家都應(yīng)該去抗議這個荒謬的新政策,讓他們知道我們的憤怒!"

實現(xiàn)方案:

① 并行LLM提示(專注不同維度)

  • 提示1:評估暴力內(nèi)容
  • 提示2:評估仇恨言論
  • 提示3:評估不文明用語
  • 提示4:評估合法政治表達
  • 提示5:評估煽動抗議

② 差異化投票閾值設(shè)置

暴力威脅:低閾值(高敏感度)

  • 提示1為"是"→內(nèi)容立即標記
  • 理由:潛在危害大,寧可誤報也不能漏報

仇恨言論:中等閾值

  • 提示2和提示3都為"是"→內(nèi)容標記
  • 理由:需更多證據(jù)確認真正仇恨言論

政治表達:高閾值(寬容度高)

  • 提示4為"是"且提示1、2不為"是"→允許內(nèi)容
  • 理由:保護合法政治表達,避免過度審查

③ 決策流程示例

并行評估結(jié)果:

  • 提示1(暴力):"是"(提到"扔進海里喂鯊魚")
  • 提示2(仇恨):"否"(針對政客非受保護群體)
  • 提示3(不文明):"是"(使用"垃圾"等貶義詞)
  • 提示4(政治表達):"是"(政策批評)
  • 提示5(煽動抗議):"是"(鼓勵和平抗議)

規(guī)則應(yīng)用:

  • 暴力威脅閾值觸發(fā)(提示1為"是")
  • 政治表達規(guī)則也滿足
  • 系統(tǒng)標記為"邊緣案例",轉(zhuǎn)人工審核

系統(tǒng)優(yōu)勢:平衡誤報和漏報

這種多方面并行評估系統(tǒng)能夠:

  • 減少漏報:低閾值捕獲嚴重違規(guī)(如明確暴力威脅)
  • 減少誤報:多角度評估避免過度審查合法內(nèi)容
  • 細粒度分析:識別具體問題方面,非簡單二分法
  • 差異化風(fēng)險應(yīng)對:對不同類型違規(guī)設(shè)置不同敏感度

這種并行投票系統(tǒng)能同時考慮內(nèi)容多個維度,根據(jù)不同維度的嚴重性設(shè)置差異化決策標準,實現(xiàn)更平衡、更細致的內(nèi)容適當(dāng)性評估,特別適合處理復(fù)雜邊界案例。

(4) 編排者-工作者

定義:在編排者-工作者工作流中,編排者(LLM)動態(tài)分解任務(wù),將其委派給工作者LLM,并綜合其結(jié)果。

編排者-工作者工作流

適用場景:

  • 適合無法預(yù)測所需子任務(wù)的復(fù)雜任務(wù)
  • 與并行化的關(guān)鍵區(qū)別在于靈活性——子任務(wù)不是預(yù)定義的,而是由編排者根據(jù)任務(wù)輸入動態(tài)確定

應(yīng)用示例:

  • 需要對多個代碼文件進行編輯的編碼項目
  • 涉及從多個來源收集和分析信息的搜索任務(wù)

應(yīng)用案例:醫(yī)療研究助手

假設(shè)我們正在構(gòu)建一個醫(yī)療研究助手,研究人員輸入了以下查詢:

用戶查詢:

"我需要了解最近三年內(nèi)關(guān)于長新冠與認知障礙關(guān)聯(lián)的研究結(jié)果,特別是那些包含臨床試驗數(shù)據(jù)的研究。"

編排者-工作者工作流實現(xiàn):

① 編排者規(guī)劃階段

編排者LLM接收查詢并制定搜索計劃:搜索計劃

  • 識別關(guān)鍵搜索術(shù)語和相關(guān)概念
  • 確定需要搜索的最佳來源
  • 為每個來源設(shè)計特定搜索策略
  • 分配多名工作者執(zhí)行不同來源的搜索
  • 匯總和綜合所有發(fā)現(xiàn)的信息
  • 確定是否需要進一步搜索
  • 準備最終報告

② 工作者執(zhí)行階段

編排者將任務(wù)分配給多個專門的工作者LLM:

工作者1:醫(yī)學(xué)文獻搜索

  • 任務(wù):在PubMed和醫(yī)學(xué)期刊數(shù)據(jù)庫中搜索長新冠與認知障礙相關(guān)論文
  • 搜索條件:發(fā)表于2022-2025年間,包含臨床試驗數(shù)據(jù)
  • 工具:使用API接口查詢醫(yī)學(xué)數(shù)據(jù)庫
  • 產(chǎn)出:找到15篇相關(guān)論文,包含初步結(jié)果摘要

工作者2:研究機構(gòu)報告搜索

  • 任務(wù):搜索CDC、WHO、NIH等機構(gòu)發(fā)布的長新冠研究報告
  • 搜索條件:關(guān)注認知障礙相關(guān)發(fā)現(xiàn)
  • 工具:機構(gòu)網(wǎng)站API和網(wǎng)頁抓取
  • 產(chǎn)出:找到3份官方報告和2個正在進行的研究項目

工作者3:臨床試驗數(shù)據(jù)庫搜索

  • 任務(wù):在ClinicalTrials.gov等數(shù)據(jù)庫中搜索相關(guān)臨床試驗
  • 搜索條件:長新冠與認知功能相關(guān),已完成或有初步數(shù)據(jù)
  • 工具:臨床試驗注冊數(shù)據(jù)庫API
  • 產(chǎn)出:識別7個相關(guān)臨床試驗,包括3個有初步結(jié)果的試驗

工作者4:醫(yī)學(xué)會議與預(yù)印本資料搜索

  • 任務(wù):在研究預(yù)印本服務(wù)器和近期會議記錄中搜索
  • 搜索條件:最新未正式發(fā)表的研究
  • 工具:預(yù)印本服務(wù)器API和會議數(shù)據(jù)庫
  • 產(chǎn)出:找到5篇預(yù)印本論文和2個會議演講

③ 信息分析與綜合

編排者接收所有工作者的搜索結(jié)果,然后:

  • 識別重復(fù)信息:消除不同來源的重復(fù)研究
  • 評估證據(jù)質(zhì)量:按照研究設(shè)計、樣本量、期刊影響因子等標準評估每篇研究
  • 識別共同主題:分析跨多個研究的一致性發(fā)現(xiàn)
  • 發(fā)現(xiàn)研究差距:識別缺乏研究的領(lǐng)域
  • 權(quán)衡相互矛盾的結(jié)果:評估不同研究之間的差異原因

④ 動態(tài)迭代(可選)

編排者可能發(fā)現(xiàn)需要進一步信息:

  • "注意到大多數(shù)研究未考慮年齡分層效應(yīng),需要專門搜索老年群體中的長新冠認知影響"
  • 分配工作者5進行補充搜索,聚焦老年人群研究

⑤ 最終報告生成

編排者綜合所有信息生成最終報告:

  • 總結(jié)主要發(fā)現(xiàn)
  • 按證據(jù)強度和一致性水平組織信息
  • 提供研究限制和未來研究方向
  • 附上所有來源的完整引用

工作流優(yōu)勢:

  • 全面性:多渠道信息收集確保研究覆蓋面廣
  • 專業(yè)化:各工作者專注于特定來源和搜索策略
  • 適應(yīng)性:能根據(jù)初步發(fā)現(xiàn)調(diào)整搜索策略
  • 深度分析:綜合多源信息進行對比分析
  • 效率提升:并行搜索不同來源大幅節(jié)省時間

(5) 評估-優(yōu)化

定義:一個LLM調(diào)用生成響應(yīng),而另一個在循環(huán)中提供評估和反饋。

評估-優(yōu)化工作流

適用場景:當(dāng)我們有明確的評估標準,且迭代優(yōu)化能提供可量化價值的情境

適合場景的兩個標志:

  • 人類反饋能明顯改進LLM響應(yīng)質(zhì)量
  • LLM本身能提供類似人類的有效反饋

應(yīng)用示例:

  • 文學(xué)翻譯:初譯(生成) → 評估細微差別 → 根據(jù)反饋優(yōu)化 → 循環(huán)至達標
  • 復(fù)雜信息搜索:初步搜索(生成) → 評估完整性 → 指出信息缺口 → 補充搜索 → 循環(huán)至完整(例如,DeepRearch)

應(yīng)用案例:文學(xué)翻譯優(yōu)化系統(tǒng)

目標:將《了不起的蓋茨比》翻譯成保留原著文學(xué)風(fēng)格和情感的中文版

角色分工:

  • 優(yōu)化者LLM:負責(zé)生成翻譯
  • 評估者LLM:評估質(zhì)量并提供改進建議

評估維度:準確性、風(fēng)格一致性、文化適應(yīng)性

最大迭代:3次(防止循環(huán))

流程示例:

原文:

"In my younger and more vulnerable years my father gave me some advice that I've been turning over in my mind ever since. 'Whenever you feel like criticizing anyone,' he told me, 'just remember that all the people in this world haven't had the advantages that you've had.'"

① 迭代1

初次翻譯:


"在我年輕、更加脆弱的歲月里,父親給了我一些建議,我自那以后一直在腦海中回味。'每當(dāng)你想批評任何人的時候,'他對我說,'請記住,這個世界上的所有人都沒有得到過你所擁有的那些優(yōu)勢。'"


評估(7/10):

  • ? 整體準確,主要含義傳達
  • ? "turning over in my mind"→"回味"不準確
  • ? "advantages"→"優(yōu)勢"過于直白
  • ? 語氣平淡,缺少情感色彩
  • ? 需要更流暢的過渡詞

② 迭代2

修改版:


"在我年少輕狂、尚且脆弱的歲月里,父親給了我一條忠告,此后我一直在心中反復(fù)思量。'每當(dāng)你想要批評任何人的時候,'他對我說道,'請記住,這世上并非所有人都擁有過你所享有的那些機遇和條件。'"


評估(9/10):

  • ? 關(guān)鍵詞翻譯更準確
  • ? 文學(xué)色彩增強
  • ? 過渡更自然
  • ? "年少輕狂"略帶貶義
  • ? 最后一句可更精煉

③ 迭代3(最終版):

最終翻譯:


"在我年少青澀、心思易傷的歲月里,父親給了我一條忠告,此后我便一直在心中反復(fù)思量。'每當(dāng)你想要批評任何人,'他告誡我道,'請記住,這世上并非所有人都有幸獲得你所享有的那些機遇。'"


最終評估(10/10):

  • ? 完美捕捉原文情感和風(fēng)格
  • ? 用詞準確且富有文學(xué)性
  • ? 結(jié)構(gòu)精煉,符合中文閱讀習(xí)慣
  • ? 平衡了忠于原文與文化適應(yīng)性

工作流優(yōu)勢:

  • 質(zhì)量提升:通過專門評估角色和多輪迭代提高輸出質(zhì)量
  • 自我改進:系統(tǒng)識別不足并主動優(yōu)化
  • 透明度:評估標準和反饋可被清晰記錄
  • 減少人工干預(yù):在保持高質(zhì)量的同時減少人類參與
  • 適應(yīng)性:可根據(jù)特定領(lǐng)域定制評估標準

實施建議:

  • 明確定義評估標準和質(zhì)量指南
  • 設(shè)置合理迭代次數(shù)上限
  • 保持優(yōu)化者和評估者角色分離
  • 跟蹤記錄每次迭代的變化
  • 在關(guān)鍵應(yīng)用中保留人類最終審核

這種工作流特別適合需要高質(zhì)量、精心斟酌輸出的場景,模擬了人類專業(yè)人士的迭代改進過程。

3. 完整Agent模式

(1) Agent設(shè)計要點

隨著大模型核心能力的成熟(理解復(fù)雜輸入、推理規(guī)劃、工具使用、錯誤恢復(fù)),智能體正在生產(chǎn)環(huán)境中嶄露頭角。智能體的典型工作流程為:

  • 啟動階段:接收用戶命令或通過交互確定任務(wù)
  • 規(guī)劃執(zhí)行:任務(wù)明確后獨立規(guī)劃操作,必要時向人類請求更多信息
  • 環(huán)境感知:每步驟從環(huán)境獲取"基礎(chǔ)事實"(工具調(diào)用結(jié)果或代碼執(zhí)行)評估進展
  • 反饋循環(huán):在檢查點或遇障礙時可暫停等待人類反饋
  • 任務(wù)終止:通常在完成時終止,包含停止條件(如最大迭代次數(shù))以保持控制

Agents can handle sophisticated tasks, but their implementation is often straightforward. They are typically just LLMs using tools based on environmental feedback in a loop. It is therefore crucial to design toolsets and their documentation clearly and thoughtfully.

智能體可以處理復(fù)雜任務(wù),但其實現(xiàn)通常很直接 - 本質(zhì)上是在循環(huán)中基于環(huán)境反饋使用工具的LLMs。

因此,清晰且合理的工具集及其說明文檔至關(guān)重要。

我們在附錄2中詳述了工具開發(fā)的最佳實踐。

工具集及其文檔質(zhì)量直接決定智能體的成功率和速度,體現(xiàn)在:

  • Agent選擇合適工具及調(diào)用順序的能力
  • Agent正確填寫工具參數(shù)的能力
  • Agent有效利用工具結(jié)果的能力

自主Agent

① 何時使用Agent:

Agent適用于開放性問題,這些問題特點是:

  • 難以或不可能預(yù)測所需步驟數(shù)量
  • 無法硬編碼固定解決路徑

在這類場景中,LLM可能需要多輪操作,您必須對其決策過程有一定信任度。

需要注意的是,Agent的自主性意味著:

  • 可能產(chǎn)生更高成本
  • 存在錯誤累積的潛在風(fēng)險

建議在實際部署前在沙盒環(huán)境中進行廣泛測試,并設(shè)置適當(dāng)?shù)谋Wo措施。

② Agent應(yīng)用舉例:

以下是來自Anthropic實際實現(xiàn)的示例:

  • 編程Agent:解決SWE-bench任務(wù),根據(jù)任務(wù)描述對多個文件進行編輯
  • 計算機使用Agent:computer use,Claude使用計算機完成復(fù)雜任務(wù)

編碼Agent的流程

4. 模式組合與定制

正如文章開頭所強調(diào),"最成功的實現(xiàn)采用簡單、可組合的模式,而非復(fù)雜的框架"。這些設(shè)計模式是靈活的構(gòu)建模塊,可以根據(jù)具體應(yīng)用需求進行組合和定制。

(1) 關(guān)鍵原則

  • 這些模式是可自由組合的構(gòu)建塊,非固定框架
  • 通過量化性能評估和迭代確定最佳組合
  • 重要提示:僅在能顯著提升效果時才增加復(fù)雜性

(2) 五種高效組合模式

① 提示鏈 + 路由:

  • 機制:路由分類任務(wù),然后應(yīng)用專用提示鏈
  • 示例:客服系統(tǒng)先分類問題(賬單/技術(shù)/退款),再應(yīng)用對應(yīng)專業(yè)處理鏈。

② 路由 + 并行化:

  • 機制:先分類任務(wù),對特定類別應(yīng)用并行處理
  • 示例:內(nèi)容審核系統(tǒng)分類內(nèi)容后,對復(fù)雜案例啟用多評估者并行投票。

③ 編排者-工作者 + 評估者-優(yōu)化者:

  • 機制:編排者分解分配任務(wù),工作者執(zhí)行,評估者提供反饋優(yōu)化
  • 示例:代碼系統(tǒng)中編排者確定修改文件,工作者生成代碼,評估者檢查提供改進建議

④ 提示鏈 + 評估者-優(yōu)化者:

  • 機制:在提示鏈關(guān)鍵節(jié)點使用評估-優(yōu)化循環(huán)提升質(zhì)量
  • 示例:內(nèi)容創(chuàng)作流程生成大綱→細化大綱→基于大綱創(chuàng)作→評估優(yōu)化

⑤ 混合Agent系統(tǒng):

  • 機制:整合多種模式,不同任務(wù)階段使用最適合的模式
  • 示例:全功能客服Agent先路由分類查詢,簡單問題用提示鏈,復(fù)雜問題用編排者-工作者,全程通過評估者-優(yōu)化者保證質(zhì)量

(3) 實施建議

  • 從簡單開始,基于性能數(shù)據(jù)增加復(fù)雜性
  • 關(guān)注每個組合的接口設(shè)計,確保信息順暢傳遞
  • 設(shè)置明確的評估指標,量化每種組合的效果提升
  • 注意模式組合可能增加成本和延遲,權(quán)衡利弊
  • 建立有效的監(jiān)控和失敗恢復(fù)機制

(4) 組合設(shè)計的優(yōu)勢

  • 靈活應(yīng)對不同復(fù)雜度的任務(wù)需求
  • 結(jié)合各個模式的優(yōu)勢創(chuàng)造協(xié)同效應(yīng)
  • 隨著需求變化可漸進式擴展系統(tǒng)能力
  • 各組件可獨立優(yōu)化,提高整體系統(tǒng)可維護性

五、實踐指南

1. 核心建議

「在LLM領(lǐng)域,最成功的實現(xiàn)不是構(gòu)建最復(fù)雜的系統(tǒng),而是為特定需求構(gòu)建最合適的系統(tǒng)。」首先從簡單的提示詞開始,通過全面評估進行優(yōu)化,僅在簡單解決方案不足時才添加更多步驟的類Agent系統(tǒng)。

2. Agents開發(fā)原則

在實現(xiàn)Agent時,我們盡量遵循三個核心原則:

  • 保持簡單性:只在能夠明顯改善結(jié)果時增加復(fù)雜性
  • 透明性:明確展示Agent的規(guī)劃步驟來保證透明度
  • 精心設(shè)計工具接口:通過詳細的工具文檔和充分的測試創(chuàng)建良好的Agent-計算機接口(ACI)

雖然開發(fā)框架可幫助快速入門,但轉(zhuǎn)向生產(chǎn)環(huán)境時,應(yīng)減少抽象層級,直接使用基本組件構(gòu)建。遵循上述原則,你可以創(chuàng)建強大、可靠、可維護且受用戶信賴的智能體系統(tǒng)。

六、附錄1: Agent實戰(zhàn)

1. 智能體的實踐價值與應(yīng)用條件

基于客戶合作經(jīng)驗,AI智能體在同時滿足以下條件的任務(wù)中能創(chuàng)造最大價值:

  • 需要對話與行動相結(jié)合
  • 具有明確的成功衡量標準
  • 能夠形成有效反饋循環(huán)
  • 整合有意義的人類監(jiān)督機制

2. 成功案例分析

案例一:智能客服

優(yōu)勢契合點:

  • 自然對話流程:客服交互天然符合會話模式,同時需要信息檢索和行動執(zhí)行
  • 工具集成能力:可接入客戶數(shù)據(jù)、訂單歷史和知識庫資源
  • 行動自動化:退款處理、工單更新等可程序化執(zhí)行
  • 清晰成功指標:通過用戶問題解決率直接衡量成效

商業(yè)驗證:

多家企業(yè)采用基于成功解決的定價模型(僅對成功解決的案例收費),證明了Agent在客戶支持領(lǐng)域的實際價值和可靠性。

案例二:編程Agent

應(yīng)用優(yōu)勢:

  • 解決方案可驗證:代碼輸出可通過自動化測試客觀驗證
  • 反饋驅(qū)動優(yōu)化:測試結(jié)果提供明確反饋,支持Agent迭代改進
  • 問題域結(jié)構(gòu)化:軟件開發(fā)問題通常有明確邊界和結(jié)構(gòu)
  • 輸出質(zhì)量可量化:代碼性能和質(zhì)量可通過既定指標評估

實際成果:

在實際實現(xiàn)中,AI智能體能夠僅基于拉取請求描述解決SWE-bench Verified 基準測試中的真實GitHub問題,展示了在結(jié)構(gòu)化問題解決中的實際能力。

人類監(jiān)督價值:

盡管自動化測試能驗證功能正確性,人類審查仍在確保解決方案符合更廣泛系統(tǒng)要求方面發(fā)揮關(guān)鍵作用。

3. 實施要點

  • 明確定義任務(wù)范圍:設(shè)置清晰的Agent職責(zé)邊界和權(quán)限
  • 精心設(shè)計工具集:提供Agent所需的全部工具并優(yōu)化其文檔
  • 建立反饋機制:確保Agent能接收并利用執(zhí)行結(jié)果改進行動
  • 設(shè)置監(jiān)督檢查點:在關(guān)鍵決策節(jié)點引入人類監(jiān)督
  • 量化成功指標:建立客觀評估Agent表現(xiàn)的指標體系

七、附錄2:工具提示工程

1. 定義

工具提示工程指的是:像編寫提示詞一樣設(shè)計工具定義,使大模型能清晰理解工具的用途、使用方法和結(jié)果含義。

2. 基本原則

清晰表達:

  • 使用精確的術(shù)語描述工具功能
  • 明確說明輸入?yún)?shù)的要求和格式
  • 詳細解釋輸出結(jié)果的結(jié)構(gòu)和意義
  • 包含使用限制和邊界條件

推薦參考我的另一篇文章從模糊到具體:高效使用DeepSeek-R1等推理型模型的前置步驟,使用問題定義優(yōu)化器提示詞,輔助完成清晰表達。

壓縮表達:

  • 避免冗余信息,保持描述簡潔
  • 使用結(jié)構(gòu)化格式提高可讀性
  • 關(guān)注必要信息,減少不相關(guān)細節(jié)
  • 確保核心用途和用法一目了然

3. 工具系統(tǒng)設(shè)計詳解

(1) 工具在Agent系統(tǒng)中的核心地位

在任何Agent系統(tǒng)中,工具都是關(guān)鍵組成部分,它們使Claude能夠通過API中定義的確切結(jié)構(gòu)與外部服務(wù)交互。當(dāng)Claude決定調(diào)用工具時,會在API響應(yīng)中包含工具使用代碼塊。工具定義的提示工程與主提示同等重要。

(2)「工具形式」設(shè)計指南

對于同一個目的,有不同的實現(xiàn)方式,考慮選擇何種方式的決定因素是:

  • LLM實現(xiàn)的準確性、難易度
  • LLM是否擅長這種方式,格式是否為LLM友好的

(3) 多種實現(xiàn)方式對比

同一操作通常有多種實現(xiàn)方式,例如:

操作類型

可選表達方式

文件編輯

? 差異(diff)格式

? 整文件重寫

結(jié)構(gòu)化輸出

? Markdown代碼塊

? JSON格式

雖然這些差異在技術(shù)上可以無損轉(zhuǎn)換,但對LLM而言難度差異顯著:

  • 編寫diff需要預(yù)先計算變更行數(shù)
  • JSON中的代碼需要處理“引號”和“換行符轉(zhuǎn)義”

(4) 格式選擇三原則

  • 思考空間充足:為模型在輸出前思考提供足夠token(即,壓縮工具的token消耗)
  • 貼近自然語料:選擇接近互聯(lián)網(wǎng)文本中常見的格式(Markdown、Txt)
  • 最小化格式負擔(dān):避免需要精確計數(shù)或復(fù)雜轉(zhuǎn)義的格式(例如,需要準確統(tǒng)計數(shù)千行代碼的數(shù)量、json中的換行符轉(zhuǎn)義字符)

4. Agent-計算機接口優(yōu)化

正如人機接口(HCI)設(shè)計重要,Agent計算機接口(ACI)需同樣重視:

(1) 設(shè)計策略

  • 模型視角思考:從模型角度評估工具使用的直觀性。對于人來說,根據(jù)工具描述和參數(shù),使用這個工具是否很容易、清晰,還是需要仔細思考?如果是這樣,那么模型可能也是如此。
  • 完整文檔設(shè)計:好的工具定義通常包括使用示例、邊界情況、輸入格式要求以及與其他工具的清晰界限
  • 命名優(yōu)化:像為初級開發(fā)者寫文檔一樣精心設(shè)計參數(shù)名稱
  • 實證測試迭代:通過多樣化輸入觀察模型使用模式
  • 防錯設(shè)計實施:重構(gòu)參數(shù)結(jié)構(gòu)減少錯誤可能性

(2) 實戰(zhàn)案例

在SWE-bench Agent開發(fā)中,工具優(yōu)化占用了大量精力:

  • 問題:當(dāng)智能體離開根目錄后,相對路徑引用導(dǎo)致錯誤
  • 解決方案:強制要求使用絕對路徑
  • 效果:模型能夠完美執(zhí)行文件操作

在為SWE-bench構(gòu)建我們的Agent時,Anthropic實際上花了更多的時間優(yōu)化我們的工具,而不是整體提示詞。

5. 實踐建議

設(shè)計原則:

  • 將工具文檔視為API設(shè)計的關(guān)鍵環(huán)節(jié)
  • 精簡必要參數(shù),提供合理默認值
  • 為復(fù)雜工具添加使用示例

使用場景界定:

  • 定義與其他工具的區(qū)分方法:清晰界定工具的適用場景和不適用場景
  • 使用模型能理解的語言和格式

持續(xù)優(yōu)化策略:

  • 定期檢查工具使用日志,識別改進機會
  • 平衡靈活性和防錯性,適應(yīng)智能體能力水平

優(yōu)良的工具定義能顯著提升Agent的工具利用效率,減少錯誤調(diào)用,并提高整體系統(tǒng)性能。

技術(shù)的力量在于分享,希望這篇總結(jié)能成為他人開發(fā)之路上的指南針。如果您希望持續(xù)獲取工作流、Agent技術(shù)及大模型應(yīng)用的最新動態(tài)和深度解析,歡迎關(guān)注我的公眾號硅基世界指北。智能體的未來已來,這不僅是去發(fā)現(xiàn),更是去創(chuàng)造。期待與更多志同道合的朋友們共同探索AI的無限可能。

責(zé)任編輯:趙寧寧 來源: 騰訊技術(shù)工程
相關(guān)推薦

2025-09-04 01:35:00

AI工作流智能體

2025-04-29 08:00:00

Rowboat多智能體人工智能

2025-07-10 15:38:00

2025-06-12 01:30:00

智能體Dify游戲智能體

2025-01-26 15:13:00

2021-10-14 11:34:05

技術(shù)工作流引擎

2025-03-03 13:26:39

2025-07-08 09:24:52

2025-07-18 08:26:51

2025-07-09 07:00:00

自主式AI智能體大語言模型

2025-10-11 01:45:00

RAGAI機器人

2025-07-17 04:00:00

2023-11-15 09:24:00

數(shù)據(jù)訓(xùn)練

2025-11-07 09:17:58

2009-03-03 09:13:36

工作流BPM業(yè)務(wù)流程

2025-06-23 08:17:54

2025-01-26 10:25:53

2025-09-02 09:05:00

AI大模型智能體

2025-02-24 13:46:40

點贊
收藏

51CTO技術(shù)棧公眾號

成人黄色av片| 久久综合婷婷| 成人性视频网站| 成人羞羞视频播放网站| 日韩成人av影视| 精品国产凹凸成av人导航| 91精品国产乱码久久久久久久久| 久国产精品视频| 国产美女性感在线观看懂色av| 加勒比久久高清| 亚洲免费观看在线视频| 国产精品亚洲综合天堂夜夜| 美女久久久久久久久久| 国模精品视频| aa级大片欧美| 81精品国产乱码久久久久久| 永久免费毛片在线观看| 欧美亚洲韩国| 国产午夜三级一区二区三| 欧美重口另类videos人妖| 久久久午夜精品福利内容| 国精产品一区一区三区mba下载| 国产在线播放一区二区三区| 久久精品久久久久久| www.com久久久| 色是在线视频| 久久久久久久久伊人| 欧洲成人在线视频| 亚洲av鲁丝一区二区三区 | 久久久影院官网| 亚洲欧美一区二区三区国产精品 | 在线观看亚洲a| 久久日韩精品| 99超碰在线观看| 神马午夜久久| 色婷婷综合久久久久中文一区二区 | 激情五月六月婷婷| 国产色片在线观看| 欧美区亚洲区| 日韩电影大全免费观看2023年上 | 888av在线视频| 成人免费毛片aaaaa**| 国产日产欧美a一级在线| 日本免费www| 先锋影音一区二区| 一区二区三区中文字幕| 国产传媒一区| 91黑人精品一区二区三区| 色乱码一区二区三区网站| 91麻豆精品国产91久久久更新时间| 无码人妻aⅴ一区二区三区日本| 亚洲乱熟女一区二区| 欧美精品97| 精品国内亚洲在观看18黄| 国产三级视频网站| 亚洲高清影院| 欧美日韩综合色| 中文精品无码中文字幕无码专区| 国产+高潮+白浆+无码| 五月婷婷婷婷婷| 电影一区二区三| 国产精品成人免费精品自在线观看| 亚洲一区二区三区毛片| 97久久久久久久| 91综合在线| 亚洲第一视频在线观看| 天堂一区在线观看| av电影免费在线看| 亚洲第一综合色| 亚洲图片欧洲图片日韩av| 亚洲欧美另类一区| 国产精品亚洲视频| 国产成人精品久久亚洲高清不卡| 青花影视在线观看免费高清| 亚洲成在人线免费观看| 视频免费一区| 一二三区中文字幕| 欧美视频二区| 久久久久久亚洲精品中文字幕| a毛片毛片av永久免费| 中文字幕精品影院| 一区二区三区四区视频| 日本性生活一级片| 日日狠狠久久| 欧美一区二区三区人| 国产成人艳妇aa视频在线| а_天堂中文在线| 色综合久久88色综合天天免费| 免费看涩涩视频| 91欧美极品| 欧美另类videos死尸| 国产av无码专区亚洲精品| 性欧美1819sex性高清大胸| 国产精品视频看| 欧美一区二区视频17c| 男人的天堂a在线| 中文字幕国产在线观看| 狠狠做深爱婷婷综合一区| 日韩色在线观看| 亚洲人视频在线| 欧美黄色三级| 一本久道中文字幕精品亚洲嫩 | 亚洲精品四区| 欧美大片在线免费观看| 天天色影综合网| 欧美1级片网站| 久久久久五月天| 国产在线免费视频| 欧美88av| 欧美高清无遮挡| 青青草视频在线观看免费| 国产成人免费在线视频| 成人a在线观看| 国产美女三级无套内谢| 97精品国产97久久久久久久久久久久| 成人一区二区三区四区| 国产高清免费在线播放| 亚洲国产综合色| 国产3p露脸普通话对白| 中文在线免费| 一区二区三区高清| 日本欧美视频在线观看| 国内自拍亚洲| 91精品综合久久久久久| 在线观看国产精品一区| 成人亚洲一区二区| 18性欧美xxxⅹ性满足| 精品国产伦一区二区三区| 国产成人精品影视| 亚洲综合首页| 97久久网站| 欧美一区二区三区性视频| mm131丰满少妇人体欣赏图| 在线成人国产| 国产成人aa精品一区在线播放| 国产91绿帽单男绿奴| 亚洲色图制服诱惑| 精品久久久99| 久久人人88| 国产精品你懂得| 91高潮大合集爽到抽搐| 国产91在线看| 日本一区二区三不卡| av资源在线播放| 精品国产91乱码一区二区三区| 男人操女人的视频网站| 亚洲深夜福利| 国产欧美日韩精品丝袜高跟鞋| 日本福利片高清在线观看| 国产精品美女一区二区在线观看| 精品www久久久久奶水| 99综合久久| 精品亚洲一区二区三区在线观看| 中国美女黄色一级片| 日韩高清不卡在线| 视频一区视频二区视频三区视频四区国产| 男人的天堂在线视频免费观看 | 亚洲欧美制服丝袜| 国产精品久久国产精麻豆96堂| 欧美久久影院| 成人自拍偷拍| 女厕盗摄一区二区三区| 日韩高清不卡av| 久操视频在线免费观看| 中文在线免费一区三区高中清不卡| 800av在线免费观看| 国产精东传媒成人av电影| 中文字幕欧美国内| 日韩乱码一区二区| 国产一区三区三区| 国产性生活免费视频| 加勒比视频一区| 日本免费一区二区三区视频观看| av在线亚洲天堂| 国产精品水嫩水嫩| 999热精品视频| 欧美色网址大全| 成人h视频在线观看播放| 午夜伦理在线视频| 日韩av综合网站| 男操女视频网站| 有码一区二区三区| 亚洲第九十七页| 国产精品v亚洲精品v日韩精品| 国产精品免费久久久久久| 毛片在线视频| 亚洲精品白浆高清久久久久久| 欧美成欧美va| www成人在线观看| 你真棒插曲来救救我在线观看| 亚洲欧美tv| 成人激情在线观看| 日韩av影片| 久热精品视频在线| 亚洲天堂aaa| 亚洲图片欧美色图| 一级在线观看视频| 高清av一区二区| 丰满少妇在线观看| 国产调教一区二区三区| 亚洲r级在线观看| 欧美日韩免费看片| 久久久久久久97| 中文字幕在线观看日本| 欧美三区在线观看| 日韩美女视频网站| 亚洲欧美日韩电影| 无码一区二区三区在线| 国产91精品露脸国语对白| 三级a三级三级三级a十八发禁止| 欧美精选视频在线观看| 国产精品美女www| av老司机在线观看| 欧美另类交人妖| 亚洲第一视频在线| 午夜精品在线视频一区| 亚洲熟女乱综合一区二区三区| 一区二区三区成人精品| 鲁丝一区二区三区免费| 欧美xxxx做受欧美护士| 久久久久久美女| 99视频免费在线观看| 中文字幕亚洲色图| 国产在线观看免费| 欧美精品日日鲁夜夜添| 日韩精品一区二区亚洲av| 午夜伦欧美伦电影理论片| 久久免费精彩视频| www久久精品| 又黄又爽的网站| 国产成人精品午夜视频免费| 亚洲色图欧美自拍| 六月婷婷色综合| 欧美极品少妇无套实战| 国产精品国产三级国产在线观看| 92国产精品视频| 国产成人午夜性a一级毛片| 国产99视频在线观看| 麻豆mv在线观看| 性欧美在线看片a免费观看| 精品福利视频导航大全| 亚洲精品色婷婷福利天堂| 日韩在线观看视频网站| 欧美精品一区二区三| 超碰在线人人干| 精品国产乱码久久久久久闺蜜| 性一交一乱一精一晶| 欧美一区二区国产| www.污视频| 亚洲成人黄色网址| 五月婷婷在线播放| 在线观看www91| 日本中文字幕在线观看视频| 在线观看亚洲精品视频| 中文字幕一区二区三区免费看| 一区二区三区四区乱视频| 国内偷拍精品视频| 亚洲国产精品欧美一二99| 国产无遮挡免费视频| 婷婷开心激情综合| 精品国产欧美日韩不卡在线观看| 亚洲视频图片小说| 久一视频在线观看| 欧美日韩国产精品一区二区不卡中文| 三级黄色录像视频| 亚洲欧美另类久久久精品 | 亚洲精品二区三区| 久久偷看各类wc女厕嘘嘘偷窃 | 日韩精品视频免费在线观看| 久热av在线| 亚洲大胆人体在线| 你懂的在线看| 日韩中文字幕免费看| 四虎在线免费看| 精品裸体舞一区二区三区| 91免费视频播放| 精品国产在天天线2019| 深夜福利视频在线观看| 中文字幕九色91在线| www.在线视频| 久久精品国产欧美激情| 青春草在线视频| 久久综合网hezyo| 鲁鲁在线中文| 成人国产在线激情| 国产三级精品三级在线观看国产| 欧美日韩国产不卡在线看| 久草精品视频| 婷婷四月色综合| 韩日成人av| 免费涩涩18网站入口| 成人一区二区三区视频| 日韩不卡av在线| 偷拍日韩校园综合在线| 91九色蝌蚪91por成人| 国产视频久久久| 最新黄网在线观看| 国产成人精品一区二区三区| 国产亚洲欧美日韩高清| 欧美理论在线| 黄页免费在线观看视频| 久久精品国产成人一区二区三区| 97精品人人妻人人| 国产精品一级片在线观看| aaaaa一级片| 亚洲一区影音先锋| 中文字幕丰满人伦在线| 亚洲国产日韩欧美综合久久 | 日本一区二区三区在线观看| 能免费看av的网站| 亚洲一区在线观看免费观看电影高清| 青青艹在线观看| 欧美日韩一级视频| 午夜在线视频免费| 欧美精品亚州精品| 久久av色综合| 国产在线播放91| 国产亚洲一卡2卡3卡4卡新区| 美女黄色免费看| 国内久久精品视频| 性猛交╳xxx乱大交| 中文一区在线播放| 亚洲国产成人精品女人久久| 在线观看91精品国产入口| 日韩在线视频第一页| 欧美国产精品va在线观看| 亚洲狼人综合| 亚洲人久久久| 奇米精品一区二区三区在线观看| 久久撸在线视频| 国产亚洲视频系列| 精品国产一区二区三区四| 亚洲精品美女免费| 福利网站在线观看| 国产不卡一区二区三区在线观看| 在线精品视频在线观看高清| 精品人妻大屁股白浆无码| 狠狠色丁香婷综合久久| 国产视频精品免费| 欧美日韩国产中文| 黄色一级大片在线免费看国产一| 久久电影网站中文字幕| 国产欧美日韩中文字幕在线| 欧美aaaaa级| 亚洲精品国产一区| 午夜欧美精品| 中文字幕在线视频一区二区| gogogo免费视频观看亚洲一| 久久香蕉精品视频| 精品国产免费久久| 成人免费网站观看| 精品国产乱码久久久久久久软件 | 亚洲一二三在线| 污污视频在线| 成人av免费在线看| 精品一区二区三区的国产在线观看| 免费黄色福利视频| 国产又黄又大久久| 日本a级片视频| 亚洲第一色中文字幕| a一区二区三区| 无码免费一区二区三区免费播放| 毛片基地黄久久久久久天堂| 欧美做爰啪啪xxxⅹ性| 日韩精品最新网址| 色大18成网站www在线观看| 成人久久久久久| 国内视频精品| 9.1成人看片免费版| 欧美性极品少妇| 色播色播色播色播色播在线| 青青a在线精品免费观看| 禁果av一区二区三区| 天天操天天干天天做| 亚洲一区二区三区四区在线观看 | 成人在线超碰| 一本久道综合色婷婷五月| 国产精品久久久久影院老司| 精品国产av一区二区三区| 国内外成人免费激情在线视频网站 | 精选一区二区三区四区五区| 日本成人中文字幕在线视频| www.av成人| 精品一区二区三区三区| 六九午夜精品视频| 性一交一乱一伧国产女士spa| 麻豆精品一区二区综合av| 久久中文免费视频| 日韩精品视频免费专区在线播放| 婷婷激情成人| 黄色网页免费在线观看| 国产成人精品免费看| 欧美videossex极品| 亚洲国产成人精品久久久国产成人一区 | 欧美精选一区二区三区| 精产国品一区二区三区| 亚洲男帅同性gay1069| 日韩专区一区二区| 2022国产精品| 国语精品一区|