AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？原創(chuàng)

發(fā)布于 2025-11-14 08:51

瀏覽

0收藏

大家好，我是玄姐。

AI 智能體已經(jīng)在企業(yè)的眾多場景中落地，比如：對話與問答、報告生成、內(nèi)容審核、流程自動化、可視化數(shù)據(jù)分析、AI 編程等。

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？-AI.x社區(qū)

當你向智能客服提問時，在你點擊發(fā)送按鈕之后，AI 智能體應用架構是如何生成并回復你的問題的？這篇文章將通過一張核心架構設計全流程圖，帶你深入了解 AI 智能體應用架構設計在接收到用戶請求后是如何一步步處理的。這不僅是對 AI 智能體技術的揭秘，也是對 AI 智能體應用架構設計落地的深入探討。

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？-AI.x社區(qū)

下文我們詳細剖析之。

一、AI 智能體應用架構請求全流程設計

AI 智能體應用架構接收到用戶的請求（Prompt），到回復用戶結果（Response），會經(jīng)歷7個關鍵模塊：API 網(wǎng)關層、AI 智能體業(yè)務邏輯層、AI 網(wǎng)關層、MCP 網(wǎng)關層、模型層、向量知識庫層、MCP Server 工具層，如下圖所示（值得好好看和收藏?）：

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？-AI.x社區(qū)

下面我們對 AI 智能體應用架構設計的請求全流程進行詳細解讀。

二、AI 智能體架構請求全流程解讀

1、用戶端：用戶請求的入口

在用戶界面上，用戶輸入一句話（Prompt）：比如：“這個訂單可以退款嗎？”，這個請求會發(fā)送給 AI 智能體架構進行處理，并且這個請求帶了如下4個關鍵參數(shù)：

Prompt：用戶請求內(nèi)容；
UID：用戶唯一 ID；
SessionID：用戶會話 ID；
TranceID：用戶一次請求跟蹤 ID。

2、API 網(wǎng)關層：管理 API 請求的中心樞紐

API 網(wǎng)關層像 AI 智能體系統(tǒng)的門衛(wèi)，不僅接收請求，還檢查參數(shù)完整性和權限，然后把請求路由轉發(fā)給 AI 智能體業(yè)務邏輯層，并記錄日志。

3、AI 智能體業(yè)務邏輯層：業(yè)務邏輯的編排引擎

AI 智能體業(yè)務邏輯層負責處理和協(xié)調(diào)具體業(yè)務需求并與下游多個模塊進行交互。

第一步，需要理解用戶在說什么，于是我們把 Prompt 向量化請求交給 AI 網(wǎng)關層。

4、AI 網(wǎng)關層：模型的統(tǒng)一代理入口

在企業(yè)落地 AI 智能體應用的過程中，會使用到很多模型：大模型、小模型，這么多模型異構性、模型上下線、高可用、Failover、動態(tài)切換等操作需要對 AI 智能體業(yè)務邏輯層透明，因此就需要 AI 網(wǎng)關層統(tǒng)一的代理。

AI 網(wǎng)關層接收到用戶的 Prompt 向量化請求后，自動選擇合適的 Embedding 模型，并把請求提交給模型層。

5、模型層：多個模型聚合層

模型層主要有三類模型：大語言模型、Embedding 模型、Reranker 模型。大語言模型負責推理，Embedding 模型負責向量化，Reranker 模型負責對一階段檢索的 TopK Chunks 進行重排。

AI 智能體理解你的話，首先要把你的話轉成機器能懂的語義向量。

這一步通過 Embedding 嵌入模型實現(xiàn)，它把你的輸入轉換成一個高維向量，比如：1536維或768的數(shù)組。

這個向量是整個流程的關鍵，后續(xù)的知識檢索依賴它。

向量結果返回給 AI 網(wǎng)關層，AI 網(wǎng)關層繼續(xù)返回給 AI 智能體業(yè)務邏輯層。AI 智能體業(yè)務邏輯層繼續(xù)進行相似度檢索。

6、MCP 網(wǎng)關層：數(shù)據(jù)和工具的代理層

MCP 協(xié)議雖然標準了 AI 智能體和工具的通信，但是依然有很多增量的 MCP Server 以及大量存量的企業(yè)級業(yè)務 API，還有海量的數(shù)據(jù)庫，這么多數(shù)據(jù)工具需要有一個統(tǒng)一管理的服務，用于高可用、統(tǒng)一路由、協(xié)議轉換、訪問鑒權等工作，那么這就是 MCP 網(wǎng)關層存在的原因。

AI 智能體業(yè)務邏輯層請求 MCP 網(wǎng)關層繼續(xù)向量相似度檢索，MCP 網(wǎng)關層適配后自動請求下游的向量知識庫層。

7、向量知識庫層：知識統(tǒng)一存儲

從 MCP 網(wǎng)關層得到語義向量后，下一步是進入向量知識庫庫進行相似度搜索。

這就像給你一本書的氣味，然后向量知識庫幫你找出最相似的書。

結果是找出最相關的幾個知識片段（Chunk），可能來自知識庫、舊文檔、API說明或操作手冊。

但只有“相似”還不夠，我們還需要更精確的排序，這就是下一步要做的 Reranker 重排。

在 Reranker 重排之前，向量知識庫把 TopK Chunks 返回給 MCP 網(wǎng)關層，MCP 網(wǎng)關層把 TopK Chunks 繼續(xù)返回給 AI 智能體業(yè)務邏輯層。

8、模型層：Reranker 重排

AI 智能體業(yè)務邏輯層把 TopK Chunks 請求 AI 網(wǎng)關層，AI 網(wǎng)關層適配后自動請求模型層的 Reranker 模型進行二次的排序。

在挑選出的最相關的 TopK Chunk 中，可能還是會有一些看起來相關但實際上沒什么用的信息。為了解決這個問題，AI 智能體會用一個重排模型來重新評估這些搜索結果。

這個過程就像是編輯在篩選一堆材料，找出哪些能更準確地回答用戶的問題。

經(jīng)過重排，通常會選出3到5條最相關的 Chunks，這些知識片段將被整合進最終的提示詞中，和用戶的輸入一起作為大語言模型（LLM）的輸入。

重排后的 TopK Chunks 再次返回給 AI 網(wǎng)關層和 AI 智能體業(yè)務邏輯層。

9、第一次調(diào)用 LLM：你需要我回答還是去執(zhí)行？

AI 智能體業(yè)務邏輯層現(xiàn)在掌握了：

用戶的問題；
相關的知識；
可用工具的信息；

這三樣東西被組合成一個完整的提示詞（Prompt），然后輸入到大語言模型中，比如：DeepSeek R1 或 Qwen 3等，進行初次處理。

大模型會根據(jù)上下文來決定：是直接回答問題，還是需要調(diào)用某個工具？

如果問題很簡單（比如：“AI 大模型是什么？”），大模型會直接生成答案；

如果問題需要查詢最新信息或執(zhí)行某些操作（比如：“幫我看看客戶的合同狀態(tài)。”），大模型會生成一個工具調(diào)用指令，指導 AI 智能體業(yè)務邏輯層調(diào)用正確的工具并輸入必要的參數(shù)。

在這個階段，AI 智能體就像是個決策者，決定是自己直接回答還是需要采取行動。

10、MCP Server 工具層：調(diào)用工具動手干活

一旦大模型選擇調(diào)用工具，AI 智能體業(yè)務邏輯層調(diào)用 MCP 網(wǎng)關層來激活已注冊的 MCP Server 工具集去執(zhí)行任務：

查詢系統(tǒng)（訂單接口、商品接口）；
啟動工作流程；
運行計算；
獲取外部 API 信息。

每次工具調(diào)用都是一個“可追蹤的操作”，它們的調(diào)用參數(shù)和返回結果都會被記錄下來，保證整個過程可以監(jiān)控和回查。

11、第二次 LLM 調(diào)用：結合工具執(zhí)行結果，給出最終答復

工具調(diào)用完成后，AI 智能體業(yè)務邏輯層要把工具返回的結果、原始輸入和上下文信息再次通過 AI 網(wǎng)關層發(fā)送給 LLM。

這樣，LLM 就能綜合這些信息，生成一段完整、清晰、易于理解的自然語言回答。

這就是你作為用戶看到的那段“智能、邏輯性強、理解上下文”的回復：其實它背后經(jīng)歷了兩輪推理、一次工具調(diào)用和多層信息整合。

12、返回與響應：答案落地，體驗閉環(huán)

生成的答案首先送回 AI 智能體業(yè)務邏輯層，然后由 API 網(wǎng)關層服務傳遞給用戶。與此同時，AI 智能體應用架構會將整個請求過程的日志：包括從接收、業(yè)務處理、AI 網(wǎng)關、MCP 網(wǎng)關、向量化處理、檢索、重排、工具調(diào)用到 LLM 生成答案的所有步驟都記錄下來，并存儲到日志平臺中，不僅幫助開發(fā)者進行調(diào)試和問題定位，也為產(chǎn)品的分析和質(zhì)量改進提供了數(shù)據(jù)支持。

總之，AI 智能體應用架構中的請求全流程設計至關重要，每個 AI 大模型應用新架構師都需要掌握，AI 智能體處理請求的全過程總結如下：

用戶通過界面發(fā)送請求，附帶關鍵參數(shù)。
API 網(wǎng)關層接收并驗證請求，然后轉發(fā)至 AI 智能體業(yè)務邏輯層。
AI 智能體業(yè)務邏輯層處理請求，并將其向量化。
AI 網(wǎng)關層選擇合適的模型進行向量化處理。
模型層負責向量化、推理和重排。
MCP 網(wǎng)關層管理數(shù)據(jù)和工具代理，進行相似度檢索。
向量知識庫層統(tǒng)一存儲知識，進行相似度搜索。
模型層的重排模型對檢索結果進行精確排序。
AI 智能體業(yè)務邏輯層將排序后的信息和用戶輸入一起提交給 LLM 進行初次處理。
根據(jù) LLM 的判斷，可能直接回答或調(diào)用 MCP Server 工具層。
工具層執(zhí)行任務后，將結果返回給 AI 智能體業(yè)務邏輯層。
AI 智能體業(yè)務邏輯層將工具結果和上下文再次提交給 LLM 生成最終回答。
API 網(wǎng)關將最終答案返回給用戶，并將全過程日志記錄到日志平臺。

本文轉載自???玄姐聊AGI?? 作者：玄姐

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

AI 智能體

智能體應用

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？原創(chuàng)

一、AI 智能體應用架構請求全流程設計

二、AI 智能體架構請求全流程解讀

1、用戶端：用戶請求的入口

2、API 網(wǎng)關層：管理 API 請求的中心樞紐

3、AI 智能體業(yè)務邏輯層：業(yè)務邏輯的編排引擎

4、AI 網(wǎng)關層：模型的統(tǒng)一代理入口

5、模型層：多個模型聚合層

6、MCP 網(wǎng)關層：數(shù)據(jù)和工具的代理層

7、向量知識庫層：知識統(tǒng)一存儲

8、模型層：Reranker 重排

9、第一次調(diào)用 LLM：你需要我回答還是去執(zhí)行？

10、MCP Server 工具層：調(diào)用工具動手干活

11、第二次 LLM 調(diào)用：結合工具執(zhí)行結果，給出最終答復

12、返回與響應：答案落地，體驗閉環(huán)

目錄

51CTO

51CTO博客

51CTO學堂

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？ 原創(chuàng)

一、AI 智能體應用架構請求全流程設計

二、AI 智能體架構請求全流程解讀

1、用戶端：用戶請求的入口

2、API 網(wǎng)關層：管理 API 請求的中心樞紐

3、AI 智能體業(yè)務邏輯層：業(yè)務邏輯的編排引擎

4、AI 網(wǎng)關層：模型的統(tǒng)一代理入口

5、模型層：多個模型聚合層

6、MCP 網(wǎng)關層：數(shù)據(jù)和工具的代理層

7、向量知識庫層：知識統(tǒng)一存儲

8、模型層：Reranker 重排

9、第一次調(diào)用 LLM：你需要我回答還是去執(zhí)行？

10、MCP Server 工具層：調(diào)用工具動手干活

11、第二次 LLM 調(diào)用：結合工具執(zhí)行結果，給出最終答復

12、返回與響應：答案落地，體驗閉環(huán)

目錄

AI 智能體應用架構設計全流程剖析：一次請求到底經(jīng)過了哪些關鍵步驟？原創(chuàng)