構建AI工作流與智能體的信任：持續評估與優化指南

作者：大模型之路 2025-09-04 01:35:00

本文通過電影推薦智能體的案例，展示了一套從“指標定義-數據生成-自動化評估-優化行動”的完整持續評估框架。

在人工智能技術飛速發展的當下，開發并部署一款AI驅動的應用已不再是遙不可及的目標。開發者們耗費數小時打造智能體或復雜工作流，經過有限的手動測試后，便滿懷信心地認為其概念可行。然而，初始測試結束后，故事往往并未迎來圓滿結局——許多AI應用被直接部署，隨后便陷入“自生自滅”的境地，性能無聲且往往災難性的衰退也自此開始。

小到代碼的細微調整、新外部依賴的引入，大到用戶行為的微妙變化，都可能導致AI應用偏離最初的設計目標。若缺乏持續的反饋循環，這些問題會不斷堆積，最終引發糟糕的用戶體驗，甚至讓應用走向失敗。正如行業共識所言：“無法衡量的事物，便無法改進”。因此，持續評估絕非可有可無的最佳實踐，而是保障AI應用存活與發展的必需品。它能幫助開發者突破初始概念驗證的局限，打造出健壯、可靠且持續優化的AI應用。本文將以內容型電影推薦應用為例，拆解搭建持續評估流程的實踐步驟，為構建可信AI系統提供清晰路徑。

一、以電影推薦智能體為例：搭建評估基礎場景

要直觀展現持續評估的價值，我們需要一個具體的應用案例。本文選擇一款簡單的內容型電影推薦智能體作為演示對象，它如同一位貼心助手，能根據用戶的描述精準匹配合適的電影。

這款應用的核心是一個包含約2萬部電影的數據集，這些數據從維基百科提取并轉化為結構化格式，涵蓋電影類型、導演、演員、劇情簡介等關鍵信息。其工作邏輯由多個組件協同實現，具體流程可拆解為四步：

（一）用戶查詢發起

流程始于用戶提出需求，例如“幫我找一部搞笑但又沒有尷尬好萊塢風格的喜劇電影”。

（二）搜索查詢優化

一個嵌入式語言模型（LLM）會對用戶的原始請求進行處理，生成更精準的搜索查詢語句，為后續高效檢索奠定基礎。

（三）向量數據庫檢索

優化后的查詢會被發送至向量數據庫（如Milvus，可通過免費計劃獲取API密鑰）。數據庫會在電影數據集中執行相似度搜索，快速篩選出與查詢最相關的5部電影作為候選結果（篩選條件包含“海報URL非空”）。

（四）推薦結果生成

檢索到的電影信息會被傳遞給另一款LLM（本文使用部署在Nebius AI上、按token計費的Qwen模型）。該模型作為最終決策環節，結合獲取的電影信息，為用戶生成簡潔且實用的推薦回復。

這種清晰直觀的流水線架構，不僅便于演示不同評估指標的應用方式，更能清晰展現持續評估如何助力AI應用實現長期性能優化。

二、定義核心評估指標：量化AI應用性能

要實現有效的持續評估，首要任務是定義清晰、可落地的核心指標。這些指標如同AI應用的“健康體檢表”，能全面反映其運行狀態。針對電影推薦智能體，我們篩選出三個關鍵指標，從不同維度評估其性能表現。

（一）檢索召回率（Recall@5）：檢驗信息檢索能力

Recall@5聚焦于智能體的核心功能——從向量數據庫中檢索正確電影的能力，是評估檢索環節性能的關鍵指標。我們構建了一個包含“用戶問題-對應正確電影標題”的測試數據集，通過檢查正確電影是否出現在檢索返回的Top 5結果中，來判斷單次檢索的有效性。

該指標的核心價值在于隔離檢索環節與最終回復生成環節的性能。若智能體無法在檢索階段獲取正確信息，后續的回復生成環節再精良，也無法輸出優質結果。為提高評估效率，我們通過Python腳本實現自動化測試，批量驗證數百個測試數據點，最終得出一個可量化的召回率分數，便于長期跟蹤檢索性能變化。

在代碼實現上，我們創建了RetrievalTestAgent類（繼承自基礎Agent類），并編寫process_single_question函數處理單個測試案例：先初始化智能體狀態，調用圖流程獲取檢索文檔，提取文檔元數據中的電影標題，最后判斷預期標題是否在檢索結果中。同時，通過ThreadPoolExecutor實現多線程并行評估，提升測試效率。

（二）事實一致性（Faithfulness）：防范AI“幻覺”

事實一致性衡量智能體的回復是否嚴格基于向量數據庫返回的源文檔信息，是判斷AI是否“胡言亂語”的核心指標。高事實一致性分數意味著智能體的回復完全依托真實數據，未產生“幻覺”（即編造不存在的信息）。

為實現該指標的評估，我們引入“AI裁判”機制——借助另一款獨立的LLM作為評估工具。將用戶問題、智能體的最終回復以及檢索到的源文檔一同發送給“AI裁判”，由其根據預設標準（0-5分，5分為完全符合事實，0分為完全編造）對回復的事實一致性打分，并給出評分理由。

（三）答案相關性（Answer Relevancy）：確保回復貼合需求

答案相關性評估智能體的回復是否直接關聯且能有效解決用戶的原始問題。即使回復符合事實，若與用戶需求脫節，也無法為用戶創造價值。例如，用戶詢問“輕松的家庭喜劇”，智能體卻詳細介紹某部懸疑電影的劇情，即便信息準確，也屬于無效回復。

與事實一致性類似，該指標同樣通過“AI裁判”進行評估。“AI裁判”會結合用戶問題與智能體回復，從“是否緊扣需求”“是否提供有效信息”等維度給出0-5分的評分（5分為完全貼合需求，0分為完全無關），并補充評分依據。

這三個指標相輔相成，Recall@5保障“原料”（檢索信息）的準確性，事實一致性與答案相關性則確保“成品”（最終回復）的質量，共同構成智能體性能的完整評估體系。

三、生成與管理評估數據：為評估提供可靠支撐

若無高質量的評估數據，再完善的指標體系也無法發揮作用。雖然電影推薦智能體的2萬部電影數據集是其知識基礎，但我們還需要一套獨立的標注數據來驗證其性能——這便是評估數據集的核心價值。

（一）合成數據：快速構建基礎評估庫

手動創建大規模評估數據集耗時費力，而生成式AI恰好能解決這一痛點。我們借助LLM快速生成評估數據，具體流程如下：

從主電影數據集中隨機選取一部電影；
讓LLM為該電影生成一個真實的用戶查詢（即該電影是該查詢的理想答案），形成“問題-答案”對；
重復上述步驟，生成包含數百個測試案例的數據集。

例如，針對電影《午夜黑暗》（Darker Than Midnight），LLM可生成對應的用戶問題：“我想找一部扣人心弦的意大利劇情片，它能探討復雜的家庭關系與個人救贖，背景氛圍壓抑且情感張力強”。

這種方法的優勢在于高效、可擴展，能為持續評估提供源源不斷的新鮮測試案例，滿足CI/CD流水線對高頻測試的需求。但它也存在局限性——生成的問題雖格式規范，卻難以完全模擬真實用戶的語言習慣，可能缺少 slang（俚語）、口語化表達等真實場景中的語言特征，且問題難度可能與實際用戶需求存在偏差。

（二）真實數據：彌合評估與實際場景的差距

為解決合成數據的局限性，我們需要搭建從合成數據到真實用戶數據的橋梁，讓評估更貼合實際應用場景。具體可通過三個手段實現：

1. 優化提示詞工程

調整用于生成合成數據的LLM提示詞，例如增加“使用口語化表達”“包含常見拼寫錯誤”“模擬特定年齡段用戶的提問風格”等指令，讓生成的問題更貼近真實用戶的表達方式，縮小與實際場景的差距。

2. 建立用戶交互日志系統

當應用面向真實用戶后，用戶的實際查詢是最有價值的評估數據。我們需要搭建日志系統，記錄用戶的每一次查詢、智能體的回復以及檢索到的源文檔，為后續分析積累真實數據。

3. 構建真實數據處理流水線

當積累到一定量的真實數據后，通過數據流水線對其進行聚類分析，提取出智能體的“失敗案例”（如用戶投訴、低滿意度回復對應的查詢）。將這些失敗案例加入自動化測試集，能讓評估更有針對性，進一步提升評估體系的可靠性。

在數據管理方面，若評估數據集規模較小（如本文案例），可將其與代碼一同進行版本控制；若為大規模生產級項目，則需借助DVC（Data Version Control）等專業數據版本控制工具，實現對海量評估數據的高效存儲與管理。

四、CI/CD流水線集成：實現評估自動化

有了核心指標與評估數據后，關鍵一步是將評估流程自動化，融入CI/CD（持續集成/持續部署）流水線。這樣能確保每一次代碼變更都經過嚴格的性能驗證，從源頭避免性能退化問題。本文以GitHub Actions為例，演示如何搭建自動化評估 workflow。

（一）自動化 workflow 核心配置（ci.yml）

該配置文件存儲于代碼倉庫的.github/workflows目錄下，定義了自動化評估的完整流程，主要包含四個關鍵環節：

1. 觸發條件設置

配置workflow在兩種場景下自動運行：一是開發者提交Pull Request（PR）時，二是PR更新時。同時支持手動觸發（workflow_dispatch），滿足靈活測試需求。

2. 環境準備

代碼拉取：從PR中獲取最新代碼；
環境配置：搭建Python運行環境（本文使用3.11版本），并安裝項目依賴（含開發環境依賴）；
密鑰管理：通過GitHub Secrets存儲敏感信息（如Nebius API密鑰、Milvus令牌與地址、Redis地址），避免信息泄露。

3. 評估腳本執行

依次運行兩個核心評估腳本：

recall.py：執行Recall@5評估，輸出結果至recall_results.md；
ai_judge.py：執行事實一致性與答案相關性評估，輸出結果至ai_judge_results.md。同時，通過pytest運行智能體單元測試，驗證特定功能模塊的正確性。

4. 評估結果反饋

借助GitHub Actions的actions/github-script插件，將評估結果（Markdown格式）自動評論至對應的PR中。開發者與代碼審核者可直接查看Recall@5分數、事實一致性與答案相關性的平均分數，讓性能數據成為代碼審核的核心參考依據。

（二）自動化評估的價值

通過將評估流程融入CI/CD流水線，開發者能在代碼合并前及時發現性能問題，避免“帶病代碼”進入主分支。例如，若某次代碼變更導致Recall@5從76%降至57%，自動化評估會立即捕捉到這一變化，并通過PR評論提醒開發者，從而實現“問題早發現、早解決”。

五、從指標到行動：驅動AI應用持續優化

持續評估的最終目標并非單純獲取分數，而是通過分析指標數據，找到應用的薄弱環節，制定針對性的優化方案。以下結合具體指標數據，演示如何將評估結果轉化為實際優化行動。

（一）基于指標對比，選擇最優技術方案

以檢索策略的選擇為例，我們通過評估不同檢索方案的Recall@5分數，確定最適合當前場景的技術方案：

稠密檢索（Dense Search）：Recall@5為76.00%；
混合檢索（Hybrid Search）：Recall@5為72.00%；
BM25檢索：Recall@5為57.00%。從數據可清晰看出，稠密語義檢索在電影推薦場景中表現最優，因此選擇該方案作為默認檢索策略。

（二）針對低指標，定位并解決問題

1. 若Recall@5分數偏低

這表明檢索系統存在缺陷，需從兩方面排查：

向量嵌入模型：檢查用戶問題與電影數據的嵌入結果是否匹配，若嵌入維度或模型類型不合適，可嘗試更換嵌入模型（如從BERT-base切換為Sentence-BERT）；
數據分片策略：若電影劇情簡介等文本過長，可能導致分片后關鍵信息丟失，需優化文本分片規則（如調整分片長度、保留上下文信息）。

2. 若事實一致性分數偏低

這意味著智能體存在“幻覺”問題，需通過優化LLM提示詞解決。例如，在提示詞中增加明確約束：“僅使用提供的源文檔信息生成回復，若文檔中無相關內容，需明確告知用戶無法回答，不得編造信息”。

3. 若答案相關性分數偏低

此時智能體的回復雖符合事實，但未貼合用戶需求，可通過增強提示詞的引導性改善。例如，提示詞中加入：“結合用戶的查詢需求，重點介紹電影與需求相關的情節或特點，避免無關信息堆砌”。

通過這種數據驅動的優化方式，每一次代碼調整、每一次提示詞修改，都能通過自動化評估快速驗證效果，確保優化行動切實提升應用性能。

六、以持續評估構建可信AI系統

本文通過電影推薦智能體的案例，展示了一套從“指標定義-數據生成-自動化評估-優化行動”的完整持續評估框架。這套框架的核心價值在于，它將AI應用的開發從“一次性測試”轉變為“持續監控與優化”的閉環，讓AI應用在長期運行中始終保持高質量、高可靠性。

需要強調的是，本文介紹的原則與方法并非僅適用于電影推薦場景，而是可遷移至幾乎所有生成式AI應用——無論是智能客服、代碼生成工具，還是數據分析助手。在AI技術日益普及的今天，構建可信AI系統的關鍵已不僅在于模型本身的先進性，更在于圍繞模型搭建的評估與優化體系。通過持續評估，我們能讓AI應用真正成為“可信賴的助手”，在為用戶創造價值的同時，推動AI技術的健康發展。

git:https://github.com/CVxTz/ai_agent_evaluation_ci

責任編輯：武曉燕來源：大模型之路

AI 工作流智能體