百度 TURA 三階段架構:讓 AI 檢索 “動” 起來
1. 為什么傳統 RAG 不夠用了?

圖 1 傳統 RAG 只能返回靜態網頁,而 TURA 可以實時調用攜程 API 查詢機票
- 痛點:現有檢索增強生成(RAG)系統只能讀取已索引的靜態網頁,無法回答“下周從北京到上海的最低票價是多少”這類需要實時數據的問題。
- 需求:用戶希望一次對話就能完成查票、訂酒店、看天氣、規劃路線等多件事。
2. TURA 登場:三階段“工具人”架構

圖 2 TURA 三階段框架總覽:檢索 → 規劃 → 執行*
TURA(Tool-Augmented Unified Retrieval Agent)用工具調用把 RAG 從“靜態閱讀”升級為“動態交互”。核心分為三步:
階段 | 關鍵模塊 | 一句話總結 |
① 檢索 | Intent-Aware MCP Server Retrieval | 把用戶一句話拆成多個“小意圖”,再從上千個工具里秒選最相關的幾個。 |
② 規劃 | DAG-based Task Planner | 把小意圖畫成有向無環圖(DAG),讓能并行的步驟一起跑,省時間。 |
③ 執行 | Distilled Agent Executor | 用“小模型”蒸餾“大模型”的推理能力,既快又準地調用工具拿結果。 |
3. 深度拆解:每個階段的黑科技
3.1 意圖感知檢索:如何 1 秒鎖定 5 個最相關工具?
- 查詢分解:LLM 先把“去北京玩 5 天”拆成["查北京天氣", "找 5 個景點", "訂酒店", "規劃路線"]
- 語義增強索引:為每個工具離線生成 20 條“用戶可能問法”,解決“用戶口語 vs API 文檔”的 Gap。
- 向量召回:用 ERNIE 做多向量 MaxSim 檢索,Recall@5 達到 0.8289(表 4)。

表 4 檢索模塊消融實驗:缺了分解或索引增強都會掉分
3.2 DAG 任務規劃:并行神器
- 復雜查詢不再是線性流水,而是并行圖。例:訂酒店 & 查天氣互不依賴,可以同時跑;路線規劃需等前兩者完成后才啟動,節省 44% 延遲(表 6)。

表 6 DAG vs 串行:成功率相當,延遲從 1650 ms → 920 ms
3.3 蒸餾執行器:小模型也能打大模型
- 老師:DeepSeek-V3(671B)
- 學生:Qwen3-4B 蒸餾版
- 結果:

表 7 工具調用準確率:學生 88.3 % > 老師 82.4 %,延遲 750 ms
秘訣:訓練時保留思維鏈,推理時直接出動作,既省 token 又保智商。
4. 實戰成績:線上 A/B Test
- 樣本:百度真實流量 10^3 量級用戶
- 指標:
Session Success Rate(SSR):55.1 % → **64.0 %**(+8.9 %)
人工評分:TURA 在 13 % 場景“明顯更好”,僅 4 % 出現新問題(表 2)。

表 2 線上 A/B 結果
TURA 用“檢索 + 規劃 + 工具調用”的三板斧,把只能查資料的 RAG 變成能訂票、能規劃、能交互的 AI 搜索體,已在百度億級流量場景跑通,為下一代對話式搜索樹立了新范式。
https://arxiv.org/pdf/2508.04604
TURA: Tool-Augmented Unified Retrieval Agent for AI Search本文轉載自????CourseAI????,作者:CourseAI

















