騰訊元寶 AI 大模型新搜索案例架構設計與落地實踐 原創 精華
誕生三十余年的“老”搜索,在 AI 時代仍是必爭高地,根源在于它與大語言模型(LLM)形成了“彼此成就”的閉環。
對大模型而言,搜索像實時外掛的知識庫--補時效、補長尾、拉通垂直領域,顯著削弱幻覺;多輪調用后,它已成為大模型落地的標準“氧氣”。反過來,大模型把搜索從“給鏈接、人篩選”的舊范式,推進到“直接生成答案”的新紀元,整條技術棧--理解、召回、排序、呈現--都被重新寫了一遍,搜索由此邁入生成式進化快車道。
比如:面對高考志愿填報這類“千人千面”的復雜任務,傳統搜索只能丟出一堆鏈接,讓人越看越亂。基于 DeepSearch 做成“AI 高考通”——一個專啃硬骨頭的 AI 智能體:

它先用 Agentic RAG 把志愿這件事拆成若干子任務,再循環執行“規劃-搜索-閱讀-反思”,一口氣調度幾十個報考工具;最后為每位考生自動生成可落地的志愿表,并給出決策理由。這樣,碎片化的分數線、招生計劃與個人偏好被整合成一張清晰的“作戰圖”,徹底告別“搜得到卻用不上”的尷尬。
下文我們詳細剖析下。
一、AI 大模型搜索技術架構設計演進
1、搜索技術架構設計三次躍遷
搜索技術,正經歷一場由“檢索”到“思考”的范式革命。這條演進曲線并非線性升級,而是三次結構性的躍遷:
圖片
第一次躍遷,我們稱之為“古典檢索時代”,關鍵詞觸發、倒排召回、多路粗排,一切圍繞“把最相關的網頁挑出來”。
第二次躍遷,RAG 讓大模型第一次介入流程,Function Calling 把實時 API 當作“外掛記憶”,LLM 的總結能力把“鏈接列表”壓縮成“答案段落”。然而,當用戶開始提出跨域、多步、需要權衡取舍的復雜問題時,RAG 的單輪式“問-搜-答”顯得捉襟見肘。
于是迎來第三次躍遷--Agentic RAG:多 AI 智能體協同,Planning 負責把宏大需求拆成可執行的子任務,Reflection 在每一輪交付后復盤并動態調整策略,強化學習為整個鏈路注入持續進化的動力。搜索自此不再是“匹配”,而是“解題”。
2、技術挑戰和解決方案
為了支撐這一 AI 大模型搜索架構設計的躍遷,搜索全鏈路的每一環都被重新雕刻,主要技術挑戰和解決方案如下:

第一、需求理解:從“分詞-糾錯-意圖分類”到“對話式解析”
技術方案:兩階段 LLM 改寫機制。第一階段用 SFT 在人工標注數據上學習如何把口語化 Prompt 拆成獨立、可檢索的子問題;第二階段引入真實檢索效果作為獎勵信號,通過強化學習讓拆解粒度與用戶滿意度對齊。

場景示例:用戶問“煙臺大黑山島有什么特色、周圍經濟酒店、需要幾天玩”,系統實時拆成三條獨立 Query,并自動補全省略的地理與時間約束。
第二、索引召回:從“文檔”到“知識片段”
粒度下沉:將整篇網頁切分為語義完整的 Chunk,構建 Chunk-Level 向量索引;同時保留原文檔級索引,形成“雙粒度”召回層。
語義增強:引入領域知識精調后的 Embedding,結合 Cross-Encoder 做二次校準,確保高知識密度片段優先曝光。
幻覺抑制:同一事實的多源片段并行召回,交由 LLM 做一致性校驗,顯著降低空口斷言。
第三、生成式精排:從“多模型分目標”到“單模型端到端”

模型底座:13B → 30B → 70B 的生成式 Teacher 在搜索日志、問答對、權威文檔上進行持續預訓練,獲得領域先驗。
監督范式:采用 GenFR(Generative Fine-grained Ranking)框架,讓模型一次性輸出“相關性-權威性-時效性-需求滿足度”四維打分,并通過 sentence-level loss 與人工標注對齊。
推理落地:70B Teacher 蒸餾至 0.5B Student,結合 INT8 量化與投機解碼,在不犧牲效果的前提下,P99 延遲從 1.2 s 降至 220 ms。
第四、Agentic RAG 的“認知閉環”實現

RL-Based Planner:拆解后的子問題檢索完成度、用戶點擊/停留/滿意度,被實時回傳為獎勵,Policy Network 據此微調下一步拆解策略。
RL-Based Retriever:生成答案后,由 LLM 自檢“引用準確率、事實一致性、用戶滿意度”三重指標,計算 Reward 并回灌到 Embedding 與 Rank 模型,實現“檢索-總結-反思”的循環訓練。
多智能體協同:Planning Agent、Retrieval Agent、Reflection Agent 通過消息總線共享狀態,任務卡片在 Agent 間流轉,支持毫秒級搶占與回退,確保復雜任務的容錯與收斂。
第五、Function Calling 插件系統--從“靜態數據”到“動態工具網絡”

插件召排:對數千個 API 做向量化描述,用戶 Query 改寫后先以向量召回 Top-k 插件,再經輕量級 Rank 模型壓縮至 Top-n,確保 token budget 內 100% 召回。
槽位抽取:結合外部知識(節假日、匯率、限行規則)作為先驗,Function Calling 模型在 Prompt 中顯式注入,降低槽位幻覺。
樣本自動構建:給定少量種子 Prompt 與槽位,系統通過雙向泛化(prompt→slot、slot→prompt)生成 20× 訓練樣本,經人工質檢后回流模型,兩周內即可上線新插件。
第六、面向未來的加速方向
因果推理增強:在排序階段引入因果圖約束,過濾偽相關特征,提升事實準確率。
分布式強化學習:采用異步 Advantage Actor-Critic,訓練吞吐提升 3×,單卡即可承載 70B 模型的策略更新。
量子化檢索實驗:基于 ANN 的 4-bit 量化索引,理論檢索延遲 < 50 μs,為高并發實時場景預留性能余量。
搜索的終點不再是“給出十條藍色鏈接”,而是成為一個可拆解、可反思、可進化的“問題解決型 AI 智能體”。
總之,2025 年,大模型與實時搜索正式擰成「雙螺旋」:大模型需要最新知識,搜索需要模型理解力。智能問答|自動駕駛|在線教育|協同辦公|金融科技等 AI 場景都可以使用 AI 大模型新搜索,幫助企業把搜索成本轉成增長杠桿。
從通用大模型到車載 AI 智能體,再到電商導購機器人,「AI 大模型新聯網搜索」正在成為 AI 時代的默認數據底盤。
好了,這就是我今天想分享的內容。
本文轉載自??玄姐聊AGI?? 作者:玄姐

















