大模型如何革新搜索相關(guān)性?智能升級讓搜索更“懂你”
一、背景
二、傳統(tǒng)相關(guān)性迭代痛點(diǎn)
三、基于大模型的迭代流程
四、大模型建模搜索相關(guān)性
五、效果
六、落地
七、結(jié)語
一、背景
你是否曾在社區(qū)搜索時遇到這樣的困擾:想找一雙“平價學(xué)生黨球鞋”,結(jié)果出現(xiàn)的多是限量聯(lián)名款?或者輸入“初冬輕薄通勤羽絨服”,卻看到厚重登山款?這類“搜不準(zhǔn)”的情況,正是搜索相關(guān)性技術(shù)要解決的核心問題——讓搜索引擎更準(zhǔn)確地理解用戶意圖,返回真正匹配的結(jié)果。今天,我們就來揭秘得物如何用大模型技術(shù)讓搜索變得更“聰明”。
搜索相關(guān)性,即衡量搜索結(jié)果與用戶查詢的匹配程度,通俗來說就是“搜得準(zhǔn)不準(zhǔn)”。作為搜索體驗(yàn)的基石,良好的相關(guān)性能夠幫助用戶更順暢地從種草走向決策,同時也對購買轉(zhuǎn)化率和用戶留存具有重要影響。
二、傳統(tǒng)相關(guān)性迭代痛點(diǎn)
從算法層面看,搜索相關(guān)性模型需要計(jì)算用戶查詢與內(nèi)容(包括下掛商卡)之間的相關(guān)程度。系統(tǒng)需要理解幾十種用戶意圖,如品牌、系列、送禮、鑒別等,識別幾十種商品屬性,如人群、顏色、材質(zhì)、款式,還要覆蓋平臺上數(shù)千個商品類目,從跑步鞋、沖鋒衣到咖啡機(jī)、吹風(fēng)機(jī)等等。
圖片
圖片
圖片
我們早期主要采用基于BERT的交互式模型,結(jié)合大量人工標(biāo)注數(shù)據(jù),來構(gòu)建搜索相關(guān)性系統(tǒng)。然而,隨著業(yè)務(wù)發(fā)展,傳統(tǒng)方法在迭代過程中逐漸暴露出以下痛點(diǎn):
- 資源消耗大,標(biāo)注成本高昂:模型效果嚴(yán)重依賴海量人工標(biāo)注數(shù)據(jù),需千萬級的查詢-商品配對樣本。粗略估算,完成千萬級數(shù)據(jù)標(biāo)注,約需幾十人全年無休投入,耗時費(fèi)力且成本居高不下。
- 擴(kuò)展性不足,迭代響應(yīng)緩慢:高度依賴人工標(biāo)注的模式,導(dǎo)致模型難以靈活適應(yīng)業(yè)務(wù)標(biāo)準(zhǔn)的頻繁更新。每當(dāng)新增商品類目或優(yōu)化判斷標(biāo)準(zhǔn),往往需要重新標(biāo)注,迭代周期長、響應(yīng)速度慢。
- 泛化能力有限,長尾場景表現(xiàn)不佳:模型對訓(xùn)練集中的常見品類效果尚可,但面對新品類或小眾場景時表現(xiàn)明顯下降。例如,用戶從習(xí)慣搜索“鞋服”轉(zhuǎn)向“旅行攻略”“美食景點(diǎn)”等場景時,搜索結(jié)果的相關(guān)性會大打折扣。
三、基于大模型的迭代流程
近年來,以GPT、Qwen為代表的大語言模型迅速發(fā)展,正在逐漸滲透和重塑搜索領(lǐng)域的各個環(huán)節(jié)。在搜索相關(guān)性任務(wù)上,大模型相比傳統(tǒng)方法體現(xiàn)出三方面優(yōu)勢:
- 理解能力更強(qiáng),效果天花板顯著提升:百億甚至千億級別的參數(shù)量,使大模型能夠捕捉更復(fù)雜的語言表達(dá)和微妙語境,且具備不錯的邏輯推理能力,這在多個權(quán)威評測中得到驗(yàn)證,為相關(guān)性效果突破提供了新的可能性。
- 知識儲備豐富,泛化能力大幅增強(qiáng):基于海量互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練,讓大模型內(nèi)置了豐富的世界知識。面對未見過的新查詢或內(nèi)容類型,區(qū)別于小模型的“死記硬背”,大模型可以靈活的“舉一反三”,提升系統(tǒng)在長尾場景下的魯棒性。
- 數(shù)據(jù)需求降低,迭代效率成倍提升:大模型本身就是一座“知識寶庫”,通過提示詞工程或少量樣本微調(diào),即可達(dá)到理想的業(yè)務(wù)效果。這降低了對大規(guī)模人工標(biāo)注的依賴,為算法快速迭代奠定了基礎(chǔ)。
基于這些特性,我們圍繞大模型優(yōu)化了相關(guān)性迭代的整個流程。首先是知識蒸餾新路徑,傳統(tǒng)BERT模型訓(xùn)練需要千萬級人工標(biāo)注,成本高周期長。現(xiàn)在,我們僅用萬級數(shù)據(jù)訓(xùn)練大模型,再通過數(shù)據(jù)蒸餾的方式將其能力遷移至線上小模型。這一轉(zhuǎn)變不僅提升了效果上限,也實(shí)現(xiàn)了算法的低成本快速迭代。
圖片
其次,我們將大模型深度融入“相關(guān)性問題發(fā)現(xiàn) -> 解決”的閉環(huán),覆蓋新詞診斷、badcase監(jiān)控回流、GSB評估等環(huán)節(jié)。以每日badcase回流為例:對于低點(diǎn)查詢,我們調(diào)用大模型進(jìn)行相關(guān)性判斷,經(jīng)人工復(fù)核后進(jìn)入線上bert模型訓(xùn)練池,形成持續(xù)優(yōu)化閉環(huán)。這一流程重構(gòu),更大范圍降低了對人工標(biāo)注的依賴,提升了算法迭代效率。下圖展示了新詞生成 -> 相關(guān)性校驗(yàn) -> 自動化歸因 -> 人工標(biāo)注 -> 樣本增強(qiáng)的具體流程。
圖片
四、大模型建模搜索相關(guān)性
項(xiàng)目初期,大模型技術(shù)在搜索領(lǐng)域的應(yīng)用尚處探索階段,缺乏可借鑒的成熟方案。基于對算法原理與業(yè)務(wù)場景的理解,我們圍繞“如何讓大模型更接近人類的思考方式”這一目標(biāo),設(shè)計(jì)并實(shí)踐了兩項(xiàng)核心優(yōu)化:
二階段流程:我們觀察到,人類判斷相關(guān)性時通常遵循“先理解意圖,再驗(yàn)證匹配”的認(rèn)知過程。基于這一洞察,我們將端到端的相關(guān)性判斷拆分為兩個階段。一階段側(cè)重理解用戶查詢,從中抽取出品牌、系列、適用人群等關(guān)鍵屬性。二階段則對內(nèi)容進(jìn)行屬性解析,并逐一判斷其與查詢意圖的一致性。最終綜合多屬性判斷結(jié)果,輸出相關(guān)性分檔及對應(yīng)依據(jù)。這一結(jié)構(gòu)化的判斷方式使模型大盤準(zhǔn)確率從75%提升至80.95%,在理解能力上取得了可驗(yàn)證的進(jìn)展。
圖片
R1慢思考:隨著年初DeepSeek R1的發(fā)布,我們將其“慢思考”機(jī)制引入相關(guān)性建模,使模型能夠生成思維鏈進(jìn)行分步推理,例如:“用戶搜索‘夏季運(yùn)動鞋’→內(nèi)容提及商品為跑步鞋→材質(zhì)透氣→符合夏季需求→判定相關(guān)”。在數(shù)據(jù)冷啟階段,我們調(diào)用開源推理模型,生成原始思考鏈,通過結(jié)果一致性校驗(yàn)&人工校驗(yàn),過濾出少量高質(zhì)cot推理數(shù)據(jù)。訓(xùn)練階段,我們通過混合少量cot推理數(shù)據(jù)和大量常規(guī)數(shù)據(jù)的方式微調(diào)模型,使模型能將少量cot推理路徑泛化到更多常規(guī)數(shù)據(jù)上。推理階段,這種混合訓(xùn)練方式,也使模型能省略思維鏈的輸出,同時保持分檔準(zhǔn)確性,從而在效果與效率之間取得平衡。該方法使大盤準(zhǔn)確率從80.95%進(jìn)一步提升至83.1%,中長尾場景準(zhǔn)確率從76.98%大幅提升到81.45%,顯示出良好的泛化能力。
圖片
以下是兩個思維鏈?zhǔn)纠?/p>
圖片
圖片
基于大模型的技術(shù)演進(jìn)并非一蹴而就,最初我們基于BERT訓(xùn)練數(shù)據(jù),構(gòu)建的初版相關(guān)性大模型效果有限,甚至略遜于線上BERT小模型基線(準(zhǔn)確率 75% vs 75.2%)。通過后續(xù)一系列優(yōu)化,如精細(xì)調(diào)整數(shù)據(jù)配比、引入課程學(xué)習(xí)等策略,模型效果逐步提升,最終大盤準(zhǔn)確率提升約10個百分點(diǎn),達(dá)到86.67%,驗(yàn)證了大模型在搜索相關(guān)性任務(wù)上的潛力。具體消融實(shí)驗(yàn)如下:
圖片
五、效果
經(jīng)過兩個季度的迭代優(yōu)化,相關(guān)性大模型在效果上已穩(wěn)定超過線上bert模型,在大盤測試集上,準(zhǔn)確率提升11.47%,宏平均F1值提升16.21%。在樣本量較少的檔位上提升更為顯著,2分檔F1提升32.66%,1分檔F1提升21.59%。目前,模型在NDCG和0分F1兩個指標(biāo)上仍有提升空間,這也將是下一階段的優(yōu)化重點(diǎn)。在中長尾場景下,大模型展現(xiàn)出更好的泛化能力,測試集準(zhǔn)確率提升6.78%,宏平均F1提升25.72%,其中0分檔F1提升達(dá)51.93%,表現(xiàn)全面優(yōu)于線上基線模型。詳情指標(biāo)如下表:
圖片
六、落地
通過大模型標(biāo)注千萬級數(shù)據(jù),并結(jié)合多版數(shù)據(jù)蒸餾策略進(jìn)行A/B實(shí)驗(yàn),線上相關(guān)性badcase率實(shí)現(xiàn)顯著下降:大盤降低5.39個百分點(diǎn),中長尾場景降低10.82個百分點(diǎn),累計(jì)節(jié)約標(biāo)注成本達(dá)百萬級別。
離線評估方面,經(jīng)過蒸餾后的線上BERT模型在大盤準(zhǔn)確率上提升9.58%,宏平均F1提升10.91%;中長尾場景下準(zhǔn)確率略有波動(-0.61%),但宏平均F1仍提升15.85%,體現(xiàn)出良好的泛化穩(wěn)定性。
線上bert指標(biāo)對比

后續(xù)方向
- 當(dāng)前大模型在分檔能力上優(yōu)于BERT,但在NDCG排序指標(biāo)上仍有差距。我們正在探索基于生成式Listwise強(qiáng)化學(xué)習(xí)方法,建模內(nèi)容間的偏序關(guān)系,以提升同一查詢下的排序質(zhì)量。
- 基于大模型的數(shù)據(jù)蒸餾策略已逐步接近瓶頸。我們正嘗試更高ROI的落地方案,包括logits蒸餾策略,并推進(jìn)大模型直接承接部分線上流量的可行性驗(yàn)證。
- 大模型本身的能力邊界仍隨開源基座模型和生成式搜推技術(shù)的發(fā)展而不斷拓展,我們將持續(xù)跟進(jìn),探索效果上限的進(jìn)一步突破。
七、結(jié)語
搜索相關(guān)性的優(yōu)化,是一場沒有終點(diǎn)的長跑。通過引入大模型技術(shù),我們在理解用戶意圖、提升匹配精度上取得了階段性進(jìn)展,也為后續(xù)的迭代開辟了新的路徑。未來,我們將緊跟大模型技術(shù)發(fā)展趨勢,同時緊密結(jié)合業(yè)務(wù)場景,推動搜索體驗(yàn)向更智能、更精準(zhǔn)的方向穩(wěn)步演進(jìn)。

























