快手端到端生成式搜索框架OneSearch,讓搜索“一步到位”!
還有一個月,一年一度的“雙十一”就要來了!
作為消費者,你平時是怎樣尋找心儀商品的呢??當你滿懷期待在搜索框輸入關鍵詞,卻發現商品列表并不符合心意——這背后到底是什么原因導致的?
這一切,還要從電商平臺常用的傳統搜索架構說起。目前主流系統采用召回->粗排->精排”的級聯式架構。
- 召回層:比如你搜索“紅色連衣裙”,系統會迅速從數億商品中篩選出上萬個包含“紅色”“連衣裙”關鍵詞的商品。這步追求快和全,但精度不高——難免會出現一些標題黨商品(比如標題強行蹭熱點,寫“紅色連衣裙”但其實賣的是搭配的開衫)
- 粗排層:系統使用輕量級模型對這上萬個商品粗略排序,去掉一些明顯不相關的。
- 精排層:采用更復雜、精細的模型,對幾百個剩余商品進行最終排序。它會綜合考量點擊率、銷量、價格、用戶歷史偏好等多種因素,返回你最終看到的商品列表。?
那么,到底是哪些環節導致我們總是看到不滿意的商品?
- 商品描述混亂:賣家為增加曝光,常在標題中堆砌大量不相關熱詞(如“民族風復古流蘇酒紅色吊帶連衣裙云南新疆西藏旅游度假長裙”),嚴重干擾系統判斷。
- 相關性問題突出:用戶搜索詞往往很短(例如“夏季闊腿褲”),但只要某一屬性不匹配(如商品實際是“裙褲”款式),就不再相關,而系統難以精準捕捉這類差異。
- 級聯結構存在瓶頸:級聯式框架如同三道篩子,如果第一層召回效果差,后面再怎么排也難挽回。并且三層目標不一致,整體協同困難。
- 冷啟動難題:新上架商品或搜索量極低的長尾詞,因缺乏歷史數據,很難被系統正確處理,導致曝光機會匱乏。
一、OneSearch:電商搜索端到端生成式框架
為解決傳統電商搜索系統面臨的諸多挑戰,工業界通常采用級聯式架構,以實現較高的商業效益和系統穩定性。然而,隨著大語言模型的興起,研究者開始探索如何借助其強大的語義理解與世界知識進一步優化搜索體驗。在此背景下,快手提出了業界首個工業級部署的電商搜索端到端生成式框架——OneSearch。
論文標題:《OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search》
論文地址:??https://arxiv.org/abs/2509.03236??
該框架涵蓋以下三大創新點:
- 提出關鍵詞增強層次量化編碼(KHQE)模塊,能夠在保持層次化語義與商品獨特屬性的同時,強化Query-商品相關性約束;
- 設計多視角用戶行為序列注入策略,構建了行為驅動的用戶標識(UID),并融合顯式短期行為與隱式長期序列,全面而精準地建模用戶偏好;
- 引入偏好感知獎勵系統(PARS),結合多階段監督微調與自適應獎勵強化學習機制,以捕捉細粒度用戶偏好信號。
二、技術實現方案
2.1 關鍵詞增強層次量化編碼(KHQE)模塊
商品語義涵蓋標題、關鍵詞、詳情頁、商家、價格、圖片等多維度信息。然而,商家為提升曝光度,常在標題中堆砌大量關鍵詞,導致出現多主體甚至屬性沖突的問題,例如:“法式掛脖連衣裙女夏寬松顯瘦絕美溫柔初戀優雅皮靴搭配紅色淺藍色粉色”。此類混雜表述易掩蓋商品的核心特征。
為實現多元化搜索意圖下query與商品的精準匹配,首先必須對商品的豐富語義進行充分建模。快手團隊設計了四個任務來對齊協同和語義表征:
- Q2Q 和 I2I 對比損失:用于對齊協同相似對的表征;
- Q2I 對比損失:增強Query-商品對的語義相關性,確保表征模型理解業務特性;
- Q2I 邊際損失:進一步學習具有不同行為級別(如曝光、點擊、下單)的<q, i>對的協同信號偏差
- 基于LLM的難樣本糾偏:保證難樣本相關性水位
第一步:提取核心屬性
使用Qwen-VL/AC自動機分別識別出商品/query的關鍵屬性(如品牌、品類、顏色、材質)。例如,從前述混亂標題中精準提取“連衣裙”、“法式”、“掛脖”、“夏季”等核心屬性,弱化“絕美”、“皮靴”等無關或沖突詞匯。
第二步:生成層次化編碼(SID)
傳統SID編碼方法(如RQ-VAE、RQ-Kmeans)傾向于編碼商品間的共性特征,導致語義相近的商品被映射到相同編碼中,無法充分保留個性化差異,從而制約生成式檢索模型的性能。
為解決該問題,快手搜索技術團隊提出RQ-OPQ編碼方案,融合RQ(殘差量化)和OPQ(優化乘積量化)的優勢,從縱向與橫向兩個維度建模商品特征:
- RQ:負責處理層次化語義特征,通過多層殘差量化捕捉從粗粒度到細粒度的商品語義。
- OPQ:負責量化獨特特征,專門編碼每個商品的差異化屬性。
首先使用RQ-Kmeans進行3層層次化編碼,構建商品的主體語義表示。可視為從粗到細的分類標簽體系。例如:第一層為“服裝”,第二層為“連衣裙”,第三層為“法式款式”。經過聚類后所剩余的殘差信息,包含商品最獨特、最細粒度的屬性。進一步對殘差向量應用OPQ進行2層編碼,以捕獲商品的細微差異特征,如“iPhone 17 Pro”的“星宇橙色”、“256GB內存”等關鍵屬性。缺失此類信息將導致模型無法區分同類別商品的細微差別。
最終每個商品由5層SID組成:前3層來自RQ聚類中心,后2層來自OPQ量化結果。該結構相當于為每一個商品生成了一個具備豐富語義層次的“智能身份證”,顯著提升了生成式檢索的區分能力和準確性。
2.2 多視角用戶行為序列
傳統搜索系統往往難以有效捕捉用戶的近期偏好與長期興趣。其核心原因在于傳統排序模型中的用戶ID僅為一串隨機數字(如“12345”),缺乏語義信息。而在OneSearch中,依據用戶的長/短期行為序列構建具有區分性的用戶標識(distinctive User ID)。例如,若用戶近期頻繁瀏覽露營裝備,并長期表現出對高性價比商品的偏好,系統會為其生成一個精準描述這些行為的標識,而非無意義的編號。具體而言,采用有序加權方式基于用戶的長/短期行為序列計算distinctive User ID:
SID_{short} = \lceil \sum_{i=s_1}^{m} \lambda_i \cdot SID_{s_i} \rceil, \quad \text{where}\ \lambda_i = \frac{exp(\sqrt{i})}{\sum_{i}^{m}exp(\sqrt{i})}, \\ SID_{long} = \lceil \sum_{j=l_1}^{n} \mu_i \cdot SID_{l_i} \rceil, \quad \text{where}\ \mu_j = \frac{exp(\sqrt{j})}{\sum_{j}^{n}exp(\sqrt{j})}.
2.2.1 顯式引入短行為序列
用戶最近的搜索Query和點擊商品可反映其即時意圖。例如,若用戶近期頻繁搜索“開學必備”、“宿舍神器”,系統可推斷其可能為準大學生,進而在搜索結果頁中圍繞此進行展示。為實現這一目標,系統將用戶最近的搜索Query序列和SID形式的點擊商品序列直接編碼至模型輸入(prompt)中,以顯式方式強調這些近期行為特征。同時,為緩解新用戶行為稀疏性問題并模擬興趣演化,采用滑動窗口策略進行數據增強。
2.2.2 隱式引入長行為序列
長期行為序列旨在從用戶歷史行為(如點擊、購買等)中提煉穩定的偏好特征,形成整體用戶畫像。例如,用戶長期購買高端電子產品和小眾設計師品牌,可體現其消費層次和審美傾向。
在電商場景中,用戶行為序列長度常高達~{10}^{3},無法以顯式方式完整引入。考慮到BART等模型的最大輸入長度限制(如1024)以及長序列對線上推理延遲的影響,可通過嵌入(embedding)方式隱式融合用戶個性化信息。與OneRec等方法直接對海量視頻ID進行建模(嵌入維度達幾十億)不同,OneSearch提出基于SID維度建模,具有以下優點:
- embedding維度低,僅幾千維emb即可表征全量商品
- SID本身已經包含了類目、材質等層級化信息,無需引入額外特征
為進一步降低線上計算復雜度,對用戶行為SID序列分層(L1/L2/L3)進行均值池化,并利用QFormer對序列表征進行壓縮,最終得到一組(n, 768)維向量,即n個用戶序列token。消融實驗表明,去除長期行為序列會導致離線性能顯著下降,證明了隱式引入長序列的必要性。
該方法使系統能夠更全面、深層地理解用戶意圖,顯著提升了個性化搜索的準確性與用戶體驗。
2.3 引入偏好感知獎勵系統(PARS)
當然,光能識別商品和理解用戶還不夠,最終得把所有匹配的商品排好順序。
相比于推薦系統中的序列一致性,搜索中query和item之間的強相關性約束對生成式模型提出了更大的挑戰。對于 GR 模型,不僅需要實現 SID 與query/item之間的語義對齊,還需要根據序列信息直接生成滿足相關性約束和用戶偏好的item。因此,OneSearch提出了一個偏好感知獎勵系統,包括多階段監督微調(SFT)和自適應獎勵系統,以增強模型的個性化排序能力。
2.3.1 監督微調(SFT)階段
用于搜索的生成式模型,需要同時準確把握〈query, item〉對的相關性以及用戶的個性化偏好。OneSearch創新性地設計了三階段SFT訓練任務:分別實現語義內容對齊、協同信息對齊、用戶個性化建模。這就類似于“上課”的過程,從易到難,進行課程學習。
第一節課:認識query/item的SID與類目(比如“薄款襯衫”對應哪個SID、哪一類目);
第二節課:學習query和item的共現關系(比如搜索了“極簡風”的用戶,常買哪些商品);
第三節課:結合用戶的興趣檔案做練習(比如給 近期看露營+長期愛性價比 的用戶,高優展示哪款類型帳篷)。
這一分階段的學習策略有效提升了模型對相關性約束和用戶偏好的聯合建模能力。
2.3.2 強化排序學習(RL4Ranking)階段
為了使生成式模型具備排序能力,一種直觀的思路是借助強化學習,對用戶有交互和無交互行為的區別學習。OneSearch引入了一套自適應的獎勵系統,首先通過reward model實現與線上精排模型的分布對齊,再結合用戶真實交互行為進行監督訓練,進一步激發生成式模型的推理能力。
樣本自適應權重構建:
電商搜索場景中用戶意圖多樣,既包括強購買意圖,也包含瀏覽、比價等弱意圖行為。與視頻推薦使用時長、次留等指標不同,電商搜索更關注 CTR、CVR、訂單量與營收等直接轉化指標。因此,如何對不同行為樣本賦予合理的獎勵權重,就顯得非常重要。OneSearch引入規則獎勵機制(reward model),將用戶行為劃分為六個等級,并為每一類設置基礎獎勵值。在此基礎上,進一步引入動態調節因子,基于商品近7天內的CTR、CVR等實時表現動態微調樣本權重,緩解新品曝光不足帶來的偏差。這種機制使得即使同為高等級樣本(如兩個成交商品),也會因歷史轉化效率的不同而在獎勵權重上呈現細微差異,從而幫助模型捕捉更細粒度的用戶偏好。
獎勵模型(Reward Model)設計
為了對齊線上精排分布,OneSearch首先設計了一個直觀且高效的獎勵模型。保持模型結構&損失函數與原精排一致、特征輸入與 OneSearch對齊,即用更少的特征擬合線上精排模型的分布,這樣可以繼承原有精排模型的穩定性。獎勵模型訓練好后,可以從線上日志中拉取用戶真實搜索過的query等信息,使用SFT后的OneSearch模型生成候選item列表,再使用獎勵模型進行進一步的排序;可以篩選出順序發生變化的樣本,這些差異樣本反映了當前生成模型與線上精排在對用戶偏好理解上的差距。利用這批數據進行監督訓練,可有效增強模型的偏好學習能力。
用戶交互引導,突破模型推理限制
在初步獲得精排排序能力后,OneSearch 進一步引入用戶真實交互數據監督訓練,以激發生成模型的深層推理能力。訓練中將以有點擊、成交等正向反饋的樣本作為正例,曝光未點擊等作為負例,通過混合排序建模的方式,使模型在提升排序性能的同時,不損害生成多樣性,避免reward hacking問題。
總結而言,OneSearch 的強化學習機制分為兩步:首先通過獎勵模型促使OneSearch擬合線上精排模型分布,學習基礎的排序;再通過基于Listwise DPO進一步對齊用戶偏好,突破排序性能的上限。
三、效果評測
離線實驗效果
基于線上真實用戶行為日志構建的離線測試集表明,OneSearch提出的 RQ-OPQ 編碼與自適應獎勵系統相結合的方法效果最優,相比現有級聯式系統(OnlineMCA),各項指標均有顯著提升。
在線結果
為了驗證RQ-OPQ編碼和用戶序列引入的有效性,OneSearch先后進行了兩版實驗,v1版本僅使用RQ編碼,取得了和線上級聯式系統相近的效果;引入RQ-OPQ編碼和用戶序列建模后,v2版本在CTR和CVR上有了顯著的提升;額外地,在生成式模型的基礎上進一步引入獎勵系統,能獲得轉化指標的全面提升,最終版本訂單量提升3.22%,買家數提升2.4%。
該實驗驗證了 OneSearch 模型在真實電商環境中的有效性。這是在大規模工業場景下,生成式模型第一次取代搜索全鏈路的可落地方案。目前該系統已在快手的多個電商搜索場景中成功部署,每日服務數百萬用戶,產生數千萬PV。
人工評測與在線性能
在人工評測中,OneSearch 系列模型不僅在CVR和CTR上表現優異,同時在頁面整體滿意度、商品質量及query-item相關性方面均顯著優于線上級聯式系統。此外,在線性能方面,機器計算效率(MFU)提升顯著,從 3.26% 提高到 24.06%,相對提升達8倍;線上推理成本(OPEX)降低 75.40%,資源利用效率顯著優化。
泛化性和場景分析
OneSearch 在絕大多數行業類別中均帶來CTR的穩定提升,展現出良好的泛化能力。按Query頻次、商品冷啟動及用戶層級下探表明,OneSearch在高、中、低頻 query 上均實現了CTR提升,尤其在中長尾 query 上的改善更為顯著。此外,該系統在冷啟動(cold-start)場景下表現尤為突出,效果顯著優于常規(warm)場景,說明生成式檢索模型能夠更有效地應對長尾用戶和新上架商品的排序挑戰。
四、始終追蹤技術前沿
快手搜索技術部作為公司的核心算法研發部門,始終站在大數據與人工智能技術發展的前沿,致力于將大模型(LLM)技術與海量數據深度融合,打造行業領先的智能搜索平臺,持續推動用戶體驗與技術能力的協同進化。部門業務覆蓋視頻搜索、電商搜索與AI搜索等多個核心方向,聚焦于構建精準、高效、智能的新一代搜索系統。
其中,OneSearch所屬的電商搜索團隊以實際業務需求為驅動,堅持“技術?業務”雙輪迭代機制,多項技術突破已發表在RecSys、CIKM、KDD、EMNLP、AAAI、ACM MM等國際頂級會議上,多次引起業界廣泛關注。面向未來,團隊將持續深耕多模態理解、生成式搜索與AI搜索等關鍵方向,致力于實現更智能、更流暢、更人性化的搜索交互體驗,以技術驅動業務創新,不斷攀登智能搜索的新高峰。
五、未來展望
在后續研究中,快手電商搜索團隊將致力于探索在線實時編碼方案,縮小預定義編碼與流式訓練之間的差異。此外,還將引入更強大的強化學習機制以更精準地匹配用戶偏好,并結合圖像、視頻等多模態商品特征,進一步提升模型的推理效果與用戶體驗。

















