搜索場景下的相關性和效率聯合建模方法
今天給大家介紹一篇阿里巴巴在WWW 2025上發表的搜索場景CTR預估模型的工作,將相關性和CTR預估聯合建模,提升搜索場景下的推薦效果。

論文標題:PRECTR: A Synergistic Framework for Integrating Personalized Search Relevance Matching and CTR Prediction
下載地址:https://arxiv.org/pdf/2503.18395
1.研究背景
在搜索場景中,不僅需要做好如CTR等點擊率的預估,也需要做好相關性的預估,保證推薦出的結果和用戶搜索詞的相關性滿足要求,否則會造成用戶體驗的下降。
現有的業內應用方法,大多數還是將點擊率和相關性分別建模。點擊率目標在精排進行預測,或作為優化目標引入召回、粗排等模塊,而相關性則作為一個單獨的目標進行建模。相關性和點擊率的融合方式,一般是相對獨立的交疊方式。例如,在召回、粗排、精排等模塊都建模不同粒度的相關性,進行不同程度的管控;或者將相關性打分和點擊率打分進行綜合排序,也有一些工作將相關性特征作為點擊率模型的輸入。但是這些方法都沒有實現點擊率和相關性的聯合建模。
阿里的這篇文章,就將點擊率和相關性融合到同一個模型中端到端建模,并引入了針對不同用戶個性化的相關性偏好,實現了離在線效果的提升。
2.建模方法
文中的場景將query和item的相關性分為4個檔位,將相關性與點擊率的聯合建模抽象成如下條件概率分布的形式,即候選item屬于每個相關性檔位的概率,以及當前相關性檔位下的點擊率的乘積。

對應上述條件概率形式,整體包括2個模型,一個模型用來預測點擊(Base Module),另一個模型用來預測相關性(Rsl Module),最后將二者的輸出相乘作為相關性&點擊率的預測結果。Base Module使用點擊率預估特征和相關性特征作為輸入,以點擊率為目標進行擬合;Rsl Module以相關性特征作為輸入,預測相關性屬于各個檔位的概率,做一個多分類任務。其中Rsl Module采用了2階段的訓練方法,第一階段先用相關性數據訓練,第二階段再以點擊率為目標和Base Module一起端到端訓練,且在第二階段的訓練中將Rsl Module的梯度調小。這其中的主要目的是讓Rsl Module真正學到相關性的信息,如果最開始直接端到端學點擊率,2個模塊無法學到各自需要擬合的信息。

除了上述基礎結構外,文中進行了2個方面的優化。首先提出了Semantic Consistency Regularization模塊,通過一個Listwise的任務,讓模型去學習點擊和相關性的綜合排序。這里使用一個加權求和對是否點擊、相關性檔位融合成一個分數,按照這個排序作為Listwise的序擬合目標。這相當于額外引入了都沒有點擊或者都點擊的情況下,相關性好的打分應該高于相關性不好的打分,如果只用點擊作為目標學習的話,模型無法捕捉這部分信息。

另一方面,文中提出了Personalized Relevance Incentive,實現不同用戶的個性化相關性建模。不同用戶的相關性敏感度不同,有的用戶對相關性容忍度高,有的容忍度差。為了建模這個信息,文中將用戶歷史瀏覽的query-item序列過大模型得到歷史相關性偏好,然后用當前query檢索歷史相似query(主要基于attention的結構進行建模),看在這些歷史相似query下用戶對于相關性的敏感度是什么樣的,得到一個個性化的相關性敏感分。這個分會和上述主模型的預估結果相乘,得到最終的預測結果。
3.實驗效果
通過離線相關性、點擊率AUC的評估,以及在線AUC的評估,本文提出的方法都取得了一定的效果提升。
? ?
本文轉載自?????圓圓的算法筆記????,作者:Fareise

















