扔掉人工公式:快手EMER框架,用“會比較、自進化”的模型重構短視頻推薦排序
當你打開短視頻 App,手指上下滑動的每一秒,背后都藏著一套決定 “你接下來看什么” 的排序邏輯。
過去十年,行業里的推薦排序大多依賴 “人工設計公式”—— 工程師們把 “用戶會不會點贊”、“能看多久” 等指標,按經驗分配權重、套進公式,算出每個視頻的 “優先級分數”。
但這套模式正在遭遇瓶頸:有人喜歡 “短平快” 的搞笑視頻,有人偏愛 “慢節奏” 的生活記錄,一套公式怎么滿足千萬用戶的個性化需求?當 “留存”、“時長”、“播放量” 等目標沖突時,比如推長視頻能提升時長,卻可能降低播放量,人工調權重又該如何平衡?
為解決這些問題,快手策略算法團隊提出了一套全新框架 —— 端到端多目標融合排序 EMER。它用 “會比較、能進化的 AI 模型”,徹底替代了傳統推薦排序,不僅在快手主 App 和極速版實現 “七日留存 + 0.23%~0.3%、停留時長 +1.2%~1.4%” 的顯著提升,更給行業提供了一套可落地的 “智能排序” 解決方案。
那么,這一效果是怎么實現的?在快手發布的技術論文中,我們能找到完整答案。

- 論文標題:An End-to-End Multi-objective Ensemble Ranking Framework for Video Recommendation
- 鏈接:https://arxiv.org/pdf/2508.05093
一、讓模型學會 “比較”,而不是 “單獨打分”
在深入 EMER 的技術細節前,我們先搞懂推薦排序的 “行業常規操作”。
簡單來說,工業界廣泛應用的推薦排序模塊范式是兩階段的,第一階段通過大體量模型預估用戶在多個維度上的滿意度,第二階段將多目標標量化作為最終排序依據,即多目標融合排序。工業界普遍采用的標量化方法是人工設計的啟發式排序公式,把這些預估結果合并成一個 “最終排序分”,分數高的視頻優先展示。
這套模式的優點很明顯 —— 成本低、調整靈活、可解釋性強。但缺點也同樣突出:
- 個性化不足:一套公式覆蓋所有用戶,無法適配 “有人愛刷短劇、有人愛刷知識” 的差異需求。
- 非線性能力弱:公式只能處理簡單的線性關系,沒法捕捉 “用戶看了 A 視頻后,更可能喜歡 B 視頻” 這類復雜關聯。
- 多目標平衡難:當 “留存” 和 “播放量” 沖突時,只能靠工程師反復試錯調權重,既耗時又難找到最優解。
過去的排序模型,本質是 “給每個視頻打個獨立的分,按分數排序”。快手提出的端到端多目標融合排序 EMER 的核心思路是 —— 排序的本質是 “比較”,得讓模型看多個視頻之間的相對好壞。
為了實現這點,EMER 從數據、特征、模型三個層面做了創新性的設計:
1、數據:給模型看 “全量候選”,而非 “個別樣本”
傳統模型只關注 “用戶最終互動過的視頻”(比如用戶點贊了 A 視頻,就只拿 A 視頻當訓練樣本),相當于 “只看考試分數,不看考生在全班的排名”。EMER 則反其道而行:把用戶一次請求中的所有候選視頻(哪怕沒被用戶看到)都打包成一個訓練樣本。這樣做有兩個好處:1)解決 “曝光偏差”:避免模型只學過 “被推薦過的視頻”,忽略那些沒機會展示的優質內容;2)提供 “比較基礎”:讓模型能直接對比 “同一批候選里,哪個視頻更適合用戶”,和線上真實的排序場景完全對齊。
2、特征:給模型加 “相對位置信息”
光有全量候選還不夠,EMER 還為每個視頻增加了 Normalized Ranks(original item rank/total number of candidate items )特征 —— 簡單說,就是告訴模型:“這個視頻在這一批候選中的排名是第幾(從某單一維度的信號來看)”,讓模型明確知道每個 item 在當前候選集中的相對地位。
3、模型:用 Transformer 捕捉 “視頻間的關聯”
為了處理 “多個視頻之間的比較關系”,EMER 基于 Transformer 的網絡架構。本身 Transformer 天然就擅長處理序列和關系,它能顯式地捕捉候選 item 之間的復雜關系,評估每個 item 對其他 item 的影響。最終,模型給出的得分,不再僅僅是 item 本身的質量分,更包含了它在當前上下文中的相對價值。

二、怎么讓模型知道 “用戶滿意” 嗎?
解決了 “比較” 的問題,下一個難點來了:如何定義 “用戶滿意”?有人點贊算滿意,有人不點贊但看完也算滿意,甚至同一個人對 “搞笑視頻” 和 “知識視頻” 的滿意標準都不一樣。
在推薦系統領域,一個長期存在的挑戰是如何構建一個有效的監督目標,以準確量化和優化用戶滿意度。由于用戶行為的個性化和多樣性,簡單地用單一指標或絕對分數來衡量滿意度是極其困難的。
EMER 用兩套方案,把 “模糊的滿意” 變成了 “可學習的目標”。
1、用 “相對滿意度” 替代 “絕對分數”
不糾結 “這個視頻的滿意度是 80 分還是 90 分”,而是判斷 “用戶對 A 視頻的反饋是否比 B 視頻好”。EMER 定義了一套基于相對優勢滿意度 + 多維滿意度代理指標的方法:多重正反饋(點贊 + 評論 + 轉發)>單一正反饋(只點贊)>無正反饋。然后用 “Pairwise Logistic Loss” 訓練模型 —— 簡單說,就是讓模型學會 “區分 A 和 B 哪個更讓用戶滿意”,慢慢摸清不同用戶的偏好差異。
2、用 “多維度滿意度代理指標” 補全信息
只看用戶的 “事后反饋” 比如看完點贊有缺陷:例如有些視頻用戶沒刷到(即曝光偏差),有些視頻反饋太少(即信號稀疏)。
EMER 的解決辦法是:引入 “多維滿意度代理指標”—— 也就是第一階段大模型預估的各種 “先驗信號”(Pxtrs)。提升某個信號的排序效果,就能提升相應維度的用戶滿意度,所有信號的排序效果同時提升,將共同促進整體用戶滿意度的提高。它不把這些信號簡單合并,而是把每個信號都當成獨立的訓練目標,讓模型同時優化 “觀看時長排序”、“完播率排序”、“點贊率排序” 等多個維度。
這樣做的好處是:既能解決 “事后反饋稀疏” 的問題,還能讓模型兼顧 “即時反饋”(比如點贊)和 “延遲反饋”(比如復訪),更全面地理解 “用戶滿意”,從而在排序時做出更精準的權衡和決策。
三、智能優化:讓模型 “自我進化”,平衡多目標
推薦排序中最頭疼的問題,莫過于 “多目標沖突”—— 比如想提升 “停留時長”,可能會推更長的視頻,但這會導致 “播放量下降”;想提升 “播放量”,推短平快視頻,又可能讓 “留存率降低”。
過去,工程師只能靠人工調試權重;EMER 則給模型加了個 “自我進化” 模塊 —— 優勢評估器(簡稱 AE),讓模型自己動態調整目標權重。

1、對比 “新舊模型”,自動調權重
不同于依賴靜態權重配置的傳統方法,EMER 能夠根據當前模型相對于之前版本模型的性能表現,自動調整不同損失的權重。當某個目標表現下降時,優勢評估器會增加其權重,促使模型集中優化;反之,則會減少其權重,去關注其他效果更差的目標。

簡單來說,優勢評估器會實時對比 “當前模型” 和 “上一版模型” 的表現。如果發現 “當前模型的播放量比上一版降了”,就自動增加 “播放量目標” 的權重,讓模型重點優化。如果發現 “留存率已經漲得很好了”,就減少 “留存目標” 的權重,去關注其他沒做好的指標。整個過程不需要人工干預,模型能根據業務效果實時調整,比人工調參更高效、更精準。并且以按請求級別的細粒度計算,確保模型能持續適應不同用戶的個性化偏好和同一個用戶隨時間不斷變化的行為。
實驗證明,這種 “自我進化” 機制效果顯著:對比 “固定權重模型”,EMER 不僅沒出現 “時長漲但播放量降” 的情況,還實現了 “多指標全面提升”。在初版模型中,EMER 甚至成功融合了 78 個目標,且每個目標的表現都優于傳統公式,這是人工調參完全做不到的。
這種 “自我進化” 的訓練方案使得 EMER 具備了 “學習如何學習” 的能力,從而實現了持續和自適應的性能提升。
2、離在線一致性:解決 “解耦悖論”
做推薦模型時,很容易遇到一個怪象:離線測試時,模型各項指標都很好,但一上線,總互動量反而下降了。經過研究發現其背后的根源在于:離線優化的是 “單個視頻的互動概率(pxtr)”,而線上業務追求的是 “單位時間內的互動密度”。這完全是兩回事。
- 離線訓練目標:優化單個 item 的互動概率(pxtr),其目標是讓用戶對每個獨立的推薦 item 產生互動的可能性最大化。
- 在線業務目標:用戶有限的會話時間內,最大化總互動次數。這意味著我們需要增加互動的 “概率密度”,即在單位時間內的互動效率。
為了緩解這個問題,EMER 提出了一個新指標 —— 單位時間互動概率(IPUT)。

過將優化目標從 pxtr 轉化為 IPUT,這把模型的優化方向從 “讓你對某一個視頻更可能互動”,精準地調整為 “讓你在一分鐘里能產生更多次互動”,這一方法從根本上消除了 “解耦悖論”,極大地提升了離線訓練和在線效果的一致性,為模型離線的高效迭代奠定了堅實基礎。
四、落地驗證:數據說話,用戶與業務雙受益
EMER 不是實驗室里的 “理論模型”,而是已經全面落地快手主 App 和極速版單列場景的 “實戰方案”。從實驗數據來看,效果超出預期:
1、核心業務指標顯著提升
此前,快手精排階段采用人工設計的融合公式(FF)排序,通過對各 PXTR 進行變換后相乘得出視頻分數。本次實驗中,團隊在快手極速版與主站 APP 中分別部署 EMER 模型進行打分,并開展線上 A/B 測試。實驗結果顯示,EMER 在核心指標如 LT、停留時長、播放次數及互動等方面均顯著優于 FF 方法(下左圖),且 LT 指標仍保持持續上升趨勢(下右圖)。

對比傳統的 “人工公式(FF)”,EMER 在兩個核心 App 中的表現顯著。

為評估排序結果與各滿意度維度信號之間的一致性,快手策略算法團隊比較了不同融合方法輸出的排序結果與多項 PXTR(如觀看時長、有效播放、點贊、評論等)之間的 GAUC。結果顯示,EMER 在大多數 PXTR 上取得最優的一致性表現,體現出其在多目標排序方面的綜合優勢。

2、跨鏈路復用效果明顯
除了主場景,EMER 還適配到了快手端到端生成式推薦系統 OneRec 鏈路的獎勵模型中。同樣取得了亮眼成績:App 停留時長提升 0.56%,七日留存提升 0.149%。該方法也已擴展至快手其他業務場景中進行試點。這說明 EMER 不是 “單點方案”,而是具備跨場景復用能力的 “通用框架”。
3、消融實驗:拆解 EMER 的 “核心能力”,少一個都不行!
為了搞清楚 EMER 模型里,到底是哪些設計在 “真正發力”,快手策略算法團隊做了一組 “消融實驗”—— 簡單說就是 “逐個去掉模型的核心組件,看性能會不會掉”。實驗分 “離線測試”(模型內部指標)和 “線上測試”(真實用戶數據)兩部分,結果很明確:EMER 的每個關鍵設計,都是提升效果的 “剛需”,少一個都不行。

表 1: EMER 和消融版本的離線 GAUC 比較

表 2:EMER 和消融版本的在線 A/B 效果比較
必須讓模型 “學會比較”,單獨打分行不通:EMER 的核心思路之一,是讓模型能 “看到” 多個視頻之間的關系。為了驗證這個設計的重要性,他們構建變體模型 EMER-NoComp:不讓它看多個視頻的關系,只給每個視頻單獨打分。結果很明顯:不管是離線的核心指標(GAUC),還是線上的用戶數據(比如停留時長、播放量),這個簡化版模型的表現都比原版 EMER 差。
“用戶反饋” 和 “提前預估”,兩個信號缺一不可:前文提到,EMER 構建了一套相對優勢滿意度 + 多維滿意度代理指標的方法。為了看這兩個信號的作用,他們分別構建 EMER-NoPost(移除后驗信號)與 EMER-NoPrior(移除先驗信號)變體。結果是:這兩個模型的表現都比原版 EMER 差,尤其是去掉 “提前預估” 的 EMER-NoPrior,效果掉得更明顯。
這很好理解:只看用戶反饋,會漏掉很多 “用戶沒刷到的好視頻”(比如視頻沒曝光,自然沒反饋);只看提前預估,又會缺少 “用戶真實體驗的驗證”。只有把兩個信號結合起來,模型才能全面判斷 “用戶會不會滿意”。
模型得 “自己調整權重”,固定權重會顧此失彼:EMER 有 “自我進化” 的機制,能根據效果自動調整 “不同目標的權重”。為了測試這個功能,他們采用固定權重訓練:不給它自動調整的權利(比如不管效果怎么變,都讓 “停留時長” 占 60% 權重,“播放量” 占 40%)。結果出問題了,雖然用戶停留時長上去了,但播放量跌了 2.347%,轉發跌了 8.418%,評論跌了 8.109%,典型的 “撿了芝麻丟西瓜”。后來還嘗試著人工調整權重,結果還是不如 EMER 的 “自動調整” 效果好。
這說明:EMER 的 “自動調整權重” 不只是 “改個數字”,更是在幫模型 “找對學習方向”—— 避免某個目標 “一路狂奔”(比如只追求時長,忽略播放量),也避免某個目標 “躺平擺爛”(比如轉發率一直跌卻不優化),保證所有目標都能均衡提升。

圖:loss 分布比較:EMER vs. 消融版本 EMER-NoEvolve
必須對齊 “離線訓練” 和 “線上效果”,不然模型會 “紙上談兵”:為驗證離在線一致性以及 IPUT 的作用,他們做了個 “沒 IPUT 的模型”(叫 EMER-NoIPUT)。結果顯示:有 IPUT 的原版 EMER,離線指標和線上用戶數據的 “匹配度” 很高 —— 離線算出來好的,線上實際效果也真的好;而沒 IPUT 的模型,還是會出現 “離線好、線上差” 的情況。這說明:IPUT 幫模型 “找準了學習目標”—— 不再是 “紙上談兵” 算概率,而是真正貼合用戶的實際使用場景,這是保證模型 “有用” 的關鍵。

4、選對 “評估標準”,才能讓模型往對的方向學
EMER 的 “自動調整權重” 功能,需要一個 “判斷標準”:怎么知道當前模型比上一版好還是差?他們測試了三種不同的 “評估方式”,最終發現 DCG@K 效果最好,在幾乎所有 GAUC 指標上都比另外兩種強。所以,EMER 最終就用了 DCG@K 作為 “判斷標準”,確保模型每次調整,都是往 “把好視頻放前面” 的方向優化,而不是走偏。

五、總結
從 “人工調公式” 到 “AI 自進化”,EMER 的價值不僅在于 “提升了快手的業務指標”,更在于它為行業解決了三個長期存在的核心難題:
1. 用戶滿意度難定義:用 “相對優勢滿意度” +“多維滿意度代理指標”,把模糊的需求變成可學習的目標。
2. 排序的本質是 “比較”,同一個請求內候選適配之間的比較關系是非常重要的,模型如何感知此類信息也是一個難點。
3. 模型的學習目標難定義,也意味著模型的評估 Metric 難設計。
目前,EMER 已經成為快手短視頻推薦的核心排序框架,而團隊還在持續探索 —— 比如如何挖掘 “更能代表用戶滿意” 的信號,如何進一步提升模型的個性化能力。對于行業來說,這套 “可落地、可驗證” 的方案,或許能為更多企業的推薦系統優化,提供一份切實可行的參考。
































