生成式強化學習在廣告自動出價場景的技術實踐
在實時競價(RTB)廣告系統中,廣告出價模塊作為連接廣告主需求與流量匹配的核心樞紐,需要將廣告主的營銷目標(如轉化率、ROI)轉化為動態競價決策。作為競價機制的中樞神經,廣告出價不僅直接影響廣告主的投放效果,也是廣告排序分的關鍵組成模塊,進而影響平臺側的流量分配效率。
廣告出價的面臨的核心挑戰可以概括為以下三點:
既要花錢,又要省著花:廣告主既需控制單日花費不超預算,又需盡可能降低每次轉化(如購買、下載等)的成本。
未來難以預測:系統無法預知即將到來的流量狀況和競爭對手行為,必須依據實時花費與成本等數據動態調整出價。
牽一發而動全身:每次出價會影響廣告展示與消耗,改變賬戶狀態(如剩余預算),進而影響后續出價,構成連續而復雜的序列決策問題。

圖1:實時出價系統示意圖
快手的出價算法經歷了從 PID、MPC 到強化學習(RL)的三代演進。若將這一過程比喻為汽車工業的發展:
-
第一代(PID):類似于定速巡航。它只能根據當前速度和設定速度的差異來調整油門,反應直接但比較“笨”,難以應對復雜多變的競價環境。
-
第二代(MPC):類似于更高級的適應巡航。通過預測未來短時間內的路況以調整車速,但其建模相對簡單,易陷入局部最優,本質上難以實現效果的根本性突破。
-
第三代(強化學習):如同根據專家駕駛數據學習的AI駕駛員。通過分析海量歷史駕駛數據(離線數據集),學習在特定狀態下的最佳動作(出價),以最大化全程獎勵(廣告效果)。該方法安全性高(不直接影響線上業務),且能夠挖掘數據中蘊藏的更優策略。
2025年至今,快手將生成式強化學習出價技術全面落地在廣告系統,為平臺實現了超過3% 的廣告收入提升。
一、新一代出價技術:生成式強化學習出價
既然強化學習已奠定了良好基礎,為何還需引入“生成式”方法?
現有的強化學習技術有點像 “一維思考”,只根據單步狀態信息進行決策,對于出價狀態序列信息利用不夠充分。而生成模型(如Transformer, Diffusion)特別擅長理解和生成有復雜模式的序列數據。然而,生成模型本質是模仿數據集的動作,高度依賴數據集質量,難以優化序列整體價值;而強化學習能夠學到超出數據集效果的策略,直接優化序列整體價值,在原理上相比生成模型具有更高的收益空間。
快手將這兩種技術融合,創新性提出了“生成式強化學習”,讓出價模型能 “多維思考” 。更充分地利用歷史出價序列信息,從而做出更精準的決策。生成式強化學習有兩個大方向:
-
Generative Model as a world model:建立一個可以模擬不同出價策略下廣告投放結果的“數字沙盒”,生成大量訓練數據來增強模型學習。
-
Generative Models as policies:用生成模型直接建模強化出價策略,提升對于出價狀態序列信息的利用能力。
Generative Models as policies 主要包括兩類方法:Decision Transformer(DT)與 Diffusion Model。
DT 應用于出價策略(如圖1):其機制類似于大語言模型中的“下一詞預測”(Next Token Prediction)。模型依據歷史狀態、調價動作與獎勵序列,預測能夠最大化序列整體價值的最佳出價動作。可類比為讓模型學習大量優質出價案例,進而根據當前上下文推斷出最合理的后續動作。
Diffusion Model 的應用機制:在推理階段,模型以狀態-動作-獎勵為條件進行去噪,通過擴散過程生成未來狀態序列(Next Trajectory Prediction),再結合歷史狀態反推當前最優出價(Next Bid Prediction)。這一過程猶如一位“AI 畫家”——基于已有狀態從噪聲中勾勒出理想的未來軌跡(如預期消耗、成本曲線),再逆向推導當前應當執行的出價。

圖2:Decision Transformer架構
然而,利用生成模型直接建模出價策略仍面臨兩大挑戰:
1)依賴高質量數據集:簡單探索會遇到OOD(Out of Distribution)問題,需設計高效的離線探索機制。
2)和優化目標難以對齊:生成模型原理上難以最大化序列整體收益(優化目標),因而存在和優化目標難以對齊的問題。
針對挑戰一,快手提出GAVE算法,結合強化學習中的價值函數引導模型在離線訓練時更有效地探索。該方案也是NeurIPS 2024 Competition: Auto-Bidding in Large-Scale Auctions比賽的冠軍方案。針對挑戰二,快手提出CBD算法,首先預估一個trajectory-level獎勵模型作為aligner,然后在推理階段利用aligner修改生成的軌跡,從而實現和優化目標對齊。
下文將圍繞生成模型在出價任務中面臨的上述兩個核心挑戰,詳細介紹GAVE與CBD算法的技術細節.
二、依賴高質量數據集挑戰:GAVE出價算法
如前文所述,DT能夠有效建模序列信息,彌補了離線強化學習在序列信息利用方面的不足。然而,將其直接應用于廣告出價仍存在兩個關鍵挑戰:
其一:出價存在轉化、成本多個目標,如何能讓DT架構更好地適配廣告多個投放目標;
其二:DT的學習原理是模仿數據集的出價動作,其效果受限于數據集質量。
為解決上述問題,需引入高效且穩定的探索機制以增強模型探索能力。針對第一個挑戰,快手商業化算法團隊提出Score-based RTG(Return to Go)模塊,以靈活適配多種廣告投放目標;針對第二個挑戰,我們提出基于價值函數的動作探索機制,通過學習最優價值函數,引導模型探索出最優action,避免OOD(Out of Distribution)問題,有效提升模型學習效果。
GAVE算法創新性融合了Score-based RTG與基于價值函數的動作探索機制,其整體結構如圖3所示。
tps://static-ai.51cto.com/images/202509/d616d0f80cb53fc82fc655d35dec0bccf6c823.png?x-oss-process=image/resize,w_820,h_503)
圖3: GAVE算法架構圖
2.1 Score-based RTG
DT直接用于出價通常只能適配轉化目標,而無法考慮成本率的約束??焓稚虡I化算法團隊提出Score-based RTG,把當前時刻到序列結尾的成本率約束加到每個時刻t,使得RTG對齊最終評估指標(帶懲罰的總轉化)。通過靈活調整得分函數參數,框架可適配CPA、ROI等不同廣告場景需求,以實現目標導向的出價生成決策。
2.2 基于價值函數的動作探索機制
為了解決生成模型依賴高質量數據集的挑戰。快手提出一種基于價值函數的動作探索機制,包含括動作探索模塊(Action Explorations)以及可學習價值函數模塊(Learnable Value Function)。
-
動作探索模塊:首先生成探索動作,然后預估原動作和探索動作的長期價值,最后讓模型的預測動作更多地向原始動作和探索動作中價值最大的那個動作進行更新。
-
可學習價值函數模塊:首先借鑒IQL算法的期望回歸損失,預估當前序列下未來回報(RTG)的上界,形成探索動作的價值參考錨點;然后使擾動動作的RTG向預測的最優價值更新,這有效地避免無效或者危險的探索。
2.3 實驗效果
離線實驗
我們在AuctionNet公開出價數據集上測試GAVE以及基線算法性能。如表1顯示,GAVE在不同預算設置與數據條件下均取得最優效果,其相對于DT的顯著提升驗證了基于價值函數的動作探索機制的有效性。消融實驗(圖4)進一步證明了Score-based RTG模塊與動作探索機制的必要性。

表1: 離線對比

圖4: 消融實驗
在線實驗
為驗證實際效果,我們在大型廣告系統中進行了線上A/B測試。實驗表明,在Nobid(預算約束下最大化轉化)和Costcap(CPA約束下優化轉化)兩種場景中,GAVE均顯著優于基線:Costcap場景:消耗提升2.0%,預期消耗提升2.2%,CPA達標率提升1.9%;Nobid場景:消耗提升0.8%,預期消耗提升3.2%。結果驗證了GAVE在真實廣告競價環境中的有效性與實用性。
三、和優化目標難以對齊挑戰:CBD出價算法
基于的DT出價技術采用動態規劃的方式逐步輸出單個動作,以間接實現trajectory stitching這一目標。然而,這種方式可能導致誤差的累積,缺乏長程規劃能力,且可解釋性較差。相比之下,Diffuser方法采用擴散模型生成未來軌跡,再通過逆動力模型推理決策動作,不僅長程規劃能力更強,還能清晰地理解“模型的決策意圖”。
此外,廣告的轉化往往稀疏的,因此基于此設置的單步獎勵信號也非常稀疏,限制了DT在廣告場景中的應用。Diffuser通過將多步累積獎勵作為條件輸入,建立其與生成軌跡之間的映射關系,有效緩解了獎勵稀疏性問題,從而有望突破DT的性能瓶頸。
若直接將Diffuser應用于廣告出價,在推理時需在每個調價步t生成整條狀態軌跡${s_0,…,s_t,…,s_T}$,然后根據生成的未來狀態序列${s_{t+1},…,s_T}$和真實觀測的狀態序列jishu推演出此時的出價。但由于競價環境的動態性,真實觀測狀態序列和生成的未來狀態序列往往存在不一致,導致兩個突出問題(如圖5所示):
-
一是生成狀態序列合法性問題:例如生成的剩余預算可能違反物理規律(如不降反增)
-
二是難以和偏好對齊的問題:即生成出價狀態序列偏離優化目標

圖5: 生成狀態序列一致性問題和偏好不對齊問題
3.1 CBD出價算法詳解
為促使基于擴散模型的生成式強化學習出價模型與優化目標更好對齊,CBD (Causal Auto-Bidding via Diffusion Completer-Aligner) 算法創新性地引入了Completer和Aligner兩個模塊(結構如圖6所示)。Completer基于歷史觀測序列擴散補全未來序列,Aligner則對生成序列進行偏好對齊,從而實現離在線環境下的性能提升與穩定部署。

圖6: CBD算法架構圖
1)擴散補全 Completer:訓練中的補全學習
我們引入新的隨機變量決策步t對訓練過程進行增強,訓練目標定義為:

此時,擴散模型的輸入與決策步 t 相關,與推理設定保持完全一致。具體操作中,我們隨機采樣一個時間步t,將真實歷史出價狀態序列s_{t-H:t}與剩余位置上填充的padding noise拼接,作為Completer的輸入以生成未來狀態。損失函數僅針對生成軌跡中 ??+1:?? 的部分進行計算。因此,Completer 能夠基于隨機長度的觀測序列,補全生成未來未觀測段,是一個具備“補全”能力的擴散模型。
2)偏好對齊 Aligner: 推理中的生成優化
我們引入基于軌跡獎勵模型 R(x) 的aligner模塊用于偏好對齊。 該獎勵模型能夠預估完整生成軌跡的累積獎勵,在此基礎上我們可以對生成的序列做修改,使得更新之后的軌跡更接近期待的優化目標y, 其修改方式可基于梯度更新,操作如下

經由Aligner對齊得到最終的未來軌跡,與歷史序列一并輸入至逆動力模型,反推得到待執行的出價動作。
3.2 實驗效果
離線實驗
我們在AuctionNet公開出價數據集上測試CBD以及基線算法性能(包括離線強化學習和DT等生成模型方法)。表2展示了不同預算及獎勵稀疏程度下,各算法所競得的總轉化價值(Value)。實驗結果表明,CBD算法顯著優于其他方法。同時,生成軌跡的可視化結果(圖5)顯示,CBD能有效緩解Diffuser直接應用時出現的問題。表3中的消融實驗進一步驗證了擴散模型結構的有效性以及Completer–Aligner框架的必要性。

表2:離線對比不同方法競得的總轉化Value

表3: 消融實驗
在線實驗
我們在大型廣告系統中進行了線上A/B測試,對比了CBD與GAVE在計算效率和性能方面的表現。實驗表明,在相同計算資源下,CBD僅增加6毫秒推理耗時,但在效果上顯著優于GAVE:在消耗持平的情況下,實現了2.0%的預期消耗提升。該結果驗證了CBD在嚴格業務約束下的有效性,為動態競價環境提供了一種性能更強的生成式出價方法。
四、成果多次亮相頂會
作為快手核心算法部門,商業化算法團隊支持快手國內與海外多場景的廣告變現算法研發,持續構建業界領先的智能廣告系統,以算法驅動商業增長,并不斷優化用戶體驗和客戶效果。團隊深耕實際業務需求,多項研究成果已在 KDD、ICLR、ICML、NeurIPS等國際頂級會議上發表,并先后斬獲CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文信息處理科學技術獎一等獎等榮譽。
2024年,團隊在NeurIPS大規模廣告自動出價競賽中斬獲雙賽道冠軍,充分體現了其在人工智能領域的核心實力。2025年,團隊首次提出并全面落地生成式強化學習出價技術,通過有機融合生成模型與強化學習,顯著提升快手廣告收入。其所研發的GAVE、CBD等出價算法已成為該領域的SOTA算法,受到業界的廣泛關注與應用參考。
五、未來展望
展望未來,出價技術仍存在兩大重要演進方向:
一是出價基座大模型,依托多場景、多目標的出價歷史序列數據,基于DT或Diffusion架構訓練通用基礎出價模型,充分發揮數據與算力的規模效應;
二是出價推理大模型,引入大語言模型的復雜推理機制,增強出價模型的可解釋性與決策思維能力,推動自動出價向更高智能層次邁進。
更多信息可查看論文:
論文名稱:Generative Auto-Bidding with Value-Guided Explorations
論文鏈接:https://arxiv.org/pdf/2504.14587
論文名稱:Generative Auto-Bidding in Large-Scale Competitive Auctions via Diffusion Completer-Aligner
論文鏈接:https://arxiv.org/pdf/2509.03348

















