語言模型變分推理:統一概率視角下的推理能力提升新范式
近年來,大型語言模型(LLM)在推理任務上的表現引起了廣泛關注,特別是在數學、編程和科學問題解決等領域。傳統的監督微調(SFT)和強化學習(RL)方法雖然取得了顯著成果,但各自都存在一定的局限性。本文深入分析了一種全新的變分推理框架,該框架將思維軌跡視為潛在變量,通過變分推理進行優化,為語言模型推理能力的提升提供了更加原則性和穩定的訓練目標。
研究背景與動機
當前主流的語言模型推理訓練方法主要分為兩大類:監督微調和強化學習。監督微調通常依賴精心策劃的長思維軌跡數據,這些數據收集成本高昂,且作為離線方法可能面臨泛化困難和災難性遺忘問題。而強化學習方法雖然能夠通過可驗證獎勵緩解獎勵欺騙問題,但訓練過程往往不穩定,輸出多樣性可能會坍塌,導致對困難問題的正確答案變得越來越稀少。
這些挑戰促使研究者尋找更加原則性的訓練目標。變分推理框架的提出正是為了解決這一問題,它通過概率建模的視角重新審視推理過程,將思維軌跡作為潛在變量處理,從而提供了一個統一且穩定的優化目標。
核心方法論
變分推理框架的構建
該框架的核心思想是將推理過程分解為思維軌跡和最終答案兩個部分。給定輸入問題x,推理模型π_θ(z,y|x)同時生成思維過程z和預測答案y。聯合概率可以表示為π_θ(z,y|x) = π_θ(y|x,z)·π_θ(z|x)。
為了優化邊際概率P_θ(Y_x|x) = Σ_z π_θ(Y_x|x,z)π_θ(z|x),其中Y_x表示正確答案集合,研究者引入了證據下界(ELBO)來使優化過程變得可行。這個下界的關鍵在于引入了變分后驗分布q_φ(z|x,y'),它不僅依賴于問題x,還條件化于輔助答案提示y'。

IWAE風格的多軌跡擴展
為了獲得更緊的邊界,研究者將單軌跡ELBO擴展為重要性加權自編碼器(IWAE)風格的多軌跡目標。通過利用K條軌跡,這種方法產生了嚴格更緊的下界,滿足L_ELBO^K ≤ L_ELBO^{K+1} ≤ log P_θ(Y_x|x)的關系。
在梯度估計方面,研究者推導出了相對于模型參數θ的梯度表達式,其中權重ρ_k的估計成為關鍵問題。權重可以分解為思維軌跡的似然比和給定軌跡產生正確答案的概率兩部分。為了減少長序列直接計算似然比帶來的高方差問題,研究者采用幾何平均作為替代方案。
前向KL散度優化
在變分后驗的優化方面,傳統的ELBO目標最小化反向KL散度,但在實際應用中可能導致變分后驗難以有效利用答案提示而陷入捷徑推理。為了解決這一問題,研究者提出使用前向KL散度來優化變分后驗,這種方法可以視為對變分后驗的加權監督微調,其中訓練數據從π_θ(z|x)中采樣。
技術創新與理論貢獻
統一現有方法的理論框架
該研究的一個重要貢獻是為現有的主流方法提供了統一的理論解釋。通過分析發現,拒絕采樣微調(RFT)可以重新表述為按模型準確率加權的前向KL優化,而二元獎勵強化學習(包括GRPO)也承認類似的形式。
這種分析揭示了一個之前未被明確認識到的現象:這些方法中隱含的準確率加權會產生對簡單問題的系統性偏見。具體而言,RFT和二元獎勵RL的梯度都可以表示為前向KL散度的優化,但會被模型準確率P_θ(Y_x|x)加權,這導致訓練過程更關注容易的問題而忽視困難的問題。
準確率基礎的估計器
在π_θ(Y_x|x,z)的估計方面,研究者比較了基于似然的估計器和基于準確率的估計器。理論分析表明,當|Y_x| > 1時,在模型準確率滿足π_θ(Y_x|x,z) ≥ 1/|Y_x|的條件下,基于準確率的估計器具有更低的最壞情況方差。這為實際應用中選擇合適的估計器提供了理論指導。
實驗驗證與性能分析
實驗設置
研究者在Qwen2.5和Qwen3模型系列上進行了全面的實驗驗證,涵蓋了4B到32B不同規模的模型。訓練數據使用Bespoke-Stratos-17k數據集,該數據集結合了來自Numina-Math的數學問題和來自APPS、TACO的編程問題,包含16,710個樣本。
評估基準包括MATH500、AIME24&25、OlympiadBench、LiveCodeBench、GPQA-Diamond和MMLU-Pro等多個具有挑戰性的推理任務。為了確保公平比較,所有訓練數據都嚴格與測試集分離。
性能表現
實驗結果顯示,變分推理方法在所有基準測試中都取得了一致的改進。與強基線相比,該方法在數學領域實現了超過160%的改進,在其他領域實現了超過152%的改進。特別值得注意的是,即使在分布外的測試集(如GPQA-Diamond和MMLU-Pro)上,該方法也顯著優于基線模型,表明推理改進具有良好的泛化能力。
在Pass@K分析中,研究者發現該方法的優勢隨著K值的增大而在復雜基準上更加明顯,而在簡單任務和多選題格式上性能差距會縮小,這符合預期,因為簡單任務的改進空間有限。

訓練穩定性分析
訓練動態分析顯示,與傳統方法相比,變分推理方法產生了更低的平均訓練損失和更少的梯度范數峰值,表明訓練過程更加穩定。這種穩定性歸因于權重ρ_k中的π_θ/q_φ比值,它能夠自適應地平衡高質量軌跡和與推理策略的一致性。


深入的消融研究
思維軌跡數量的影響
研究者系統地研究了從變分后驗采樣的思維軌跡數量K對最終推理模型性能的影響。實驗結果表明,增加K值可以進一步提升模型性能,這驗證了IWAE風格邊界的有效性,同時也揭示了訓練計算成本與推理準確率之間的實際權衡。
條件化答案提示的必要性
通過對比實驗發現,移除答案提示y'作為條件會顯著影響性能,這證實了變分后驗設計的重要性。沒有答案提示的變體只能從初始推理模型采樣思維軌跡,無法充分利用正確答案的指導信息。
不同估計器的比較
在π_θ(Y_x|x,z_k)的估計方面,基于準確率的估計器和基于幾何平均token似然的估計器都顯著優于樸素似然估計器,驗證了理論分析的正確性。這兩種改進的估計器在數學相關基準上表現相似,但基于準確率的變體在數學基準上略有優勢。
方法論的深度擴展
多輪訓練的潛力
雖然當前實驗僅進行了單輪訓練(T=1),但框架本身支持多輪迭代訓練。在多輪設置中,可以使用前一輪訓練得到的模型作為新的初始推理模型,繼續優化變分后驗和推理模型。這種迭代過程理論上可以進一步提升性能,但需要仔細設計以避免過擬合和模式坍塌。
更豐富的后驗設計
當前的變分后驗設計相對簡單,僅條件化于問題和答案提示。未來可以探索更復雜的后驗結構,例如引入層次化的潛在變量、注意力機制或者結構化的推理模板。這些擴展可能會帶來更好的性能,但也會增加訓練的復雜性。
跨域泛化能力
實驗結果顯示該方法在分布外任務上也有良好表現,這提示了變分推理框架可能學習到了更加通用的推理模式。進一步的研究可以探索如何利用這種泛化能力來處理零樣本或少樣本推理任務。
理論意義與實踐價值
概率建模視角的價值
該研究最重要的貢獻之一是為語言模型推理提供了嚴格的概率建模框架。這種視角不僅統一了現有的各種訓練方法,還為未來的方法設計提供了理論指導。通過將思維軌跡視為潛在變量,研究者能夠利用變分推理的豐富理論工具來分析和改進訓練過程。
偏見識別與緩解
通過理論分析,研究者識別出現有方法中存在的對簡單問題的系統性偏見。這一發現對于理解為什么某些RL方法在困難問題上表現不佳具有重要意義,也為設計更加公平的訓練目標提供了方向。
穩定訓練的實現
變分推理框架提供了比傳統RL方法更穩定的訓練過程。這種穩定性不僅體現在數值上(更低的梯度方差),也體現在概念上(更原則性的目標函數)。這對于大規模模型的訓練具有重要的實踐價值。
局限性與挑戰
計算開銷
變分推理方法需要訓練額外的變分后驗模型,并且需要從中采樣多條軌跡來計算權重。這增加了訓練的計算開銷,特別是在需要大量軌跡(大K值)時。如何在性能提升和計算效率之間找到最佳平衡是一個重要的實踐問題。
驗證器依賴
當前的實現依賴于數學和代碼驗證器來評估答案的正確性。這限制了方法在沒有可靠驗證器的領域的應用。未來需要探索如何在缺乏外部驗證的情況下估計答案質量。
超參數敏感性
方法涉及多個超參數,包括軌跡數量K、M,學習率調度,以及不同損失項的權重。這些超參數的選擇可能會顯著影響最終性能,需要仔細調優。
未來發展方向
自適應軌跡采樣
當前方法使用固定數量的軌跡進行訓練,未來可以探索自適應采樣策略。例如,可以根據問題難度或當前模型的不確定性動態調整采樣數量,在計算效率和性能之間實現更好的平衡。
結構化推理模板
可以將領域特定的推理結構融入變分后驗的設計中。例如,對于數學問題,可以設計包含"理解問題-制定計劃-執行計算-驗證結果"等步驟的結構化模板。這種結構化方法可能會提高推理的可解釋性和準確性。
多模態推理擴展
當前框架主要處理文本推理,但原理上可以擴展到多模態設置。例如,在涉及圖表、圖像或其他模態信息的推理任務中,可以設計相應的多模態變分后驗來處理跨模態的推理過程。
在線學習與持續改進
可以探索將變分推理框架與在線學習結合,使模型能夠在推理過程中持續學習和改進。這種方法可能特別適用于需要長期推理或涉及多步驟問題解決的場景。
可解釋性增強
變分推理框架天然地提供了對推理過程的概率性描述,這為增強模型的可解釋性提供了機會。未來可以開發基于變分后驗的解釋方法,幫助用戶理解模型的推理邏輯和不確定性。
工程實現與部署考慮
分布式訓練優化
考慮到變分推理方法的計算復雜性,需要設計高效的分布式訓練策略。可以探索模型并行、數據并行和流水線并行的組合,以及異步更新策略來加速訓練過程。
推理時優化
在部署階段,可以利用訓練好的變分后驗來改進推理時的采樣策略。例如,可以使用變分后驗來指導beam search或其他解碼算法,提高生成質量。
模型壓縮與蒸餾
可以探索如何將變分推理訓練得到的大模型知識蒸餾到更小的模型中,以便在資源受限的環境中部署。這需要設計合適的蒸餾策略來保持推理能力。
相關資源與代碼實現
研究者已經開源了完整的代碼實現,可以通過以下鏈接獲取:
- 項目主頁:https://github.com/sail-sg/variational-reasoning
- 論文鏈接:https://arxiv.org/abs/2509.22637
代碼庫包含了完整的訓練和評估流程,支持多種基礎模型和數據集。研究者還提供了詳細的實驗配置和超參數設置,便于復現和擴展研究。
結論與展望
語言模型的變分推理框架代表了推理能力訓練方法的重要進展。通過將思維軌跡視為潛在變量并應用變分推理技術,該方法不僅提供了更加原則性和穩定的訓練目標,還為理解和改進現有方法提供了統一的理論框架。
實驗結果證明了該方法在多個具有挑戰性的推理基準上的有效性,特別是在訓練穩定性和泛化能力方面的優勢。更重要的是,該研究揭示了現有方法中存在的系統性偏見,為未來的方法設計提供了重要啟示。
盡管仍存在計算開銷和超參數調優等挑戰,但變分推理框架為語言模型推理能力的進一步提升開辟了新的道路。隨著理論的不斷完善和工程實現的優化,這一方法有望在更廣泛的應用場景中發揮重要作用,推動人工智能系統推理能力的持續進步。
未來的研究可以從多個維度繼續深化這一工作:在理論層面,可以探索更復雜的變分后驗設計和多輪訓練策略;在應用層面,可以將方法擴展到更多領域和任務;在工程層面,可以優化計算效率和部署便利性。這些努力將共同推動變分推理在語言模型推理中的廣泛應用和持續發展。
本文轉載自??頓數AI??,作者:可可

















