系統梳理 Test-Time Compute 的主要實現路徑
當前大語言模型(LLM)最有趣的研究趨勢之一,是推理模型的興起 —— 這類模型在給出答案前會花費時間進行思考。
這種技術通常被稱為「測試時計算」(test-time compute),即在推理階段進行深度推理。其實在模型推理過程中應用搜索或深度推理的思路早已存在(例如 AlphaZero[1],以及 Transformer 誕生之前就嘗試用類似方法解決旅行商問題的論文[2]),但 o1 的出現讓這一理念重新回到了主流視野。
最令人興奮的是,這種測試時計算可能展現出與預訓練相似的擴展規律 —— 換言之,就像增加訓練計算量能帶來模型能力的指數級提升一樣,若在推理階段分配更多計算資源(延長思考時間),模型性能理論上也會出現可預測的指數級增長。
image.png
OpenAI 發布的關于 o1 模型測試時計算擴展效果的圖示表明:模型的準確率相對于對數尺度的計算量呈現可預測的增長,表明存在指數關系
但像 o1 這類模型背后的實現原理究竟是什么?測試時計算擴展(test-time compute scaling)又有哪些不同的實現機制與技術路徑?目前我尚未找到關于此技術直觀系統的綜述,而 OpenAI 對其技術細節守口如瓶,因此本文將嘗試構建一個解讀框架。
本篇博客將結合近期的大量文獻研究以及與多家實驗室機器學習研究者的交流,系統梳理實現測試時計算擴展的主要技術路徑。
1.測試時計算的基本實現機制
1.1 N 選 1 采樣、多數投票(majority voting)及相關方法
其核心思想是讓語言模型在推理階段生成多個可能的輸出,然后通過采樣、投票或其他評估/驗證器方法來選出最佳答案。這種方法無需改變模型的訓練方式,但確實能作為一個有效的基線方案。
Large Language Monkeys[3]
其中的第一點細微差異在于驗證器的設計。多數投票(majority voting)等簡單方法通用性雖強但效果有限。代碼、數學等特定領域可采用專用的驗證器(如代碼的單元測試與編譯器、數學的符號計算引擎),但缺乏普適性。目前的主流趨勢是通過微調大語言模型構建專用驗證器(參見此案例[4])。
另一個問題在于,對于許多更復雜的問題,傳統的采樣方法可能永遠無法生成正確答案(或者需要耗費大量計算資源才能以足夠高的概率生成正確答案)。后續我們將看到,解決這一問題的正確方法要么基于優質推理軌跡進行訓練,要么通過獎勵機制引導模型完成復雜推理。
1.2 思維鏈(Chain of thought)
第二種方法是讓語言模型生成極其詳細的長鏈思維推理軌跡,以此提升推理能力。這種方式本質上是單一模型通過自回歸方式產生大量 token 的自我對話過程 —— 并不依賴外部系統或控制流程。OpenAI 在其 o1 公告中展示了此類案例[5]。
雖然基礎版本可通過提示詞工程實現(例如“逐步思考”),但其進階版本需要專門的預訓練與后訓練技術,以優化這類長鏈推理軌跡的生成效果。
這里的關鍵差異在于模型如何通過訓練提升長鏈推理能力。大致有以下實現路徑:
1)監督學習(Supervised learning) —— 理論上可通過大量人工撰寫的長鏈思維樣本進行訓練。但實踐中難以獲取足夠的高質量數據:公開領域的高水平長篇幅推理樣本稀缺,且人工制作成本極高。
2)合成推理軌跡(Synthetic reasoning traces) —— 在特定問題領域,可通過程序化方法生成復雜的推理軌跡。例如這項研究[6]利用知識圖譜生成保證正確性的問題/推理/答案三元組。在數學和計算機科學領域,還可使用形式化系統(如符號計算引擎、Lean 語言[7]、編譯器與構建系統)產生合成推理鏈,作為模型的訓練樣本。
3)采樣&驗證 —— 要求大語言模型生成多個推理輸出,通過驗證機制或獎勵模型區分優劣推理鏈,進而構建用于后訓練的強化學習數據集。核心區別在于使用結果獎勵模型(ORM,驗證最終輸出的正確性)還是過程獎勵模型[8](PRM,對局部推理鏈進行獎勵評估)。該領域存在非常多的方法:包括采樣生成方式、驗證器的訓練或設計、以及整合獎勵信號的強化學習系統架構等。
此處的考量在于:如何在a. 數據規模 b. 計算可行性 c. 人力成本這三個維度實現高效擴展?OpenAI 強調其 o1 技術具備“數據高效特性(data-efficient)”,暗示其很可能深度融合了合成數據與基于強化學習的驗證技術,而非某種依賴人工標注的推理數據集。
合成數據技術雖有效,但通常局限于特定領域和更易量化的問題類型,因此其泛化能力仍存疑。
采樣技術面臨的挑戰在于,許多復雜問題的推理搜索空間過大,既無法進行窮舉生成,也難以高效驗證。這與機器人等強化學習領域面臨的問題相似 —— 需要巧妙地模擬或“搜索”結果空間,并設計獎勵函數。
這正是過程獎勵模型(PRM)的價值核心 —— 它能提前終止錯誤的推理路徑,聚焦于成功概率較高的中間狀態進行分支(相關論述參見該論文[9]第 3.3 節)。
關于如何構建推理軌跡結構以提升訓練效果,當前存在大量前沿探索:Dualformer[10] 在訓練過程中有選擇性地遮蔽部分推理軌跡,旨在讓模型習得類似人類“系統 1”的心理啟發式思維;Stream of Search[11] 研究則發現包含錯誤回溯、自我修正的“不完美”推理軌跡,相比完美的線性推理更具訓練價值;另有論文[12]證實帶回溯糾錯的錯誤推理鏈對訓練有益;Beyond A[13] 甚至通過 A* 等經典搜索算法構建訓練樣本,來教導模型如何進行搜索。
1.3 推理時搜索(及其他輔助系統)
實現推理階段計算擴展的第三大路徑,是在推理過程中實際采用某種搜索技術。這意味著推理不再僅僅是模型推理問題,更演變為系統工程問題 —— 需要引入某種控制流或流程編排機制,而非單純依賴單一模型的詞元輸出。
一些有趣的例子表明,這種范式不僅限于“標準”的大語言模型。例如,AlphaZero[14] 通過訓練后的神經網絡指導蒙特卡洛樹搜索算法選擇最佳落子位置;AlphaProof[15] 則結合預訓練大語言模型與強化學習算法生成候選解決方案,再通過 Lean 證明輔助語言(proof assistant language)進行驗證。
當前 LLM 研究中,最常見的實現形式是在推理階段集成某種“搜索+驗證”技術:模型首先生成 N 個候選的推理步驟,經驗證器或獎勵模型評分篩選后,然后在最優候選子集中重復此過程。值得注意的是,前文討論的“N 選 1 采樣”方法可視為該體系的子集。
HuggingFace 關于通過搜索+過程獎勵模型實現測試時計算的綜述
該領域的優秀研究案例包括:Tree of Thoughts[16]、Self-Evaluation Guided Beam Search for Reasoning[17] 以及 Reasoning with Language Model is Planning with World Model[18]。這些方法均融合了搜索技術(廣度優先搜索、深度優先搜索、波束搜索、蒙特卡洛樹搜索)與驗證機制來引導語言模型推理生成。LLM Reasoners[19] 論文中的可視化呈現(如下圖所示)直觀展示了這些技術的運作方式。這些方法在核心思路上高度一致。
image.png
值得注意的是,這種“搜索技術+驗證器+生成模型”的組合范式與前文所述的思維鏈技術幾乎同構 —— 唯一區別在于這些技術是離線應用于生成后訓練強化學習數據集,還是在推理時在線應用。但兩種方式都實現了測試時計算擴展:前者通過訓練使模型在測試時進行更長時間的推理,而后者則在推理過程中引導模型生成更大量的輸出。
除搜索算法外,還可集成其他類型的輔助系統來增強生成模型。RAP 論文[18]便是一個典型范例:研究者使用一個輔助 LLM 作為“世界模型”來追蹤環境狀態。換句話說,當生成式 LLM 持續輸出回溯、思考、權衡等推理動作時,世界模型會同步跟蹤每個動作執行后的“世界狀態”。
image.png
標準思維鏈動作序列與世界模型方法的可視化對比(后者在每個動作后均保留了“世界狀態”)
從理論上講,這種方式讓模型能更輕松地推斷后續動作產生的影響。相較于單一思維鏈的輸出,模型必須隱式回放整個動作序列才能理解當前世界狀態。
上文提到的推理研究論文[19]提出了一個有趣的形式化框架,試圖將多數投票、思維鏈、搜索技術等不同方法統一到同一個理論體系中。
研究者認為這些技術本質上都是以下三要素的組合:
1)用于確定不同推理步驟優先級的獎勵函數
2)用于定義推理狀態轉換的世界模型
3)用于探索廣闊推理空間的搜索算法
在此框架下,標準的思維鏈推理的獎勵函數等同于默認模型似然輸出,其世界模型僅簡單地將推理動作持續追加到完整動作歷史中,并采用始終對輸出概率分布進行單次采樣的“貪婪”搜索算法。
筆者認為這種分析視角頗具啟發性。該論文還通過基準測試發現:搜索技術持續優于思維鏈推理,而 RAP(世界模型+搜索技術)則始終超越純搜索方法。
斯坦福大學近期對推理模型的元綜述(meta overview)[20]也描述了類似的思維框架 —— 認為這些方法大多都是“生成器、驗證器和搜索組件的集成”,這本質上是相同的框架。
2.其他考量因素
2.1 驗證器機制
如我們所見,這些技術的效果很大程度上取決于驗證器的質量及其驗證能力。啟發式/自動驗證器(Heuristic/automatic verifiers)雖有效但天然具有領域局限性(例如,編程題目中的測試用例)。學習型驗證器(Learned verifiers)雖可行,但需要特定領域的高質量訓練數據 —— 可參考 OpenAI 這篇早期的論文[21],他們訓練了用于數學問題的學習型驗證器。直接使用 LLM 用作驗證器雖已取得顯著進展,但該方法的可行性仍存在一定局限。基于過程的驗證器(Process based verifiers)非常重要,但其實現難度遠高于基于結果的驗證器(outcome based verifiers)。
MuZero[22] 為此領域的發展提供了一個重要參照 —— 這個無模型的強化學習系統能掌握多種復雜游戲并達到頂尖水平?!盁o模型(Model-free)”意味著其強化學習算法中并未編碼任何特定游戲規則。
這種領域無關的驗證器設計似乎對模型在推理能力上實現普遍提升非常重要。當然,關鍵問題在于,相較于圍棋、國際象棋、將棋和 Atari 游戲等獎勵函數明確的領域,如何在獎勵機制更模糊的領域實現類似效果仍待探索。
2.2 泛化能力存疑
這篇精彩的博文深入探討了將強化學習應用于推理領域的挑戰[23],特別是在 OpenAI 的 o1 模型這個具體背景下來討論這個問題。o1 采用強化學習技術,而強化學習在獎勵信號清晰且頻繁的領域效果最佳,但現實是大多數領域缺乏這種明確的獎勵機制。
……
OpenAI 承認 o1 是在易于驗證的領域進行訓練的,但希望其推理能力能泛化到所有領域。這種跨領域的泛化能力能否實現,是一個價值萬億美元的問題。我先直截了當地說出我的觀點:
?? o1 風格的推理模型無法實現超越訓練領域的有效泛化
從實際案例來看,當前多數測試時計算模型在特定問題領域(如數學、邏輯、計算機科學)表現突出,但在其他領域并未展現明顯優勢。許多體驗過這類模型的研究者反饋,它們在傳統生成任務上的表現反而明顯下降?;趶娀瘜W習的推理技術能否有效泛化到驗證難度更高的領域,仍是一個值得探索的開放性問題。
2.3 詞元空間與隱空間中的推理
與上述所有方法形成有趣對照的是:詞元空間究竟是否為模型推理的最優方式?現有研究開始探索讓模型直接在隱空間[24]中推理 —— 即在推理過程中將隱藏狀態反饋給模型,而非解碼后的詞元。
image.png
從理論上講,隱空間推理可能更具優勢,因為隱藏狀態(hidden state)代表了下一詞元生成的概率分布,而詞元本質上是該分布的“采樣樣本”。相較于僅選擇一個狀態,在所有可能狀態下進行推理更接近人類的推理模式,可能有提升效果。
這種方法的潛在缺陷是,此類模型不會向用戶“展示推理過程”。但考慮到 OpenAI 等公司已經開始隱藏推理步驟,這個缺點或許無關緊要。理論上仍可可視化詞元輸出而同時在隱空間推理,但這可能導致用戶所見與模型實際推理過程出現偏差。
2.4 智能體推理機制
我特別關注這些技術如何映射到智能體領域。優化模型的多步驟復雜推理軌跡,與優化智能體的多步驟推理軌跡存在高度相似性 —— 唯一區別在于智能體的子步驟被拆分為不同的模型調用,且通常涉及更多動態組件(如函數調用等)。
觀察到許多領先的智能體創業公司(如 Cognition、Basis 等)都將這些理念融入其智能體設計。例如,多家智能體公司會采集智能體的運行軌跡,通過搜索技術+獎勵模型進行回放來推演反事實推理路徑(counterfactual reasoning paths),并將這些反事實軌跡(counterfactual trajectories)作為微調樣本用于提升智能體系統性能。
對于需要 50-100+ 次鏈式 LLM 調用來在復雜工具環境中完成任務的智能體而言,這種方法至關重要 —— 因為單次請求下智能體可執行的動作組合復雜度極高。
特別值得關注的是,相較于在模型層通用地解決多步推理問題,設計針對特定領域的搜索算法和過程獎勵模型顯然更具可行性。
這恰好印證了前文提及的那篇博客文章的觀點:這些技術可能難以實現泛化。復雜推理的強化學習技術在模型提供商層面或許難以泛化,反而會成為垂直領域智能體創業公司的核心護城河 —— 尤其是在需要高度復雜推理的領域(如會計、稅務、金融、建筑等)。
預計未來將出現專門支持此類任務的開發工具(類似微調領域的 MosaicML 生態),幫助智能體創業公司更便捷地構建“搜索技術+驗證”層,并為特定應用場景生成訓練數據集。
文中鏈接
[1]https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/
[2]https://arxiv.org/abs/1611.09940
[3]https://arxiv.org/pdf/2407.21787
[4]https://arxiv.org/pdf/2408.15240
[5]https://openai.com/index/learning-to-reason-with-llms/
[6]https://extrasensoryai.github.io/enki/blog/synthetic-data-cot/
[7]https://lean-lang.org/about/
[8]https://arxiv.org/pdf/2410.08146
[9]https://arxiv.org/pdf/2501.04682
[10]https://arxiv.org/pdf/2410.09918
[11]https://arxiv.org/abs/2404.03683
[12]https://arxiv.org/abs/2408.16293
[13]https://arxiv.org/pdf/2402.14083
[14]https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/
[15]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
[16]https://arxiv.org/pdf/2305.10601
[17]https://arxiv.org/pdf/2305.00633
[18]https://arxiv.org/pdf/2305.14992
[19]https://arxiv.org/pdf/2404.05221
[20]https://arxiv.org/pdf/2501.04682
[21]https://arxiv.org/pdf/2110.14168
[22]https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/
[23]https://aidanmclaughlin.notion.site/reasoners-problem
[24]https://arxiv.org/pdf/2412.06769




























