頓悟不是玄學！港科大清華等聯手：撕開推理黑箱，RL讓AI像人思考

2025-10-08 10:44:16

人工智能新聞

DeepSeek的強化學習GRPO為什么能讓大模型「集體頓悟」？港科大、滑鐵盧、清華等團隊最新研究給出統一解釋：在RL中，LLM推理自發分層——先鞏固底層「執行」，再探索高層「規劃」。基于此，還提出了更強HICRA算法。

眾所周知，強化學習（Reinforcement Learning，RL）能提升大語言模型LLM的推理能力。

但沒人說清楚：為什么會這樣？

最近，香港科技大學、滑鐵盧大學、清華大學等機構的研究者在arXiv提交預印本，首次揭示：

大模型正在以類人的方式學會推理——通過將高層策略規劃與底層程序執行相分離。

論文鏈接：https://arxiv.org/abs/2509.03646

DeepSeek究竟如何讓LLM學會推理？

強化學習（RL）雖已成為提升LLM復雜推理能力的顛覆性技術，但其內在機制始終不甚明朗。

年初，DeepSeek-R1一鳴驚人，讓開源AI首次直逼OpenAI的推理模型o1。

在論文中，DeepSeek研究團隊強調了強化學習的重要性：

大模型與強化學習環境交互，自然涌現出反思和重新評估（reflection）之類的行為。

他們給出了兩條重要實驗線索：「長度縮放效應」（length-scaling）和「頓悟時刻」（aha moment）。

在訓練過程中，DeepSeek-R1-Zero的思考時長持續增長，自然而然地學會了用更多的思考時間來解決推理任務，如下圖所示。

在強化學習（RL）過程中，DeepSeek-R1-Zero在訓練集上的平均響應長度

在DeepSeek-R1-Zero的某個中間版本中，AI出乎意料地進入了「頓悟時刻」。他們認為這是強化學習的「力與美」。

DeepSeek-R1-Zero的中間版本展現了一個有趣的「頓悟時刻」：該模型學會了采用擬人化的方式來表達思考過程

這些現象如此奇特，被多家實驗室復現。

為什么呢？為什么強化學習能提升LLM的推理能力？這些問題之前無人明確解釋。

這次的研究突破性地揭示：

像「頓悟時刻」這類令人困惑的現象并不是孤立的事件，而是新興推理層次結構的標志，類似于人類認知中高層次策略規劃與低層次程序執行的分隔。

這一次揭示了強化學習推動推理能力提升的核心機制：模型先固化基礎執行能力，再自主發展出策略規劃能力。

階段1（底層技能鞏固）：以執行tokens（execution tokens）的熵值下降為標志，模型專注于鞏固低級技能（如算術計算、格式規范）。

階段2（高層規劃探索）：學習重心轉向高級規劃，以規劃tokens（planning tokens）的語義多樣性提升為特征，模型持續增強推理能力并出現長度縮放效應（length scaling）。

圖1：（左圖）大語言模型的推理過程呈現出類人的層次化推理結構：高層策略規劃與底層程序執行。（右圖）在強化學習訓練中，層次化推理通過兩階段動態過程涌現

研究者通過區分兩類token驗證這種轉變：執行token對應具體操作步驟，規劃token則體現為「嘗試其他方法」等策略性表達。

他們發現，當模型掌握執行token后，規劃token的多樣性顯著增加，這與推理能力提升及解決方案鏈條延長直接相關。

基于此，團隊提出分層感知信用分配機制（HICRA）。

與傳統均勻分配學習權重不同，HICRA重點強化規劃token的學習權重，從而加速模型探索和鞏固策略的能力。

實驗表明，HICRA始終優于主流GRPO方法，且在模型已具備扎實執行技能時效果最佳——若執行基礎薄弱，HICRA的優勢則難以發揮。

這項研究的核心啟示在于：推理能力的真正突破源于規劃能力的提升，而非僅僅優化執行細節。

強化學習增強推理的兩階段動力學

實驗分析表明，經強化學習訓練的大語言模型并非整體性提升，而是遵循一種"性能瓶頸"隨時間轉移的兩階段學習動態。

第一階段：鍛造可靠程序引擎

初期，模型專注于掌握基礎能力。它學習可靠地執行低級操作步驟，如格式規范、算術運算和變量替換。

這一階段體現為「執行token」的不確定性（困惑度及token熵）急劇下降。

RL訓練動力學：執行token的熵（圖中灰色線）下降，而規劃token的語義熵（圖中紅色線）上升

研究者追蹤了代表性模型家族的訓練動態曲線。

上圖前兩列顯示，模型初始聚焦于程序鞏固階段，表現為執行token的模型困惑度（更高置信度）和token熵（更確定性）急劇下降。

隨后發生向策略規劃探索的轉變（第三列），規劃策略的多樣性（語義熵）在Qwen模型上持續增長，或在Llama模型上出現拐點后增長，這與準確率持續提升及推理鏈延長（第四列）密切相關。

對于強模型或易學習數據，此階段可能短暫甚至不存在，因為模型已具備可靠的基礎低級技能，通常僅需對格式token進行最小調整。

第二階段：掌握高級策略規劃

當模型在低級技能上奠定堅實基礎后，學習前沿發生轉移。性能提升轉為由探索和掌握高級策略驅動——例如選擇新方法、回溯或識別關鍵定理。

通過測量規劃token的語義熵，這次研究驗證了這一轉變。其中的語義熵用于反映模型高級策略計劃的多樣性。

規劃token的語義熵（紅線，第三列）從開始或拐點處持續上升，這種增長與推理準確率提升和長度縮放效應同步發生。

這表明策略正在主動擴展其策略計劃庫，以實現推理能力的持續提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。

揭秘「神秘的現象」

這次的分層框架為強化學習訓練中一些長期讓人困惑的現象，提供了統一而清晰的解釋：

1、「頓悟時刻」并非偶然靈光。

這類轉折并不是隨機爆發的才思，而是某種行為特征信號：模型在「發現—掌握—強化」某種強力的高層策略（如自我反思）

當策略被納入并穩定執行時，模型的表現會出現突躍式改善。

2、「長度縮放」源于更好的規劃。

隨著模型探索到更豐富、更精細的策略（包括分類討論、預先規劃、回溯等），它自然會生成更長、更有結構的推理鏈條；而這類更長的輸出，往往意味著更高的成功率與更好的表現。

換言之，「輸出越長越準」的現象，本質是高層規劃能力增強的外在體現。

3、復雜的「熵」變化，其實并不神秘。

整體的token級熵常見下降，并非模型「變笨」，而是因為數量龐大的執行類詞元（格式、算術、替換等）在訓練中變得高度可預測，把總體曲線往下拉。

真正反映策略探索進展的，是高層規劃詞元的語義熵：它隨訓練逐步上升，準確刻畫出模型在發明與擴充策略譜系方面的探索步伐。

歸結起來：第一階段通過降低執行不確定性「打好基本功」，第二階段通過提升規劃多樣性「把思路打開」。這些看似各自為政的現象，其實都出自同一套分層學習動力學。

這一發現揭示了當前RL方法（如GRPO）的核心低效問題：

它們對所有token施加無差別優化壓力，稀釋了學習信號。

既然高級推理的關鍵在于掌握策略，為何還要在已掌握的程序性步驟上浪費精力？

為解決此問題，研究者提出了一種新算法HICRA（Hierarchy-Aware Credit Assignment，分層感知信用分配），其核心設計理念是：

將模型的學習能力聚焦于稀疏但高價值的規劃token。

分層感知信用分配

聚焦關鍵要素

通過放大策略舉措的學習信號，HICRA加速了有效推理模式的發現與強化進程。

實驗結果，效果驚人：定向優化規劃全贏了！

在多個純文本及視覺語言模型中，HICRA不斷超越強大的GRPO基線方法，顯著驗證了定向優化規劃token的有效性。

表1：在多項數學推理基準測試中，HICRA、GRPO與基座模型的性能對比。

表2：在多模態推理基準測試中，HICRA與GRPO的性能對比

為探究強化學習最有效的應用方向，這次分析了失敗推演中錯誤類型的演變規律。

首先通過人工審查失敗案例，歸納出四種不同的錯誤成因。

隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應成因，最后將這些分類解析為兩大范疇：「規劃與策略」（如邏輯缺陷、高層計劃錯誤）和「其他錯誤」（如計算失誤、事實檢索錯誤）。

分析表明，強化學習（RL）的主要優勢在于修正高層策略失誤，而非細微的計算錯誤。

這也激發了HICRA的設計理念，即將學習重點集中在規劃token上。

如下圖5所示，HICRA的成功與其維持比GRPO更高的語義熵水平密切相關。

這種高層策略的更高多樣性，直接與更強且更穩定的驗證準確率相關聯，證實了專注的策略探索是推理能力改進的主要驅動力。

何種指標能有效追蹤策略探索？

準確衡量策略探索，對于診斷策略學習至關重要。

然而，這次發現諸如token級熵值等常用指標可能產生誤導。

1、token級熵值的缺陷：該指標有時會收斂至較低水平，被實踐者誤判為「崩潰」。但這是錯誤的。

大量低層執行token主導了token級熵值，而這些token本身就會趨于可預測化（即低熵狀態）。低層token的熵值下降，會拉低全局平均熵值，但這并不意味探索停止。相反，只要語義熵保持高位，就說明模型正在積極探索新高階策略，且性能持續提升。

2、Pass@K指標的盲點：該通過K次嘗試成功率衡量的指標，有時會飽和（例如所有查詢都可能被解決），導致無法區分方法優劣或追蹤訓練后期的持續學習動態。

語義熵有效規避了這些缺陷。它直接衡量有意義策略方案的多樣性。

如下圖所示，語義熵始終保持強大區分力：當token熵值崩潰且Pass@8飽和時，仍能清晰顯示HICRA持續的策略探索優勢。這使其成為追蹤真正推理發展的可靠指南。

token熵值（最右）崩潰且Pass@8（右二）飽和失效時，語義熵（最左）仍明確顯示HICRA的持續探索優勢，該優勢與最終準確率提升正相關。

現有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標。

鏈接：https://arxiv.org/abs/2506.01939

這類基于熵的token與基于功能定義的規劃token之間，到底什么關系？

研究發現關鍵不對稱性：

雖然大部分規劃token確實呈現高熵特性（符合策略選擇的預期），但反向關系并不成立。

大多數高熵token并非規劃token，它們往往對應表述方式的簡單變異或不影響整體策略的低層計算。

這揭示了僅依靠熵值識別具有精確語義功能token的局限性。

雖然功能定義的規劃token大多具有高熵特性（下圖左），但高熵token并非規劃token的有效代理指標，因其多數承擔其他功能（下圖右）。

責任編輯：張燕妮來源：新智元

DeepSeek 模型強化學習