頓悟不是玄學!港科大清華等聯手:撕開推理黑箱,RL讓AI像人思考
眾所周知,強化學習(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。
但沒人說清楚:為什么會這樣?
最近,香港科技大學、滑鐵盧大學、清華大學等機構的研究者在arXiv提交預印本,首次揭示:
大模型正在以類人的方式學會推理——通過將高層策略規劃與底層程序執行相分離。

論文鏈接:https://arxiv.org/abs/2509.03646
DeepSeek究竟如何讓LLM學會推理?
強化學習(RL)雖已成為提升LLM復雜推理能力的顛覆性技術,但其內在機制始終不甚明朗。
年初,DeepSeek-R1一鳴驚人,讓開源AI首次直逼OpenAI的推理模型o1。
在論文中,DeepSeek研究團隊強調了強化學習的重要性:
大模型與強化學習環境交互,自然涌現出反思和重新評估(reflection)之類的行為。
他們給出了兩條重要實驗線索:「長度縮放效應」(length-scaling)和「頓悟時刻」(aha moment)。
在訓練過程中,DeepSeek-R1-Zero的思考時長持續增長,自然而然地學會了用更多的思考時間來解決推理任務,如下圖所示。

在強化學習(RL)過程中,DeepSeek-R1-Zero在訓練集上的平均響應長度
在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進入了「頓悟時刻」。他們認為這是強化學習的「力與美」。

DeepSeek-R1-Zero的中間版本展現了一個有趣的「頓悟時刻」:該模型學會了采用擬人化的方式來表達思考過程
這些現象如此奇特,被多家實驗室復現。
為什么呢?為什么強化學習能提升LLM的推理能力?這些問題之前無人明確解釋。
這次的研究突破性地揭示:
像「頓悟時刻」這類令人困惑的現象并不是孤立的事件,而是新興推理層次結構的標志,類似于人類認知中高層次策略規劃與低層次程序執行的分隔。
這一次揭示了強化學習推動推理能力提升的核心機制:模型先固化基礎執行能力,再自主發展出策略規劃能力。
階段1(底層技能鞏固):以執行tokens(execution tokens)的熵值下降為標志,模型專注于鞏固低級技能(如算術計算、格式規范)。
階段2(高層規劃探索):學習重心轉向高級規劃,以規劃tokens(planning tokens)的語義多樣性提升為特征,模型持續增強推理能力并出現長度縮放效應(length scaling)。

圖1:(左圖)大語言模型的推理過程呈現出類人的層次化推理結構:高層策略規劃與底層程序執行。(右圖)在強化學習訓練中,層次化推理通過兩階段動態過程涌現
研究者通過區分兩類token驗證這種轉變:執行token對應具體操作步驟,規劃token則體現為「嘗試其他方法」等策略性表達。
他們發現,當模型掌握執行token后,規劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關。
基于此,團隊提出分層感知信用分配機制(HICRA)。
與傳統均勻分配學習權重不同,HICRA重點強化規劃token的學習權重,從而加速模型探索和鞏固策略的能力。
實驗表明,HICRA始終優于主流GRPO方法,且在模型已具備扎實執行技能時效果最佳——若執行基礎薄弱,HICRA的優勢則難以發揮。
這項研究的核心啟示在于:推理能力的真正突破源于規劃能力的提升,而非僅僅優化執行細節。
強化學習增強推理的兩階段動力學
實驗分析表明,經強化學習訓練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉移的兩階段學習動態。
第一階段:鍛造可靠程序引擎
初期,模型專注于掌握基礎能力。它學習可靠地執行低級操作步驟,如格式規范、算術運算和變量替換。
這一階段體現為「執行token」的不確定性(困惑度及token熵)急劇下降。

RL訓練動力學:執行token的熵(圖中灰色線)下降,而規劃token的語義熵(圖中紅色線)上升
研究者追蹤了代表性模型家族的訓練動態曲線。
上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現為執行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。
隨后發生向策略規劃探索的轉變(第三列),規劃策略的多樣性(語義熵)在Qwen模型上持續增長,或在Llama模型上出現拐點后增長,這與準確率持續提升及推理鏈延長(第四列)密切相關。
對于強模型或易學習數據,此階段可能短暫甚至不存在,因為模型已具備可靠的基礎低級技能,通常僅需對格式token進行最小調整。
第二階段:掌握高級策略規劃
當模型在低級技能上奠定堅實基礎后,學習前沿發生轉移。性能提升轉為由探索和掌握高級策略驅動——例如選擇新方法、回溯或識別關鍵定理。
通過測量規劃token的語義熵,這次研究驗證了這一轉變。其中的語義熵用于反映模型高級策略計劃的多樣性。
規劃token的語義熵(紅線,第三列)從開始或拐點處持續上升,這種增長與推理準確率提升和長度縮放效應同步發生。
這表明策略正在主動擴展其策略計劃庫,以實現推理能力的持續提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。
揭秘「神秘的現象」
這次的分層框架為強化學習訓練中一些長期讓人困惑的現象,提供了統一而清晰的解釋:
1、「頓悟時刻」并非偶然靈光。
這類轉折并不是隨機爆發的才思,而是某種行為特征信號:模型在「發現—掌握—強化」某種強力的高層策略(如自我反思)
當策略被納入并穩定執行時,模型的表現會出現突躍式改善。
2、「長度縮放」源于更好的規劃。
隨著模型探索到更豐富、更精細的策略(包括分類討論、預先規劃、回溯等),它自然會生成更長、更有結構的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現。
換言之,「輸出越長越準」的現象,本質是高層規劃能力增強的外在體現。
3、復雜的「熵」變化,其實并不神秘。
整體的token級熵常見下降,并非模型「變笨」,而是因為數量龐大的執行類詞元(格式、算術、替換等)在訓練中變得高度可預測,把總體曲線往下拉。
真正反映策略探索進展的,是高層規劃詞元的語義熵:它隨訓練逐步上升,準確刻畫出模型在發明與擴充策略譜系方面的探索步伐。
歸結起來:第一階段通過降低執行不確定性「打好基本功」,第二階段通過提升規劃多樣性「把思路打開」。這些看似各自為政的現象,其實都出自同一套分層學習動力學。
這一發現揭示了當前RL方法(如GRPO)的核心低效問題:
它們對所有token施加無差別優化壓力,稀釋了學習信號。
既然高級推理的關鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費精力?
為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設計理念是:
將模型的學習能力聚焦于稀疏但高價值的規劃token。
分層感知信用分配
聚焦關鍵要素
通過放大策略舉措的學習信號,HICRA加速了有效推理模式的發現與強化進程。
實驗結果,效果驚人:定向優化規劃全贏了!
在多個純文本及視覺語言模型中,HICRA不斷超越強大的GRPO基線方法,顯著驗證了定向優化規劃token的有效性。

表1:在多項數學推理基準測試中,HICRA、GRPO與基座模型的性能對比。

表2:在多模態推理基準測試中,HICRA與GRPO的性能對比
為探究強化學習最有效的應用方向,這次分析了失敗推演中錯誤類型的演變規律。
首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。
隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應成因,最后將這些分類解析為兩大范疇:「規劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實檢索錯誤)。
分析表明,強化學習(RL)的主要優勢在于修正高層策略失誤,而非細微的計算錯誤。

這也激發了HICRA的設計理念,即將學習重點集中在規劃token上。
如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關。
這種高層策略的更高多樣性,直接與更強且更穩定的驗證準確率相關聯,證實了專注的策略探索是推理能力改進的主要驅動力。

何種指標能有效追蹤策略探索?
準確衡量策略探索,對于診斷策略學習至關重要。
然而,這次發現諸如token級熵值等常用指標可能產生誤導。
1、token級熵值的缺陷:該指標有時會收斂至較低水平,被實踐者誤判為「崩潰」。但這是錯誤的。
大量低層執行token主導了token級熵值,而這些token本身就會趨于可預測化(即低熵狀態)。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續提升。
2、Pass@K指標的盲點:該通過K次嘗試成功率衡量的指標,有時會飽和(例如所有查詢都可能被解決),導致無法區分方法優劣或追蹤訓練后期的持續學習動態。
語義熵有效規避了這些缺陷。它直接衡量有意義策略方案的多樣性。
如下圖所示,語義熵始終保持強大區分力:當token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續的策略探索優勢。這使其成為追蹤真正推理發展的可靠指南。

token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續探索優勢,該優勢與最終準確率提升正相關。
現有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標。

鏈接:https://arxiv.org/abs/2506.01939
這類基于熵的token與基于功能定義的規劃token之間,到底什么關系?
研究發現關鍵不對稱性:
雖然大部分規劃token確實呈現高熵特性(符合策略選擇的預期),但反向關系并不成立。
大多數高熵token并非規劃token,它們往往對應表述方式的簡單變異或不影響整體策略的低層計算。
這揭示了僅依靠熵值識別具有精確語義功能token的局限性。
雖然功能定義的規劃token大多具有高熵特性(下圖左),但高熵token并非規劃token的有效代理指標,因其多數承擔其他功能(下圖右)。





































