精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

頓悟不是玄學!港科大清華等聯手:撕開推理黑箱,RL讓AI像人思考

人工智能 新聞
DeepSeek的強化學習GRPO為什么能讓大模型「集體頓悟」?港科大、滑鐵盧、清華等團隊最新研究給出統一解釋:在RL中,LLM推理自發分層——先鞏固底層「執行」,再探索高層「規劃」。基于此,還提出了更強HICRA算法。

眾所周知,強化學習(Reinforcement Learning,RL)能提升大語言模型LLM的推理能力。

但沒人說清楚:為什么會這樣?

最近,香港科技大學、滑鐵盧大學、清華大學等機構的研究者在arXiv提交預印本,首次揭示:

大模型正在以類人的方式學會推理——通過將高層策略規劃與底層程序執行相分離。

論文鏈接:https://arxiv.org/abs/2509.03646

DeepSeek究竟如何讓LLM學會推理?

強化學習(RL)雖已成為提升LLM復雜推理能力的顛覆性技術,但其內在機制始終不甚明朗。

年初,DeepSeek-R1一鳴驚人,讓開源AI首次直逼OpenAI的推理模型o1。

在論文中,DeepSeek研究團隊強調了強化學習的重要性:

大模型與強化學習環境交互,自然涌現出反思和重新評估(reflection)之類的行為。

他們給出了兩條重要實驗線索:「長度縮放效應」(length-scaling)和「頓悟時刻」(aha moment)。

在訓練過程中,DeepSeek-R1-Zero的思考時長持續增長,自然而然地學會了用更多的思考時間來解決推理任務,如下圖所示。

在強化學習(RL)過程中,DeepSeek-R1-Zero在訓練集上的平均響應長度

在DeepSeek-R1-Zero的某個中間版本中,AI出乎意料地進入了「頓悟時刻」。他們認為這是強化學習的「力與美」。

DeepSeek-R1-Zero的中間版本展現了一個有趣的「頓悟時刻」:該模型學會了采用擬人化的方式來表達思考過程

這些現象如此奇特,被多家實驗室復現。

為什么呢?為什么強化學習能提升LLM的推理能力?這些問題之前無人明確解釋。

這次的研究突破性地揭示:

像「頓悟時刻」這類令人困惑的現象并不是孤立的事件,而是新興推理層次結構的標志,類似于人類認知中高層次策略規劃與低層次程序執行的分隔。

這一次揭示了強化學習推動推理能力提升的核心機制:模型先固化基礎執行能力,再自主發展出策略規劃能力。

階段1(底層技能鞏固):以執行tokens(execution tokens)的熵值下降為標志,模型專注于鞏固低級技能(如算術計算、格式規范)。

階段2(高層規劃探索):學習重心轉向高級規劃,以規劃tokens(planning tokens)的語義多樣性提升為特征,模型持續增強推理能力并出現長度縮放效應(length scaling)。

圖1:(左圖)大語言模型的推理過程呈現出類人的層次化推理結構:高層策略規劃與底層程序執行。(右圖)在強化學習訓練中,層次化推理通過兩階段動態過程涌現

研究者通過區分兩類token驗證這種轉變:執行token對應具體操作步驟,規劃token則體現為「嘗試其他方法」等策略性表達。

他們發現,當模型掌握執行token后,規劃token的多樣性顯著增加,這與推理能力提升及解決方案鏈條延長直接相關。

基于此,團隊提出分層感知信用分配機制(HICRA)。

與傳統均勻分配學習權重不同,HICRA重點強化規劃token的學習權重,從而加速模型探索和鞏固策略的能力。

實驗表明,HICRA始終優于主流GRPO方法,且在模型已具備扎實執行技能時效果最佳——若執行基礎薄弱,HICRA的優勢則難以發揮。

這項研究的核心啟示在于:推理能力的真正突破源于規劃能力的提升,而非僅僅優化執行細節。

強化學習增強推理的兩階段動力學

實驗分析表明,經強化學習訓練的大語言模型并非整體性提升,而是遵循一種"性能瓶頸"隨時間轉移的兩階段學習動態。

第一階段:鍛造可靠程序引擎

初期,模型專注于掌握基礎能力。它學習可靠地執行低級操作步驟,如格式規范、算術運算和變量替換。

這一階段體現為「執行token」的不確定性(困惑度及token熵)急劇下降。

RL訓練動力學:執行token的熵(圖中灰色線)下降,而規劃token的語義熵(圖中紅色線)上升

研究者追蹤了代表性模型家族的訓練動態曲線。

上圖前兩列顯示,模型初始聚焦于程序鞏固階段,表現為執行token的模型困惑度(更高置信度)和token熵(更確定性)急劇下降。

隨后發生向策略規劃探索的轉變(第三列),規劃策略的多樣性(語義熵)在Qwen模型上持續增長,或在Llama模型上出現拐點后增長,這與準確率持續提升及推理鏈延長(第四列)密切相關。

對于強模型或易學習數據,此階段可能短暫甚至不存在,因為模型已具備可靠的基礎低級技能,通常僅需對格式token進行最小調整。

第二階段:掌握高級策略規劃

當模型在低級技能上奠定堅實基礎后,學習前沿發生轉移。性能提升轉為由探索和掌握高級策略驅動——例如選擇新方法、回溯或識別關鍵定理。

通過測量規劃token的語義熵,這次研究驗證了這一轉變。其中的語義熵用于反映模型高級策略計劃的多樣性。

規劃token的語義熵(紅線,第三列)從開始或拐點處持續上升,這種增長與推理準確率提升和長度縮放效應同步發生。

這表明策略正在主動擴展其策略計劃庫,以實現推理能力的持續提升。這與程序鞏固階段token級熵的急劇下降形成鮮明對比。

揭秘「神秘的現象」

這次的分層框架為強化學習訓練中一些長期讓人困惑的現象,提供了統一而清晰的解釋:

1、「頓悟時刻」并非偶然靈光。

這類轉折并不是隨機爆發的才思,而是某種行為特征信號:模型在「發現—掌握—強化」某種強力的高層策略(如自我反思)

當策略被納入并穩定執行時,模型的表現會出現突躍式改善。

2、「長度縮放」源于更好的規劃。

隨著模型探索到更豐富、更精細的策略(包括分類討論、預先規劃、回溯等),它自然會生成更長、更有結構的推理鏈條;而這類更長的輸出,往往意味著更高的成功率與更好的表現

換言之,「輸出越長越準」的現象,本質是高層規劃能力增強的外在體現。

3、復雜的「熵」變化,其實并不神秘。

整體的token級熵常見下降,并非模型「變笨」,而是因為數量龐大的執行類詞元(格式、算術、替換等)在訓練中變得高度可預測,把總體曲線往下拉。

真正反映策略探索進展的,是高層規劃詞元的語義熵:它隨訓練逐步上升,準確刻畫出模型在發明與擴充策略譜系方面的探索步伐。

歸結起來:第一階段通過降低執行不確定性「打好基本功」,第二階段通過提升規劃多樣性「把思路打開」。這些看似各自為政的現象,其實都出自同一套分層學習動力學

這一發現揭示了當前RL方法(如GRPO)的核心低效問題:

它們對所有token施加無差別優化壓力,稀釋了學習信號。

既然高級推理的關鍵在于掌握策略,為何還要在已掌握的程序性步驟上浪費精力?

為解決此問題,研究者提出了一種新算法HICRA(Hierarchy-Aware Credit Assignment,分層感知信用分配),其核心設計理念是:

將模型的學習能力聚焦于稀疏但高價值的規劃token。

分層感知信用分配

聚焦關鍵要素

通過放大策略舉措的學習信號,HICRA加速了有效推理模式的發現與強化進程。

實驗結果,效果驚人:定向優化規劃全贏了!

在多個純文本及視覺語言模型中,HICRA不斷超越強大的GRPO基線方法,顯著驗證了定向優化規劃token的有效性。

表1:在多項數學推理基準測試中,HICRA、GRPO與基座模型的性能對比。

表2:在多模態推理基準測試中,HICRA與GRPO的性能對比

為探究強化學習最有效的應用方向,這次分析了失敗推演中錯誤類型的演變規律。

首先通過人工審查失敗案例,歸納出四種不同的錯誤成因。

隨后使用GPT-4o通過多選題形式將每個失敗案例歸類到對應成因,最后將這些分類解析為兩大范疇:「規劃與策略」(如邏輯缺陷、高層計劃錯誤)和「其他錯誤」(如計算失誤、事實檢索錯誤)。

分析表明,強化學習(RL)的主要優勢在于修正高層策略失誤,而非細微的計算錯誤。

這也激發了HICRA的設計理念,即將學習重點集中在規劃token上。

如下圖5所示,HICRA的成功與其維持比GRPO更高的語義熵水平密切相關。

這種高層策略的更高多樣性,直接與更強且更穩定的驗證準確率相關聯,證實了專注的策略探索是推理能力改進的主要驅動力。

何種指標能有效追蹤策略探索?

準確衡量策略探索,對于診斷策略學習至關重要。

然而,這次發現諸如token級熵值等常用指標可能產生誤導。

1、token級熵值的缺陷:該指標有時會收斂至較低水平,被實踐者誤判為「崩潰」。但這是錯誤的。

大量低層執行token主導了token級熵值,而這些token本身就會趨于可預測化(即低熵狀態)。低層token的熵值下降,會拉低全局平均熵值,但這并不意味探索停止。相反,只要語義熵保持高位,就說明模型正在積極探索新高階策略,且性能持續提升。

2、Pass@K指標的盲點:該通過K次嘗試成功率衡量的指標,有時會飽和(例如所有查詢都可能被解決),導致無法區分方法優劣或追蹤訓練后期的持續學習動態。

語義熵有效規避了這些缺陷。它直接衡量有意義策略方案的多樣性。

如下圖所示,語義熵始終保持強大區分力:當token熵值崩潰且Pass@8飽和時,仍能清晰顯示HICRA持續的策略探索優勢。這使其成為追蹤真正推理發展的可靠指南。

token熵值(最右)崩潰且Pass@8(右二)飽和失效時,語義熵(最左)仍明確顯示HICRA的持續探索優勢,該優勢與最終準確率提升正相關。

現有研究提出使用高熵的「分岔token」作為模型推理過程中決策點的代理指標。

鏈接:https://arxiv.org/abs/2506.01939

這類基于熵的token與基于功能定義的規劃token之間,到底什么關系?

研究發現關鍵不對稱性:

雖然大部分規劃token確實呈現高熵特性(符合策略選擇的預期),但反向關系并不成立。

大多數高熵token并非規劃token,它們往往對應表述方式的簡單變異或不影響整體策略的低層計算。

這揭示了僅依靠熵值識別具有精確語義功能token的局限性。

雖然功能定義的規劃token大多具有高熵特性(下圖左),但高熵token并非規劃token的有效代理指標,因其多數承擔其他功能(下圖右)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-09 09:10:00

AI生成模型

2024-11-06 13:03:49

2025-09-15 08:53:00

AI模型推理

2024-12-20 09:30:00

模型訓練數據

2025-08-28 09:09:00

AI強化學習模型

2025-06-03 08:25:00

推理模型框架

2025-10-30 16:04:35

AI模型機器人

2021-04-23 15:13:16

算法模型技術

2024-03-04 13:36:00

模型訓練

2023-08-09 07:04:17

清華微軟LLM

2022-03-28 10:32:28

AI功能手勢

2024-06-11 14:30:18

2025-05-29 09:20:00

模型研究推理

2025-04-27 08:55:00

2025-02-10 14:05:00

訓練模型AI

2022-07-12 14:56:30

AI模型研究

2023-09-21 12:33:31

3DAI

2025-09-26 10:59:55

AI模型數據

2023-08-09 17:10:01

論文獲獎

2025-04-02 09:50:00

機器人訓練數據
點贊
收藏

51CTO技術棧公眾號

麻豆一区在线| 黄色小视频免费观看| 国产一区二区三区91| 欧美在线一二三四区| 中文字幕一区二区中文字幕| www.久久伊人| 免费不卡在线视频| 亚洲成人av片| 18岁视频在线观看| 在线观看三级视频| 99re在线视频这里只有精品| 国产精品视频久久| 欧美成人免费看| 免费看日本一区二区| 制服丝袜亚洲色图| 国产男女在线观看| aa在线视频| 久久色中文字幕| 97视频中文字幕| 超碰在线免费97| 最新日韩在线| 久久伊人精品视频| 性高潮久久久久久久| 日本一区影院| 欧美日韩国产片| 日韩av片在线看| 男人天堂亚洲天堂| 国产精品天美传媒沈樵| 精品一区久久久| av男人天堂网| 麻豆中文一区二区| 欧美一区二区三区精品电影| 日韩av手机在线免费观看| 一本久久青青| 亚洲电影第1页| 激情久久综合网| 男女啪啪999亚洲精品| 亚洲二区在线观看| 国产女教师bbwbbwbbw| 在线视频91p| 国产日韩三级在线| 九九九九九精品| 免费看黄色一级视频| 国产麻豆视频一区二区| 国产欧美日韩免费看aⅴ视频| 青青草免费观看视频| 精品白丝av| 欧美高清视频免费观看| 欧美丰满熟妇bbbbbb| 欧美一区二区麻豆红桃视频| 亚洲精品一区二区在线| 熟女人妻在线视频| 欧美黑白配在线| 亚洲精品久久久久| 青青草视频播放| 久久男人av| 亚洲国产另类久久精品 | 国产毛片久久久久久久| 精品视频高潮| 亚洲精品二三区| 中文字幕在线免费看线人| 国产精品久久久久av蜜臀| 日韩免费成人网| 极品白嫩的小少妇| 精品国产一区二区三区不卡蜜臂| 欧美精品一区二区三| 欧美极品jizzhd欧美仙踪林| 操欧美女人视频| 日韩av网址在线观看| 加勒比精品视频| 在线日韩一区| 中文在线不卡视频| 一区二区三区四区五区| 欧美有码视频| 亚洲91av视频| 日本免费在线观看视频| 日韩成人免费电影| 91在线免费视频| 二区三区在线视频| 久久免费视频色| 亚洲精品日韩在线观看| 麻豆传媒在线免费| 亚洲午夜激情网站| 人妻熟女一二三区夜夜爱| 91福利精品在线观看| 91精品国产综合久久香蕉麻豆| 女同性αv亚洲女同志| 欧美a一欧美| 中文字幕最新精品| 免费一级片在线观看| 国产色综合网| 国产在线观看91精品一区| 亚洲高清视频在线播放| 久久久一区二区三区捆绑**| 日本免费高清一区二区| 91蜜桃在线视频| 精品久久久中文| 麻豆三级在线观看| 成人香蕉社区| 日韩在线欧美在线| 亚洲精品www久久久久久| 日本在线不卡一区| 成人资源av| 亚洲乱亚洲乱妇| 亚洲国产精品久久不卡毛片 | 中文字幕亚洲二区| 国产一卡二卡在线播放| 免费成人美女在线观看| 精品视频一区二区三区四区| 看黄网站在线观看| 欧美性生交xxxxxdddd| 超碰成人在线播放| 国产尤物久久久| 国产69精品久久久久99| 91九色蝌蚪91por成人| 99久久99久久久精品齐齐| 中文字幕一区二区三区乱码| 亚洲美女久久精品| 欧美岛国在线观看| 多男操一女视频| 久久男女视频| 国产伦理一区二区三区| 97电影在线观看| 欧美日韩一区二区精品| 深夜视频在线观看| 色综合咪咪久久网| 日韩免费精品视频| 三级网站在线看| 一区二区激情视频| 亚洲欧美天堂在线| 日韩久久精品网| 日本中文字幕久久看| 天堂成人在线视频| 亚洲国产乱码最新视频 | 亚洲美免无码中文字幕在线| 日韩av综合| 久久影院模特热| 国产精品久久久久久久久毛片| 国产欧美日韩精品一区| 黑鬼大战白妞高潮喷白浆| 日韩影视高清在线观看| 久久久日本电影| 欧美在线精品一区二区三区| 亚洲在线成人精品| 性生交大片免费看l| 午夜国产欧美理论在线播放| 亚洲aⅴ日韩av电影在线观看| 日本成a人片在线观看| 欧美精品一卡二卡| 午夜国产小视频| 激情综合网天天干| 97超碰免费观看| 欧美区一区二区| 欧美激情欧美激情在线五月| 超碰在线观看av| 亚洲福利电影网| 中文字幕一区二区三区人妻不卡| 欧美亚洲免费| 日韩欧美国产二区| 日韩黄色碟片| 九九久久久久99精品| 性猛交富婆╳xxx乱大交天津| 夜夜爽夜夜爽精品视频| 久久久久久婷婷| 久久字幕精品一区| 艳色歌舞团一区二区三区| 欧美一级在线| 欧美另类高清videos| 欧美视频xxx| 色88888久久久久久影院野外| 2019男人天堂| 国产原创一区二区三区| 日韩av在线播放不卡| 亚洲制服一区| 国产精品爽爽爽| 牛牛精品在线视频| 国产亚洲日本欧美韩国| 在线视频欧美亚洲| 亚洲国产视频a| 91精品人妻一区二区| 卡一卡二国产精品 | 无码小电影在线观看网站免费| 亚洲美女免费精品视频在线观看| 中文字幕乱码人妻二区三区| 樱桃视频在线观看一区| 香蕉网在线播放| 国产麻豆精品theporn| 各处沟厕大尺度偷拍女厕嘘嘘| 日韩精品中文字幕第1页| 国产成人精品福利一区二区三区| hd国产人妖ts另类视频| 国产性猛交xxxx免费看久久| 国产极品久久久| 色呦呦国产精品| 国产一级做a爰片在线看免费| 国产欧美日韩视频一区二区| 中文字幕永久免费| 免费观看在线色综合| 欧美视频在线观看视频| 日韩精品午夜| 精品久久sese| 久久伊人久久| 国产成人免费av| av色在线观看| 久久九九免费视频| 国产最新视频在线观看| 精品国内二区三区| 国产精品欧美激情在线| 日本韩国欧美一区二区三区| 久久久久国产精品夜夜夜夜夜| 国产色爱av资源综合区| 日韩女优在线视频| 狠狠色丁香婷婷综合久久片| 爱福利视频一区二区| 欧美日韩在线大尺度| 亚洲国产精品毛片| 亚洲自拍电影| 精品免费视频123区| 亚洲精品高潮| 成人免费观看网址| 久久日本片精品aaaaa国产| 国产91精品久| 97蜜桃久久| 欧美日韩高清区| 久操视频在线播放| 最新亚洲国产精品| 波多野结衣在线影院| 日韩精品电影网| 婷婷在线免费视频| 日韩精品一区国产麻豆| 国产一区二区在线视频聊天| 欧美在线|欧美| www.伊人久久| 日韩欧美成人区| 天天操天天爽天天干| 亚洲电影中文字幕在线观看| 九九视频免费看| 亚洲激情校园春色| 欧美日韩中文字幕在线观看| 亚洲欧美激情在线| 亚洲 欧美 变态 另类 综合| 中文字幕在线一区| 黄色片网站在线播放| 中文字幕在线一区免费| 69夜色精品国产69乱| 国产精品理伦片| 9.1片黄在线观看| 国产精品久久久久久久久动漫| 亚洲一区 欧美| 国产精品二三区| 我要看黄色一级片| 一区二区三区四区中文字幕| 免费在线一区二区三区| 亚洲国产成人av网| 在线观看国产亚洲| 欧美性猛xxx| 91丨九色丨海角社区| 欧美亚洲国产一区在线观看网站 | 欧美一区二区三区电影在线观看| 免费看av成人| 一区二区三区|亚洲午夜| 国产精品伦理久久久久久| 国产高潮呻吟久久久| 欧美日韩亚洲三区| 久久久免费视频网站| 日韩精品91亚洲二区在线观看| 久久国产精品国产精品| 激情伊人五月天久久综合| 免费黄视频在线观看| 97久久超碰国产精品| 91网站免费视频| 中文字幕中文乱码欧美一区二区| 久久精品波多野结衣| 丁香五六月婷婷久久激情| 天天干,天天干| 欧美精品久久一区| 日韩在线观看视频一区二区三区| 日韩福利在线播放| 蜜桃视频网站在线观看| 久久乐国产精品| 日韩亚洲综合在线| 精品少妇久久久久久888优播| 亚洲超丰满肉感bbw| √资源天堂中文在线| 欧美日韩国产精品自在自线| 免费av一级片| 国产亚洲欧美视频| 伦理av在线| 国产精品草莓在线免费观看| 欧洲一区在线| 日本不卡二区| 国内精品久久久久久久影视蜜臀 | 99国产视频| 亚洲免费观看高清完整版在线观| 亚洲欧美在线网| 日韩亚洲在线| 天堂av8在线| 久久伊人蜜桃av一区二区| 艳妇荡乳欲伦69影片| 一本久久a久久免费精品不卡| 91免费视频播放| 亚洲人成人99网站| 欧美理论电影| 91精品国产综合久久久久久久久| 加勒比色老久久爱综合网| 夜夜爽99久久国产综合精品女不卡| 伊人成人网在线看| 久久成年人网站| 国产欧美久久久精品影院| 日韩精品――中文字幕| 欧美疯狂做受xxxx富婆| 黄色软件在线| 91精品国产乱码久久久久久蜜臀| 中文字幕第3页| 99久久er热在这里只有精品66| 任我爽在线视频| 色美美综合视频| 性感美女一级片| 久久久久久久国产精品视频| 永久免费观看精品视频| 日本一区免费| 亚洲影音一区| 欧美xxxxx精品| 亚洲午夜在线电影| 午夜精品久久久久久久99热黄桃| 最新国产成人av网站网址麻豆| a欧美人片人妖| 久久久www免费人成黑人精品| 黑人一区二区三区四区五区| 日本网站在线看| 亚洲欧洲日产国产综合网| 中文字幕网址在线| 永久免费看mv网站入口亚洲| a欧美人片人妖| 欧美在线一二三区| 噜噜噜躁狠狠躁狠狠精品视频| 黄色性生活一级片| 懂色av中文一区二区三区天美| 老熟妇高潮一区二区高清视频| 久久亚洲国产精品成人av秋霞| 成人自拍视频网| 亚洲ai欧洲av| 蜜臀av一区二区| 五月婷婷综合激情网| 欧美美女一区二区三区| 免费在线观看黄| 亚洲va欧美va国产综合剧情 | 久久精品电影网站| 欧美成人一二区| 夜夜爽99久久国产综合精品女不卡| 美国毛片一区二区三区| 日本一级片免费| 日韩久久免费av| 国产嫩草在线视频| 精品乱码一区| 久久激情中文| 精品一区二区三区蜜桃在线| 欧美色爱综合网| bestiality新另类大全| 国产高清自拍一区| 久久久成人网| 欧美另类69xxxx| 欧美一区二区三区免费视频| 美女尤物在线视频| 国产在线一区二区三区四区| 久久国产主播| 国产中文av在线| 精品久久久久av影院| 天天操天天操天天操天天| 欧美日韩综合| 久久精品免费电影| 金瓶狂野欧美性猛交xxxx| 国产高清一区视频| 久久都是精品| www深夜成人a√在线| 精品国产乱码久久久久久蜜臀| 亚洲风情在线资源| 亚洲自拍偷拍二区| 成人综合婷婷国产精品久久免费| www.com国产| 久久精品欧美视频| 免费看久久久| 91视频这里只有精品| 午夜影视日本亚洲欧洲精品| 国产视频福利在线| 成人动漫在线观看视频| 丝袜美腿亚洲综合| 99精品久久久久| 亚洲男人的天堂在线| 激情久久免费视频| 欧美日韩一区二区在线免费观看| 国产精品福利一区二区三区| 蜜桃视频在线观看www| 国产精品成人v| 黄色一区二区三区四区| 日本欧美一区二区三区不卡视频| 日韩久久久久久| 国产成+人+综合+亚洲欧美| 日本中文字幕在线视频观看| 欧美激情一二三区|