精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Qwen&清華團隊顛覆常識:大模型強化學習僅用20%關鍵token,比用全部token訓練還好

人工智能 新聞
在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

近期arxiv最熱門論文,Qwen&清華LeapLab團隊最新成果:

在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

圖片

團隊用這個發現在Qwen3-32B上創造了新的SOTA記錄:AIME’24上達到63.5分,AIME’25上達到56.7分,

這是600B參數以下直接從base模型訓練的最高分。

圖片

最大響應長度從20k延長到29k,AIME’24的分數更是飆升到了68.1分。

經典的二八法則(或帕累托法則)指出,通常80%的結果由20%的關鍵因素驅動,但剩下80%也是不能輕易舍棄的。

但是在大模型強化學習這里,80%低熵token不僅可以舍棄,甚至還可能起副作用,所以這篇論文被命名為“超越二八法則”。

此外,團隊還從token熵的角度探究了RL對LLM的主要影響,并進一步討論了RL與SFT的區別、LLM RL的特殊性與clip-higher相較于entropy bonus的優勢。

圖片

揭開Chain-of-Thought的熵分布密碼

要理解這項研究,需要先從一個有趣的觀察說起:

團隊發現,當大模型進行鏈式思考(Chain-of-Thought)推理時,token的熵分布呈現出一個獨特的模式:大部分token的熵都很低,只有少數token表現出高熵特征。

具體來說,超過50%的token熵值低于0.01,而只有20%的token熵值大于0.672。

圖片

更有意思的是,這些高熵token和低熵token在功能上有著本質區別。高熵token通常扮演著“邏輯連接器”的角色,比如“wait”、“however”、“thus”這些詞,它們在推理過程中起到轉折、遞進或因果連接的作用。

在數學推導中,“suppose”、“assume”、“given”這些引入假設或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數學表達式的組成部分,這些內容具有很高的確定性。

團隊形象地把這些高熵token稱為分叉token(forking tokens),如果將思維鏈比做走山路,高熵token就像分叉路口(fork),決定了接下來的方向;低熵token就像一面是山一面是懸崖的小路,只能沿著既定方向走下去。

圖片

為了驗證這些分叉token的重要性,團隊還設計了這樣的實驗:給不同的token設置不同的解碼溫度。

結果發現,適度提高高熵token的溫度能改善推理性能,而降低它們的溫度則會導致性能下降。這進一步證實了保持這些關鍵位置的高熵對推理的重要性。

圖片

只用20%的token,效果反而更好

既然發現了這些分叉token的特殊性,那么如果在強化學習訓練時只關注這些關鍵的少數token會怎樣?

在RLVR(Reinforcement Learning with Verifiable Rewards)訓練中,只保留top 20%高熵token的策略梯度,把剩下80%的梯度全部屏蔽掉

結果Qwen3-32B上,這種方法不僅沒有降低性能,反而帶來了顯著提升:AIME’24分數提升7.71分,AIME’25分數提升11.04分,平均響應長度增加約1378個token。

在Qwen3-14B上也有類似的提升效果,而在較小的Qwen3-8B上,性能也保持穩定。

圖片

更有趣的是反向實驗的結果:如果只用80%的低熵token訓練,模型性能急劇下降。

這說明低熵token對推理能力的提升貢獻微乎其微,甚至可能起到負面作用。

圖片

團隊分析認為,這可能與路徑探索有關。高熵token由于其不確定性,能夠幫助模型探索不同的推理路徑。而低熵token過于確定,反而限制了模型的探索能力。

從訓練過程中的整體熵變化也能看出端倪:使用20%高熵token訓練時,模型保持了較高的整體熵水平,而使用全部token或只用低熵token時,整體熵水平都會下降。

圖片

另一個重要發現是這種方法存在明顯的規模效應:模型越大,只用高熵token訓練的優勢就越明顯。在32B模型上的提升最大,14B次之,8B模型提升最小。這可能是因為更大的模型有更強的能力利用增強的探索性。

更令人驚喜的是,這種方法訓練出的模型在域外任務上也表現優異。團隊在數學數據集上訓練的模型,在編程任務LiveCodeBench上測試時,僅用20%高熵token訓練的模型依然大幅超越了使用全部token訓練的版本。

這暗示著高熵token可能與模型的泛化能力密切相關。通過聚焦這些關鍵的決策點,模型學到的可能是更本質的推理模式,而不是死記硬背特定領域的知識。

圖片

重新理解大模型強化學習

這項研究的意義不止于提升訓練效率,在深入研究RLVR(Reinforcement Learning with Verifiable Rewards)訓練過程后,團隊發現了一個令人意外的現象:RLVR并不是推倒重來,而是在base model的基礎上做精細調整。

通過追蹤訓練過程中熵模式的演變,發現即使在訓練收斂后(第1360步),模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預訓練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。

圖片

更有意思的是,RLVR的調整策略相當”偏心”。團隊計算了不同熵水平token在訓練前后的變化,發現了一個清晰的規律:

初始熵越高的token,在RLVR訓練后熵的增幅越大。而那些原本就很確定的低熵token,整個訓練過程中幾乎紋絲不動。

從熵的百分位變化圖中可以看到,越是高熵的token(比如90%、95%分位),訓練過程中的波動范圍越大;而低熵token(比如0%、5%分位)的變化微乎其微。

圖片

最后,基于以上所有這些發現,團隊還提出了幾個有趣的討論:

討論1:高熵token可能是解釋為什么強化學習能泛化而監督微調傾向于記憶而過擬合的關鍵。

強化學習傾向于保持甚至增加分叉token的熵,維持推理路徑的靈活性。而監督微調會把輸出logits推向one-hot分布,導致分叉token熵降低,失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務的關鍵因素。

討論2: 與傳統強化學習不同,大模型推理需整合先驗知識,且必須生成可讀性輸出。因此,大模型思維鏈(CoT)包含低熵的多數標記與高熵的少數標記,而傳統強化學習可假設整個過程中動作熵是均勻分布的。

討論3:在強化學習與可驗證獎勵算法(RLVR)中,熵獎勵(entropy bonus)可能并非最優選擇,因為它會增加低熵多數標記的熵值。相比之下,clip-higher方法能有效提升高熵少數標記的熵值。

論文
https://arxiv.org/abs/2506.01939

項目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-06-12 08:46:00

2024-11-01 13:30:56

2025-03-31 00:33:00

2023-08-28 06:52:29

2025-11-18 07:00:00

2025-07-22 09:05:00

強化學習AI模型

2023-10-06 20:30:33

大模型LLMtoken

2025-01-17 13:41:24

2025-07-03 14:58:16

模型開源AI

2025-04-27 09:23:00

模型訓練AI

2025-04-01 09:00:00

模型訓練開源

2023-10-14 13:07:52

訓練模型

2025-06-05 08:40:00

2025-04-02 09:00:00

模型開源AI

2025-11-12 08:56:15

2025-05-06 00:45:00

2025-06-09 09:32:35

2025-01-14 13:20:56

2025-06-18 08:51:28

點贊
收藏

51CTO技術棧公眾號

91精品国产欧美一区二区18| 久久一日本道色综合| 欧美乱大交xxxxx| 欧美激情一区二区三区p站| 麻豆mv在线看| 国产欧美日韩在线| 97中文在线| 日本一本在线观看| 午夜精品亚洲| 国产亚洲精品综合一区91| 天天综合天天添夜夜添狠狠添| 免费污视频在线| 国产欧美日韩久久| 国产精品二区三区| 中文字幕一区二区三区波野结| 欧美精品入口| 日韩中文av在线| 一级特黄a大片免费| 高清一区二区中文字幕| 色婷婷久久综合| av在线播放天堂| 久草资源在线观看| 国产亲近乱来精品视频| 国产一区二区三区无遮挡| 国产欧美一区二区三区视频在线观看| 午夜在线精品| 欧美激情视频免费观看| 天天操天天摸天天舔| 欧美日韩夜夜| 精品国产一区久久| 日韩欧美色视频| 亚洲青青一区| 欧美色图免费看| 少妇高清精品毛片在线视频| 超碰99在线| 亚洲午夜一二三区视频| 国产精品12p| 日本中文字幕伦在线观看| 久久久久久久久蜜桃| 国产伦精品一区二区| 国产极品久久久| 精品午夜久久福利影院| 国产精品com| 国产婷婷色一区二区在线观看 | 亚洲国产成人精品女人久久久| 欧美激情国内自拍| 伊人久久大香| 91精品国产免费| 杨幂一区二区国产精品| 国产精品igao视频网网址不卡日韩 | 亚洲视频第一页| 亚洲欧美视频在线播放| www.神马久久| 日韩精品黄色网| 日本xxxx裸体xxxx| 一区三区在线欧| 亚洲图片欧洲图片av| mm131美女视频| 红桃成人av在线播放| 一区二区成人av| 天天干天天操天天拍| 欧美成人激情| 美女久久久久久久| 欧美日韩中文视频| 99精品视频免费观看视频| 欧美亚洲另类激情另类| 欧美a视频在线观看| 久久福利毛片| 国产精品一二三在线| 亚洲资源在线播放| 国产乱码精品1区2区3区| 草莓视频一区| 全部免费毛片在线播放网站| 国产喂奶挤奶一区二区三区| 伊人久久大香线蕉成人综合网| 国产黄色在线网站| 亚洲国产欧美在线人成| 日本www在线播放| 日本美女久久| 日韩欧美中文字幕制服| 亚洲一区二区三区无码久久| 精品久久91| 欧美精品手机在线| 中文字幕视频网| 久久精品国产久精国产爱| av一区观看| 毛片网站在线观看| 国产精品第四页| 欧美深夜福利视频| h1515四虎成人| 欧美tk丨vk视频| 熟女俱乐部一区二区| 婷婷综合社区| 欧美一级高清免费| 99久久精品免费看国产交换| av一区二区三区四区| 亚洲精品在线观看免费| 免费在线看电影| 欧美日韩免费一区二区三区视频| 中文字幕乱码在线人视频| 一区二区三区日本久久久 | 丝袜足脚交91精品| sqte在线播放| 欧美一区日本一区韩国一区| 18禁裸乳无遮挡啪啪无码免费| 亚洲无中文字幕| 日本午夜在线亚洲.国产| 精品国产av 无码一区二区三区| 久久综合九色综合97婷婷| 浴室偷拍美女洗澡456在线| 中文字幕在线直播| 精品国产污网站| 我家有个日本女人| 美国毛片一区二区| 欧美日韩精品久久| 久草在线资源福利站| 日韩一二三区视频| 欧美手机在线观看| 免费在线观看不卡| 久久日韩精品| caoporn视频在线观看| 91精品国产91久久久久久最新毛片 | 中文字幕av一区二区三区免费看| 九九九九免费视频| jazzjazz国产精品久久| 久久久精品国产| 中文字幕一区二区三区四区免费看 | 亚洲综合色av| 老司机99精品99| 欧美午夜电影网| 欧美偷拍一区二区三区| 亚洲免费一区二区| 久久99国产精品| 神马午夜在线视频| 亚洲精品第一页| 日韩精品人妻中文字幕| 丁香六月久久综合狠狠色| 激情图片qvod| 欧美影院视频| 美女少妇精品视频| 国产激情无套内精对白视频| 亚洲欧美一区二区三区久本道91| 国模私拍视频在线观看| 99久久夜色精品国产亚洲1000部| 国产精品偷伦免费视频观看的| 黄色在线网站| 欧美性色黄大片手机版| 91社区视频在线观看| 久久激情综合网| 一区二区不卡视频| 精品一级视频| 欧美激情国产精品| 狠狠综合久久av一区二区| 亚洲一级不卡视频| 人妻 日韩 欧美 综合 制服| 亚洲国内精品| 蜜桃视频日韩| 欧美不卡高清一区二区三区| 夜夜嗨av一区二区三区四区| 精品乱码一区内射人妻无码| 国产精品日产欧美久久久久| 中文字幕国内自拍| 91精品国产麻豆国产在线观看| 成人观看高清在线观看免费| 中文字幕在线观看网站| 欧美精品一区二区三区在线 | 日韩电影在线观看一区| 亚洲欧美久久久久一区二区三区| 台湾天天综合人成在线| 欧美精品www| 欧美18xxxxx| 欧美日韩国产123区| 久久久.www| 99re亚洲国产精品| 久久精品一区二| 一区二区三区网站 | 又黄又爽又色的视频| 一区在线播放| 色涩成人影视在线播放| 精品国产亚洲一区二区三区| 久久人91精品久久久久久不卡| 麻豆av电影在线观看| 欧美电影一区二区三区| 国产无码精品久久久| 国产蜜臀97一区二区三区| 永久av免费在线观看| 一本色道精品久久一区二区三区| 天堂√在线观看一区二区| 欧洲一区在线| 国产ts人妖一区二区三区| www.久久ai| 亚洲女人天堂视频| 精品人妻一区二区三区含羞草 | 韩国一区二区在线播放| 一本色道久久| 超级碰在线观看| 久久最新网址| 国产精品视频入口| 欧美黑粗硬大| 日韩免费av片在线观看| 狂野欧美激情性xxxx欧美| 伊人精品在线观看| 男人天堂手机在线观看| 在线观看91av| 凹凸精品一区二区三区| 亚洲r级在线视频| 中文字幕美女视频| 久久久亚洲精品石原莉奈| 九色91porny| 老司机精品视频在线| 草草久久久无码国产专区| 一区二区电影| 一区二区不卡在线视频 午夜欧美不卡' | 日本不良网站在线观看| 欧美成在线观看| 在线观看a视频| 亚洲人成自拍网站| 手机在线不卡av| 亚洲成人av片| www.xxx国产| 制服丝袜亚洲网站| 伊人免费在线观看| 欧美最新大片在线看| 草久视频在线观看| 五月开心婷婷久久| 粉嫩aⅴ一区二区三区| 一二三四社区欧美黄| 精品国产国产综合精品| 国产精品无码永久免费888| 亚洲精品成人无码熟妇在线| 99久久国产综合精品麻豆| 国产精品嫩草69影院| 国产一区二区在线观看免费| 日本一二区免费| 麻豆一区二区三区| 国产精品一区二区小说| 免费xxxx性欧美18vr| 日本成人在线免费视频| 噜噜爱69成人精品| 天天摸天天碰天天添| 亚洲男女自偷自拍| 欧美日韩一区二区在线免费观看| 亚洲一区二区免费看| 日本毛片在线免费观看| 国产手机视频一区二区| 欧美精品一区免费| 久久九九精品| 青青青在线视频免费观看| 三级久久三级久久| 亚洲精品自拍网| 久久精品久久精品| 久久久久久综合网| 国产成人亚洲综合a∨婷婷图片| 在线观看视频在线观看| 国产成a人无v码亚洲福利| 色诱av手机版| 99久久婷婷国产综合精品电影| 国产精品无码在线| 久久久国产午夜精品| 天天操天天干天天操天天干| 中文字幕制服丝袜成人av| 日本一级片免费| 亚洲精品日韩综合观看成人91| 久久成人在线观看| 欧美视频在线观看免费| 日本一区二区三区久久| 4438x亚洲最大成人网| 国产超碰人人模人人爽人人添| 精品国产欧美一区二区| 天堂视频中文在线| 中文字幕在线精品| 在线观看三级视频| 国产69久久精品成人看| 素人啪啪色综合| 91免费版黄色| 亚洲最好看的视频| 亚洲AV无码成人精品一区| 在线观看日韩av电影| 成年人网站大全| 国产精品1区2区3区在线观看| 精品国产人妻一区二区三区| 久久久久99精品国产片| 麻豆网址在线观看| 岛国精品视频在线播放| 中文字幕视频二区| 精品三级在线看| www在线播放| 久久久久久久久91| 91伊人久久| 国产专区一区二区| 99国内精品久久久久久久| 青草视频在线观看视频| 奇米888四色在线精品| 国产a级片视频| 国产精品热久久久久夜色精品三区| 麻豆成人在线视频| 欧美日韩亚洲综合| 亚洲aⅴ在线观看| 欧美老妇交乱视频| 国产精品高潮久久| 国产欧美日韩一区| 亚洲澳门在线| 青青在线视频免费| 99久精品国产| 波多野结衣家庭教师| 色菇凉天天综合网| 少妇高潮一区二区三区69| 久久精品亚洲精品| 欧美成人精品三级网站| 国产传媒一区| 888久久久| 超碰在线播放91| 久久久国产一区二区三区四区小说| 久久精品国产亚洲av无码娇色| 4438亚洲最大| 秋霞午夜在线观看| 日本欧美黄网站| 香蕉久久夜色精品国产更新时间 | 免费不卡av| 91久久久久久| 日韩1区2区| 日韩无套无码精品| 久久伊人中文字幕| 欧美福利视频一区二区| 精品国产一二三区| 日韩伦理电影网站| 51精品国产人成在线观看| 久久中文亚洲字幕| 我要看一级黄色大片| 国产视频在线观看一区二区三区 | 久久综合九色| 极品人妻一区二区三区| 欧美日韩国产精品专区| 天天干天天干天天干| 久久久久久久久中文字幕| 欧州一区二区三区| www.xxx麻豆| 成人性生交大片免费| 久久一级黄色片| 精品国产制服丝袜高跟| 男女视频在线| 国产日韩亚洲精品| 亚洲作爱视频| 中文字幕一区二区久久人妻网站| 天天影视色香欲综合网老头| 亚洲 欧美 激情 另类| 欧美最近摘花xxxx摘花| 国产亚洲电影| 亚洲综合欧美在线| 日韩毛片在线免费观看| 国产又黄又粗又猛又爽| 久久视频在线观看免费| 欧美第一在线视频| www插插插无码视频网站| 99久久99久久精品免费观看| 久久久久亚洲av成人毛片韩| 亚洲美女精品成人在线视频| 高清av不卡| 亚洲精品成人久久久998| 久久99精品一区二区三区| 亚洲国产精品免费在线观看| 精品日韩在线观看| 亚洲播播91| 一级二级三级欧美| 国产91精品露脸国语对白| 日韩特黄一级片| 国产亚洲人成a一在线v站| 国产va免费精品观看精品| 欧美日韩福利在线| 国产欧美一区二区三区网站| 国产又黄又大又爽| 久久久久久久久91| 成人嫩草影院| 丰满饥渴老女人hd| 欧美性少妇18aaaa视频| 日本免费视频在线观看| 国产精品乱码| 青青青伊人色综合久久| 天天干中文字幕| 亚洲毛片在线观看.| 香蕉成人在线| 成年人网站免费视频| 国产精品国产三级国产aⅴ中文 | 国产亚洲日本欧美韩国| 亚洲精品一区二区三区在线| 国产成人a亚洲精v品无码| 亚洲欧美一区二区久久| 色中色在线视频| 亚洲一区二区三区在线免费观看| 国产欧美91| 性欧美疯狂猛交69hd| 日韩精品一区二区三区第95| 亚洲午夜国产成人| 成年人视频网站免费观看| 综合色中文字幕| 青青草娱乐在线| 97se亚洲综合| 蜜臀av亚洲一区中文字幕| 日本一本高清视频| 日韩中文字幕国产精品|