精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華、快手提出AttnRL:讓大模型用「注意力」探索

人工智能 新聞
來自清華和快手的研究團隊提出了一種新框架?AttnRL,通過引入注意力機制作為探索的「指南針」,顯著提升了過程監督強化學習的效率與性能。

從 AlphaGo 戰勝人類棋手,到 GPT 系列展現出驚人的推理與語言能力,強化學習(Reinforcement Learning, RL)一直是讓機器「學會思考」的關鍵驅動力。

然而,在讓大模型真正掌握「推理能力」的道路上,探索效率仍是一道難以逾越的鴻溝。

當下最前沿的強化學習范式之一——過程監督強化學習(Process-Supervised RL, PSRL),讓模型不再只看「結果對不對」,而是學會在「推理過程」中不斷修正自己。

然而,傳統的過程監督強化學習方法在探索效率和訓練成本上仍存在明顯瓶頸。

為此,來自清華和快手的研究團隊提出了一種新框架 AttnRL,通過引入注意力機制作為探索的「指南針」,顯著提升了過程監督強化學習的效率與性能。

  • 論文標題:

Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

  • 論文鏈接:

https://arxiv.org/abs/2509.26628

  • GitHub:

https://github.com/RyanLiu112/AttnRL

  • HuggingFace:

https://huggingface.co/papers/2509.26628

過程監督RL的現實困境

傳統的結果監督強化學習方法對所有token賦予相同的獎勵信號,忽略了推理過程中的細粒度質量。過程監督強化學習方法雖然能提供更精細的獎勵,但在分支位置選擇和采樣策略上效率低下,導致訓練成本高昂:

  • 分支策略粗糙:往往按固定長度或熵劃分,忽視語義和推理行為;
  • 采樣效率低下:在簡單和困難問題間一視同仁,導致大量計算浪費在簡單問題上;
  • 訓練流程冗余:每次訓練需進行兩次采樣,顯著增加了時間與計算成本。

為解決這些難題,研究者提出了全新的過程監督強化學習框架——AttnRL,并將注意力機制首次引入推理探索過程,使「注意力」真正成為模型的推理「指南針」。如上圖所示,AttnRL 在注意力分數高的步驟進行分支,并在效果和效率上超過了基線方法。

研究核心:讓注意力引導探索

研究團隊的關鍵洞察是:在大模型的推理過程中,那些注意力得分高的步驟,往往恰好對應「真正的思考時刻」——模型在規劃、自我驗證或轉折時的關鍵推理節點。

因此,AttnRL 提出了一種創新的探索方式:

不再隨機地從任意位置「分支探索」,而是讓模型從高注意力的關鍵步驟出發,去探索新的推理路徑。

論文將這種策略稱為Attention-based Tree Branching(ATB),ATB會分析推理序列中的每個步驟,通過計算「前向上下文影響力(Forward Context Influence, FCI)」分數來衡量其對后續推理的影響程度,然后只在FCI得分最高的幾個位置建立分支。這種機制讓模型能夠「少走彎路」,在推理樹中更快找到高質量路徑。

具體來說,AttnRL首先對回答進行分步,計算步驟-步驟之間的注意力分數矩陣,其中, 表示步驟j注意步驟k在第l層第h個注意力頭的分數。計算步驟k后續所有步驟的注意力分數之和:

取所有層和注意力頭的最大值,即為FCI分數: 

實驗結果表明,破壞這些高注意力步驟會顯著降低模型的解題準確率,證明它們確實是推理過程的關鍵節點。

自適應采樣:

讓模型在「最值得學」的地方學習

傳統的PSRL方法往往采用固定比例、均勻采樣的方式進行探索,無論任務難易都同等對待,導致大量算力浪費在「簡單題」上。

AttnRL引入了兩種自適應采樣機制:

  • 難度感知探索:根據FCI分數過濾掉那些在兩次采樣中大概率100%正確的「簡單題」,對于困難問題,模型會擴展更多「推理樹」來探索解法;而對簡單問題,則自動縮減計算量;
  • 動態批次調整:根據當前有效樣本數動態調整采樣批次大小,保證每次訓練中,所有樣本的梯度都「有貢獻」(即非零advantage),大幅提升了訓練效率。 

高效訓練:一步采樣,性能反超

在工程層面,AttnRL設計了一個 One-Step Off-Policy 的訓練流程:

以前的 PSRL 方法在每次更新都需要兩次生成(初始采樣+蒙特卡洛采樣),采樣成本高。而 AttnRL 在第 m 步訓練時對 m?1 批進行蒙特卡羅采樣,對m+1批進行初始采樣,將初始采樣與蒙特卡羅采樣交錯執行,每步只生成一次即可得到訓練所需的兩類樣本。

實驗結果:性能與效率雙贏

主要結果

  • 在AIME24/25、AMC23、MATH-500、Minerva、Olympiad等六個數學推理基準上,AttnRL對1.5B與7B兩個基座均穩定提升,平均準確率分別達到57.2%與68.7%,顯著高于GRPO、TreeRL及強RLVR基線方法;
  • 相比DeepScaleR-Preview-1.5B(1750步,24K上下文),AttnRL僅需500步、8K上下文即實現更優結果。

分支采樣更高效

基于注意力的分支方法相比于熵分支(TreeRL),在「全對比例」、「全錯比例」、「有效比例」等統計上全面占優,AttnRL 在簡單題采樣到更多錯誤回答,在困難題采樣到更多正確回答,證明了 AttnRL 分支采樣更加高效。

采樣更「干凈」

自適應采樣讓每個批次的每個 token 都有非零優勢,訓練信號密度顯著提高。相比于 GRPO 和 TreeRL,AttnRL 在更少的訓練步數下達到更高性能,并且動態批次機制確保每批次中所有樣本均有效,使 AttnRL 能夠訓練更多有效token。 

未來展望

AttnRL 將「注意力分數」首次用于過程監督強化學習的探索決策,把探索預算投向「影響后續最多」的關鍵推理步驟,為未來的大模型可解釋性與強化學習研究打開了新的方向。它啟示我們:在讓模型「思考得更好」的路上,效率與智能并非對立,而是可以通過更高效的探索實現共贏。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-29 11:56:23

數據AI

2025-08-07 09:16:41

2024-07-01 12:17:54

2025-09-11 13:23:28

多模態大模型文檔問答

2024-06-28 08:04:43

語言模型應用

2024-12-09 00:00:10

2025-10-16 09:00:00

大模型

2023-05-05 13:11:16

2025-07-16 10:15:51

2024-06-03 10:56:53

2024-11-04 08:45:00

2022-03-16 09:33:13

模型算法智能

2024-12-17 14:39:16

2011-07-07 13:12:58

移動設備端設計注意力

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-03-18 09:23:22

2022-03-25 11:29:04

視覺算法美團

2024-09-19 10:07:41

2025-04-29 09:05:00

點贊
收藏

51CTO技術棧公眾號

丁香婷婷深情五月亚洲| 成人直播大秀| 精品久久久久久亚洲精品| 91|九色|视频| 日本熟妇毛茸茸丰满| 久久精品凹凸全集| 欧美午夜电影在线| 日韩少妇中文字幕| 国产又粗又黄又爽视频| 国产精品麻豆久久| 日韩你懂的在线播放| 国产手机免费视频| 蜜桃成人在线视频| 国产一区二区在线影院| 欧美精品久久久久久久| 先锋资源av在线| 亚洲www.| 亚洲人成亚洲人成在线观看图片| 国产精品日韩在线观看| 天天操天天操天天操天天操天天操| 欧美2区3区4区| 午夜精品久久久久久久久| 日韩精品久久久免费观看| 最近中文字幕免费在线观看| 亚洲国产老妈| 亚洲视频欧美视频| 樱花草www在线| 国产精欧美一区二区三区蓝颜男同| 国产欧美一区二区精品久导航| 91在线高清视频| 一区二区三区福利视频| 日韩黄色大片| 亚洲精品99999| 黄色小视频免费网站| www欧美xxxx| 国产精品高清亚洲| 九九久久99| www.av日韩| 男人操女人的视频在线观看欧美| 久久69精品久久久久久久电影好 | av老司机在线观看| 亚洲国产精品成人综合| 国产亚洲情侣一区二区无| 影音先锋黄色网址| 国产精品毛片| 久久精品人人做人人爽| 国产精品无码午夜福利| 国产欧美自拍一区| 欧美一区二区三区视频在线观看| 国产一级片黄色| caoporn视频在线| 亚洲精品视频在线| 亚洲人体一区| 国产youjizz在线| 99久久99久久精品国产片果冻| 96pao国产成视频永久免费| 欧美一级黄视频| 久久精品毛片| 4438全国亚洲精品在线观看视频| 久久国产精品二区| 伊人成综合网| 色悠悠国产精品| 亚洲一级片在线播放| 国产91精品对白在线播放| 亚洲国产精品美女| 内射中出日韩无国产剧情| 涩爱av色老久久精品偷偷鲁| 欧美日韩一区二区欧美激情| 日日噜噜夜夜狠狠| 先锋欧美三级| 欧美日韩免费高清一区色橹橹| 一本久道中文无码字幕av| 性国裸体高清亚洲| 欧美日韩另类视频| 2022亚洲天堂| 日本成人伦理电影| 欧美性色欧美a在线播放| 99热手机在线| 欧美v亚洲v综合v国产v仙踪林| 欧美人与z0zoxxxx视频| 91欧美视频在线| 亚洲老司机网| 欧美一级日韩免费不卡| www.偷拍.com| 丁香一区二区| 日韩精品免费一线在线观看| 精品国产av无码| 欧美天天综合| 久久资源免费视频| 日韩三级久久久| 欧美成人有码| 97成人精品视频在线观看| 可以免费在线观看的av| 视频在线观看一区二区三区| 国产精品人人做人人爽| 国产又粗又长又大视频| 国产成人无遮挡在线视频| 国产欧美欧洲| 你懂得网站在线| 中文字幕va一区二区三区| 国产日韩视频在线播放| 成人影欧美片| 欧美视频在线免费看| 免费观看美女裸体网站| 国产精品久久久久av电视剧| 欧美视频一区在线观看| 制服.丝袜.亚洲.中文.综合懂| 综合久久成人| 亚洲欧洲在线观看| 午夜精品福利在线视频| 亚洲综合另类| 91精品中文在线| 视频三区在线观看| 亚洲色图都市小说| 日韩在线视频在线观看| 国产精品欧美一区二区三区不卡 | 欧美综合第一页| 中文字幕欧美人妻精品| 精品在线一区二区三区| 国产一区二区三区四区hd| 香蕉久久国产av一区二区| 国产精品私房写真福利视频| 日韩精品一区二区三区四| 欧美大胆性生话| 精品久久国产老人久久综合| 六十路息与子猛烈交尾| 99久久久久久中文字幕一区| 欧美富婆性猛交| 中文字字幕在线观看| 国产最新精品免费| 日韩电影大全在线观看| 蜜桃视频网站在线观看| 欧美午夜精品久久久久久人妖 | 国产曰批免费观看久久久| 国产精品青青草| 日本美女高清在线观看免费| 亚洲18女电影在线观看| 一级淫片在线观看| 精品一区二区三区中文字幕老牛 | 欧美四级在线| 欧美精品视频www在线观看 | 欧美日韩综合一区二区三区| 九九久久精品视频| 少妇免费毛片久久久久久久久| 午夜影院在线观看国产主播| 亚洲精品国产成人| 欧美日韩乱国产| 久久婷婷综合激情| 精品一区二区中文字幕| 欧美交a欧美精品喷水| 91国产精品电影| 亚洲av毛片成人精品| 红桃av永久久久| 国产精品1000部啪视频| 国产亚洲在线观看| 欧美日韩在线高清| 韩国精品主播一区二区在线观看 | 亚洲国产av一区| 久久尤物视频| 视频二区一区| 色婷婷成人网| 欧美激情18p| 欧美熟妇交换久久久久久分类| 天天综合日日夜夜精品| 亚欧洲乱码视频| 麻豆视频一区二区| 一级黄色片播放| 超碰精品在线| 日本国产一区二区三区| 大乳在线免费观看| 欧美精三区欧美精三区| 国产黄色片在线免费观看| 成人在线视频一区二区| 日韩在线xxx| 97久久视频| 国产精品免费一区二区| 欧美精品高清| 欧美二区乱c黑人| 男同在线观看| 欧美一区二区三区男人的天堂| 国产精彩视频在线| 国产日本欧美一区二区| 国产资源中文字幕| 亚洲综合好骚| 国产大尺度在线观看| 久久精品色综合| 国产精品欧美一区二区三区奶水| 免费不卡av| 一区二区在线视频| 男人天堂av网| 欧美特级限制片免费在线观看| 青青草原国产视频| 久久久精品综合| 中文字幕制服丝袜| 日韩激情av在线| 欧美国产综合在线| 欧美一区二区三区高清视频| 成人免费91在线看| 国外成人福利视频| 欧美影院久久久| 91高清在线观看视频| 一个色综合导航| 日韩专区第一页| 在线播放/欧美激情| 久久国产视频精品| 一区二区三区精品| 亚洲黄色网址大全| 91色九色蝌蚪| av av在线| 国产美女一区二区三区| 日韩精品免费播放| 国产亚洲激情| 国产片侵犯亲女视频播放| 全国精品免费看| 99www免费人成精品| 涩涩涩久久久成人精品| 国产精品 欧美在线| 擼擼色在线看观看免费| 欧美黑人巨大xxx极品| 黄色精品免费看| 中文字幕欧美精品在线| 日韩一二三四| 亚洲激情小视频| 国产成人毛毛毛片| 欧美久久高跟鞋激| 在线免费a视频| 欧洲一区在线观看| 天堂网中文字幕| 欧美午夜激情在线| 制服.丝袜.亚洲.中文.综合懂色| 一区二区在线电影| 成人免费视频网站入口::| 国产精品久久一卡二卡| 精品成人无码一区二区三区| ww久久中文字幕| 国产偷人妻精品一区| av一区二区久久| 三级男人添奶爽爽爽视频| 成人中文字幕电影| 人妻体内射精一区二区三区| 国v精品久久久网| 国产精品19p| 国产成人99久久亚洲综合精品| 国内精品国产三级国产aⅴ久| 久久成人免费电影| 伊人国产精品视频| 国产毛片精品视频| 色哟哟视频在线| 92精品国产成人观看免费| 一起草在线视频| wwwwxxxxx欧美| 亚洲性猛交xxxx乱大交| 中文字幕免费不卡在线| 欧美另类69xxxx| 亚洲天堂精品视频| 免费在线观看国产精品| 亚洲第一av色| 亚洲国产成人无码av在线| 色妞www精品视频| 亚洲网站免费观看| 制服丝袜成人动漫| wwwxxxx国产| 亚洲精品www久久久| 日韩精品一二| 伊人久久免费视频| 影音先锋男人在线资源| 97精品国产97久久久久久免费| 在线天堂新版最新版在线8| 国产成人一区二| 9999精品视频| 精品国产乱码久久久久久88av | 日本免费成人| 99在线热播| 亚洲v天堂v手机在线| 色阁综合av| 亚洲一区二区日韩| 激情五月宗合网| 日本系列欧美系列| 国偷自产av一区二区三区麻豆| 91在线精品秘密一区二区| 真实乱视频国产免费观看| 中文字幕亚洲一区二区av在线| 免费无遮挡无码永久在线观看视频| 精品国产精品三级精品av网址| 国产情侣呻吟对白高潮| 欧美一级一级性生活免费录像| 偷拍自拍在线| yellow中文字幕久久| www.51av欧美视频| 国产日韩欧美夫妻视频在线观看 | 日韩精品一区二区三| 欧美三区在线视频| 黑人精品一区二区三区| 这里只有精品在线播放| 波多野结衣在线观看| 国产欧美精品在线| 日韩精品丝袜美腿| 中文字幕第50页| 三级影片在线观看欧美日韩一区二区| 天天干天天曰天天操| 久久久久久电影| 国产一级视频在线观看| 欧美三级日本三级少妇99| 无码精品视频一区二区三区| 粗暴蹂躏中文一区二区三区| 午夜欧美巨大性欧美巨大| 翡翠波斯猫1977年美国| 欧美xxav| 亚洲三级视频网站| 91美女蜜桃在线| 日本五十熟hd丰满| 美女诱惑一区二区| 亚洲激情电影在线| 在线视频精品| 深夜福利网站在线观看| 久久久久国产精品免费免费搜索| 久草中文在线视频| 欧美精选午夜久久久乱码6080| 欧美男女爱爱视频| 亚洲一区二区三区高清不卡| 国产欧美精品一二三| 欧美激情在线观看视频免费| 亚洲欧美在线视频免费| 日韩无一区二区| 麻豆tv免费在线观看| 国产精品99久久久久久久久久久久| 成人av婷婷| 成人一级生活片| 国产精品1区二区.| 青青青在线免费观看| 欧美日韩国产一级二级| 爱久久·www| 国产成人精品视| 精品在线99| 红桃av在线播放| 91女人视频在线观看| 日本亚洲色大成网站www久久| 日韩午夜精品视频| 国产1区在线| 亚洲xxxx做受欧美| 香蕉国产精品| 爱情岛论坛亚洲自拍| 亚洲精品免费在线播放| 99久久精品国产色欲| 色与欲影视天天看综合网| 视频国产精品| 成人免费在线网| 99久久99精品久久久久久| 中文字幕在线观看视频网站| 亚洲成人久久久| 高清在线视频不卡| 免费看污久久久| 日本aⅴ精品一区二区三区| 男女在线观看视频| 欧美第一黄色网| 99亚洲乱人伦aⅴ精品| 99热亚洲精品| www国产成人| 这里只有精品免费视频| 一区二区三区在线播放欧美| 成人不卡视频| 色乱码一区二区三区熟女 | 欧洲美女亚洲激情| 亚洲综合一区二区三区| 激情五月宗合网| 国产成人av一区二区三区在线观看| 日韩欧美中文字幕视频| 精品国产一区二区三区忘忧草 | 91久久高清国语自产拍| 捷克做爰xxxⅹ性视频| 亚洲第一激情av| 国产小视频在线观看| 成人国产精品一区二区| 国产精品videossex久久发布| 538国产视频| 欧美日韩视频不卡| 狂野欧美性猛交xxxxx视频| 加勒比在线一区二区三区观看| 视频一区二区中文字幕| 波多野结衣不卡视频| 亚洲精品国产拍免费91在线| 色豆豆成人网| 99久久免费观看| 国产免费观看久久| 亚洲成人黄色片| 欧美综合一区第一页| 婷婷久久国产对白刺激五月99| 亚洲国产精品狼友在线观看| 色婷婷综合激情| 亚洲精品白浆| 青娱乐国产91| 国产91精品久久久久久久网曝门 | av资源中文在线| 亚洲欧美在线网| 91首页免费视频| 精品人妻少妇嫩草av无码专区| 琪琪第一精品导航| 欧美永久精品| 手机看片日韩av| 亚洲国产精品久久久久久|