精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節&MAP重塑大模型推理算法優化重點,強化學習重在高效探索助力LLM提升上限

人工智能 新聞
來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

強化學習(RL)范式雖然顯著提升了大語言模型(LLM)在復雜任務中的表現,但其在實際應用中仍面臨傳統RL框架下固有的探索難題。

一個普遍存在的現象是:在訓練過程中,模型的熵值迅速下降,推理路徑趨于固化,導致“利用(exploitation)”遠超“探索(exploration)”,嚴重失衡。

這種過早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進一步突破。

受OpenAI經典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發,來自字節跳動、MAP,曼徹斯特大學的聯合團隊提出了一種全新的結構化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

圖片

該方法通過識別推理軌跡中具有高不確定性的關鍵token,并以此為錨點引導后續的多樣化展開,系統性地重建了LLM在強化學習中的探索機制,旨在實現利用與探索之間的動態平衡,從而釋放RL訓練的更高潛力。

值得一提的是,FR3E發布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉發了這篇文章。

圖片

算法框架

FR3E的算法框架分為兩個階段:

第一階段:First Return

圖片

在該階段,模型對每條prompt進行多次rollout,自由探索可能的解題路徑,并收集相應的軌跡及其獎勵信號。

隨后,采用拒絕采樣(rejection sampling)策略過濾掉全正確的樣本(避免對已掌握知識的重復學習),并針對剩余樣本構建基準路徑:對于存在部分正確結果的prompt,選取其中一條正確軌跡作為基準;

對于全部錯誤的prompt,則隨機選取一條作為參考路徑。

在此基礎上,計算基準路徑中每個token的生成熵,篩選出top-n個高熵token作為關鍵決策點。

這些關鍵點將整條軌跡劃分為n+1個partial rollout。通過將原始prompt與前n個partial rollout依次拼接(最后一個包含答案的部分被排除),形成n+1個中間狀態(state),初始狀態即為原始prompt本身。

第二階段:Entropy-Eliciting Explore

圖片

基于構建的多狀態prompt組,FR3E在GRPO++(融合了拒絕采樣與Clip-Higher機制的GRPO變體)的基礎上,進一步引入動態優勢調制機制,以更精細地調控學習信號。具體而言,通過引入了一個優勢調制因子,它基于從上一個狀態到當前狀態的價值邊際改善來縮放學習信號。

優勢調制因子定義為:

圖片

調控后的Advantage定義為:

圖片

圖片

表示當前state prompt中的partial rollout部分對最終答案有正向影響,此時需要適當降低它的advantage,防止模型過早鎖定當前推理路徑,保留探索空間。

反之,當

圖片

則意味著當前state prompt中的partial rollout部分對思考過程沒有或有負向影響,需要放大其優勢信號,激勵模型在該節點進行更積極的探索,以突破推理瓶頸。

在數據構建方面,團隊采用雙難度混合策略:低難度數據來自DeepScaler,用于穩定訓練初期的收斂過程;

高難度數據則取自SimpleRL中難度等級為3–5的樣本,旨在激發模型的深層推理能力。這種組合既保障了訓練穩定性,又提供了足夠的挑戰性以推動能力躍遷。

實驗結果

為全面評估FR3E的有效性,團隊在多個權威數學推理基準上進行了實驗,包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進行了評測。

圖片

實驗結果表明,FR3E在多個基準上均顯著優于強基線GRPO++,展現出更強的泛化與推理能力。

圖片

尤其值得注意的是,在訓練動態分析中,FR3E展現出更持久的探索行為:其熵值衰減更緩慢,響應長度更長,特別是在Qwen2.5-Math-7B這類已微調模型上,成功突破了傳統方法中熵值長期處于低位的“僵化”困境,實現了探索能力的再激活。

圖片

此外,通過對多次rollout結果的統計監控,團隊發現FR3E顯著提升了“全正確”軌跡的數量,同時大幅降低了“全錯誤”軌跡的比例。

這表明,原本僅能部分解出或完全失敗的問題,在FR3E的訓練機制下,逐步演化為穩定、完整的正確解答路徑,真正實現了從“部分成功”到“全面突破”的躍遷。

綜上所述,FR3E提出了一種新穎且高效的結構化探索范式,直面LLM在強化學習中“探索不足”的核心瓶頸。

通過“先返回、再探索”的兩階段設計,結合高熵錨點識別與動態優勢調制機制,FR3E不僅有效延緩了模型的過早收斂,更顯著提升了復雜推理任務中的性能上限。

實驗充分驗證了FR3E在多個數學推理基準上的優越性,尤其在提升探索多樣性、增強長程推理穩定性方面表現突出。

更重要的是,該方法所體現的“結構化反饋 + 自適應調節”思想,具備良好的可擴展性。團隊期待FR3E所倡導的探索機制,能夠為未來大模型的強化學習訓練提供新的范式參考。

論文地址:https://arxiv.org/pdf/2507.07017

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-09 09:32:35

2024-09-13 06:32:25

2025-06-05 06:36:17

2025-07-08 03:11:00

2025-11-12 08:56:15

2025-10-08 10:44:16

2025-05-30 04:00:00

IBMRLVRGRPO

2024-09-30 14:40:00

AI強化學習框架

2025-08-07 09:16:41

2025-04-22 09:12:00

AI模型數據

2025-05-28 02:25:00

2023-06-25 11:30:47

可視化

2022-12-01 08:00:00

2023-08-28 06:52:29

2025-06-23 09:09:00

2025-02-13 10:34:30

LLM算法PPO

2025-03-24 09:50:00

大模型自動駕駛AI

2022-11-02 14:02:02

強化學習訓練

2025-05-26 17:16:51

2025-07-01 09:05:28

點贊
收藏

51CTO技術棧公眾號

欧美日韩一区在线播放| 69视频在线免费观看| 91精产国品一二三产区别沈先生| 超碰在线观看免费| 成人av网站在线观看免费| 欧美一级视频一区二区| 免费成人深夜蜜桃视频| 91麻豆精品激情在线观看最新| 日韩欧美精品网址| 久久久成人精品一区二区三区 | 国产在线欧美日韩| 久久午夜鲁丝片| 韩日在线一区| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 天天操夜夜操av| 精品国产18久久久久久洗澡| 欧美日韩国产精选| 亚洲熟妇av日韩熟妇在线| 91社区在线高清| 成人av电影免费在线播放| 国产精品热视频| 久草视频在线观| 97久久夜色精品国产| 亚洲美女精品久久| 免费观看一区二区三区| 91另类视频| 福利微拍一区二区| 白白操在线视频| av二区在线| 91一区二区三区在线观看| 成人黄色午夜影院| 成人小视频在线播放| 亚洲欧洲一区| 欧美日韩xxx| 大又大又粗又硬又爽少妇毛片| 自拍偷拍亚洲图片| 欧美三级日韩三级国产三级| 久久这里只有精品23| 国产原创在线观看| 国产精品国产三级国产| 欧美日韩精品久久久免费观看| 亚洲av无码乱码国产麻豆| 美女一区二区久久| 国产在线观看网站| 午夜欧美激情| 国产精品久久久久久亚洲毛片 | aaa一区二区三区| 免费人成黄页网站在线一区二区| 欧美在线观看一区二区三区| 国产成人精品av久久| 欧美福利网址| 欧美大片大片在线播放| 男的操女的网站| 亚洲乱码精品| 久久九九热免费视频| 永久免费未视频| 午夜影院欧美| 久久夜色精品国产亚洲aⅴ| 最新黄色av网址| 欧美电影免费| 久久五月天综合| www.色小姐com| 亚洲欧美一级二级三级| 欧美区二区三区| 日本免费在线播放| 99精品久久| 日韩av黄色在线观看| 日韩精品一区不卡| 麻豆精品精品国产自在97香蕉| 国产精品久久久久久久久久99 | 国产老头老太做爰视频| 五月天久久久| 九九九久久国产免费| 久久丫精品久久丫| 午夜一级在线看亚洲| 国产精品成人一区二区三区吃奶 | 免费观看30秒视频久久| 川上优av一区二区线观看| 精品毛片一区二区三区| 99在线精品观看| 欧美日韩一区在线视频| 老司机在线视频二区| 亚洲一区视频在线| 久久9精品区-无套内射无码| 成人精品高清在线视频| 日韩一区二区精品在线观看| 亚洲色图欧美另类| 欧美伦理影院| 欧美精品videofree1080p| 日韩欧美一级视频| 精品在线观看免费| 精品无人乱码一区二区三区的优势| 可以在线观看的av| 亚洲六月丁香色婷婷综合久久| 福利视频一区二区三区四区| 国产一区二区精品调教| 日韩三级.com| 国产精品免费无码| 欧美午夜一区| 国产精品三级美女白浆呻吟| 俄罗斯嫩小性bbwbbw| 国产午夜精品一区二区三区视频| 免费看污污视频| 色豆豆成人网| 亚洲第一色中文字幕| 欧美激情 一区| 亚洲第一伊人| 91精品国产综合久久香蕉的用户体验| 熟妇人妻av无码一区二区三区| 国产精品免费丝袜| 国产素人在线观看| 国产精品777777在线播放| 亚洲天堂成人在线视频| 国产一级做a爰片在线看免费| 日韩av高清在线观看| 国产欧美日韩一区二区三区| 黄色网址在线免费观看| 日本精品一区二区三区高清| 图片区偷拍区小说区| 色爱综合网欧美| 秋霞午夜一区二区| 日韩一级中文字幕| 亚洲男人的天堂网| 看欧美ab黄色大片视频免费| 欧美a级网站| 欧美猛交免费看| 一本一道精品欧美中文字幕| 久久婷婷久久一区二区三区| 精品无码国产一区二区三区av| 国产一区二区av在线| 最近2019年手机中文字幕| 五月婷婷激情视频| 久久综合久久99| 少妇av一区二区三区无码| 亚洲一区二区三区四区电影 | 欧美不卡三区| aa级大片免费在线观看| 日韩欧美在线观看一区二区三区| 国产三级aaa| 秋霞av亚洲一区二区三| 亚洲精品第一区二区三区| 香蕉久久免费电影| 亚洲片在线资源| 日本视频网站在线观看| ww久久中文字幕| 精品中文字幕av| 亚洲精品**不卡在线播he| 91av在线免费观看视频| 青春有你2免费观看完整版在线播放高清 | 日韩hmxxxx| 亚洲四虎影院| 永久免费看mv网站入口亚洲| 91黑人精品一区二区三区| 久久久久久久久蜜桃| 欧美三级午夜理伦三级| 国产区精品区| 国产精品久久久久久久7电影| 成人h小游戏| 欧美日韩精品一区视频| 美女三级黄色片| 国产麻豆一精品一av一免费| 国产 国语对白 露脸| 91精品入口| 欧美亚洲午夜视频在线观看| 国产精品无码2021在线观看| 在线观看不卡视频| 日韩在线观看免| 国产高清不卡一区| 成年人午夜免费视频| 最新精品国偷自产在线| 国产精品专区h在线观看| 米奇精品一区二区三区| 日韩免费高清av| 亚洲精品男人天堂| 中文字幕第一区综合| 激情在线观看视频| 1024日韩| 亚洲三区四区| 91麻豆精品激情在线观看最新| 668精品在线视频| www日韩tube| 欧美大胆人体bbbb| 日本免费在线观看视频| 成人欧美一区二区三区小说| 一区二区三区四区影院| 欧美一级网站| 国产一区一区三区| 日韩人体视频| 91在线观看免费高清| 婷婷电影在线观看| 久久精品免费播放| 午夜成人免费影院| 欧美美女bb生活片| 日韩成人免费观看| 成人欧美一区二区三区1314 | 欧美调教网站| 国产一区视频在线播放| 182在线视频观看| 综合欧美国产视频二区| 隣の若妻さん波多野结衣| 欧美在线不卡一区| 日本一级淫片免费放| 国产精品国产三级国产普通话蜜臀| 国产真实乱人偷精品| 精品一区二区影视| 激情六月丁香婷婷| 欧美色图首页| 一区二区不卡视频| 久久91麻豆精品一区| 99三级在线| 国产精品天堂蜜av在线播放 | 成人综合在线网站| 爱爱爱爱免费视频| 久久精品日韩欧美| 日韩人妻无码精品久久久不卡| 色综合久久网| 日本一区二区三区视频在线观看 | 成年人二级毛片| 久久免费的精品国产v∧| 69久久精品无码一区二区| 热久久国产精品| 激情五月开心婷婷| 日韩亚洲在线| 人妻无码久久一区二区三区免费| 亚洲精品一区二区妖精| 在线观看日韩羞羞视频| 电影一区中文字幕| 青青久久av北条麻妃海外网| 爱福利在线视频| www.午夜精品| 日本中文字幕在线视频| 亚洲欧美日韩一区二区三区在线| 亚洲国产精品18久久久久久| 欧美一区二区三区视频| 一级黄色录像大片| 欧美日韩国产免费| 制服丝袜在线一区| 91搞黄在线观看| 日本丰满少妇做爰爽爽| 色悠悠久久综合| 亚洲大片免费观看| 日韩欧美一区视频| 成人午夜淫片100集| 欧美日韩一二三四五区| 男人午夜免费视频| 色一情一乱一乱一91av| 无码人妻丰满熟妇精品区| 91成人免费电影| 国产偷人爽久久久久久老妇app| 91福利在线看| 中文字幕 自拍偷拍| 精品视频在线看| 一级视频在线播放| 欧美一区二区三区不卡| 国产成人精品白浆久久69| 日韩欧美国产不卡| 好吊色在线观看| 亚洲精美色品网站| 亚洲色偷精品一区二区三区| 国产丝袜视频一区| 成年人免费在线视频| 综合网中文字幕| 最新日本在线观看| 国内精品一区二区三区| 亚洲精品88| 国产精品揄拍500视频| 亚洲欧美一级| 国产精品v欧美精品v日韩| 午夜精品福利影院| 亚洲v国产v| 欧美特黄视频| av免费在线播放网站| 另类的小说在线视频另类成人小视频在线 | 久久免费99精品久久久久久| 精品国产一区二区三区小蝌蚪 | 一区二区福利| 簧片在线免费看| 国产精品538一区二区在线| 欧产日产国产精品98| 久久久91精品国产一区二区精品 | 欧美福利视频| 欧美性大战久久久久xxx | 888久久久| 国产爆乳无码一区二区麻豆| 亚洲在线播放| 九九热精品国产| 成人激情小说网站| 日韩不卡av在线| 亚洲国产成人va在线观看天堂| 91精品国产高清一区二区三密臀| 欧美精品在欧美一区二区少妇| 成人激情四射网| 亚洲一品av免费观看| 污污片在线免费视频| 欧洲成人在线视频| 精品中文字幕一区二区三区四区 | 亚洲成av人片在线观看无码| 91视频在线视频| 欧美成人vr18sexvr| 国产污视频在线| 久久久久久久久久久免费精品| 日本精品另类| 国产在线播放一区二区| 亚洲老妇激情| 婷婷六月天在线| 99久久精品免费| 国产探花在线播放| 欧美亚洲国产一卡| 涩涩视频在线观看免费| 伦伦影院午夜日韩欧美限制| 亚洲成人激情社区| 国产精品日韩二区| 一本到12不卡视频在线dvd| 精品免费国产一区二区| 成人国产精品免费| 午夜国产福利一区二区| 欧美性一级生活| 天天射,天天干| 欧美国产第二页| 国产精品亚洲综合在线观看| 亚洲国产精品www| 性感少妇一区| 小毛片在线观看| 亚洲午夜精品网| 亚洲成人777777| 久久成人一区二区| 亚洲伦理一区二区| 亚洲精品国产一区| 日韩中文字幕区一区有砖一区 | 亚洲精品久久久久久无码色欲四季 | 日本激情视频在线观看| 国产成人av在线| 亚洲综合图色| 男人亚洲天堂网| 久久综合精品国产一区二区三区| 久草免费在线观看视频| 日韩午夜激情视频| 97caopron在线视频| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 一本大道熟女人妻中文字幕在线 | 精品无码久久久久久久动漫| 激情文学一区| 亚洲午夜久久久久久久久| 一区二区欧美精品| 不卡的日韩av| 久久久久久欧美| 久久狠狠久久| 99精品视频在线看| 国产欧美日韩在线视频| 国产精品午夜一区二区| 亚洲日本欧美中文幕| 成人涩涩视频| 一区二区在线观看网站| 国产一二精品视频| 丝袜美腿小色网| 亚洲精品一区二区三区在线观看| free性护士videos欧美| 久久久久久九九九九| 久久久水蜜桃av免费网站| 美女被到爽高潮视频| 欧美三级欧美一级| 国产黄网站在线观看| 成人久久18免费网站漫画| 在线日本成人| 亚洲人成人无码网www国产| 欧美体内she精视频| 国产黄色小视频在线| 国产精品亚洲不卡a| 影音先锋久久精品| 日本丰满少妇裸体自慰| 欧美色图片你懂的| av网站大全在线| 黑人中文字幕一区二区三区| 久久一区精品| av激情在线观看| 亚洲精品久久7777777| 深夜视频一区二区| 亚洲中文字幕无码一区二区三区| caoporm超碰国产精品| 做爰无遮挡三级| 久久99久久99精品中文字幕| 亚洲a级精品| 爽爽爽在线观看| 欧美日韩一区二区三区在线免费观看| 午夜视频在线免费观看| 高清av免费一区中文字幕| 久久精品导航| 欧美精品色哟哟| 亚洲新中文字幕| 一本一道久久a久久| 日本成人黄色网| 亚洲一本大道在线| 国产成人天天5g影院在线观看| av一区二区在线看| 日韩不卡手机在线v区| 伊人365影院| 日韩中文字幕免费| 神马香蕉久久| 日本高清免费观看| 在线观看日韩国产|