精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越DeepSeek-R1關鍵RL算法GRPO,CMU「元強化微調」新范式登場

人工智能 新聞
在本文中,CMU、HuggingFace 的研究者提出從元強化學習(RL)的視角來形式化上述優化測試時計算的挑戰。

大語言模型(LLM)在推理領域的最新成果表明了通過擴展測試時計算來提高推理能力的潛力,比如 OpenAI 的 o1 系列。

通常來說,這些方法在訓練模型時可以產生比典型正確解決方案更長的軌跡,并包含了試圖實現某些「算法」的 token:例如反思前一個答案、規劃或實現某種形式的線性搜索。這些方法包括顯式地微調預訓練 LLM 以適應算法行為,例如對搜索數據進行監督微調(SFT)或針對 0/1 正確性獎勵運行結果獎勵(outcome-reward,OR)RL。

雖然通過「結果獎勵 RL 生成長推理鏈」的方式來訓練模型消耗測試時計算的前景看好,但為了繼續從擴展測試時計算中獲得收益,我們最終需要回答一些關鍵的理解和方法設計問題。

第一個問題:當前的 LLM 是否高效使用了測試時間計算?也就是說,它們是否消耗了與典型解決方案長度大致相當的 token,或者它們是否在簡單的問題上使用了太多 token?

第二個問題:當運行測試時 token 預算遠大于用于訓練的 token 預算時,LLM 是否能夠「發現」用于更難問題的解決方案?最終,我們希望模型能夠從它們生成的每個 token(或任何語義上有意義的片段)中獲得足夠的效用,這不僅是為了提高效率,還因為這樣做可以形成一個系統化的流程來發現更難、分布外問題的解決方案。

在本文中,CMU、HuggingFace 的研究者提出從元強化學習(RL)的視角來形式化上述優化測試時計算的挑戰。

image.png

  • 論文標題:Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
  • 論文地址:https://arxiv.org/pdf/2503.07572
  • 項目主頁:https://cohenqu.github.io/mrt.github.io/

在構建方法的過程中,研究者在給定問題上將 LLM 的輸出流分割成多個片段(圖 2)。如果我們只關心效率,那么 LLM 應該只學習利用并直接輸出最終答案,而無需耗費太多片段。另一方面,如果 LLM 僅專注于發現(discovery),那么探索就更可取,這樣 LLM 就可以耗費幾個片段來嘗試不同的方法,并進行驗證和修改,然后得出最終答案。

從根本上說,這與傳統的 RL 不同,這里的目標是學習一個可以在每個測試問題上實現探索 - 利用算法的 LLM。換句話說,本文的目標是從訓練數據中學習這樣的算法,使其成為一個「元」RL 學習問題。

SCR-20250312-mzdt_副本.jpg理想的「元」行為是在過早采用一種方法(即「利用」片段)和嘗試過多高風險策略(即「探索」片段)之間取得平衡的行為。從元 RL 文獻中,我們知道探索和利用的最佳權衡相當于最小化輸出 token 預算的累積悔值。這種悔值衡量了 LLM 與一個 oracle 比較器成功可能性之間的累積差異,如圖 1 (b) 中的紅色陰影區域所示。

image.png

通過訓練 LLM 來最小化每個查詢的累積悔值,本文學習了一種在某種程度上與測試時預算無關的策略,即在部署時 LLM 僅耗費必要數量的 token,同時在更大的 token 預算下運行時仍會取得進展。

具體地,研究者利用一類新的微調方法來優化測試時計算,通過最小化累積悔值的概念產生了一種被稱為元強化微調(Meta Reinforcement Fine-Tuning,MRT)的解決方案(或范式),從而為評估現有推理模型(如 Deepseek-R1)在使用測試時計算的有效性提供了一個指標。

研究者發現,使用結果獎勵 RL 進行微調的 SOTA LLM 無法通過更多片段來提高發現正確答案的概率,即它們沒有取得穩定的「進展」(如上圖 1 (a) 所示),即使這種行為對于發現未見過難題的解決方案至關重要。事實上,在 FLOPs 匹配的評估中,運行更少片段并結合多數投票的更簡單方法通常對較難的問題更有效(下圖 3)。

SCR-20250312-olro_副本.jpg

相反,研究者表明,當目標是最小化悔值時,除了結果獎勵之外,對進展的優化也會自然而然出現。本文的微調范式 MRT 為 RL 訓練規定了密集的獎勵(reward bonus)。直觀地說,這一進展獎勵衡量了在生成給定片段之前和之后獲得正確答案的似然的變化。

在實驗部分,研究者在兩種設置下對 MRT 進行了評估,二者的不同之處在于它們對片段進行參數化的方式。對于第一種設置,他們對基礎模型進行微調,包括 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeekR1-Distill-Qwen-7B,并采用了數學推理問題數據集。

結果發現,MRT 的表現始終優于結果獎勵強化學習,在多個基準測試(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 億參數規模的 SOTA 結果,其相較于基礎模型的準確率提升是標準結果獎勵 RL(GRPO)的約 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基礎模型的 5 倍。GRPO 是 DeepSeek-R1 的關鍵強化學習算法。

對于第二種設置,研究者對 Llama 3.1 進行微調以實現回溯,結果表明,MRT 相較于 STaR 和 GRPO 均實現了 1.6-1.7 倍的 token 效率提升。

元強化微調(MRT)范式

MRT 的目標是直接學習一種與預算無關(budget-agnostic)的 LLM,使其能夠穩步取得進展。

image.png

該研究使用在線強化學習方法(如 GRPO)實現元強化學習范式。下面是它的工作原理:

該研究定義了一個元證明器策略(Meta-Prover Policy)μ,用于評估一個片段對解決問題的貢獻程度。該策略的工作方式如下:

  • 強制終止當前的思考塊(thought block),使用「time is up」提示(prompt);
  • 讓模型根據當前的推理前綴(reasoning prefix)生成其最佳猜測的解決方案。

對于推理過程中的每一個片段,需要這樣操作:

  • 使用元證明器策略 μ 計算思維前綴的獎勵;
  • 基于這個前綴采樣多個策略內的軌跡(rollouts),這些軌跡被均勻分配為:繼續進一步推理;終止思考軌跡并生成最佳猜測的解決方案;
  • 根據對進展(progress)的獎勵,然后計算進展獎勵。

在訓練過程中,該研究優化了包含標準結果獎勵和基于進展的密集獎勵獎勵的 MRT 目標函數:

image.png

實驗結果

實驗評估了 MRT 在優化「測試時計算」資源方面的有效性。

如表 1 所示,MRT 的表現優于在相同數據集上未使用密集獎勵訓練的模型。

image.png

此外,該研究還得出了以下結論:

  • 基于 DeepScaleR-1.5B-Preview 基礎模型微調的模型達到了其規模下 SOTA 水平。由于模型在經過蒸餾或已經經過強化學習(RL)訓練的基礎模型上進行了訓練,因此絕對性能提升較小。然而,與基于結果獎勵的 RL 方法(如 GRPO)相比,使用 MRT 的相對性能提升約為 2-3 倍。
  • 當使用 DeepScaleR-1.5B 模型在 AIME 問題數據集上進行微調時,MRT 不僅在 AIME 2024 和 AIME 2025 評估集上取得了更好的性能(這或許在意料之中),而且在相對于結果獎勵強化學習(RL)分布外的 AMC 2023 數據集上也保持了較好的性能。

MRT 對 token 的處理效率

前文我們已經看到 MRT 可以在 pass@1 準確率上超越標準的結果獎勵強化學習(RL)。接下來,作者嘗試評估 MRT(RL)在 token 效率上是否可以帶來提升。

如圖 7 所示,MRT 在 AIME 2024 數據集上,在相同 token 數量的情況下,平均準確率比基礎模型高出 5%。此外,MRT(RL)在 AIME 2024 上所需的 token 數量比基礎模型少 5 倍,在 MATH 500 上少 4 倍,就能達到相同的性能(本例中使用的是 DeepSeek-R1 蒸餾的 Qwen-1.5B 模型)。

同樣地,MRT 在 token 效率上比結果獎勵 RL 提高了 1.2-1.6 倍。這些結果表明,MRT 在保持或提升準確率的同時,顯著提高了 token 效率。

image.png

回溯搜索設置中的線性化評估

在這種設置中,模型被限制為先生成一個解決方案,接著進行錯誤檢測,最后在進行修正(如圖 5 所示)。

image.png

該研究首先對基于 Llama-3.1-8B 模型微調的 MRT 的 STaR 變體進行評估。如圖 8(左)所示,MRT 在兩種評估模式下(并行模式為實線;線性化模式為虛線)均實現了最高的測試效率,并在線性化評估模式下將效率提高了 30% 以上。

圖 8(右)顯示,與結果獎勵 GRPO 相比,MRT(RL)通過減少 1.6 倍的 token 來提升線性化效率。

image.png

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-19 09:15:00

AI算法模型

2025-02-03 14:17:27

2025-03-03 09:32:00

2025-02-19 08:00:00

2025-06-26 09:06:59

2025-02-07 15:52:20

2025-02-20 15:32:28

2025-11-07 08:51:41

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-02-21 12:24:14

2025-10-11 04:00:00

2024-12-09 09:50:00

數據模型

2025-02-19 08:33:18

2025-04-22 09:12:00

AI模型數據

2025-08-08 09:06:00

2025-09-08 09:06:16

2025-05-06 15:39:53

DeepSeek-R英偉達開源
點贊
收藏

51CTO技術棧公眾號

亚洲国产精品久久人人爱| 91精品国产麻豆国产在线观看| 国产精品视频九色porn| 国产91精品久久久久| 久久黄色一级视频| 国产鲁鲁视频在线观看特色| 日本午夜精品一区二区三区电影| 亚洲精品少妇网址| 欧美在线一区视频| 天天射天天操天天干| 天天影视综合| 91精品国产一区二区人妖| 一区二区三区免费看| 中文字幕av在线免费观看| 久久99免费视频| 色哦色哦哦色天天综合| 奇米视频888战线精品播放| 国产www在线| 亚洲制服一区| 在线免费观看日本一区| 日韩激情久久| 波多野结衣电影在线播放| 亚洲人成精品久久久| 一本高清dvd不卡在线观看| 欧美极品色图| 最新中文字幕免费| 久久综合国产| 51精品秘密在线观看| 加勒比海盗1在线观看免费国语版| 国产成人精品一区二三区四区五区| 91精品国产乱码久久久久久久| 欧美一级免费观看| 久久香蕉视频网站| 亚洲欧美丝袜中文综合| 久久亚洲国产精品一区二区| 一区二区三区国产视频| 91亚洲一区二区| 欧美6一10sex性hd| 久久尤物电影视频在线观看| 国产精品电影观看| 国产天堂av在线| 97久久综合精品久久久综合| 日韩欧美在线国产| 热这里只有精品| 色婷婷av一区二区三区之红樱桃 | 日日噜噜夜夜狠狠久久丁香五月| 丰满少妇被猛烈进入| 国产精品一卡| 久久精品成人欧美大片古装| 亚洲麻豆一区二区三区| 玛雅亚洲电影| 亚洲精品高清在线观看| 久久亚洲免费| 国产露脸无套对白在线播放| 影音先锋中文字幕一区二区| 亚洲欧美日韩爽爽影院| 麻豆传媒在线看| 自拍偷自拍亚洲精品被多人伦好爽| 自拍视频在线观看一区二区| 精品国产综合| 国产精品欧美激情在线| 国产农村妇女毛片精品久久莱园子| 深夜福利国产精品| 男女性杂交内射妇女bbwxz| 欧美日韩在线精品一区二区三区激情综合 | 亚洲大片av| 中文字幕亚洲情99在线| 免费a v网站| 日韩影片中文字幕| 亚洲一区电影777| 亚洲精品中字| 欧洲亚洲在线| 成人爽a毛片一区二区免费| 国产精品日韩一区| 久久久久久久久久久久久av| 欧美/亚洲一区| 在线一区二区日韩| 中国黄色a级片| 超碰精品在线| 91精品婷婷国产综合久久竹菊| 国产精品亚洲a| 九色porny丨首页入口在线| 玉米视频成人免费看| 一区二区三区四区五区视频| 日韩精品一二| 97久久精品人人做人人爽50路| 91精品黄色| 97超碰人人草| 免费成人在线网站| 国产成人精品日本亚洲专区61| 97超碰人人干| 精品动漫3d一区二区三区免费版| 久久亚洲精品一区二区| 免费成人深夜蜜桃视频| 精品欧美激情在线观看| 亚洲欧美国内爽妇网| 天堂久久久久久| 哺乳一区二区三区中文视频| 日韩美一区二区三区| 天天久久综合网| 玖玖精品一区| 日韩欧美国产不卡| 国模大尺度视频| 久久久久毛片免费观看| 91麻豆精品国产91久久久久久久久| 欧美第一页浮力影院| 欧美xxxx做受欧美护士| 欧美中文字幕一区| 午夜免费高清视频| 亚洲欧美一级| 欧美一级夜夜爽| 中文字幕一二三| 国产成人精品福利| 日韩精品免费在线| 亚洲国产天堂av| 日本电影一区二区| 神马国产精品影院av| 粉嫩精品久久99综合一区| 精品一区不卡| 久久精品国产2020观看福利| 亚洲综合视频网站| 亚洲二区精品| 热久久视久久精品18亚洲精品| 欧美一级淫片免费视频黄| 日韩黄色小视频| 国产精品6699| 国产又粗又大又爽视频| 国产成人av资源| 精品无码久久久久久久动漫| 国产一级二级三级在线观看| 国产精品久久毛片av大全日韩| 国产高潮呻吟久久久| ****av在线网毛片| 91久久人澡人人添人人爽欧美| 奇米影音第四色| 久久伊人影院| 亚洲欧洲国产精品| 国产免费美女视频| 激情久久一区| 国产精品永久免费视频| 精品久久人妻av中文字幕| 99精品国产91久久久久久 | 国产又粗又猛又爽又黄| 欧美调教网站| 中文字幕在线看视频国产欧美| 亚洲欧美一区二区三区四区五区| 亚洲中字黄色| 亚洲va男人天堂| 午夜18视频在线观看| 国产精品萝li| 欧美在线观看www| 成人免费91| 亚洲欧美日韩另类| 久久久精品91| 日本欧美一区二区在线观看| 成人羞羞视频免费| 成人精品福利| 午夜亚洲福利老司机| 99re精彩视频| 欧美激情15p| 久久国产精品网站| 波多野结衣高清视频| 成人教育av在线| 一本一道久久久a久久久精品91 | 伊人网综合视频| 99久久久久国产精品| 欧洲日韩成人av| 成人小说亚洲一区二区三区| 国产精品热久久久久夜色精品三区| 成人在线观看你懂的| 亚洲人成777| 一区二区三区视频免费| 午夜毛片在线观看| 成人免费福利片| 男女激烈动态图| 久久久加勒比| 国产一区二区三区精品久久久| 国产一级中文字幕| 国产毛片一区二区| 一本一本a久久| 99只有精品| 亚洲欧洲日本专区| 日韩毛片一区二区三区| 成人国产精品免费观看视频| 2021狠狠干| 亚洲日日夜夜| 日韩一二三在线视频播| 国产精品成人久久久| 久久久久久久久久看片| 国产淫片免费看| 欧美aaaaa级| 91极品视频在线| 五月激情六月婷婷| 天天综合天天综合色| 艳妇乳肉豪妇荡乳xxx| 欧美日韩精选| 国产精品久久久久久久免费大片| 69xxx在线| 日韩免费一区二区三区在线播放| 免费在线观看一级片| 国产一区中文字幕| 青青草综合视频| 99精品在免费线中文字幕网站一区| 欧美精品情趣视频| 精品久久久久成人码免费动漫| 一区二区三区国产精品| 无码人妻一区二区三区一| 欧美日本不卡高清| 国产高清自拍99| 嗯啊主人调教在线播放视频| 日韩成人久久久| 日韩精品一区不卡| 国产欧美日韩精品a在线观看| 日韩视频第二页| 精品少妇av| 国产综合在线观看视频| 超碰个人在线| 精品福利一区二区三区 | 在线视频91p| 制服丝袜在线91| 久久久精品国产sm调教网站| 波波电影院一区二区三区| 99久久久无码国产精品6| 精品久久电影| 亚洲精品日韩av| 97人人在线视频| 一本大道亚洲视频| 国产精品伦一区二区三区| 亚洲午夜在线视频| 亚洲a v网站| 激情都市一区二区| www.射射射| 精品一区不卡| 高清国产一区| 日韩电影网站| 九九热这里只有精品6| 午夜性色福利视频| 欧美日韩成人高清| 国产系列精品av| 亚洲国产高清在线观看视频| 亚洲欧美日韩中文字幕在线观看| 亚洲欧美日韩专区| 亚洲一区二区不卡视频| 国产精品乱战久久久| 国产精品国产三级国产专播精品人 | 欧美日产一区二区三区在线观看| 婷婷激情一区| 欧美大秀在线观看| www.亚洲视频| 亚洲国产精品一区二区三区| 亚洲视频中文字幕在线观看| 亚洲综合精品自拍| 激情五月深爱五月| 成人av中文字幕| 国产精品一区二区小说| 中文一区在线| 成人一区二区av| 久久精品国产68国产精品亚洲| 国产美女精品久久久| 欧美日韩卡一| 日本高清+成人网在线观看| 成人免费看片| 一区国产精品视频| 亚洲欧美丝袜中文综合| 欧美一区二区三区成人| 国产美女www| 激情成人中文字幕| 亚洲国产成人精品综合99| 中文字幕精品一区| 人妻熟女aⅴ一区二区三区汇编| 国产一区二区中文字幕| 成人免费无码av| 亚洲韩日在线| 肉大捧一出免费观看网站在线播放| 精品久久久久久久久久久下田| 国产一区二区三区黄| 麻豆久久一区| 91精品久久久久久久| a成人v在线| 国产精品jizz在线观看麻豆| 色综合亚洲图丝熟| 97精品一区二区三区| 青春草免费在线视频| 日韩视频免费在线观看| jizz在线观看视频| 亚洲久久久久久久久久| 日本免费不卡| 国产视频久久网| 亚洲av成人无码网天堂| 欧美精品一区二区高清在线观看| 亚洲AV无码精品国产| 欧美一区二区三区爱爱| 国产日韩欧美视频在线观看| 7777精品久久久大香线蕉| 在线视频免费观看一区| 欧美日韩久久久一区| 夜夜骚av一区二区三区| 欧美三级电影在线看| 在线免费观看av片| 欧美裸体bbwbbwbbw| 888奇米影视| 91精品国产欧美一区二区| 99在线精品视频免费观看软件| 欧美一区二区三区成人| 亚洲国产欧美另类| 亚洲国产高清高潮精品美女| 日韩一级片免费观看| 日韩激情av在线播放| 五月婷婷久久久| 亚洲欧美资源在线| 都市激情在线视频| 久久精品免费播放| 男人添女人下部高潮视频在线观看| 久久久久久伊人| 在线天堂资源www在线污| 日韩av片电影专区| 欧美激情啪啪| 国产精品午夜av在线| 少妇精品导航| 亚洲一二三区在线| 国内久久视频| 欧美精品无码一区二区三区| 久久99热99| 香蕉在线观看视频| 久久综合九色综合欧美就去吻| 成人在线手机视频| 亚洲美女在线一区| 在线观看日韩中文字幕| 精品视频在线免费看| 国产剧情精品在线| 亚洲国产精品高清久久久| 国产二区在线播放| 欧美成人免费全部| 亚洲欧洲高清| 国产精品永久免费视频| 成人福利一区| 亚洲精品高清国产一线久久| 欧美三级特黄| 一区二区三区韩国| 成人网男人的天堂| 亚洲一二三精品| 午夜电影网一区| 中文字幕在线日亚洲9| 精品久久久久久久久久久院品网| 男人av在线| 欧美疯狂xxxx大交乱88av| 欧美理论影院| av免费观看久久| 精品毛片免费观看| 国产 日韩 亚洲 欧美| 精品一区二区久久| 中文精品在线观看| 一区二区三区在线观看国产| 国产一级片免费视频| 精品久久久久一区| 国产在线激情| 国产精品99免视看9| 老牛精品亚洲成av人片| 99re99热| 蜜臀91精品一区二区三区| 亚洲第一黄色网址| 亚洲综合免费观看高清完整版在线| 波多野结衣电车痴汉| 日韩成人性视频| 三级福利片在线观看| 国产在线999| 国产一区二区电影在线观看| av免费观看大全| 国产一区二区三区在线观看精品| 中文字幕免费高清| 精品久久久久久久久久| 成人激情四射网| 久久久精品美女| 久久69成人| 日本一区不卡| 欧美资源在线| 短视频在线观看| 五月天激情小说综合| 你懂的网站在线| 欧美激情2020午夜免费观看| 国产精品视频一区视频二区| 中文字幕一区二区三区5566| 久久精品99国产精品日本| 黄色三级生活片| 欧美亚洲一区二区在线| 久草在线青青草| 欧美中文字幕在线| 另类ts人妖一区二区三区| 欧美亚洲色图视频| 国产69精品久久777的优势| 丰满少妇被猛烈进入一区二区| 欧美二区三区的天堂| 免费在线观看av| 91日本在线视频| 这里只有精品在线| 一级淫片在线观看| 亚洲欧美日本在线| www日本高清视频| 欧美激情免费看| 久久影视三级福利片|