精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

14B打敗671B!微軟rStar2-Agent在數學推理上超過DeepSeek-R1

人工智能 新聞
近日,微軟研究院的一個研究團隊探索了使用主動式強化學習(agentic reinforcement learning)來實現這一目標,也就是說,模型會與專用工具環境中的工具進行交互,并根據收到的反饋調整其推理方式。

現在,LLM 已經可以獲得非常強大的推理能力,而其中關鍵便是測試時擴展(test-time scaling)。

通常而言,延長思維鏈(CoT)就可以延長「思考時間」,從而顯著提升性能,尤其是當使用大規模強化學習和可驗證獎勵 (RLVR) 進行優化時。

然而,對于容易出現細微中間錯誤或需要創造性推理轉變的難題,較長的思維鏈仍然存在根本性的局限性。在這些情況下,模型往往依賴內部的自我反思,但這又常常無法發現錯誤,也無法在初始方法存在缺陷時進行自我糾正。

因此,模型不僅要能更長時間地思考,還應該要能「更聰明」地思考。為此,可以引入更高級的認知能力,讓模型可以自主地利用合適的工具,從工具環境提供的反饋信號中進行推理、驗證和學習。

近日,微軟研究院的一個研究團隊探索了使用主動式強化學習(agentic reinforcement learning)來實現這一目標,也就是說,模型會與專用工具環境中的工具進行交互,并根據收到的反饋調整其推理方式。

而他們的探索成果便是 rStar2-Agent,這是一種強大的主動式強化學習方法。使用該方法,這個微軟團隊訓練了一個 14B 的推理模型 rStar2-Agent-14B—— 該模型達到前沿級別的性能,媲美甚至超越了 671B 的 DeepSeek-R1!

這項研究在社交網絡上獲得了廣泛關注。

下面我們就來簡單了解一下微軟是如何造出了這個能以小搏大的模型。

  • 論文標題:rStar2-Agent: Agentic Reasoning Technical Report
  • 論文地址:https://arxiv.org/pdf/2508.20722
  • 代碼地址:https://github.com/microsoft/rStar

環境與問題描述

本研究使用的環境是 Python 編程工具和解釋器。

Python 編程工具可拓寬模型的行動空間,使其能夠探索替代方案并驗證中間步驟,從而在單靠較長的 CoT 不足的情況下補充內部的自我反思。

然而,在該環境中有效地擴展主動式強化學習非常困難。

首先,編程工具和 Python 解釋器的固有復雜性會將環境噪聲引入推理過程。當模型不可避免地生成語法或邏輯上錯誤的代碼時,由此產生的環境反饋(例如,錯誤消息)可能會導致模型浪費寶貴的 token 來糾正錯誤,而不是推進推理。遺憾的是,當前的強化學習方法主要依賴于「僅結果獎勵」,而這只會加劇這個問題,因為即使中間工具調用失敗的軌跡仍然會獲得正獎勵,只要最終答案正確即可。如此一來,該模型就會將錯誤視為可接受的,并生成冗長且低質量的推理軌跡。

其次,大規模主動式強化學習訓練對基礎設施的要求很高。單個訓練批次可以觸發數萬個并發工具調用,這使得構建可靠且響應迅速的代碼執行環境變得極具挑戰性。

此外,與環境交互的智能體部署會放大標準強化學習系統中部署效率低下的現象,從而顯著減慢整體訓練速度。

rStar2-Agent 三大創新

微軟提出的 rStar2-Agent 包含三大關鍵創新。

第一,該團隊為大規模主動式強化學習構建了一個高效可靠的基礎架構

他們構建了一個高吞吐量、獨立的代碼環境,能夠處理 45K 個并發工具調用,平均執行反饋僅需 0.3 秒即可返回。

為了解決強化學習 rollout 效率低下的問題,他們引入了一個負載均衡的 rollout 調度程序,該調度程序會根據 GPU 上可用的鍵值緩存容量動態分配 rollout 請求,從而最大限度地提高計算利用率。

即使在 GPU 資源有限的情況下,該基礎架構也能實現高效的強化學習訓練。使用 64 塊 MI300X GPU,該團隊僅用一周時間就完成了 rStar2-Agent-14B 的訓練。

第二,為了在代碼環境中實現有效的主動式強化學習,該團隊提出了基于正確重采樣的組相對策略優化 (GRPO-RoC),它將 GRPO 與基于正確重采樣 (RoC) 的 rollout 策略相結合,以解決稀疏且僅關注結果的獎勵條件下環境引起的噪聲。

具體而言,RoC 首先對較大的 rollout 組進行過采樣,然后下采樣至標準批次大小。正向軌跡經過篩選,僅保留質量最高且工具導致錯誤或格式問題最少的軌跡,而負向軌跡則進行均勻下采樣。

這種簡單而有效的非對稱采樣方法將各種故障模式保留為信息豐富的負向信號,同時強調更高質量的成功案例以進行正向監督。

相比于在獎勵函數中明確懲罰工具使用錯誤的方法,GRPO-RoC 可提高訓練穩定性,并可避免 reward-hacking 的風險。

通過學習更清潔、更高質量的正向軌跡,該模型不僅能提升 Python 編程工具的使用率,還展現出高級認知能力,能夠在真實的代碼環境交互下更高效、更簡潔地進行推理。

第三,該團隊還提出了一套訓練方案,能以最少的計算量將一個 14B 預訓練基礎模型提升到前沿數學推理水平。

不同于先前的研究(在強化學習之前應用推理密集型 SFT ),該團隊從非推理 SFT 階段開始 —— 僅用于灌輸一般的指令遵循、編程工具使用和格式,而不增強推理能力。這可避免潛在的 SFT 過擬合,并保持初始平均響應較短,從而使強化學習能夠更有效地培養推理能力,同時充分利用模型的預訓練能力。

然后,該團隊使用 GRPO-RoC 進行多階段強化學習訓練,逐漸增加任務難度和最大訓練時長。不同于之前的強化學習方法,這些方法需要將 rollout 規模大幅擴展至 16K→48K 甚至更高,該團隊將每個階段的長度限制在較短的范圍內(8K→12K)。這可顯著降低強化學習成本,同時鼓勵更高效的推理策略。

該模型僅需 510 個強化學習步驟,即可快速實現前沿水平的數學推理,展現出強大的能力和卓越的訓練效率。

結果很驚艷

最終,使用新方法,他們訓練得到了一個模型并將其命名為 rStar2-Agent-14B。它只有 14B 大小,但卻實現了超越 DeepSeek-R1 和 Kimi k1.5 等領先推理模型的強大數學推理性能。

值得注意的是,在 AIME24 上,它的準確度達到了 80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分別高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分別達到了 69.8% 和 52.7%,展現了穩定一致的強大能力。

除了數學之外,盡管這里只使用數學的主動式強化學習進行訓練,它仍然能夠有效地泛化。

它在 GPQA-Diamond 科學推理基準上的表現優于 DeepSeek-V3,在 BFCL v3 的智能體工具使用任務上也表現不錯,并在 IFEval 和 Arena-Hard 等通用基準測試中取得了具有競爭力的結果。

該團隊還報告了未成功的嘗試和分析,并重點介紹了由 rStar2-Agent 主動式強化學習帶來的對更高級認知推理行為的發現,例如驅動更有效推理的環境反饋反思 token。

更多分析和消融研究請見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-04-03 06:30:00

2025-05-01 10:33:59

2025-03-07 08:30:00

2025-03-27 10:28:32

2025-04-03 15:57:48

2025-04-11 12:10:33

2025-06-12 09:48:27

2025-02-03 13:55:20

2025-03-06 08:11:25

2025-03-06 17:29:21

2025-03-06 01:00:00

2025-06-17 08:45:00

模型智能工具

2025-03-19 09:52:50

2025-07-18 09:55:11

2025-04-14 09:15:00

英偉達模型數據

2025-02-19 08:00:00

2025-02-24 09:33:10

點贊
收藏

51CTO技術棧公眾號

亚洲一二三区视频在线观看| 91视频综合| 亚洲成人黄色影院| 免费不卡亚洲欧美| 中国黄色一级视频| 国产精品99一区二区三区| 欧美一区二区三区免费视频| 日韩精品在线中文字幕| 免费在线视频一级不卡| 久久99国产精品免费| 欧美第一淫aaasss性| 2一3sex性hd| 国产成人a视频高清在线观看| 亚洲欧美日韩国产另类专区| 久久96国产精品久久99软件| 一级黄色片免费| 亚洲天堂偷拍| 中日韩美女免费视频网址在线观看 | 久久久久久久久久久久久久久国产| 色女人在线视频| 久久久.com| 99视频日韩| 国语对白做受69按摩| 伊人影院久久| 日韩视频永久免费观看| 日韩乱码人妻无码中文字幕久久| 国产精品视频一区二区三区综合| 一本久久a久久免费精品不卡| 肉大捧一出免费观看网站在线播放| 免费人成黄页在线观看忧物| 国产91精品久久久久久久网曝门| 国产精品私拍pans大尺度在线| 日本亚洲色大成网站www久久| 91精品秘密在线观看| 亚洲欧美日韩精品| 一边摸一边做爽的视频17国产| 久久久久久一区二区三区四区别墅| 精品国产999| 亚洲精品少妇一区二区| 日本黄色片在线观看| 久久久久久久久久久黄色 | 97超碰资源站| 日本少妇一区二区| 青青a在线精品免费观看| 免费中文字幕在线观看| 88国产精品视频一区二区三区| 一本大道亚洲视频| 日韩aaaaa| 麻豆一区二区麻豆免费观看| 欧美大片在线观看一区二区| 国产资源中文字幕| 欧美videos粗暴| 在线观看亚洲a| 妞干网在线免费视频| 人在线成免费视频| 午夜精品福利一区二区三区av| 九九久久九九久久| 免费在线看电影| 亚洲最色的网站| 欧美视频在线第一页| 亚洲七七久久综合桃花剧情介绍| 亚洲日本中文字幕区| 日本不卡一区二区三区四区| 黄av在线播放| 亚洲精品免费电影| 欧美视频在线观看视频| 精品精品导航| 亚洲一区二区不卡免费| 国产av麻豆mag剧集| 日本不卡1234视频| 色综合天天综合| 日本久久久久久久久久久久| 视频91a欧美| 欧美另类变人与禽xxxxx| 男人午夜视频在线观看| 一区二区三区视频免费视频观看网站| 精品国产自在久精品国产| 2一3sex性hd| 久久99性xxx老妇胖精品| 在线观看欧美视频| 美女福利视频在线观看| 在线日韩电影| 国产成人久久久| 国产免费黄色录像| 成人性色生活片| 欧美视频1区| 精品孕妇一区二区三区| 亚洲不卡在线观看| 中文字幕在线观看第三页| 日本午夜精品一区二区| 五月婷婷伊人网| 国产亚洲精品中文字幕| 日本不卡一区二区三区四区| 国产高潮在线| 精品日韩美女的视频高清| 日韩av片在线看| 2020国产精品小视频| 日韩欧美色电影| 给我免费观看片在线电影的| av亚洲在线观看| 欧美wwwxxxx| 欧美三级韩国三级日本三斤在线观看 | 国产精品中文字幕制服诱惑| 精品va天堂亚洲国产| 中文字幕一区二区人妻电影丶| 在线视频亚洲专区| www.污污视频| 亚洲精品国产精品国自产网站按摩| 日韩视频一区| 热久久这里只有| 在线观看免费中文字幕| 成人丝袜高跟foot| 日韩电影免费观看在| 亚洲s色大片| 亚洲一级二级在线| 成人在线观看a| 成人污污www网站免费丝瓜| 精品欧美久久久| 成人午夜福利一区二区| 亚洲国产一成人久久精品| 国内揄拍国内精品| 国产无遮挡aaa片爽爽| 蜜桃av一区二区在线观看| 国产精品久久亚洲| 波多野结衣一区二区| 亚洲综合自拍偷拍| 伊人国产在线视频| 日韩超碰人人爽人人做人人添| 色阁综合伊人av| 欧美三级一区二区三区| 国产一区三区三区| 日韩中文一区| 女海盗2成人h版中文字幕| 欧美精品第1页| 国产成人av一区二区三区不卡| 中文字幕一区二区三区在线视频| 国产91色在线播放| 欧美在线 | 亚洲| 中文字幕视频一区二区三区久| 丰满爆乳一区二区三区| 国产精品伊人| 中文字幕亚洲天堂| 91丝袜一区二区三区| 成人高清视频免费观看| 警花观音坐莲激情销魂小说| 外国电影一区二区| 精品亚洲永久免费精品| 日韩三级免费看| 国产精品18久久久久久久久| 自拍另类欧美| avtt久久| 久久九九免费视频| 亚洲天堂手机版| 国产精品五月天| caoporn超碰97| 日韩成人一级| 欧美一区视频在线| 日韩专区第一页| 亚洲一区在线观看网站| 久久久久亚洲av片无码v| 99久久精品费精品国产风间由美| 国产ts一区二区| 三级无遮挡在线观看| 一区二区成人在线视频| 国产精品入口麻豆| 亚洲激情精品| 国产偷国产偷亚洲高清97cao| 色婷婷av在线| 精品乱码亚洲一区二区不卡| 欧美黄色一级网站| 国产成人免费av在线| 亚洲乱码日产精品bd在线观看| 欧美美女被草| 欧美成人精品一区二区| 不卡av中文字幕| 亚洲一区二区三区视频在线| 欧美激情 亚洲| 亚洲三级视频| 蜜桃91精品入口| 国产精品毛片久久久久久久久久99999999| 亚洲精品白浆高清久久久久久| 国产成人愉拍精品久久| 91婷婷韩国欧美一区二区| 日韩毛片在线免费看| 欧美精品色图| 成人观看高清在线观看免费| 国产黄网站在线观看| 日韩亚洲欧美一区二区三区| 懂色av.com| 欧美韩国日本综合| 亚洲高清视频免费| 亚洲福利电影| 奇米影视首页 狠狠色丁香婷婷久久综合 | 黑人精品欧美一区二区蜜桃| 热久久最新网址| 欧美黄色影院| 国产精品久久二区| 操你啦在线视频| 日韩av影片在线观看| 天天操天天干视频| 亚洲天堂a在线| 日本一区二区在线免费观看| 日韩va欧美va亚洲va久久| 中文字幕中文字幕在线中一区高清 | 欧日韩不卡在线视频| 午夜在线小视频| 精品av久久707| 日日夜夜综合网| 国产精品久久久久久久浪潮网站| 中文字幕乱码在线人视频| 宅男噜噜噜66一区二区| 亚洲午夜精品久久久中文影院av| 91综合精品国产丝袜长腿久久| 青草热久免费精品视频| 黄在线免费观看| 亚洲夜晚福利在线观看| 成人黄色在线观看视频| 91成人在线精品| 青青草原免费观看| 国产三级欧美三级| 88av在线播放| 国产一区二区不卡在线| 成人免费在线小视频| 亚洲精品99| 欧美日韩电影一区二区| 视频二区欧美| 国产一区在线播放| 欧美亚洲韩国| 性色av一区二区三区红粉影视| 蜜芽在线免费观看| 亚洲欧美激情精品一区二区| 国产高清免费在线观看| 欧美天堂一区二区三区| 亚洲日本韩国在线| 国产精品亚洲综合| 天堂av中文字幕| 欧美日韩在线三级| 日韩av大片在线观看| 亚洲欧美色一区| 国产色视频一区二区三区qq号| 国产麻豆成人精品| 牛夜精品久久久久久久| 麻豆久久婷婷| 草b视频在线观看| 午夜欧美在线| 五月天久久综合网| 成人vr资源| 欧美在线播放一区二区| 国产精品中文字幕制服诱惑| 亚洲最大的网站| 91精品福利观看| 国产日产欧美a一级在线| 成人视屏在线观看| 国产成人精品av在线| 亚洲欧美se| 欧美性受xxxx白人性爽| 成人免费观看在线观看| 欧美国产在线视频| 色老头在线观看| 色爱精品视频一区| 成年人黄视频在线观看| 久久精品中文字幕一区| 国产在线激情| 日韩中文在线中文网在线观看 | 麻豆国产在线| 91精品国产91| 中文字幕影音在线| 97成人在线视频| a成人v在线| 国产啪精品视频| 欧美成年网站| 99国内精品久久久久久久软件| 亚洲不卡在线| 狠狠色综合色区| 欧洲美女日日| 日韩免费av一区二区三区| 精品福利久久久| 一区二区欧美日韩| 欧美第一精品| 国产精品久久..4399| 国产手机视频一区二区| 欧美色图色综合| 日本亚洲天堂网| 亚洲网中文字幕| 成人教育av在线| 永久免费av无码网站性色av| 国产精品久久久久久久岛一牛影视| 性生交大片免费全黄| 亚洲精品免费在线观看| 成人毛片18女人毛片| 日韩欧美中文在线| 91亚洲欧美激情| 欧美变态口味重另类| 头脑特工队2在线播放| 中文字幕精品久久久久| 日本精品在线| 日本不卡视频在线播放| 欧美aaa级| 国产亚洲欧美一区二区三区| 欧美精品尤物在线观看| 黄色网zhan| 久久国产直播| 日韩av影视大全| 久久一留热品黄| 精品国产视频一区二区三区| 五月天国产精品| 国产农村老头老太视频| 精品亚洲一区二区三区在线观看| 久久精品视频免费看| 91成人免费观看网站| 久久久久久亚洲精品美女| 国产一区二区不卡视频| 五月综合激情| 日韩亚洲在线视频| 国产98色在线|日韩| 国产三级黄色片| 偷窥少妇高潮呻吟av久久免费| 国产三级午夜理伦三级| 亚洲精品网站在线播放gif| a级影片在线| 国产精品扒开腿做爽爽爽的视频| 日韩区欧美区| 裸模一区二区三区免费| 尹人成人综合网| 不卡的在线视频| 久久久久久久久97黄色工厂| 538精品在线观看| 欧美撒尿777hd撒尿| 高清国产mv在线观看| 日韩一区二区在线视频| 成人性生交大片免费观看网站| 91高跟黑色丝袜呻吟在线观看| 欧美丝袜一区| 高清无码一区二区在线观看吞精| 国内国产精品久久| 国产7777777| 日韩欧美在线字幕| 日本黄色不卡视频| 欧美福利视频网站| 伊人精品久久| www亚洲国产| 青青草国产精品亚洲专区无| 精品夜夜澡人妻无码av| 亚洲一区二区三区激情| 99热这里只有精品在线| 日韩亚洲国产中文字幕| 日本欧美一区| 欧美亚洲精品日韩| 免费亚洲婷婷| 成人片黄网站色大片免费毛片| 精品久久久久久久久中文字幕| 亚洲国产欧美另类| 九九久久国产精品| av一级久久| 黄色一级片av| 国产精品一区不卡| 日韩女优一区二区| 日韩一区二区三| 香蕉成人app免费看片| 国产成人免费电影| 亚洲一级电影| 在线精品一区二区三区| 欧美日韩国产黄| 天堂a√中文在线| 国产精品久久久久久av下载红粉 | 日韩精品电影一区二区三区| 欧洲激情一区二区| 日本中文在线| 亚洲一区二区三区在线免费观看| 久久久久午夜电影| 在线观看欧美一区二区| 图片区小说区区亚洲影院| 日韩私人影院| 国产精品电影网站| 98精品久久久久久久| 色婷婷综合在线观看| 午夜欧美视频在线观看| 亚洲aⅴ在线观看| 国产精品com| 久久国产精品成人免费观看的软件| 黄色三级视频片| 亚洲精选在线视频| 少妇一级淫片免费看| 国产999在线观看| 中文无码久久精品| 91人人澡人人爽| 岛国av一区二区在线在线观看| 国产在线一在线二| 成人精品一区二区三区| 狠狠爱成人网| 谁有免费的黄色网址| 666欧美在线视频| 操人在线观看| 日韩在线导航| 99久久综合狠狠综合久久| 国产一区免费看| 欧美另类99xxxxx| 视频一区欧美| 五月天视频在线观看| 日韩欧美在线视频免费观看|