精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

騰訊AI Lab首創RL框架Parallel-R1,教大模型學會「并行思維」

人工智能 新聞
來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們(第一作者鄭童是馬里蘭大學博士生,本工作于其在騰訊 AI Lab 西雅圖實習期間完成)首創了 Parallel-R1 框架。

自從 Google Gemini 將數學奧賽的成功部分歸功于「并行思維」后,如何讓大模型掌握這種并行探索多種推理路徑的能力,成為了學界關注的焦點。

然而,現有方法多依賴于監督微調(SFT),模型一來只能模仿預先構造的 parallel thinking 數據,難以泛化到真實的復雜任務中,其次這種方式對數據要求很高,往往需要復雜的 data pipeline 來構造。

為解決這些難題,來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們(第一作者鄭童是馬里蘭大學博士生,本工作于其在騰訊 AI Lab 西雅圖實習期間完成)首創了 Parallel-R1 框架 —— 這是第一個通過強化學習(RL)在通用數學推理任務上教會大模型進行并行思維的框架。該框架通過創新的「漸進式課程」與「交替式獎勵」設計,成功解決了 RL 訓練中的冷啟動和獎勵設計難題。

實驗表明,Parallel-R1 不僅在多個數學基準上帶來高達 8.4% 的平均準確率提升,更通過一種 “中程訓練腳手架” 的策略,在 AIME25 測試中實現了 42.9% 的性能飛躍。

  • 論文標題:Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.07980
  • 項目地址:https://github.com/zhengkid/Parallel-R1 (Coming Soon)
  • 項目主頁:https://zhengkid.github.io/Parallel_R1.github.io/

并行思維的挑戰:為何注入并行思維如此困難?

并行思維,即同時探索多條推理路徑再進行歸納總結。

圖 1:并行思考流程示意圖。

目前最主流的注入并行思維的范式是監督微調 (SFT),但這種方式本質上是行為克隆,強迫模型模仿固定的、預先生成的數據,導致模型只會進行表面上的模式匹配,而無法真正習得和泛化并行思維這一內在的推理能力。其次,這類方式對數據質量和多樣性的要求非常高,只有非常高質量的數據才能讓模型學習到很好的 parallel thinking 能力。然而,遺憾的是,在現實世界中,人們很難天然獲取高質量的這類數據,因此只能依賴于人工合成。而對于真實世界的推理任務,構造這些數據的難度很大,需要復雜的數據管道。

另一方面強化學習(RL)是一種更擴展性強的,但在通用、真實的復雜任務中進行并行思維訓練卻面臨兩大核心挑戰:

  1. 冷啟動問題(Cold-Start):由于預訓練模型從未見過并行思維的特定格式(如同時生成多個解題路徑),在 RL 探索初期,它根本無法自發產生這類軌跡,導致學習無從下手。這時候就需要一個冷啟動階段。但是上文提到,對于真實世界的難題,這種數據很難構造。
  2. 獎勵設計困境(Reward Design):如何平衡「解題正確率」和「思維方式」是一個難題。如果只獎勵最終答案的正確性,模型會傾向于走最簡單、最熟悉的單路徑「捷徑」,從而「遺忘」更復雜的并行思維;而如果強行要求使用平行格式,又可能導致模型為了格式而犧牲邏輯的嚴謹性,反而降低了準確率。

圖 2:漸進式課程訓練示意圖

Parallel-R1 的解法:首個為真實世界推理任務打造的 RL 框架

為攻克上述難題,Parallel-R1 作為首個專為通用、復雜數學推理等真實世界任務設計的強化學習框架被提出。它通過一套精巧的組合拳,系統性地解決了訓練困境。

漸進式課程:從「學格式」到「學探索」

研究者的一個關鍵發現是:用簡單的提示工程,讓強大的模型為簡單數學題(如 GSM8K)生成高質量的并行思維數據是可行的(成功率 83.7%),但對于復雜難題(如 DAPO)則完全無效(成功率 0.0%)。

基于這一洞察,他們巧妙的避開了復雜的數據管道依賴,并設計了一種漸進式課程:

  • 第一階段(格式學習):首先,利用新建的 Parallel-GSM8K 數據集,在簡單的數學任務上對模型進行 SFT。此階段的核心目標并非解決難題,而是讓模型學會并行思維的「語法格式」,例如如何使用等控制標簽 。
  • 第二階段(能力泛化):當模型掌握了基本格式后,再將其置于更困難的數學任務中,通過 RL 進行訓練 。此時,模型已經具備了生成平行軌跡的 “火種”,可以在 RL 的驅動下自由探索、試錯,并最終將這一能力泛化到未知難題上。

交替式獎勵:在「準確性」與「多樣性」間取得平衡

針對獎勵設計的困境,研究團隊試驗了多種方案,最終提出了一種高效的交替式獎勵策略。該策略在訓練過程中,周期性地在兩種獎勵模式間切換:

  • 80% 的時間使用「準確率獎勵」:只根據最終答案是否正確給予獎勵,確保模型的核心目標始終是解決問題。
  • 20% 的時間使用「分層獎勵」:在這一模式下,如果模型使用了并行思維并且答案正確,會獲得一個額外獎勵(+1.2 分);如果未使用并行思維但答案正確,則獲得標準獎勵(+1.0 分);否則將受到懲罰。

消融實驗(見下表)證明了該策略的優越性。單純獎勵準確率,模型的并行思維使用率極低(13.6%);單純獎勵平行格式,模型性能會嚴重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時,還能在 AIME 等高難度測試上取得最佳性能,完美實現了「既要并行行為又要準確率」的目標。

并行思考模型超過單一思考模型

根據下面提供的性能對比表,注入了并行思維能力的模型在各項數學推理基準測試中,其性能優于傳統的單一(順序)思考模型。

打開「黑箱」:模型如何悄然改變思維策略?

除了提出高效的訓練框架,該研究還深入分析了模型在學習過程中的動態變化,揭示了一個有趣現象:模型的并行思維策略會隨著訓練的深入,從「探索」演變為 「驗證」。

通過追蹤模塊在解題過程中出現的位置,研究者發現,在訓練初期,模型傾向于在解題的早期就使用并行思維,這相當于「廣撒網」,同時探索多種可能性來尋找解題思路。然而,隨著模型能力的增強,它變得更加自信,平行模塊出現的位置逐漸后移。在訓練后期,模型會先用一條自己最有把握的路徑推導出一個初步答案,然后在解題的末尾才調用并行思維,從不同角度對該答案進行復核與驗證,以確保萬無一失。

圖 3:訓練過程中 < Parallel > 模塊相對位置的變化,曲線穩步上升,表明其應用從早期探索轉向后期驗證。

意外之喜:作為「訓練腳手架」的并行思維

研究還發現了一個更令人振奮的結論:并行思維本身可以作為一種臨時的「結構化探索腳手架」,來幫助模型解鎖更高的性能上限。

研究者設計了一個兩階段訓練實驗:

  1. 探索階段(0-200 步):采用交替式獎勵,強制模型高頻率地使用并行思維,進行廣泛的策略空間探索。
  2. 利用階段(200 步后):切換為純粹的準確率獎勵。此時,模型會逐漸減少對平行格式的依賴,轉而專注于提煉和利用在第一階段發現的最優策略。

結果(見下圖)顯示,進入第二階段后,盡管模型的并行思維使用率(綠線)驟降,但其在 AIME25 上的準確率(紅線)卻持續攀升,最終達到了 25.6% 的峰值。這一成績相較于從頭到尾只用標準 RL 訓練的基線模型,實現了高達 42.9% 的相對提升。這證明了,短暫地「強迫」模型進行平行探索,能夠幫助它發現一個更優的「能力區間」,即使后續不再使用這種形式,其學到的核心推理能力也得到了質的飛躍。

圖 4:兩階段訓練曲線。在探索階段后,并行思維使用率下降,但模型準確率持續走高,超越基線。

總結

在這項工作中,研究者們提出了 Parallel-R1,這是首個能在真實的通用數學推理任務上,通過強化學習教會大模型進行并行思維的框架。除此之外,研究者們進一步對并行思考行為以及其潛在價值進行了深入探討。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-28 09:00:00

2023-09-14 12:35:59

2024-10-29 21:01:44

2025-03-12 12:10:13

2025-02-17 09:33:00

AI算法模型

2023-06-05 10:09:03

研究人工智能

2018-09-18 10:12:47

騰訊框架深度學習

2025-06-16 14:40:40

模型AI訓練

2025-10-20 09:02:00

2025-01-17 13:53:11

AI大模型檢測工具

2023-11-22 12:41:42

AI模型

2023-09-06 13:17:00

AI數據

2025-02-06 10:18:45

2025-11-21 08:29:14

2025-05-19 08:37:00

2025-03-21 13:25:14

2025-10-16 08:59:00

2025-01-08 13:08:55

2025-05-22 04:00:00

PARSCALE大型語言模型LLM
點贊
收藏

51CTO技術棧公眾號

国产成人精品亚洲777人妖 | 黄在线免费观看| 麻豆国产欧美日韩综合精品二区 | 1区2区3区在线| 久久久天堂av| 亚洲xxxx视频| 日本一区二区免费电影| 欧美中文字幕一区二区| 日韩一级完整毛片| 日本www在线播放| 麻豆网站在线| 久久久国产午夜精品| 亚洲a∨日韩av高清在线观看| 久久久国产精品成人免费| 99久久综合| 亚洲精选一区二区| 亚洲精品中文字幕乱码无线| 一区二区三区短视频| 亚洲人成网站精品片在线观看| 国产精品一国产精品最新章节| 波多野结衣人妻| 亚洲精品麻豆| 久久成人精品一区二区三区| 成人久久久久久久| 久久综合加勒比| 国产一区毛片| 亚洲黄色www| 日本黄色www| 成人精品动漫| 色婷婷综合久久久中文一区二区| 国产美女永久无遮挡| 免费大片黄在线| 国产午夜精品久久| 精品国产第一页| www.av在线.com| 激情国产一区二区| 国产精品自拍偷拍| 国产99久久久久久免费看| 日韩午夜黄色| 久久久久中文字幕| 久久久久久久黄色| 一本一本久久a久久综合精品| 一区二区三区 在线观看视| 免费黄色三级网站| 国产成人高清精品免费5388| 欧美一区二区三区日韩| 亚洲一级片av| 日韩专区视频| 欧美人妖巨大在线| 孩娇小videos精品| 成人自拍视频网| 欧日韩精品视频| 成年人视频在线免费| 韩日成人影院| 在线视频中文字幕一区二区| 激情综合网俺也去| 99re66热这里只有精品4| 色婷婷综合久久久久中文| 韩国日本在线视频| 成人影院av| 在线视频一区二区三| 亚洲视频在线a| 国产一区二区三区四区五区3d| 色婷婷激情久久| 杨幂毛片午夜性生毛片| 欧美电影免费观看| 91九色02白丝porn| 羞羞的视频在线| 久久精品一级| 欧美tickling网站挠脚心| 精品人妻二区中文字幕| 久久丝袜视频| 亚洲少妇中文在线| 在线观看天堂av| 亚洲字幕久久| 久久久久国产视频| 成人精品在线看| 日韩制服丝袜先锋影音| 国产精品三级网站| 国产成人精品亚洲精品色欲| 成人精品免费视频| 欧美一区二区在线| 137大胆人体在线观看| ...xxx性欧美| 日韩av高清在线看片| **在线精品| 91精品欧美综合在线观看最新| 国产麻豆剧传媒精品国产| 五月综合久久| 久久久精品国产一区二区| 丁香花五月激情| 国产日韩高清一区二区三区在线| 国产成人在线播放| 国产特级aaaaaa大片| 91视频免费看| 青青草影院在线观看| 天堂√8在线中文| 欧美日韩在线播| 亚洲一区二区三区四区av| 国产99久久| 色综合色综合网色综合| 69亚洲精品久久久蜜桃小说 | 国产精品久久久久福利| a级片在线视频| 2024国产精品| 日本丰满大乳奶| **欧美日韩在线观看| 日韩欧美一级在线播放| 91成人破解版| 亚洲一级特黄| 91社区国产高清| 美女毛片在线看| 一区二区三区成人| 亚洲综合色在线观看| 成人另类视频| 精品国产拍在线观看| 日本道在线观看| 国产剧情一区二区三区| 日韩av电影免费播放| 波多野结衣在线播放| 777奇米四色成人影色区| 蜜桃无码一区二区三区| 伊人久久久大香线蕉综合直播| 国产精品视频免费在线| 黄网在线观看| 婷婷成人激情在线网| 日本少妇一区二区三区| 99re6这里只有精品| 清纯唯美亚洲综合| 免费国产黄色片| 一区二区三区在线免费播放| www.夜夜爽| 欧美日韩伦理在线免费| 青青青国产精品一区二区| 亚洲三区在线观看无套内射| 性做久久久久久| 少妇熟女视频一区二区三区| 亚洲国产精品成人| 成人免费网站在线观看| 在线观看免费高清完整| 欧美性生活大片视频| a级大片在线观看| 久久精品日产第一区二区 | 性欧美在线视频| 成人毛片免费看| 国产精品高清网站| 国产乱视频在线观看| 在线免费观看日本一区| 日本少妇xxxxx| 免费亚洲电影在线| 亚洲乱码一区二区三区三上悠亚| 你懂得影院夜精品a| 在线播放国产一区二区三区| 伊人久久一区二区| 国产精品不卡一区| 91热视频在线观看| 欧美激情第8页| av一本久道久久波多野结衣| 天堂亚洲精品| 亚洲国产成人精品久久| 国产精品成人久久| 91色porny蝌蚪| 91av在线免费播放| 999视频精品| 99精彩视频在线观看免费| free性欧美16hd| 日韩精品在线影院| 中文在线免费观看| 亚洲色图都市小说| 95视频在线观看| 国产日韩高清一区二区三区在线| 欧美影视一区二区| 在线欧美激情| 欧美激情一区二区久久久| 性xxxfllreexxx少妇| 91福利社在线观看| 极品颜值美女露脸啪啪| 不卡在线视频中文字幕| 国产视频在线视频| 午夜激情久久| 精品视频在线观看| 91成人抖音| 欧美大荫蒂xxx| 免费在线稳定资源站| 欧美日韩精品专区| 亚洲精品77777| 国产精品区一区二区三| 无码人妻aⅴ一区二区三区玉蒲团| 亚洲资源av| 日本xxx免费| 欧美三级午夜理伦三级在线观看| 国产精品久久久久影院日本| 亚洲wwwww| 亚洲日韩欧美视频| www国产在线| 色妞www精品视频| 免费中文字幕在线| 久久久久久久久久久99999| 亚洲精品中文字幕乱码无线| 免费精品视频| 51xx午夜影福利| 狠狠做深爱婷婷综合一区| av在线亚洲男人的天堂| h1515四虎成人| 69视频在线免费观看| 欧美18hd| 亚洲视频国产视频| 黑人精品一区二区| 欧美日本在线观看| 国产性生活视频| 午夜在线成人av| 一区二区视频免费看| 国产午夜亚洲精品不卡| 国产视频精品视频| 国内精品伊人久久久久av一坑 | 国产91精品露脸国语对白| 亚洲欧美另类动漫| 国产伦理一区| 国产精彩视频一区二区| 无需播放器亚洲| 亚洲欧美日韩国产yyy| 亚州国产精品| 国产一区免费观看| 亚洲成人五区| 91亚洲va在线va天堂va国| 欧美三级网址| 日本久久中文字幕| 亚洲色图官网| 91精品国产91| www.九色在线| 久久噜噜噜精品国产亚洲综合| av黄色在线| 久久久精品久久久久| 秋霞影院午夜丰满少妇在线视频| 亚洲欧美制服第一页| 亚洲av成人精品日韩在线播放| 日韩精品一区二区在线| h片在线免费看| 欧美一区二区三区精品| 99久久一区二区| 欧美一区二区视频在线观看| 国产精品自偷自拍| 91精品欧美综合在线观看最新| 国产精品乱码久久久| 7777精品伊人久久久大香线蕉| 夜夜躁很很躁日日躁麻豆| 欧美日韩精品一区二区三区 | 日韩精品一区二区三区老鸭窝| 99精品免费观看| 日韩亚洲欧美一区| 亚洲国产www| 欧美精品一区二区在线观看| 日本精品一二区| 日韩大片免费观看视频播放| 天堂中文字幕在线| 亚洲国产精品专区久久| 熟妇高潮一区二区三区| 日韩av中文字幕在线免费观看 | 精品久久国产精品| 性爱视频在线播放| 久久久久久香蕉网| 涩涩涩视频在线观看| 国产成人精品优优av| 国产成人免费精品| 亚洲精品欧美日韩| 第一区第二区在线| 日本午夜精品一区二区| 青草国产精品| 日本福利视频网站| 国产亚洲毛片在线| 中文字幕永久视频| 国产一区二区免费在线| 一级黄色免费视频| 国产亚洲污的网站| 欧洲猛交xxxx乱大交3| 亚洲成年人网站在线观看| 精产国品一区二区| 91精品免费观看| 性xxxx搡xxxxx搡欧美| 色偷偷888欧美精品久久久| 污片在线免费观看| 国产精品99久久久久久久久| 国产成人免费视频网站视频社区| 成人欧美一区二区三区视频| 免费成人高清在线视频theav| 亚洲国产欧美一区二区三区不卡| 欧美福利在线| 久久婷婷国产91天堂综合精品| 国产一区二区三区免费在线观看| 人妖粗暴刺激videos呻吟| 国产色产综合色产在线视频| 国产盗摄一区二区三区在线| 91福利精品第一导航| 国产黄色美女视频| 国产午夜精品免费一区二区三区| 1区2区3区在线视频| 国产99视频精品免视看7| 精品中文在线| 亚洲a∨一区二区三区| 亚洲麻豆视频| 亚洲综合在线一区二区| 久久综合色8888| 久久久久性色av无码一区二区| 在线一区二区三区做爰视频网站| 亚洲乱码在线观看| xxxxx成人.com| 人人鲁人人莫人人爱精品| 亚洲xxxx在线| 日韩亚洲一区在线| 欧美综合在线观看视频| 不卡的av中国片| 欧美在线视频第一页| 欧美图区在线视频| 婷婷国产在线| 国内偷自视频区视频综合| 伊人久久大香| 亚洲一区综合| 天堂成人免费av电影一区| 男人的天堂影院| 一区二区在线观看不卡| 91丨porny丨在线中文| 伊人激情综合网| 不卡av影片| 久久超碰亚洲| 999亚洲国产精| 欧美理论电影在线播放| 波多野结衣一本| 亚洲午夜私人影院| 99久久国产热无码精品免费| 中文字幕亚洲综合久久筱田步美| 综合日韩av| 久久亚洲免费| 国产精品亚洲产品| 午夜剧场免费看| 亚洲国产婷婷综合在线精品| 精品人妻一区二区三区日产乱码| 精品国产一区二区三区四区在线观看| 亚洲成av在线| 日本一区不卡| 丝袜a∨在线一区二区三区不卡| 精品人妻一区二区三区香蕉| 亚洲成人在线免费| 天天爱天天干天天操| 国外成人免费在线播放| 美女呻吟一区| 北条麻妃在线视频观看| 91色视频在线| 无码人妻熟妇av又粗又大| 亚洲视频日韩精品| 最新日韩一区| 一本色道久久综合亚洲精品婷婷 | 自拍偷自拍亚洲精品播放| 亚洲在线视频播放| 久久艹在线视频| 99re8这里有精品热视频免费| 少妇大叫太大太粗太爽了a片小说| 高清国产一区二区| 日韩三级av在线| 亚洲人av在线影院| 麻豆久久久久| 成年在线观看视频| 国产凹凸在线观看一区二区| 国产精品99无码一区二区| 精品偷拍一区二区三区在线看| 日韩影片中文字幕| 亚洲综合欧美日韩| 国产不卡免费视频| 极品国产91在线网站| 亚洲人a成www在线影院| 国产精品18| av免费看网址| 国产亚洲视频系列| 国产sm主人调教女m视频| 国内精品久久久久伊人av | 自拍偷拍免费精品| 日本久久伊人| 久久无码高潮喷水| 国产精品久久综合| 丰满熟妇人妻中文字幕| 欧美最猛性xxxx| 香蕉视频国产精品| 菠萝菠萝蜜网站| 欧美人牲a欧美精品| av漫画网站在线观看| 亚洲电影网站| 成人午夜电影网站| 在线免费看av的网站| 久久久久九九九九| 日韩.com| 呦呦视频在线观看| 欧美美女黄视频| 女海盗2成人h版中文字幕| 在线观看成人av| 91在线码无精品| 99re只有精品| 国产精品久久久久免费a∨大胸| 亚洲国产高清一区| 国产精品国产三级国产传播| 亚洲欧美国产精品va在线观看| 国产视频一区二|