騰訊AI Lab首創RL框架Parallel-R1,教大模型學會「并行思維」
自從 Google Gemini 將數學奧賽的成功部分歸功于「并行思維」后,如何讓大模型掌握這種并行探索多種推理路徑的能力,成為了學界關注的焦點。
然而,現有方法多依賴于監督微調(SFT),模型一來只能模仿預先構造的 parallel thinking 數據,難以泛化到真實的復雜任務中,其次這種方式對數據要求很高,往往需要復雜的 data pipeline 來構造。
為解決這些難題,來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們(第一作者鄭童是馬里蘭大學博士生,本工作于其在騰訊 AI Lab 西雅圖實習期間完成)首創了 Parallel-R1 框架 —— 這是第一個通過強化學習(RL)在通用數學推理任務上教會大模型進行并行思維的框架。該框架通過創新的「漸進式課程」與「交替式獎勵」設計,成功解決了 RL 訓練中的冷啟動和獎勵設計難題。
實驗表明,Parallel-R1 不僅在多個數學基準上帶來高達 8.4% 的平均準確率提升,更通過一種 “中程訓練腳手架” 的策略,在 AIME25 測試中實現了 42.9% 的性能飛躍。

- 論文標題:Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2509.07980
- 項目地址:https://github.com/zhengkid/Parallel-R1 (Coming Soon)
- 項目主頁:https://zhengkid.github.io/Parallel_R1.github.io/
并行思維的挑戰:為何注入并行思維如此困難?
并行思維,即同時探索多條推理路徑再進行歸納總結。

圖 1:并行思考流程示意圖。
目前最主流的注入并行思維的范式是監督微調 (SFT),但這種方式本質上是行為克隆,強迫模型模仿固定的、預先生成的數據,導致模型只會進行表面上的模式匹配,而無法真正習得和泛化并行思維這一內在的推理能力。其次,這類方式對數據質量和多樣性的要求非常高,只有非常高質量的數據才能讓模型學習到很好的 parallel thinking 能力。然而,遺憾的是,在現實世界中,人們很難天然獲取高質量的這類數據,因此只能依賴于人工合成。而對于真實世界的推理任務,構造這些數據的難度很大,需要復雜的數據管道。
另一方面強化學習(RL)是一種更擴展性強的,但在通用、真實的復雜任務中進行并行思維訓練卻面臨兩大核心挑戰:
- 冷啟動問題(Cold-Start):由于預訓練模型從未見過并行思維的特定格式(如同時生成多個解題路徑),在 RL 探索初期,它根本無法自發產生這類軌跡,導致學習無從下手。這時候就需要一個冷啟動階段。但是上文提到,對于真實世界的難題,這種數據很難構造。
- 獎勵設計困境(Reward Design):如何平衡「解題正確率」和「思維方式」是一個難題。如果只獎勵最終答案的正確性,模型會傾向于走最簡單、最熟悉的單路徑「捷徑」,從而「遺忘」更復雜的并行思維;而如果強行要求使用平行格式,又可能導致模型為了格式而犧牲邏輯的嚴謹性,反而降低了準確率。

圖 2:漸進式課程訓練示意圖
Parallel-R1 的解法:首個為真實世界推理任務打造的 RL 框架
為攻克上述難題,Parallel-R1 作為首個專為通用、復雜數學推理等真實世界任務設計的強化學習框架被提出。它通過一套精巧的組合拳,系統性地解決了訓練困境。
漸進式課程:從「學格式」到「學探索」
研究者的一個關鍵發現是:用簡單的提示工程,讓強大的模型為簡單數學題(如 GSM8K)生成高質量的并行思維數據是可行的(成功率 83.7%),但對于復雜難題(如 DAPO)則完全無效(成功率 0.0%)。

基于這一洞察,他們巧妙的避開了復雜的數據管道依賴,并設計了一種漸進式課程:
- 第一階段(格式學習):首先,利用新建的 Parallel-GSM8K 數據集,在簡單的數學任務上對模型進行 SFT。此階段的核心目標并非解決難題,而是讓模型學會并行思維的「語法格式」,例如如何使用
、
、
等控制標簽 。 - 第二階段(能力泛化):當模型掌握了基本格式后,再將其置于更困難的數學任務中,通過 RL 進行訓練 。此時,模型已經具備了生成平行軌跡的 “火種”,可以在 RL 的驅動下自由探索、試錯,并最終將這一能力泛化到未知難題上。
交替式獎勵:在「準確性」與「多樣性」間取得平衡
針對獎勵設計的困境,研究團隊試驗了多種方案,最終提出了一種高效的交替式獎勵策略。該策略在訓練過程中,周期性地在兩種獎勵模式間切換:
- 80% 的時間使用「準確率獎勵」:只根據最終答案是否正確給予獎勵,確保模型的核心目標始終是解決問題。
- 20% 的時間使用「分層獎勵」:在這一模式下,如果模型使用了并行思維并且答案正確,會獲得一個額外獎勵(+1.2 分);如果未使用并行思維但答案正確,則獲得標準獎勵(+1.0 分);否則將受到懲罰。
消融實驗(見下表)證明了該策略的優越性。單純獎勵準確率,模型的并行思維使用率極低(13.6%);單純獎勵平行格式,模型性能會嚴重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時,還能在 AIME 等高難度測試上取得最佳性能,完美實現了「既要并行行為又要準確率」的目標。

并行思考模型超過單一思考模型
根據下面提供的性能對比表,注入了并行思維能力的模型在各項數學推理基準測試中,其性能優于傳統的單一(順序)思考模型。

打開「黑箱」:模型如何悄然改變思維策略?
除了提出高效的訓練框架,該研究還深入分析了模型在學習過程中的動態變化,揭示了一個有趣現象:模型的并行思維策略會隨著訓練的深入,從「探索」演變為 「驗證」。
通過追蹤
模塊在解題過程中出現的位置,研究者發現,在訓練初期,模型傾向于在解題的早期就使用并行思維,這相當于「廣撒網」,同時探索多種可能性來尋找解題思路。然而,隨著模型能力的增強,它變得更加自信,平行模塊出現的位置逐漸后移。在訓練后期,模型會先用一條自己最有把握的路徑推導出一個初步答案,然后在解題的末尾才調用并行思維,從不同角度對該答案進行復核與驗證,以確保萬無一失。

圖 3:訓練過程中 < Parallel > 模塊相對位置的變化,曲線穩步上升,表明其應用從早期探索轉向后期驗證。
意外之喜:作為「訓練腳手架」的并行思維
研究還發現了一個更令人振奮的結論:并行思維本身可以作為一種臨時的「結構化探索腳手架」,來幫助模型解鎖更高的性能上限。
研究者設計了一個兩階段訓練實驗:
- 探索階段(0-200 步):采用交替式獎勵,強制模型高頻率地使用并行思維,進行廣泛的策略空間探索。
- 利用階段(200 步后):切換為純粹的準確率獎勵。此時,模型會逐漸減少對平行格式的依賴,轉而專注于提煉和利用在第一階段發現的最優策略。
結果(見下圖)顯示,進入第二階段后,盡管模型的并行思維使用率(綠線)驟降,但其在 AIME25 上的準確率(紅線)卻持續攀升,最終達到了 25.6% 的峰值。這一成績相較于從頭到尾只用標準 RL 訓練的基線模型,實現了高達 42.9% 的相對提升。這證明了,短暫地「強迫」模型進行平行探索,能夠幫助它發現一個更優的「能力區間」,即使后續不再使用這種形式,其學到的核心推理能力也得到了質的飛躍。

圖 4:兩階段訓練曲線。在探索階段后,并行思維使用率下降,但模型準確率持續走高,超越基線。
總結
在這項工作中,研究者們提出了 Parallel-R1,這是首個能在真實的通用數學推理任務上,通過強化學習教會大模型進行并行思維的框架。除此之外,研究者們進一步對并行思考行為以及其潛在價值進行了深入探討。




































