騰訊AI Lab首創RL框架Parallel-R1，教大模型學會「并行思維」

2025-09-18 09:00:47

來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們（第一作者鄭童是馬里蘭大學博士生，本工作于其在騰訊 AI Lab 西雅圖實習期間完成）首創了 Parallel-R1 框架。

自從 Google Gemini 將數學奧賽的成功部分歸功于「并行思維」后，如何讓大模型掌握這種并行探索多種推理路徑的能力，成為了學界關注的焦點。

然而，現有方法多依賴于監督微調（SFT），模型一來只能模仿預先構造的 parallel thinking 數據，難以泛化到真實的復雜任務中，其次這種方式對數據要求很高，往往需要復雜的 data pipeline 來構造。

為解決這些難題，來自騰訊 AI Lab 西雅圖、馬里蘭大學、卡內基梅隆大學、北卡教堂山分校、香港城市大學、圣路易斯華盛頓大學等機構的研究者們（第一作者鄭童是馬里蘭大學博士生，本工作于其在騰訊 AI Lab 西雅圖實習期間完成）首創了 Parallel-R1 框架 —— 這是第一個通過強化學習（RL）在通用數學推理任務上教會大模型進行并行思維的框架。該框架通過創新的「漸進式課程」與「交替式獎勵」設計，成功解決了 RL 訓練中的冷啟動和獎勵設計難題。

實驗表明，Parallel-R1 不僅在多個數學基準上帶來高達 8.4% 的平均準確率提升，更通過一種 “中程訓練腳手架” 的策略，在 AIME25 測試中實現了 42.9% 的性能飛躍。

論文標題：Parallel-R1: Towards Parallel Thinking via Reinforcement Learning
論文地址：https://arxiv.org/abs/2509.07980
項目地址：https://github.com/zhengkid/Parallel-R1 (Coming Soon)
項目主頁：https://zhengkid.github.io/Parallel_R1.github.io/

并行思維的挑戰：為何注入并行思維如此困難？

并行思維，即同時探索多條推理路徑再進行歸納總結。

圖 1：并行思考流程示意圖。

目前最主流的注入并行思維的范式是監督微調 (SFT)，但這種方式本質上是行為克隆，強迫模型模仿固定的、預先生成的數據，導致模型只會進行表面上的模式匹配，而無法真正習得和泛化并行思維這一內在的推理能力。其次，這類方式對數據質量和多樣性的要求非常高，只有非常高質量的數據才能讓模型學習到很好的 parallel thinking 能力。然而，遺憾的是，在現實世界中，人們很難天然獲取高質量的這類數據，因此只能依賴于人工合成。而對于真實世界的推理任務，構造這些數據的難度很大，需要復雜的數據管道。

另一方面強化學習（RL）是一種更擴展性強的，但在通用、真實的復雜任務中進行并行思維訓練卻面臨兩大核心挑戰：

冷啟動問題（Cold-Start）：由于預訓練模型從未見過并行思維的特定格式（如同時生成多個解題路徑），在 RL 探索初期，它根本無法自發產生這類軌跡，導致學習無從下手。這時候就需要一個冷啟動階段。但是上文提到，對于真實世界的難題，這種數據很難構造。
獎勵設計困境（Reward Design）：如何平衡「解題正確率」和「思維方式」是一個難題。如果只獎勵最終答案的正確性，模型會傾向于走最簡單、最熟悉的單路徑「捷徑」，從而「遺忘」更復雜的并行思維；而如果強行要求使用平行格式，又可能導致模型為了格式而犧牲邏輯的嚴謹性，反而降低了準確率。

圖 2：漸進式課程訓練示意圖

Parallel-R1 的解法：首個為真實世界推理任務打造的 RL 框架

為攻克上述難題，Parallel-R1 作為首個專為通用、復雜數學推理等真實世界任務設計的強化學習框架被提出。它通過一套精巧的組合拳，系統性地解決了訓練困境。

漸進式課程：從「學格式」到「學探索」

研究者的一個關鍵發現是：用簡單的提示工程，讓強大的模型為簡單數學題（如 GSM8K）生成高質量的并行思維數據是可行的（成功率 83.7%），但對于復雜難題（如 DAPO）則完全無效（成功率 0.0%）。

基于這一洞察，他們巧妙的避開了復雜的數據管道依賴，并設計了一種漸進式課程：

第一階段（格式學習）：首先，利用新建的 Parallel-GSM8K 數據集，在簡單的數學任務上對模型進行 SFT。此階段的核心目標并非解決難題，而是讓模型學會并行思維的「語法格式」，例如如何使用、、等控制標簽。
第二階段（能力泛化）：當模型掌握了基本格式后，再將其置于更困難的數學任務中，通過 RL 進行訓練。此時，模型已經具備了生成平行軌跡的 “火種”，可以在 RL 的驅動下自由探索、試錯，并最終將這一能力泛化到未知難題上。

交替式獎勵：在「準確性」與「多樣性」間取得平衡

針對獎勵設計的困境，研究團隊試驗了多種方案，最終提出了一種高效的交替式獎勵策略。該策略在訓練過程中，周期性地在兩種獎勵模式間切換：

80% 的時間使用「準確率獎勵」：只根據最終答案是否正確給予獎勵，確保模型的核心目標始終是解決問題。
20% 的時間使用「分層獎勵」：在這一模式下，如果模型使用了并行思維并且答案正確，會獲得一個額外獎勵（+1.2 分）；如果未使用并行思維但答案正確，則獲得標準獎勵（+1.0 分）；否則將受到懲罰。

消融實驗（見下表）證明了該策略的優越性。單純獎勵準確率，模型的并行思維使用率極低（13.6%）；單純獎勵平行格式，模型性能會嚴重下滑。而交替式策略在將并行思維使用率提升至 63.0% 的同時，還能在 AIME 等高難度測試上取得最佳性能，完美實現了「既要并行行為又要準確率」的目標。

并行思考模型超過單一思考模型

根據下面提供的性能對比表，注入了并行思維能力的模型在各項數學推理基準測試中，其性能優于傳統的單一（順序）思考模型。

打開「黑箱」：模型如何悄然改變思維策略？

除了提出高效的訓練框架，該研究還深入分析了模型在學習過程中的動態變化，揭示了一個有趣現象：模型的并行思維策略會隨著訓練的深入，從「探索」演變為「驗證」。

通過追蹤模塊在解題過程中出現的位置，研究者發現，在訓練初期，模型傾向于在解題的早期就使用并行思維，這相當于「廣撒網」，同時探索多種可能性來尋找解題思路。然而，隨著模型能力的增強，它變得更加自信，平行模塊出現的位置逐漸后移。在訓練后期，模型會先用一條自己最有把握的路徑推導出一個初步答案，然后在解題的末尾才調用并行思維，從不同角度對該答案進行復核與驗證，以確保萬無一失。

圖 3：訓練過程中 < Parallel > 模塊相對位置的變化，曲線穩步上升，表明其應用從早期探索轉向后期驗證。

意外之喜：作為「訓練腳手架」的并行思維

研究還發現了一個更令人振奮的結論：并行思維本身可以作為一種臨時的「結構化探索腳手架」，來幫助模型解鎖更高的性能上限。

研究者設計了一個兩階段訓練實驗：

探索階段（0-200 步）：采用交替式獎勵，強制模型高頻率地使用并行思維，進行廣泛的策略空間探索。
利用階段（200 步后）：切換為純粹的準確率獎勵。此時，模型會逐漸減少對平行格式的依賴，轉而專注于提煉和利用在第一階段發現的最優策略。

結果（見下圖）顯示，進入第二階段后，盡管模型的并行思維使用率（綠線）驟降，但其在 AIME25 上的準確率（紅線）卻持續攀升，最終達到了 25.6% 的峰值。這一成績相較于從頭到尾只用標準 RL 訓練的基線模型，實現了高達 42.9% 的相對提升。這證明了，短暫地「強迫」模型進行平行探索，能夠幫助它發現一個更優的「能力區間」，即使后續不再使用這種形式，其學到的核心推理能力也得到了質的飛躍。

圖 4：兩階段訓練曲線。在探索階段后，并行思維使用率下降，但模型準確率持續走高，超越基線。

總結

在這項工作中，研究者們提出了 Parallel-R1，這是首個能在真實的通用數學推理任務上，通過強化學習教會大模型進行并行思維的框架。除此之外，研究者們進一步對并行思考行為以及其潛在價值進行了深入探討。

責任編輯：張燕妮來源：機器之心

AI 大模型推理