突破單鏈思考上限,清華團隊提出原生「并行思考」scale范式
近年來,大語言模型(LLMs)在復雜推理任務上的能力突飛猛進,這在很大程度上得益于深度思考的策略,即通過增加測試時(test-time)的計算量,讓模型生成更長的思維鏈(Chain-of-Thought)。
然而,這條路徑正面臨著一個明顯的瓶頸:隨著計算資源的持續投入,性能提升變得微乎其微,甚至陷入停滯。
來自清華大學 AIR 的一篇最新研究論文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》對這一瓶頸發起了挑戰 。

該研究一針見血地指出,這個單鏈 test time scaling 的天花板并非模型能力的固有極限,而是源于當前順序推理策略的根本缺陷 —— 一種被研究者稱為「隧道視野」(Tunnel Vision)的現象。
為此,團隊提出了模型原生的并行化思考方案,訓練 LLM 在一次推理中同時生成和綜合多個不同的推理路徑,從而有效規避「隧道視野」問題,解鎖模型潛在的推理能力。
該研究證明,與串行擴展計算深度相比,并行擴展計算寬度是一種更有效、更高效的推理策略。

- 論文標題:ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute
- 作者:Hao Wen*, Yifan Su*, Feifei Zhang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li (*Equal Contribution)
- 機構:清華大學
- 論文地址:https://arxiv.org/pdf/2509.04475
隧道視野:深度思考的阿喀琉斯之踵
擴展瓶頸(Scaling Bottleneck): 如下圖所示,對于單個推理路徑(P=1),當投入的計算資源(即 Token 預算)超過一定限度后,模型準確率便不再提升,甚至可能下降,這表明「想得更久」并不能持續帶來回報。

隧道視野(Tunnel Vision): LLM 在生成思維鏈的初期,一旦邁出有瑕疵的第一步,就很容易被鎖定在一條次優的推理路徑上,難以在后續步驟中糾正或發現更優的解法 。模型仿佛走進了一條狹窄的隧道,無論走多遠,都無法擺脫最初錯誤方向的束縛。
如下圖 (b) 所示,研究者進行了一項實驗:他們故意讓模型從一個錯誤的推理前綴開始繼續生成答案。結果顯示,錯誤的前綴越長,模型最終能夠 “撥亂反正” 得到正確答案的概率就越低。這證明了 LLM 一旦陷入錯誤的思維定式,就很難自行跳出。

新范式:從「深度」到「廣度」
原生并行思考(Native Parallel Thinking)的核心思想是,與其讓模型在一條路徑上「死磕」,不如讓它同時探索多條不同思路的推理路徑,最后再綜合提煉出最優答案。
為此,研究團隊推出了一個名為 ParaThinker 的端到端框架。該框架能夠訓練 LLM 在一個統一的前向傳播過程中,并行生成多個多樣化的推理路徑,并將它們融合成一個更高質量的最終答案。
ParaThinker 的實現主要依靠三大核心創新:

- 專用可控 Token:引入一系列可訓練的特殊 Token(如 <think i>),用于顯式引導模型開啟第 i 條獨立的思考路徑,從而確保了推理路徑的多樣性。
- 思維特定位置嵌入:為了解決在匯總階段多路徑帶來的位置信息混淆問題,ParaThinker 為每條推理路徑設計了獨特的、可學習的「思維嵌入」(Thought Embedding)。這讓模型在最終綜合時,能清晰地區分每個信息片段的來源,避免信息「串線」。
- 兩階段注意力掩碼:在并行推理階段,注意力被嚴格限制在各自的路徑內部,確保各思路的獨立性;在匯總階段,則開放全局注意力,讓模型可以審視所有路徑并進行高效整合。
此外,一個關鍵的工程優勢在于,ParaThinker 在匯總階段能夠重用并行推理過程中生成的 KV 緩存。這極大地節省了計算資源,避免了昂貴的重新計算(re-prefilling),使得整個過程的延遲開銷極小。
超越 Majority Voting 與簡單任務分解
并行推理并非一個全新的概念,類似「多數投票」(Majority Voting)的方法早已被用于提升模型在選擇題或數值計算等任務上的表現。但這類方法的局限性也十分明顯:它們依賴于可被輕易量化和驗證的答案格式,而對于代碼生成、數學證明、復雜智能體工作流等開放式、生成式的任務則束手無策。
ParaThinker 的優越性正在于此。它不是簡單地對多個獨立結果進行投票,而是學習如何智能地「整合」與「提煉」來自不同推理過程的信息。這使其成為一種更通用、更強大的并行推理框架,能夠處理無法被簡單投票的復雜任務,真正釋放了并行思考的潛力。
在并行推理的探索道路上,除了 ParaThinker,近年來也涌現出其他值得關注的思路,例如以 Multiverse(https://arxiv.org/abs/2506.09991)為代表的工作,但其主要目標側重效率:根據原文分析,這些方法的主要目標是加速生成過程,即讓模型「做得快」,而不是直接致力于提升最終答案的準確性。
此外,其任務分解依賴任務結構:它們的成功很大程度上依賴于任務本身是否適合被顯式地分解。對于許多不可分解的、需要整體性思維的復雜問題,這種方法的適用性便會受限。
相比之下,ParaThinker 提供了一種更具普適性的并行范式。它不假設任何子任務結構,也不試圖對問題進行拆解。ParaThinker 的核心目標是通過思維的多樣性來提升準確性。
實驗結果:正確率隨思維廣度有效提升
在 AIME、AMC、MATH-500 等難度基準上,1.5B 參數模型用 8 條并行路徑,平均準確率提升 12.3%;7B 模型提升 7.5%。

延遲開銷較低:推理延遲并不隨著同時思維鏈數而線性增長,在 batch size=1 時,并行路徑數增加了 8 倍,但延遲僅增加了約 10%,這體現了并行計算在硬件層面的巨大優勢。

與多數投票(Majority Voting)的結合
ParaThinker 與 majority voting 策略(即生成 k 個獨立答案,選擇出現次數最多的那個)并不沖突,兩者疊加可以達到更高的正確率。

ParaThinker 教會大模型像人類一樣「頭腦風暴」,并行探索多種思路,再整合成最優答案。它預示著未來 LLM 的規?;l展之路,將從單純的「深度」擴展轉向更有效的「廣度」擴展。
































