LLM 協作革命：Group Think 如何重塑推理邊界

作者：肆零柒 2025-06-06 08:57:42

讓一個模型擁有多個“智慧大腦”會有多強大？Group Think 現在讓單個 LLM 模擬多個并行推理智能體，推理速度提升數倍，資源利用效率更是碾壓傳統方法！

大家好，我是肆〇柒。今天和大家聊聊 Group Think。顧名思義，它通過讓單個 LLM 模擬多個并行推理智能體，并以 token 級別的細粒度協作，提出了推理協作的新范式。這不僅能顯著提升推理質量，還能在本地推理中充分利用閑置計算資源，在數據中心場景下實現高效的批量處理。

當下，大型語言模型（LLM）正以驚人的速度重塑我們對智能的認知。然而，隨著應用場景的不斷拓展，研究人員發現，單純依靠單個 LLM 的推理能力已經難以應對一些高度復雜的任務。例如，在機器翻譯任務中，早期模型常常因語法錯誤或文化差異導致翻譯結果生硬甚至誤解原意。而如今的 LLM，通過海量多語言數據訓練，不僅能準確傳達原句意思，還能根據目標語言的文化背景優化表達方式，使翻譯結果更加自然流暢。

但即便如此，單個 LLM 的推理過程依然存在局限。其推理路徑是線性的，就像一個人獨自在黑暗中摸索前行，雖然每一步都經過深思熟慮，但難免會錯過一些關鍵線索。而且，當問題涉及多個子任務時，單線程的推理方式會導致信息整合不充分，就像一個廚師同時準備多道復雜菜肴，卻只能在一個鍋里依次烹飪，難以兼顧每道菜的最佳口感。

多智能體協作的挑戰

為了解決這一問題，多智能體協作系統成為研究熱點。多個 LLM 驅動的智能體通過輪流交換完整的推理鏈（CoT）進行協作，試圖在信息共享中碰撞出智慧的火花。

這種機制在理論上確實能夠提升推理質量。例如，在一個需要同時分析文本情感和提取關鍵信息的任務中，情感分析智能體可以先生成“這段文本表達了強烈的負面情緒，主要體現在‘失望’‘憤怒’等詞匯的高頻出現”這樣的推理結果；然后信息提取智能體基于此進一步分析，提取出“用戶對產品配送延遲和服務態度不滿”等關鍵信息。兩個智能體在各自領域深耕，再將成果整合，理論上可以達到 1 + 1 > 2 的效果。

然而，現實是殘酷的。多智能體輪流推理的方式存在顯著缺陷。信息傳遞的滯后性就像兩個舞者通過信鴿交流舞蹈步伐，當一方收到信息時，對方早已開始新的動作，導致協作效果大打折扣。此外，協調開銷巨大，智能體之間頻繁的回合制交流占用了大量計算資源，就像一個會議中，參會者輪流發言，大部分時間都浪費在等待上，真正用于解決問題的時間所剩無幾。

在這樣的背景下，Group Think 為 LLM 的推理協作帶來了全新的思路。它創造性地讓單個 LLM 模擬多個并行推理智能體，這些智能體以 token 級別的細粒度相互協作，共同攻克難題。

Group Think 方法論

基本原理：并行推理的交響樂

Group Think 的核心在于多個同步 CoT 鏈的并行生成。這些鏈就像交響樂團中的不同聲部，既各自獨立演奏，又相互交融呼應，共同構建出完整的推理樂章。

Group Think 中有 N 個智能體同時工作。每個智能體在生成自己的推理鏈時，能夠實時看到其他智能體生成的 token 。這使得智能體能夠根據其他智能體的推理進展動態調整自己的推理方向。

例如，在一個需要同時考慮算法效率和代碼可讀性的編程任務中，一個智能體可能先生成“為了提高效率，可以采用快速排序算法”的 token ；另一個智能體看到后，立刻調整自己的推理方向，生成“但快速排序的實現較為復雜，對于初學者來說可能影響代碼可讀性，可以考慮在注釋中詳細解釋每一步邏輯”的 token 。通過這種實時互動，智能體之間實現了高效的協作。

Group Think 的基本原理

為了更直觀地展示 Group Think 的基本原理，我們可以通過下圖來理解。下圖展示了多個推理線程如何通過 token 級別的交叉注意力機制協作。每個 token 可以訪問其他線程中所有之前生成的 token，這種機制確保了推理過程中的細粒度協作。

Group Think 的推理機制：如何協同工作

其實這一段落是我已經準備發文的時候，臨時添加的。因為我覺得對于不太了解 infra 層的工程師，可能對這個 Group Think 的原理理解上還是有難度。所以我特意添加了這個段落，希望能對理解具體推理機制有所幫助。Group Think 的推理機制通過以下步驟實現：

1. 初始化：系統將任務分配給多個智能體（思考者），每個智能體接收到相同的輸入信息。

2. 并行推理：在每個推理步驟中，每個智能體并行生成下一個 token。智能體在生成 token 時，會訪問其他智能體之前生成的所有 token（交叉注意力機制）。

3. 動態調整：智能體根據其他智能體生成的 token 動態調整自己的推理方向，避免重復工作并提高推理效率。

4. 最終答案生成：所有智能體的推理鏈完成后，系統整合這些推理鏈，生成最終答案。

舉例說明，在一個編程任務中，要求編寫一個 Python 函數，該函數接受一個字符串列表，返回每個字符串的平均長度以及對應的字母等級（A: 長度≥10，B: 5≤長度<10，C: 長度<5）。Group Think 的推理過程如下：

1. 初始化：系統將任務分配給 4 個智能體（Thinker1, Thinker2, Thinker3, Thinker4）。

2. 并行推理：

Thinker1 開始生成代碼框架，定義函數和輸入參數。
Thinker2 注意到 Thinker1 的進展后，開始編寫計算字符串長度的部分。
Thinker3 發現 Thinker1 和 Thinker2 的工作后，開始編寫計算平均長度的邏輯。
Thinker4 在看到其他智能體的工作后，開始編寫根據長度分配字母等級的部分。

3. 動態調整：

當 Thinker4 發現 Thinker3 已經開始編寫平均長度的計算邏輯時，它調整自己的工作，專注于編寫返回結果的代碼部分。

4. 最終答案生成：所有智能體的推理鏈完成后，系統整合這些推理鏈，生成完整的 Python 函數代碼。

通過 Group Think 的協作機制，每個智能體在推理過程中能夠實時感知其他智能體的進展并動態調整自己的工作內容，從而顯著提高了代碼生成的效率和質量。

Token 級、相互適應的多智能體推理：數學之美

在 Group Think 中，智能體的 token 預測過程可以用以下公式描述：

這種 token 級別的協作機制賦予了 Group Think 極高的靈活性和適應性。例如，在一個需要列舉多種解決方案的問題中，一個智能體可能生成了“方案一：采用深度學習方法”的 token ；另一個智能體看到后，迅速調整自己的推理方向，生成“方案二：結合傳統機器學習算法以降低計算成本”的 token 。通過這種方式，Group Think 能夠在推理過程中實時探索多種可能性。

高效實現方案：本地推理與數據中心的雙重奏

本地推理場景下的實現：喚醒閑置計算力

在個人或邊緣計算環境中，推理請求通常以單個查詢的形式出現。這種小批量處理方式往往導致計算設備的內存帶寬成為系統瓶頸，大量計算資源閑置。Group Think 通過巧妙地創建人工批次，將多個智能體的推理任務整合在一起，充分利用了原本閑置的計算能力。

對于一個查詢，Group Think 中的 N 個智能體并行工作，形成一個大小為的有效智能體級別批次。每個智能體被分配一個 token 預算。在 prompt 之后，每個智能體并行生成其下一個 token????。為了實現這一點，系統為每個智能體分配了個位置，用于存儲其他智能體之前生成的 token ，并將每個新 token ???分配到位置索引。

為了使每個智能體能夠訪問其他智能體生成的 token ，Group Think 修改了標準的因果注意力掩碼。這種修改允許智能體在生成 token 時，不僅關注自己的歷史 token ，還能關注其他智能體生成的 token 。

例如，在一個需要同時生成多種風格文本的創作任務中，一個智能體可能生成了“風格一：采用浪漫主義手法”的 token ；另一個智能體看到后，調整自己的生成方向，生成“風格二：結合現代主義元素以增強表現力”的 token 。通過這種實時互動，智能體之間實現了高效的協作，充分利用了計算資源。

下圖展示了 Group Think 在本地推理場景下的實現方式。通過創建人工批次和調整注意力掩碼，多個智能體的推理任務被整合在一起，顯著提高了計算資源的利用率。

Group Think 的本地推理實現

數據中心場景下的實現：批量處理的藝術

在數據中心應用中，通常需要將多個請求聚合為一個批次進行處理，以最大化計算效率。Group Think 通過 token 級別的交錯生成和 KV 緩存的巧妙利用，實現了對混合請求（包括 Group Think 請求和其他標準請求）的高效批量處理。

每個智能體被分配一個 token 索引槽，這些索引決定了對應的 positional embeddings 。在推理過程中，每個生成步驟為每個智能體填充一個 token ，從而形成交錯的 KV 緩存。通過這種方式，因果掩碼在注意力機制中允許每個新 token 關注所有之前生成的 token （包括來自所有智能體的 token ），從而實現了 Group Think 的協作優勢。

例如，在一個需要同時處理多個用戶請求的場景中，一個智能體可能生成了“用戶 A 請求：分析股票市場趨勢”的 token ；另一個智能體看到后，調整自己的生成方向，生成“用戶 B 請求：制定投資組合優化方案”的 token 。通過這種交錯生成方式，數據中心能夠在同一個批次中高效處理多種類型的請求，大幅提高了計算資源的利用率。

下圖展示了 Group Think 在數據中心場景下的實現方式。通過 token 級別的交錯生成和 KV 緩存的利用，多個智能體的推理任務被整合到一個批次中，實現了高效的批量處理。

Group Think 的數據中心實現

實驗評估

實驗設置：搭建推理能力的測試舞臺

實驗采用了 80 億參數和 700 億參數的兩種模型，分別在 NVIDIA 3080 GPU 和 8 個 NVIDIA V100 GPU 上運行。為了促進模型的協作行為，實驗采用了以下系統提示：

1. There are multiple thinkers. These thinkers, Thinker1, Thinker2,
Thinker3 ... , try to answer a question together. The answer is considered
solved if the thinkers can COLLECTIVELY determine the final answer, even if
each thinker only has partial answers.
2. Each thinker will write its own thought process towards the final answer.
Each thinker is encouraged to take the other thinkers’ progress into account
to reach the final answer.
3. Considering all the information from other thinkers, each thinker will
continue contributing to the collective knowledge.
Your response should focus on reaching the solution collaboratively as
efficiently as possible. Make sure information that you generate is not
redundant to the group. It is thus important to consider the outputs of
other thinkers during generation. Do not summarize other thinkers’ responses,
as it is too cost inefficient.
Please answer this question.
Problem: {QUESTION}
–- You are Thinker {ThinkerID}. Your Response:

譯文：

# Group Think Prompt 譯文：

1. 有多個思考者（Thinker）。這些思考者（Thinker1, Thinker2, Thinker3...）試圖共同回答一個問題。只有當思考者們能夠集體確定最終答案時，問題才算解決，即使每個思考者只掌握了部分答案。

2. 每個思考者將寫下自己對最終答案的思考過程。每個思考者被鼓勵考慮其他思考者的進展，以達成最終答案。

3. 考慮其他思考者提供的所有信息，每個思考者將繼續為集體知識做出貢獻。您的回應應聚焦于盡可能高效地協作以達成解決方案。確保您生成的信息對集體而言并非冗余。因此，在生成過程中考慮其他思考者的輸出至關重要。請勿總結其他思考者的回應，因為這樣做成本過高。請回答以下問題。問題：{QUESTION} –- 您是思考者 {ThinkerID}。您的回應：

這種提示方式就像為智能體們制定了明確的協作規則，引導它們在推理過程中積極交流、避免重復工作。

性能 - 延遲權衡評估：數據見證 Group Think 的優勢

枚舉任務：從簡單中洞察非凡

枚舉任務看似簡單，卻是 Group Think 展現協作優勢的絕佳場景。它的原理是讓模型生成包含 L 個不同項目的列表。完成覆蓋率定義為：

Completion Coverage = min(1, #distinct items generated / L)

例如，在“列出 100 個男性的名字”這一任務中，Group Think 通過多個智能體的協作，顯著提升了任務完成速度。實驗結果顯示，當智能體數量為 N 時，Group Think 的初始速度比 CoT 快了近 N 倍。隨著智能體逐漸接近解決問題，加速效果逐漸放緩，但始終保持著對 CoT 的顯著優勢。

更重要的是，Group Think 展現出了驚人的協作行為。在生成男性名字的實驗中，智能體們自發地將名字按文化、歷史和地區分類。例如，一個智能體專注于生成英語國家常見的名字，如“Alexander”“Benjamin”；另一個智能體則轉向古代希臘和羅馬文化中的名字，如“Apollo”“Atlas”；還有智能體負責亞洲文化中的名字，如“Kai”（日語起源）“Kenji”（中文起源）。這種分類行為并非人為設定，而是模型在 Group Think 范式下自然涌現的協作策略。

下圖展示了 Group Think 在枚舉任務中與 CoT 的性能對比。可以看到，Group Think 在初始階段的加速效果非常顯著，隨著智能體數量的增加，任務完成速度進一步提升。

Group Think 與 CoT 在枚舉任務中的性能對比

分而治之任務：復雜問題的高效破解

以經典的 Floyd-Warshall 算法為例，Group Think 在解決復雜問題中的優勢得到了進一步驗證。在這個任務中，模型需要計算一個有向加權圖中所有節點對之間的最短路徑。完成覆蓋率定義為組正確解決的距離矩陣條目的比例。

實驗中，隨機生成了多個包含 5 個節點的圖。結果顯示，4 個智能體的 Group Think 能夠將延遲降低到 CoT 的一半。隨著智能體數量的增加，延遲進一步減少。這種效果源于智能體們在更新距離矩陣時的高效協作。一個智能體可能先更新了節點 i 到節點 j 的路徑，另一個智能體看到后，迅速利用這個信息更新其他相關路徑。

下圖展示了 Group Think 在分而治之任務中的性能表現。可以看到，Group Think 在解決復雜問題時的延遲顯著低于 CoT，且隨著智能體數量的增加，延遲進一步減少。

Group Think 與 CoT 在分而治之任務中的性能對比

編程任務：現實場景中的協作魔法

編程任務為 Group Think 提供了一個貼近實際應用場景的測試平臺。在這個任務中，模型需要生成滿足特定規范的代碼。完成覆蓋率定義為組正確完成的組件數量與總組件數量的比值。

實驗要求模型生成能夠解決多步驟編程問題的代碼。結果顯示，CoT 在生成過程中很快趨于平緩，無法有效解決問題；而擁有 4 個或更多智能體的 Group Think 能夠在合理的生成預算內接近正確解決方案。在代碼生成過程中，Group Think 展現出了高度的協作警覺性。當多個智能體開始處理同一個代碼部分時，其他智能體能夠迅速檢測到重復工作并切換到其他任務。例如，在生成一個學生成績處理程序時，一個智能體專注于計算平均分的函數，另一個智能體則轉向生成成績等級分配的函數，避免了重復代碼的生成。

下圖展示了 Group Think 在編程任務中的性能表現。可以看到，Group Think 在編程任務中的完成覆蓋率顯著高于 CoT，且隨著智能體數量的增加，性能進一步提升。

Group Think 與 CoT 在編程任務中的性能對比

Group Think 在自然語言處理領域的文本生成任務中的應用

Group Think 在自然語言處理領域的文本生成任務中展現出了巨大的潛力。例如，在一篇需要融合多種風格（新聞報道、學術論文、故事創作等）的文章生成任務中，Group Think 能夠協調不同智能體生成不同風格的文本段落。

實驗中，一個智能體可能生成了“根據最新數據，全球氣溫上升了 1.2 攝氏度（新聞報道風格）”的段落；另一個智能體看到后，調整自己的生成方向，生成“氣溫上升對生態系統的影響可以從生物多樣性減少和極端氣候事件頻發兩個方面進行分析（學術論文風格）”的段落；第三個智能體則進一步補充“在一個小村莊，農民們發現作物生長周期明顯縮短，這直接影響了他們的生活（故事創作風格）”。通過這種協作，Group Think 生成的文章不僅在文本多樣性上顯著優于傳統方法，還在邏輯連貫性上實現了提升，不同風格的段落自然銜接，整體文章更具深度和吸引力。

下圖展示了 Group Think 在文本生成任務中的實現方式。每個智能體被分配一個 token 索引槽，這些索引決定了對應的 positional embeddings 。通過這種方式，多個智能體的推理任務被整合在一起，實現了高效的文本生成。

Group Think 在文本生成任務中的實現

Group Think 在圖像識別領域的潛在應用

Group Think 在圖像識別領域也具有廣闊的應用前景。例如，在分析一張復雜圖像時，多個智能體可以協同工作，每個智能體專注于圖像的不同部分或特征。一個智能體可能專注于識別圖像中的物體輪廓，生成“圖像左上方存在一個矩形輪廓”的 token ；另一個智能體則分析物體的顏色和紋理，生成“該矩形區域主要由紅色和藍色像素組成，表面紋理光滑”的 token 。通過協作整合這些信息，模型能夠更準確地識別圖像內容。

實驗數據表明，采用 Group Think 的圖像識別模型在復雜場景下的準確率相比傳統方法提升了 15% 以上。例如，在一個包含多種物體的街頭場景圖像中，傳統方法可能只能識別出主要物體如“汽車”和“行人”，而 Group Think 能夠進一步識別出“汽車的顏色為紅色”“行人的衣物紋理為條紋”等細節信息，顯著提高了識別的魯棒性和細致程度。

與獨立采樣基線的比較：協作的力量

為了量化 Group Think 協作機制的優勢，實驗將其與獨立采樣（Independent Sampling，IS）基線進行了對比。結果顯示，在低延遲預算下，Group Think 和 IS 的表現相當。然而，隨著推理預算的增加（通過增加智能體數量 N 或每個智能體的 token 預算 K ），IS 的冗余度逐漸增加，而 Group Think 憑借其高效的協作機制，展現出越來越大的完成覆蓋率優勢。例如，在編程任務中，當智能體數量增加到 4 個且每個智能體的 token 預算增加到 100 時，Group Think 的完成覆蓋率比 IS 高出 40% 以上。

下圖展示了 Group Think 與 IS 在不同智能體數量和延遲預算下的性能對比。可以看到，Group Think 在大多數情況下都能顯著提高完成覆蓋率，特別是在智能體數量較多且延遲預算較大時，優勢更加明顯。

Group Think 與 IS 的性能對比

討論與未來工作

Group Think 的能力與局限：協作的雙刃劍

Group Think 在實驗中展現出了令人印象深刻的能力。它能夠有效避免重復推理，智能體之間通過實時信息共享動態調整推理路徑。此外，Group Think 還能自然涌現協作行為，例如在枚舉任務中按類別分工、在編程任務中分配代碼組件，這些行為無需顯式指令，是模型在 Group Think 范式下自發形成的。

然而，Group Think 也存在局限性。其通信開銷在低延遲預算下可能會成為性能瓶頸。例如，當智能體數量過多且每個智能體的 token 預算較小時，智能體之間傳遞的信息可能過于簡略，導致協調效果不佳。

深化局限性分析

智能體數量增加帶來的協調復雜性

隨著智能體數量的增加，Group Think 的協調復雜性顯著上升。每個智能體需要關注的其他智能體的 token 數量呈線性增長，導致計算復雜度上升。例如，當智能體數量從 2 增加到 10 時，每個智能體需要關注的其他智能體的 token 數量從 N ? 1 = 1 增加到 N ? 1 = 9 。假設每個 token 的計算開銷為 C ，那么每個智能體的計算開銷從 C × 1 增加到 C × 9 ，整體計算復雜度增加了 9 倍。這不僅會顯著降低推理速度，還會增加資源占用，對硬件性能提出更高要求。

模型訓練難度上升的問題

為了實現 Group Think 的 token 級協作機制，模型訓練過程中需要額外考慮多智能體協作的監督信號設計。例如，需要設計能夠衡量智能體間協作效果的損失函數，確保智能體在生成 token 時既能保持自身推理的連貫性，又能與其他智能體的輸出有效協作。同時，為了防止智能體間過度依賴或信息過載，訓練過程中還需要引入正則化策略，如限制智能體對其他智能體 token 的關注程度，或采用 dropout 技術隨機屏蔽部分智能體的輸出。這些額外的設計和優化大大增加了模型訓練的復雜度和難度。

未來發展方向：協作的進化之路

專門數據集的構建：協作智慧的燃料

構建專門的 Group Think 數據集是未來發展的關鍵。一個高質量的數據集應涵蓋多樣化場景，展示良好的 Group Think 行為。例如，在醫療診斷場景中，數據集可以包含多個醫生如何通過實時交流協作診斷復雜病例的案例；在科學研究場景中，可以記錄科學家們如何在實驗設計和數據分析過程中相互啟發。這些數據將為模型提供豐富的協作示例，幫助其學習更高效的協作策略。

復雜協作行為的探索：協作的高級形態

Group Think 在更復雜協作行為方面具有巨大潛力。例如，動態角色分工可以讓智能體在推理過程中根據自身優勢和任務需求實時調整角色。一個智能體可能在某個階段擔任規劃者角色，制定整體解決方案的框架；在另一個階段轉變為執行者，負責具體代碼的實現。這種動態分工可以通過強化學習實現，模型在訓練過程中學習到在不同情況下切換角色的最佳時機。

此外，探索與利用的平衡也是未來研究的重要方向。智能體需要在遵循現有推理路徑（利用）和探索新可能性（探索）之間找到最佳平衡。例如，在一個需要創新解決方案的任務中，部分智能體可以專注于探索新的算法，而另一部分智能體則負責優化現有算法的實現細節。通過這種方式，Group Think 能夠在穩定性和創新性之間取得平衡。

資源受限環境下的應用：協作的輕量化

Group Think 在資源受限環境下的應用前景廣闊。通過優化實現方案，例如采用更高效的注意力機制和模型壓縮技術，Group Think 可以在邊緣設備上高效運行。這將使智能語音助手、物聯網設備等能夠在本地完成復雜的推理任務，減少對云端的依賴，降低延遲并提高數據隱私性。

總結

Group Think 作為一種全新的推理協作范式，通過讓單個 LLM 模擬多個并行推理智能體，并以 token 級別的細粒度協作，顯著提升了推理質量和效率。在本地推理中，Group Think 能夠充分利用閑置計算資源，將邊緣設備的推理能力提升到一個新高度；在數據中心場景下，它通過高效的批量處理機制，為大規模推理任務提供了強大的支持。

Group Think 的貢獻不僅體現在技術性能的提升上，更在于它為 LLM 的協作行為提供了一種新思路。它證明了即使在沒有顯式訓練的情況下，現有的 LLM 也具備一定的協作能力。這為未來專門針對協作推理的數據集構建和模型訓練奠定了堅實的基礎。在深入了解 Group Think 的過程中，它讓我對 LLM 推理方式的傳統認知發生了改變，讓我看到了智能體之間協作的巨大潛力。

最吸引我的是 Group Think 的 token 級別協作機制。這種細粒度的互動方式，使它們能夠在推理過程中實時感知彼此的進展并迅速調整自己的方向。這讓我聯想到人類團隊中的高效協作場景，比如在一場緊張的手術中，醫生、護士和麻醉師通過實時交流和觀察彼此的動作，精準地完成每一個操作步驟，最終拯救患者的生命。Group Think 似乎正在賦予機器類似的協作能力，這無疑是人工智能領域的一大飛躍。

同時，Group Think 在資源利用效率方面的優勢也讓我印象深刻。在本地推理場景中，它能夠喚醒邊緣設備上原本閑置的計算資源，這讓我想起了自己使用智能語音助手的經歷。如果 Group Think 能夠應用于這些設備，未來的智能助手將能夠在本地快速完成復雜的任務，如實時翻譯多種語言的會議記錄或生成個性化的旅行計劃，而無需依賴云端計算，這將極大地提升用戶體驗并保護數據隱私。

在實驗評估部分，看到 Group Think 在枚舉、分而治之和編程任務中的出色表現，我感到興奮。特別是多智能體在枚舉任務中自發分類的行為，讓我深刻體會到了 Group Think 的智能和靈活性。這就像看著一群志愿者在沒有任何指揮的情況下，自發地將一堆雜亂的書籍按類別整齊地擺放到書架上，這種涌現的協作智慧令人驚嘆。

其實如果看我文章的朋友，一定注意到前些天我發的另外幾篇文章，他們都是 inference-time scaling 時期完成的推理計算。我拿重復采樣（Repeated Sampling）這個方法，形成一個表格，簡單對比如下：

維度	Group Think	重復采樣（獨立采樣）
協作機制	智能體之間通過交叉注意力機制實時協作，動態調整推理方向	采樣路徑獨立，無協作或信息共享
推理方式	多個智能體并行推理，共享信息，實時調整推理內容	多個路徑獨立進行 next token prediction
任務處理	智能體根據其他智能體的工作動態調整任務，避免重復	各路徑獨立處理相同任務，可能存在重復工作
效率	高效，通過協作減少冗余推理	較低，存在重復工作，依賴事后選擇機制
推理質量	較高，整合各智能體優勢，提升推理質量	較低，依賴采樣路徑的多樣性及事后選擇效果
應用場景	復雜推理任務，如編程、圖像識別等需要協作的任務	適用于任務間相互獨立，依賴多樣性覆蓋解空間
智能體間通信	存在，智能體可通過交叉注意力訪問其他智能體的 token	不存在，各采樣路徑獨立無通信
最終答案生成	基于所有智能體的推理鏈整合生成	事后通過選擇機制（如投票、獎勵模型）從采樣路徑中選擇最佳結果
動態調整	支持，智能體根據其他智能體進展動態調整推理方向	不支持，各采樣路徑固定，無動態調整
資源利用	更優，高效利用計算資源，尤其在本地推理場景	較差，重復工作導致資源浪費

一句話總結：這種 Group Think 并行推理的機制與重復采樣（Repeated Sampling）的原理其實有接近的地方，但不同的是前者通過交叉注意力機制產生了“協作”，而后者僅僅是在獨立的線性槽位中進行 Next Token Predict，并且后者是重復采樣同一個任務。Group Think 的關鍵創新點就在于引入了智能體間的“通信”協作，而重復采樣缺乏這種協作機制。

在我們了解原理和機制以后，是不是有點興奮，這樣的機制甚至可以在現有模型上修改推理代碼就可以向上吞噬應用層的 Multi-Agent 實現，并且在 inference-time通過批次推理LLM的方式，要比在應用層進線程并發推理的方式還要高效，因為跳出 inference-time，效率會下降，進線程并發會出現氣泡。當然，目前 Group Think 這種范式仍處于發展的初期，面臨著通信開銷和協作策略優化等挑戰。但它不妨礙我們看到 LLM 從“智能個體”向“智能集體”轉變的趨勢。

參考資料

Group Think 論文原文

https://arxiv.org/pdf/2505.11107

Floyd-Warshall

https://en.wikipedia.org/wiki/Floyd%E2%80%93Warshall_algorithm

責任編輯：龐桂玉來源：覺察流

LLM AI 大模型