谷歌揭秘：Multi-Agent 推理時擴展才是未來

作者：獼猴桃 2025-10-15 02:11:00

人工智能

OpenAI o1 和 DeepSeek R1 的路線是讓單個模型深度思考，本質上還是在同一個推理框架內擴展。TUMIX告訴我們，通過多樣化的Agent和工具混合，可以用更低的成本達到更好的效果。

嘿，大家好！這里是一個專注于前沿AI和智能體的頻道~

谷歌 DeepMind 和 MIT 聯合發了一篇論文，名叫 TUMIX（Tool-Use Mixture）。

大概就是說，Multi-Agent 才是 test-time- scaling的終極打開方式，可以以一半的成本，在HLE上，準確率從 21.6% 飆升到 34.1%，超越 Gemini-2.5-Pro Deep Research。

除此之外，他們還做了一個彩蛋，讓Agent設計Agent，效果比人工設計的更牛~

圖片

一個反常識

Agent多樣性 > 瘋狂采樣

目前主流的推理時擴展方法是什么？

重復采樣同一個最強模型，然后用多數投票選答案。

感覺也沒毛病，但谷歌驗證后，說：錯了。

他們做了個實驗：

單Agent重復15次 vs 15個不同Agent各推理1次
在相同的推理成本下，15個不同Agent的準確率和覆蓋率都明顯更高

為什么呢？

因為不同Agent采用不同的工具使用策略（純文本推理、代碼執行、網頁搜索、雙工具混合等），能探索更廣闊的解空間。而單Agent重復采樣，本質上還是在同一個思維框架里打轉。

圖片

他們還對比了三種工具組合：

Code_Text（只能用代碼，不能搜索）
Search_Text（只能搜索，不能用代碼）
Code_Search_Text（兩者都能用）

結果，雙工具Agent組的覆蓋率和準確率都顯著高于單工具組。

這說明什么？Code Interpreter 和 Search 不是互相替代的關系，而是互補的。

文本推理擅長語義和常識，代碼擅長精確計算，搜索擅長獲取最新知識。只有三者混合，才能發揮LLM的全部潛力。

TUMIX的核心機制

TUMIX的架構其實不復雜，核心就三步：

第一輪

15個不同Agent并行推理。

每個Agent有自己的工具使用策略（CoT、純代碼、搜索優先、代碼搜索混合、引導式雙工具等）

每個Agent最多可以調用工具5次，生成15個初步答案

第二輪及之后

答案共享 + 迭代優化：

把上一輪所有Agent的答案拼接到原問題后面，每個Agent基于原問題+其他Agent的答案生成新答案。

重復這個過程，直到LLM判斷答案已收斂。

終止

LLM-as-Judge，用LLM自動判斷何時停止迭代（最少2輪），最終通過多數投票選出答案

圖片

這個設計既保留了多樣性探索，又通過迭代優化提升了答案質量。

他們還發現了一個有趣的現象：隨著迭代輪次增加，覆蓋率（至少有一個Agent答對）會下降，但平均準確率會上升。

這說明Agent們在互相學習的過程中逐漸趨同，但也會誤刪掉一些正確答案。

所以，關鍵是找到那個點——既充分迭代優化，又不過度收斂。

最后

來看看TUMIX的實戰表現：

在Gemini-2.5-Pro上，HLE從21.6%提升到32.3%，GPQA從84.6%提升到87.9%， AIME 24&25，從87.3%提升到96.7%。

對比其他Test-time Scaling方法（Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA），TUMIX在相同推理成本下，平均準確率都有明顯優勢。

圖片

LLM可以自動設計更強的Agent？

論文里還有個彩蛋：他們嘗試讓 Gemini-2.5-Pro 自己設計新的Agent。

做法很簡單：

給LLM看現有的15個人工設計的Agent
讓它生成更多樣、更高質量的Agent
從生成的25個新Agent中篩選出表現最好的15個

結果呢？

混合了人工設計和LLM生成的Agent組，性能比純人工設計的還要高1.2%。

LLM生成的Agent長什么樣？比如：

Plan-Verify-Refine：先規劃、再執行（代碼或搜索）、然后驗證并優化
SearchThenCode：強制先搜索、再用代碼
Debate-CrossExam：模擬提議者和懷疑者辯論，引導工具使用

這些策略和人工設計的完全不同，說明LLM已經具備了一定的Meta-Agent設計能力。

最后

OpenAI o1 和 DeepSeek R1 的路線是讓單個模型深度思考，本質上還是在同一個推理框架內擴展。

TUMIX告訴我們，通過多樣化的Agent和工具混合，可以用更低的成本達到更好的效果。

同時，LLM可以設計更強的Agent架構，這意味著，未來的AI系統可能會自己優化自己的工作流，而不需要人工調參。

責任編輯：武曉燕來源：探索AGI

谷歌 Agent 架構