谷歌揭秘:Multi-Agent 推理時擴展才是未來
嘿,大家好!這里是一個專注于前沿AI和智能體的頻道~
谷歌 DeepMind 和 MIT 聯合發了一篇論文,名叫 TUMIX(Tool-Use Mixture)。
大概就是說,Multi-Agent 才是 test-time- scaling的終極打開方式,可以以一半的成本,在HLE上,準確率從 21.6% 飆升到 34.1%,超越 Gemini-2.5-Pro Deep Research。
除此之外,他們還做了一個彩蛋,讓Agent設計Agent,效果比人工設計的更牛~
圖片
一個反常識
Agent多樣性 > 瘋狂采樣
目前主流的推理時擴展方法是什么?
重復采樣同一個最強模型,然后用多數投票選答案。
感覺也沒毛病,但谷歌驗證后,說:錯了。
他們做了個實驗:
- 單Agent重復15次 vs 15個不同Agent各推理1次
- 在相同的推理成本下,15個不同Agent的準確率和覆蓋率都明顯更高
為什么呢?
因為不同Agent采用不同的工具使用策略(純文本推理、代碼執行、網頁搜索、雙工具混合等),能探索更廣闊的解空間。而單Agent重復采樣,本質上還是在同一個思維框架里打轉。
圖片
他們還對比了三種工具組合:
- Code_Text(只能用代碼,不能搜索)
- Search_Text(只能搜索,不能用代碼)
- Code_Search_Text(兩者都能用)
結果,雙工具Agent組的覆蓋率和準確率都顯著高于單工具組。
這說明什么?Code Interpreter 和 Search 不是互相替代的關系,而是互補的。
文本推理擅長語義和常識,代碼擅長精確計算,搜索擅長獲取最新知識。只有三者混合,才能發揮LLM的全部潛力。
TUMIX的核心機制
TUMIX的架構其實不復雜,核心就三步:
第一輪
15個不同Agent并行推理。
每個Agent有自己的工具使用策略(CoT、純代碼、搜索優先、代碼搜索混合、引導式雙工具等)
每個Agent最多可以調用工具5次,生成15個初步答案
第二輪及之后
答案共享 + 迭代優化:
把上一輪所有Agent的答案拼接到原問題后面,每個Agent基于原問題+其他Agent的答案生成新答案。
重復這個過程,直到LLM判斷答案已收斂。
終止
LLM-as-Judge,用LLM自動判斷何時停止迭代(最少2輪),最終通過多數投票選出答案
圖片
這個設計既保留了多樣性探索,又通過迭代優化提升了答案質量。
他們還發現了一個有趣的現象:隨著迭代輪次增加,覆蓋率(至少有一個Agent答對)會下降,但平均準確率會上升。
這說明Agent們在互相學習的過程中逐漸趨同,但也會誤刪掉一些正確答案。
所以,關鍵是找到那個點——既充分迭代優化,又不過度收斂。
最后
來看看TUMIX的實戰表現:
在Gemini-2.5-Pro上,HLE從21.6%提升到32.3%,GPQA從84.6%提升到87.9%, AIME 24&25,從87.3%提升到96.7%。
對比其他Test-time Scaling方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX在相同推理成本下,平均準確率都有明顯優勢。
圖片
LLM可以自動設計更強的Agent?
論文里還有個彩蛋:他們嘗試讓 Gemini-2.5-Pro 自己設計新的Agent。
做法很簡單:
- 給LLM看現有的15個人工設計的Agent
- 讓它生成更多樣、更高質量的Agent
- 從生成的25個新Agent中篩選出表現最好的15個
結果呢?
混合了人工設計和LLM生成的Agent組,性能比純人工設計的還要高1.2%。
LLM生成的Agent長什么樣?比如:
- Plan-Verify-Refine:先規劃、再執行(代碼或搜索)、然后驗證并優化
- SearchThenCode:強制先搜索、再用代碼
- Debate-CrossExam:模擬提議者和懷疑者辯論,引導工具使用
這些策略和人工設計的完全不同,說明LLM已經具備了一定的Meta-Agent設計能力。
最后
OpenAI o1 和 DeepSeek R1 的路線是讓單個模型深度思考,本質上還是在同一個推理框架內擴展。
TUMIX告訴我們,通過多樣化的Agent和工具混合,可以用更低的成本達到更好的效果。
同時,LLM可以設計更強的Agent架構,這意味著,未來的AI系統可能會自己優化自己的工作流,而不需要人工調參。





























