混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能

發(fā)布于 2025-8-12 06:55

瀏覽

0收藏

混合智能體（Mixture-of-Agents, MoA）框架正在重新定義我們?nèi)绾螌⒋笳Z言模型（LLM）推向更高的準確性、推理深度和可靠性水平——而無需承擔擴展單一巨型模型所帶來的高昂成本。

MoA 并不依賴于一個“通才型”的大語言模型，而是協(xié)調(diào)一組專業(yè)化的模型，以結(jié)構(gòu)化的層級進行協(xié)作，逐步優(yōu)化輸出結(jié)果。這種方法即使使用開源模型，也已在多個基準測試中展現(xiàn)出最先進的（SOTA）性能，甚至超越了如 GPT-4 Omni 等頂級專有大語言模型。

大語言模型間的協(xié)作性

為何要組合多個模型？MoA 團隊發(fā)現(xiàn)，許多現(xiàn)成的大語言模型在參考彼此答案時表現(xiàn)更優(yōu)。在 AlpacaEval 2.0 基準測試的實驗中，像 LLaMA、WizardLM 和 Qwen 這樣的模型，在接收到提示的同時還能看到其他模型的答案時，其表現(xiàn)更佳（相對于 GPT-4 參考答案的“勝率”更高）。

圖1顯示，當每個模型能夠看到其他模型的響應(yīng)時，其勝率顯著提升（紅色柱狀圖對比藍色柱狀圖）——這證明了大語言模型具有“內(nèi)在協(xié)作”能力，能夠基于彼此的答案進行修正或驗證。關(guān)鍵的是，即使同伴的答案比該模型單獨生成的更差，這種提升依然存在。換句話說，多個視角有助于大語言模型避免盲點。這一洞察促使了MoA框架的設(shè)計：通過一個框架來整合多個模型的集體專業(yè)知識。

混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能-AI.x社區(qū)

圖1：模型“協(xié)作性”效應(yīng)——當大語言模型（LLMs）獲得其他模型的答案（紅色）時，在AlpacaEval 2.0上的得分高于單獨作答時（藍色）。即使是頂級模型（例如Qwen 110B）也能從與同伴協(xié)作中受益，這正是MoA框架設(shè)計背后的驅(qū)動力。

MoA 的優(yōu)勢

MoA 采用一種結(jié)構(gòu)化的多智能體方法來解決上述問題：

分層設(shè)計：每一層包含多個智能體，每個智能體都將前一層的所有輸出作為輸入。
角色專業(yè)化：提議者（Proposers）：生成多樣化的候選答案。聚合者（Aggregators）：整合并優(yōu)化這些候選答案，生成一個質(zhì)量更高的最終輸出。
迭代優(yōu)化：每一層都基于前一層的結(jié)果進行構(gòu)建，逐步提升回答的準確性和連貫性。
模型多樣性：結(jié)合不同架構(gòu)的模型，減少共有的弱點。
無需微調(diào)：完全通過提示詞工程（prompt engineering）實現(xiàn)高效協(xié)作。

每個智能體都是一個大語言模型（LLM），被分配兩種角色之一：提議者或聚合者。

提議者智能體

負責生成候選答案。它們“擅長產(chǎn)出有用的參考回答”，為問題提供豐富的上下文和多元的視角。雖然提議者自身未必能給出最佳的最終答案，但它們?yōu)檎w解決方案貢獻了關(guān)鍵的“拼圖碎片”。

聚合者智能體

與提議者不同，聚合者專注于整合和優(yōu)化他人的輸出。一個優(yōu)秀的聚合者能夠?qū)⒁唤M粗糙的答案融合成一個高質(zhì)量的統(tǒng)一回答，即使部分輸入質(zhì)量較低，也能保持甚至提升最終輸出的質(zhì)量。

許多模型在這兩種角色中都能勝任——例如 GPT-4、Qwen-1.5 和 LLaMA 在提議和聚合任務(wù)中均表現(xiàn)出色；而有些模型（如 WizardLM）則在擔任提議者時表現(xiàn)尤為突出，優(yōu)于其作為聚合者的表現(xiàn)。MoA 正是通過識別并發(fā)揮每個模型的優(yōu)勢，將其分配到最擅長的角色中，從而最大化整體性能。

分層迭代優(yōu)化

MoA 將智能體組織成多個層級（可理解為一個小型模型流水線）。

如圖2所示，一個典型的 MoA 架構(gòu)包含4層，每層有3個智能體。在第一層，n 個提議者智能體獨立生成對用戶提示的回應(yīng)。這些輸出隨后傳遞到第二層，由另一組智能體（可以是相同的模型或不同的模型）接收，并將所有前序答案作為額外上下文進行處理。因此，每一層的智能體都擁有更豐富的信息進行加工，從而實現(xiàn)對回答的逐步精煉。

該過程在若干層中持續(xù)進行，最終由一個聚合者智能體生成最終的整合答案。直觀來看，前幾層負責提出想法和部分解決方案，后幾層則負責整合與潤色。到了最后一層，答案已遠比任何一次“初稿”更加全面和穩(wěn)健。

混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能-AI.x社區(qū)

圖2：混合智能體（MoA）架構(gòu)（簡化為3個智能體 × 4層）

實踐中的提議者 vs. 聚合者

一個關(guān)鍵的設(shè)計問題是：如何將模型分配到不同層級？MoA 論文提出了兩個標準：

(a) 性能：性能更強的模型（單模型勝率更高）更適合放在后面的層級。(b) 多樣性：使用多種類型的模型組合，確保每個模型都能帶來獨特的貢獻。

事實上，研究發(fā)現(xiàn)，異構(gòu)模型（不同架構(gòu)或訓練方式的模型）的貢獻遠大于同一模型的多個副本。

在 MoA 的具體實現(xiàn)中，最后一層通常由表現(xiàn)最出色的單一模型擔任聚合者角色，而前面的層級則可以由一組多樣化的提議者填充。有趣的是，實驗表明許多頂級模型在兩種角色中都表現(xiàn)良好，但某些模型在某一角色上明顯更具優(yōu)勢。

例如：

WizardLM（一種基于 LLaMA 微調(diào)的變體）在作為提議者生成創(chuàng)造性答案方面表現(xiàn)出色，但在作為聚合者整合他人內(nèi)容時表現(xiàn)較弱。
GPT-4（OpenAI）和Qwen-1.5（阿里巴巴）則更為全能，在提議者和聚合者兩種角色中均表現(xiàn)優(yōu)異。

這些洞察可以幫助開發(fā)者選擇合適的模型組合。例如：

使用一個開源的、類似 GPT-4 的模型作為最終的聚合者；
配合多個專業(yè)化的較小模型作為提議者（如：一個專精代碼的模型、一個專精推理的模型等），根據(jù)查詢領(lǐng)域靈活調(diào)整。

基準測試結(jié)果：MoA 僅用開源模型即超越 GPT-4

MoA 架構(gòu)在多個高難度基準測試中進行了評估，結(jié)果令人矚目：即使完全不使用 GPT-4，僅靠開源模型，MoA 在整體質(zhì)量上也達到了甚至超過了 GPT-4 的水平。

AlpacaEval 2.0（控制長度后的勝率）

模型/配置	勝率
MoA + GPT-4o	65.7%
MoA（僅開源模型）	65.1%
MoA-Lite（成本優(yōu)化版）	59.3%
GPT-4 Omni	57.5%
GPT-4 Turbo	55.0%

?? 可見，僅使用開源模型的 MoA 系統(tǒng)（65.1%）已顯著超越 GPT-4 Omni（57.5%）

MT-Bench（平均得分）

模型/配置	平均分
MoA + GPT-4o	9.40
MoA（僅開源模型）	9.25
GPT-4 Turbo	9.31
GPT-4 Omni	9.19

?? MoA（9.25）略優(yōu)于 GPT-4 Omni（9.19），接近 GPT-4 Turbo 水平。

FLASK（基于技能的評估）

在 FLASK 的多個維度評估中，MoA 全面超越 GPT-4 Omni，具體體現(xiàn)在：

?魯棒性（Robustness）
?正確性（Correctness）
?事實性（Factuality）
?洞察力（Insightfulness）
?完整性（Completeness）
?元認知能力（Metacognition）

混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能-AI.x社區(qū)

圖3：細粒度評估（FLASK）雷達圖。MoA（紅色虛線）與 GPT-4（藍色）在12項技能維度上的對比。

MoA 在多個方面表現(xiàn)優(yōu)于 GPT-4（如事實性、洞察力），僅在簡潔性上略有不足（即略顯冗長）。而單獨使用 Qwen-110B（紅色實線）作為 MoA 的聚合器時，在多項技能上落后于完整 MoA 系統(tǒng)，這表明多智能體之間的協(xié)同效應(yīng)顯著提升了整體性能。

關(guān)鍵優(yōu)勢：高效且低成本

必須強調(diào)的是，MoA 的效率優(yōu)勢極為突出：上述性能提升是通過一組總體成本遠低于 GPT-4 的開源模型實現(xiàn)的。

例如，某一 MoA 配置在 3 個層級中使用了 6 個開源模型（如 Qwen-110B、LLaMA-70B 等），其總成本仍僅為 GPT-4 API 調(diào)用費用的一小部分。

研究團隊還設(shè)計了一個輕量版本——MoA-Lite：僅使用 2 個層級，并采用較小的聚合模型（Qwen-72B）。即便如此，它在 AlpacaEval 上仍以 59.3% 的勝率略微超過 GPT-4 Omni（57.5%），同時具備更高的成本效益。

換句話說，即使簡化版的 MoA 也能以更低的成本超越 GPT-4 的質(zhì)量水平。

這是如何實現(xiàn)的？

本質(zhì)上，MoA 利用了“模型群體的智慧”。每個智能體貢獻其獨特優(yōu)勢：

有的補充知識，
有的檢查邏輯一致性，
有的優(yōu)化語言表達。

最終輸出融合了所有智能體的專業(yè)能力，形成更優(yōu)結(jié)果。

研究人員還將 MoA 與一種“樸素的 LLM 排名集成法”進行了對比。后者只是讓多個模型生成答案，再由一個 LLM（如 GPT-4 或 Qwen）從中選出最佳答案，但不進行內(nèi)容整合。

實驗表明，MoA 顯著優(yōu)于這種“僅選擇”方法。這證明了 MoA 中的聚合器并非簡單地“挑一個最好的”，而是真正實現(xiàn)了思想的融合。論文甚至通過 BLEU 分數(shù)相關(guān)性分析發(fā)現(xiàn)：聚合器的最終回答與各提議中最優(yōu)部分的重合度最高。

? 關(guān)鍵在于協(xié)作，而非選擇。

成本、靈活性與實踐啟示

對開發(fā)者而言，MoA 的一大吸引力在于其卓越的成本效益。

通過協(xié)調(diào)多個小型開源模型，您無需為每次查詢支付 GPT-4 的高昂 API 費用，也無需運行一個 1750 億參數(shù)的巨型模型，即可獲得接近甚至超越 GPT-4 的輸出質(zhì)量。MoA 團隊提供了詳細的成本分析（見圖5）。

MoA 的各種配置位于“質(zhì)量 vs 成本”的帕累托前沿（Pareto frontier）上——即在顯著更低的成本下，實現(xiàn)更高的勝率。

例如：

某一 MoA 配置的勝率比 GPT-4 Turbo 高出4%，而推理成本卻只有其一半。
MoA-Lite（2層）以與 GPT-4 Omni 相當?shù)某杀荆_到了相同的勝率，性價比持平；
更令人振奮的是，它以一半的成本，實現(xiàn)了超過 GPT-4 Turbo 的質(zhì)量。

這為預(yù)算有限的應(yīng)用打開了大門：您完全可以部署一組經(jīng)過微調(diào)的 70 億到 700 億參數(shù)的開源模型，通過 MoA 架構(gòu)協(xié)同工作，整體性能媲美甚至超越閉源的 1750 億參數(shù)大模型。

混合智能體（MoA）框架：通過多智能體協(xié)作提升大語言模型性能-AI.x社區(qū)

圖5：性能、成本與延遲之間的權(quán)衡

左側(cè)：每查詢成本（API 費用） vs. 長度控制勝率（質(zhì)量）。MoA（灰色虛線帕累托前沿上的藍/橙色點）以遠低于 GPT-4（紅色星標）的成本，實現(xiàn)了約 60%–65% 的勝率。

右側(cè)：勝率 vs. 推理吞吐量（以 TFLOPs 衡量，作為延遲的代理指標）。MoA 再次位于帕累托前沿——通過組合多個小型模型，高效達到高質(zhì)量水平。

“單提議者”（Single Proposer）：使用一個模型生成多個答案；
“多提議者”（Multi Proposer，即 MoA）：每層使用不同模型，并行運行智能體，計算效率更高。

另一大優(yōu)勢：靈活性

由于 MoA 完全基于提示（prompting）運行，您可以根據(jù)查詢復雜度或可用算力，動態(tài)調(diào)整智能體數(shù)量或?qū)蛹墧?shù)。

需要快速、低成本的回答？使用更少智能體的MoA-Lite。
追求最高質(zhì)量？增加一個更大規(guī)模的聚合器（甚至可以將 GPT-4 本身作為 MoA 的最終聚合器，進一步提升質(zhì)量）。

該框架允許您自由組合任意可提示的開源模型。這也意味著您可以對智能體進行專業(yè)化配置：

例如：
在第1層加入一個專精代碼的 LLM來提出編程方案，
加入一個專精數(shù)學的 LLM來驗證計算，
最后由聚合器整合所有輸出。

論文中的消融實驗表明：使用異構(gòu)模型類型（即不同類型模型組合）顯著優(yōu)于同質(zhì)化智能體——因此，多樣性是值得充分利用的優(yōu)勢。

實現(xiàn)建議

作者已在 GitHub 上公開了 MoA 的代碼（包括提示腳本和模型配置），便于復現(xiàn)和定制：?? ??https://github.com/togethercomputer/moa??

如何實現(xiàn) MoA？

每層的智能體并行運行（以最小化延遲）；
收集輸出；
將這些輸出連同一條“聚合”系統(tǒng)提示（system prompt）一起，輸入到下一層智能體中。

? 無需微調(diào)，僅需精心設(shè)計提示詞（prompt engineering）即可。

實用技巧：

建議對智能體使用長度控制的生成，防止某個模型輸出過長，確保聚合器接收到平衡的輸入。
在選擇各層模型時，建議：

將最強的模型作為最終聚合器（因其負責輸出最終答案）；

將較小或更多樣化的模型作為前幾層的提議者。

論文中默認的 MoA 配置為：3 層，每層 6 個智能體

聚合器：Qwen-110B
提議者：Qwen-72B、WizardLM-22B、LLaMA-3 70B、Mixtral-22B、Mosaic 的 MPT（dbrx）?

該組合兼顧了基礎(chǔ)性能和模型異質(zhì)性。

結(jié)論

展望未來，混合智能體（MoA）指明了一種構(gòu)建 AI 系統(tǒng)的新范式。

我們不再依賴單一的“全能型”巨型模型，而是可以組建一支由專業(yè)化模型組成的團隊，通過自然語言協(xié)同工作——這類似于人類團隊的協(xié)作方式。

例如，在醫(yī)療場景中：

一個智能體提出可能的診斷；
另一個智能體核對醫(yī)學數(shù)據(jù)庫驗證結(jié)果；
第三個智能體（聚合器）整合所有信息，形成最終建議。

這類智能體生態(tài)系統(tǒng)通常更具魯棒性和透明度：您可以追蹤每個智能體的貢獻，從而更容易理解并信任最終輸出。

研究表明，即使當前的模型無需額外訓練，也能有效協(xié)作。一旦協(xié)作，其整體表現(xiàn)就能超越任何單一模型獨立工作的結(jié)果。

對于生產(chǎn)級 AI 應(yīng)用，MoA 提供了一條實用且成本效益高的路徑：通過組合開源模型，實現(xiàn) GPT-4 級別的質(zhì)量，而無需支付單一閉源大模型的高昂費用。

隨著開源大語言模型持續(xù)進步，MoA 風格的架構(gòu)很可能成為主流——通過協(xié)作而非模型規(guī)模來提升性能。

“大語言模型作為團隊成員”的時代，才剛剛開始。

核心要點總結(jié)

優(yōu)勢	說明
? 協(xié)作提升質(zhì)量	多個 LLM 交換并優(yōu)化彼此輸出，即使部分輸入較弱，也能利用“協(xié)作性”效應(yīng)提升整體表現(xiàn)。
? 分層逐步優(yōu)化	每層智能體都能看到前序輸出和原始提示，實現(xiàn)逐步精煉。
? 基準測試表現(xiàn)優(yōu)異	在多個基準上超越成本更高的模型。
? 成本效益高	使用更便宜的開源模型即可匹配甚至超越 GPT-4 質(zhì)量；MoA-Lite 在低算力下仍表現(xiàn)強勁。
? 高度靈活	可輕松替換為領(lǐng)域?qū)Ｓ媚Ｐ停蛘{(diào)整層級以平衡速度與質(zhì)量。
? 面向未來	代表向“多智能體 AI 系統(tǒng)”的轉(zhuǎn)變，模擬專家團隊協(xié)作，有望成為生產(chǎn)級 LLM 部署的標準范式。