混合智能體(MoA)框架:通過多智能體協(xié)作提升大語言模型性能
混合智能體(Mixture-of-Agents, MoA)框架正在重新定義我們?nèi)绾螌⒋笳Z言模型(LLM)推向更高的準確性、推理深度和可靠性水平——而無需承擔擴展單一巨型模型所帶來的高昂成本。
MoA 并不依賴于一個“通才型”的大語言模型,而是協(xié)調(diào)一組專業(yè)化的模型,以結(jié)構(gòu)化的層級進行協(xié)作,逐步優(yōu)化輸出結(jié)果。這種方法即使使用開源模型,也已在多個基準測試中展現(xiàn)出最先進的(SOTA)性能,甚至超越了如 GPT-4 Omni 等頂級專有大語言模型。
大語言模型間的協(xié)作性
為何要組合多個模型?MoA 團隊發(fā)現(xiàn),許多現(xiàn)成的大語言模型在參考彼此答案時表現(xiàn)更優(yōu)。在 AlpacaEval 2.0 基準測試的實驗中,像 LLaMA、WizardLM 和 Qwen 這樣的模型,在接收到提示的同時還能看到其他模型的答案時,其表現(xiàn)更佳(相對于 GPT-4 參考答案的“勝率”更高)。
圖1顯示,當每個模型能夠看到其他模型的響應(yīng)時,其勝率顯著提升(紅色柱狀圖對比藍色柱狀圖)——這證明了大語言模型具有“內(nèi)在協(xié)作”能力,能夠基于彼此的答案進行修正或驗證。關(guān)鍵的是,即使同伴的答案比該模型單獨生成的更差,這種提升依然存在。換句話說,多個視角有助于大語言模型避免盲點。這一洞察促使了MoA框架的設(shè)計:通過一個框架來整合多個模型的集體專業(yè)知識。

圖1:模型“協(xié)作性”效應(yīng)——當大語言模型(LLMs)獲得其他模型的答案(紅色)時,在AlpacaEval 2.0上的得分高于單獨作答時(藍色)。即使是頂級模型(例如Qwen 110B)也能從與同伴協(xié)作中受益,這正是MoA框架設(shè)計背后的驅(qū)動力。
MoA 的優(yōu)勢
MoA 采用一種結(jié)構(gòu)化的多智能體方法來解決上述問題:
- 分層設(shè)計:每一層包含多個智能體,每個智能體都將前一層的所有輸出作為輸入。
- 角色專業(yè)化:提議者(Proposers):生成多樣化的候選答案。聚合者(Aggregators):整合并優(yōu)化這些候選答案,生成一個質(zhì)量更高的最終輸出。
- 迭代優(yōu)化:每一層都基于前一層的結(jié)果進行構(gòu)建,逐步提升回答的準確性和連貫性。
- 模型多樣性:結(jié)合不同架構(gòu)的模型,減少共有的弱點。
- 無需微調(diào):完全通過提示詞工程(prompt engineering)實現(xiàn)高效協(xié)作。
每個智能體都是一個大語言模型(LLM),被分配兩種角色之一:提議者或聚合者。
提議者智能體
負責生成候選答案。它們“擅長產(chǎn)出有用的參考回答”,為問題提供豐富的上下文和多元的視角。雖然提議者自身未必能給出最佳的最終答案,但它們?yōu)檎w解決方案貢獻了關(guān)鍵的“拼圖碎片”。
聚合者智能體
與提議者不同,聚合者專注于整合和優(yōu)化他人的輸出。一個優(yōu)秀的聚合者能夠?qū)⒁唤M粗糙的答案融合成一個高質(zhì)量的統(tǒng)一回答,即使部分輸入質(zhì)量較低,也能保持甚至提升最終輸出的質(zhì)量。
許多模型在這兩種角色中都能勝任——例如 GPT-4、Qwen-1.5 和 LLaMA 在提議和聚合任務(wù)中均表現(xiàn)出色;而有些模型(如 WizardLM)則在擔任提議者時表現(xiàn)尤為突出,優(yōu)于其作為聚合者的表現(xiàn)。MoA 正是通過識別并發(fā)揮每個模型的優(yōu)勢,將其分配到最擅長的角色中,從而最大化整體性能。
分層迭代優(yōu)化
MoA 將智能體組織成多個層級(可理解為一個小型模型流水線)。
如圖2所示,一個典型的 MoA 架構(gòu)包含4層,每層有3個智能體。在第一層,n 個提議者智能體獨立生成對用戶提示的回應(yīng)。這些輸出隨后傳遞到第二層,由另一組智能體(可以是相同的模型或不同的模型)接收,并將所有前序答案作為額外上下文進行處理。因此,每一層的智能體都擁有更豐富的信息進行加工,從而實現(xiàn)對回答的逐步精煉。
該過程在若干層中持續(xù)進行,最終由一個聚合者智能體生成最終的整合答案。直觀來看,前幾層負責提出想法和部分解決方案,后幾層則負責整合與潤色。到了最后一層,答案已遠比任何一次“初稿”更加全面和穩(wěn)健。

圖2:混合智能體(MoA)架構(gòu)(簡化為3個智能體 × 4層)
實踐中的提議者 vs. 聚合者
一個關(guān)鍵的設(shè)計問題是:如何將模型分配到不同層級?MoA 論文提出了兩個標準:
(a) 性能:性能更強的模型(單模型勝率更高)更適合放在后面的層級。(b) 多樣性:使用多種類型的模型組合,確保每個模型都能帶來獨特的貢獻。
事實上,研究發(fā)現(xiàn),異構(gòu)模型(不同架構(gòu)或訓練方式的模型)的貢獻遠大于同一模型的多個副本。
在 MoA 的具體實現(xiàn)中,最后一層通常由表現(xiàn)最出色的單一模型擔任聚合者角色,而前面的層級則可以由一組多樣化的提議者填充。有趣的是,實驗表明許多頂級模型在兩種角色中都表現(xiàn)良好,但某些模型在某一角色上明顯更具優(yōu)勢。
例如:
- WizardLM(一種基于 LLaMA 微調(diào)的變體)在作為提議者生成創(chuàng)造性答案方面表現(xiàn)出色,但在作為聚合者整合他人內(nèi)容時表現(xiàn)較弱。
- GPT-4(OpenAI)和Qwen-1.5(阿里巴巴)則更為全能,在提議者和聚合者兩種角色中均表現(xiàn)優(yōu)異。
這些洞察可以幫助開發(fā)者選擇合適的模型組合。例如:
- 使用一個開源的、類似 GPT-4 的模型作為最終的聚合者;
- 配合多個專業(yè)化的較小模型作為提議者(如:一個專精代碼的模型、一個專精推理的模型等),根據(jù)查詢領(lǐng)域靈活調(diào)整。
基準測試結(jié)果:MoA 僅用開源模型即超越 GPT-4
MoA 架構(gòu)在多個高難度基準測試中進行了評估,結(jié)果令人矚目:即使完全不使用 GPT-4,僅靠開源模型,MoA 在整體質(zhì)量上也達到了甚至超過了 GPT-4 的水平。
AlpacaEval 2.0(控制長度后的勝率)
模型/配置 | 勝率 |
MoA + GPT-4o | 65.7% |
MoA(僅開源模型) | 65.1% |
MoA-Lite(成本優(yōu)化版) | 59.3% |
GPT-4 Omni | 57.5% |
GPT-4 Turbo | 55.0% |
?? 可見,僅使用開源模型的 MoA 系統(tǒng)(65.1%)已顯著超越 GPT-4 Omni(57.5%)
MT-Bench(平均得分)
模型/配置 | 平均分 |
MoA + GPT-4o | 9.40 |
MoA(僅開源模型) | 9.25 |
GPT-4 Turbo | 9.31 |
GPT-4 Omni | 9.19 |
?? MoA(9.25)略優(yōu)于 GPT-4 Omni(9.19),接近 GPT-4 Turbo 水平。
FLASK(基于技能的評估)
在 FLASK 的多個維度評估中,MoA 全面超越 GPT-4 Omni,具體體現(xiàn)在:
- ?魯棒性(Robustness)
- ?正確性(Correctness)
- ?事實性(Factuality)
- ?洞察力(Insightfulness)
- ?完整性(Completeness)
- ?元認知能力(Metacognition)

圖3:細粒度評估(FLASK)雷達圖。MoA(紅色虛線)與 GPT-4(藍色)在12項技能維度上的對比。
MoA 在多個方面表現(xiàn)優(yōu)于 GPT-4(如事實性、洞察力),僅在簡潔性上略有不足(即略顯冗長)。而單獨使用 Qwen-110B(紅色實線)作為 MoA 的聚合器時,在多項技能上落后于完整 MoA 系統(tǒng),這表明多智能體之間的協(xié)同效應(yīng)顯著提升了整體性能。
關(guān)鍵優(yōu)勢:高效且低成本
必須強調(diào)的是,MoA 的效率優(yōu)勢極為突出:上述性能提升是通過一組總體成本遠低于 GPT-4 的開源模型實現(xiàn)的。
例如,某一 MoA 配置在 3 個層級中使用了 6 個開源模型(如 Qwen-110B、LLaMA-70B 等),其總成本仍僅為 GPT-4 API 調(diào)用費用的一小部分。
研究團隊還設(shè)計了一個輕量版本——MoA-Lite:僅使用 2 個層級,并采用較小的聚合模型(Qwen-72B)。即便如此,它在 AlpacaEval 上仍以 59.3% 的勝率略微超過 GPT-4 Omni(57.5%),同時具備更高的成本效益。
換句話說,即使簡化版的 MoA 也能以更低的成本超越 GPT-4 的質(zhì)量水平。
這是如何實現(xiàn)的?
本質(zhì)上,MoA 利用了“模型群體的智慧”。每個智能體貢獻其獨特優(yōu)勢:
- 有的補充知識,
- 有的檢查邏輯一致性,
- 有的優(yōu)化語言表達。
最終輸出融合了所有智能體的專業(yè)能力,形成更優(yōu)結(jié)果。
研究人員還將 MoA 與一種“樸素的 LLM 排名集成法”進行了對比。后者只是讓多個模型生成答案,再由一個 LLM(如 GPT-4 或 Qwen)從中選出最佳答案,但不進行內(nèi)容整合。
實驗表明,MoA 顯著優(yōu)于這種“僅選擇”方法。這證明了 MoA 中的聚合器并非簡單地“挑一個最好的”,而是真正實現(xiàn)了思想的融合。論文甚至通過 BLEU 分數(shù)相關(guān)性分析發(fā)現(xiàn):聚合器的最終回答與各提議中最優(yōu)部分的重合度最高。
? 關(guān)鍵在于協(xié)作,而非選擇。
成本、靈活性與實踐啟示
對開發(fā)者而言,MoA 的一大吸引力在于其卓越的成本效益。
通過協(xié)調(diào)多個小型開源模型,您無需為每次查詢支付 GPT-4 的高昂 API 費用,也無需運行一個 1750 億參數(shù)的巨型模型,即可獲得接近甚至超越 GPT-4 的輸出質(zhì)量。MoA 團隊提供了詳細的成本分析(見圖5)。
MoA 的各種配置位于“質(zhì)量 vs 成本”的帕累托前沿(Pareto frontier)上——即在顯著更低的成本下,實現(xiàn)更高的勝率。
例如:
- 某一 MoA 配置的勝率比 GPT-4 Turbo 高出4%,而推理成本卻只有其一半。
- MoA-Lite(2層)以與 GPT-4 Omni 相當?shù)某杀荆_到了相同的勝率,性價比持平;
- 更令人振奮的是,它以一半的成本,實現(xiàn)了超過 GPT-4 Turbo 的質(zhì)量。
這為預(yù)算有限的應(yīng)用打開了大門:您完全可以部署一組經(jīng)過微調(diào)的 70 億到 700 億參數(shù)的開源模型,通過 MoA 架構(gòu)協(xié)同工作,整體性能媲美甚至超越閉源的 1750 億參數(shù)大模型。

圖5:性能、成本與延遲之間的權(quán)衡
左側(cè):每查詢成本(API 費用) vs. 長度控制勝率(質(zhì)量)。MoA(灰色虛線帕累托前沿上的藍/橙色點)以遠低于 GPT-4(紅色星標)的成本,實現(xiàn)了約 60%–65% 的勝率。
右側(cè):勝率 vs. 推理吞吐量(以 TFLOPs 衡量,作為延遲的代理指標)。MoA 再次位于帕累托前沿——通過組合多個小型模型,高效達到高質(zhì)量水平。
- “單提議者”(Single Proposer):使用一個模型生成多個答案;
- “多提議者”(Multi Proposer,即 MoA):每層使用不同模型,并行運行智能體,計算效率更高。
另一大優(yōu)勢:靈活性
由于 MoA 完全基于提示(prompting)運行,您可以根據(jù)查詢復雜度或可用算力,動態(tài)調(diào)整智能體數(shù)量或?qū)蛹墧?shù)。
- 需要快速、低成本的回答?使用更少智能體的MoA-Lite。
- 追求最高質(zhì)量?增加一個更大規(guī)模的聚合器(甚至可以將 GPT-4 本身作為 MoA 的最終聚合器,進一步提升質(zhì)量)。
該框架允許您自由組合任意可提示的開源模型。這也意味著您可以對智能體進行專業(yè)化配置:
例如:
- 在第1層加入一個專精代碼的 LLM來提出編程方案,
- 加入一個專精數(shù)學的 LLM來驗證計算,
- 最后由聚合器整合所有輸出。
論文中的消融實驗表明:使用異構(gòu)模型類型(即不同類型模型組合)顯著優(yōu)于同質(zhì)化智能體——因此,多樣性是值得充分利用的優(yōu)勢。
實現(xiàn)建議
作者已在 GitHub 上公開了 MoA 的代碼(包括提示腳本和模型配置),便于復現(xiàn)和定制:?? ??https://github.com/togethercomputer/moa??
如何實現(xiàn) MoA?
- 每層的智能體并行運行(以最小化延遲);
- 收集輸出;
- 將這些輸出連同一條“聚合”系統(tǒng)提示(system prompt)一起,輸入到下一層智能體中。
? 無需微調(diào),僅需精心設(shè)計提示詞(prompt engineering)即可。
實用技巧:
- 建議對智能體使用長度控制的生成,防止某個模型輸出過長,確保聚合器接收到平衡的輸入。
- 在選擇各層模型時,建議:
將最強的模型作為最終聚合器(因其負責輸出最終答案);
將較小或更多樣化的模型作為前幾層的提議者。
論文中默認的 MoA 配置為:3 層,每層 6 個智能體
- 聚合器:Qwen-110B
- 提議者:Qwen-72B、WizardLM-22B、LLaMA-3 70B、Mixtral-22B、Mosaic 的 MPT(dbrx)?
該組合兼顧了基礎(chǔ)性能和模型異質(zhì)性。
結(jié)論
展望未來,混合智能體(MoA)指明了一種構(gòu)建 AI 系統(tǒng)的新范式。
我們不再依賴單一的“全能型”巨型模型,而是可以組建一支由專業(yè)化模型組成的團隊,通過自然語言協(xié)同工作——這類似于人類團隊的協(xié)作方式。
例如,在醫(yī)療場景中:
- 一個智能體提出可能的診斷;
- 另一個智能體核對醫(yī)學數(shù)據(jù)庫驗證結(jié)果;
- 第三個智能體(聚合器)整合所有信息,形成最終建議。
這類智能體生態(tài)系統(tǒng)通常更具魯棒性和透明度:您可以追蹤每個智能體的貢獻,從而更容易理解并信任最終輸出。
研究表明,即使當前的模型無需額外訓練,也能有效協(xié)作。一旦協(xié)作,其整體表現(xiàn)就能超越任何單一模型獨立工作的結(jié)果。
對于生產(chǎn)級 AI 應(yīng)用,MoA 提供了一條實用且成本效益高的路徑:通過組合開源模型,實現(xiàn) GPT-4 級別的質(zhì)量,而無需支付單一閉源大模型的高昂費用。
隨著開源大語言模型持續(xù)進步,MoA 風格的架構(gòu)很可能成為主流——通過協(xié)作而非模型規(guī)模來提升性能。
“大語言模型作為團隊成員”的時代,才剛剛開始。
核心要點總結(jié)
優(yōu)勢 | 說明 |
? 協(xié)作提升質(zhì)量 | 多個 LLM 交換并優(yōu)化彼此輸出,即使部分輸入較弱,也能利用“協(xié)作性”效應(yīng)提升整體表現(xiàn)。 |
? 分層逐步優(yōu)化 | 每層智能體都能看到前序輸出和原始提示,實現(xiàn)逐步精煉。 |
? 基準測試表現(xiàn)優(yōu)異 | 在多個基準上超越成本更高的模型。 |
? 成本效益高 | 使用更便宜的開源模型即可匹配甚至超越 GPT-4 質(zhì)量;MoA-Lite 在低算力下仍表現(xiàn)強勁。 |
? 高度靈活 | 可輕松替換為領(lǐng)域?qū)S媚P停蛘{(diào)整層級以平衡速度與質(zhì)量。 |
? 面向未來 | 代表向“多智能體 AI 系統(tǒng)”的轉(zhuǎn)變,模擬專家團隊協(xié)作,有望成為生產(chǎn)級 LLM 部署的標準范式。 |
參考文獻
混合智能體(MoA)架構(gòu)由 Wang 等人于 2024 年提出:??https://arxiv.org/pdf/2406.04692??
本文轉(zhuǎn)載自??????PyTorch研習社??????,作者:南七無名士

















