Meta超級(jí)智能實(shí)驗(yàn)室又發(fā)論文，模型混一混，性能直接SOTA

2025-11-21 12:04:58

本文中，來(lái)自 Meta、倫敦大學(xué)學(xué)院機(jī)構(gòu)的研究者提出類專家 Soup（Soup Of Category Experts, SoCE），這是一種基于模型 Souping 的系統(tǒng)化方法，它利用基準(zhǔn)測(cè)試的類別構(gòu)成來(lái)挑選最優(yōu)模型候選，并通過(guò)非均勻加權(quán)平均來(lái)最大化整體性能。

大語(yǔ)言模型（LLM）在眾多領(lǐng)域展現(xiàn)出卓越的能力，但它們的訓(xùn)練依然高度依賴算力和時(shí)間，需要龐大的計(jì)算資源以及精細(xì)的訓(xùn)練流程設(shè)計(jì)。

模型 Souping（Model Souping），即對(duì)同一架構(gòu)的多個(gè)模型進(jìn)行權(quán)重平均，形成一個(gè)新的、更強(qiáng)的模型。相比訓(xùn)練一個(gè)龐大的統(tǒng)一模型，souping 更輕量、成本更低，同時(shí)能夠融合模型的互補(bǔ)能力。

然而，傳統(tǒng)的模型 souping 方式通常采用簡(jiǎn)單的均勻平均，即把所有候選模型的參數(shù)直接做等權(quán)融合。

與以往均勻平均方法不同，本文基于一個(gè)關(guān)鍵觀察：不同基準(zhǔn)類別之間的模型性能往往呈現(xiàn)弱相關(guān)性。因此，SoCE 能夠?yàn)槊總€(gè)弱相關(guān)的類別簇挑選對(duì)應(yīng)的專家模型，并通過(guò)優(yōu)化的加權(quán)方式（而非統(tǒng)一權(quán)重）將它們組合起來(lái)。

實(shí)驗(yàn)結(jié)果表明，SoCE 大大提升了模型效果與穩(wěn)健性，包括在多語(yǔ)言能力、工具調(diào)用、數(shù)學(xué)推理等任務(wù)上，并在 Berkeley Function Calling 排行榜上取得了 SOTA 成績(jī)。

論文地址：https://arxiv.org/pdf/2511.13254
項(xiàng)目地址：https://github.com/facebookresearch/llm_souping?tab=readme-ov-file
論文標(biāo)題：Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

方法介紹

SoCE 基于這樣一個(gè)洞見(jiàn)：基準(zhǔn)測(cè)試中不同類別的模型表現(xiàn)往往呈現(xiàn)高度異質(zhì)的相關(guān)結(jié)構(gòu)。不同模型在不同類別上展現(xiàn)出各自的專長(zhǎng)，一些類別之間強(qiáng)相關(guān)，而另一些類別之間相關(guān)性較弱，甚至可能呈負(fù)相關(guān)。

研究者為了說(shuō)明這一現(xiàn)象，他們選擇分析 Berkeley Function Calling Leaderboard（BFCL）。BFCL 包含多種不同類型的函數(shù)調(diào)用任務(wù)，例如：多輪函數(shù)調(diào)用。這些任務(wù)分別測(cè)試模型不同方面的能力，因此非常適合用來(lái)觀察類別間的能力相關(guān)性。

他們制作了一張相關(guān)性熱力圖（correlation heatmap），顏色越深代表相關(guān)性越強(qiáng)。

強(qiáng)相關(guān)（深綠色區(qū)域）：多輪任務(wù)之間的相關(guān)性極高，介于 0.96 到 0.98 之間。這意味著一個(gè)模型如果在某個(gè)多輪任務(wù)上表現(xiàn)優(yōu)秀，它通常在所有多輪相關(guān)場(chǎng)景中都能保持同樣的優(yōu)勢(shì)。

弱相關(guān)甚至負(fù)相關(guān)（淺綠色區(qū)域）：二者之間的相關(guān)性僅 0.07。這幾乎意味著它們是兩個(gè)完全不同的能力維度。一個(gè)模型即便在結(jié)構(gòu)化的多輪場(chǎng)景中表現(xiàn)良好，也并不保證在真實(shí)用戶采集的開(kāi)放式函數(shù)調(diào)用任務(wù)中表現(xiàn)可靠。

SoCE 利用上述相關(guān)性模式，來(lái)有策略地選擇并加權(quán)模型進(jìn)行 souping（參數(shù)融合）。其核心思想是：為每個(gè)弱相關(guān)類別簇找到最擅長(zhǎng)該類別的專家模型，并通過(guò)優(yōu)化后的加權(quán)平均將它們?nèi)诤希瑥亩Y(jié)合模型間互補(bǔ)的能力。

算法 1 對(duì)整個(gè)流程進(jìn)行了形式化描述，包含四個(gè)關(guān)鍵步驟：

相關(guān)性分析：識(shí)別類別之間的弱相關(guān)（或不相關(guān)）類別對(duì)；
專家模型選擇：根據(jù)性能排名，為每個(gè)類別挑選表現(xiàn)最好的專家模型；
權(quán)重優(yōu)化：尋找能最大化整體性能的加權(quán)方案；
加權(quán)模型 souping：根據(jù)優(yōu)化后的權(quán)重對(duì)模型進(jìn)行加權(quán)融合，得到最終模型。

權(quán)重優(yōu)化階段，在一組統(tǒng)一的權(quán)重范圍內(nèi)進(jìn)行搜索。具體而言，對(duì)每個(gè)模型的權(quán)重從 0.1 到 0.9，以 0.1 為步長(zhǎng)，遍歷所有可能的權(quán)重組合。

實(shí)驗(yàn)

作者進(jìn)行了大量實(shí)驗(yàn)，以評(píng)估 SoCE 在多個(gè)維度上的有效性。

作者在 BFCL 基準(zhǔn)上對(duì)兩組模型進(jìn)行了對(duì)比，分別是 700 億參數(shù)和 80 億參數(shù)的密集模型。

對(duì)于 70B 模型，他們從官方排行榜中篩選出 4 個(gè)候選模型，并在這些模型上應(yīng)用了 SoCE 方法。結(jié)果顯示，SoCE 在 BFCL 上取得了 80.68% 的準(zhǔn)確率，創(chuàng)造了新的 SOTA，相比此前表現(xiàn)最佳的單模型 xLAM-2-70b-fc-r（78.56%）提升了 2.7%。

最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 組成，它們的最優(yōu)權(quán)重分別為 0.5、0.2 和 0.3。

對(duì)于 8B 模型，SoCE 達(dá)到了 76.50% 的準(zhǔn)確率，超越了此前 8B 模型 xLAM-2-8b-fc-r，相對(duì)提升達(dá) 5.7%。其最優(yōu)權(quán)重配置為：

xLAM-2-8b-fc-r：0.7
ToolACE-2-8B：0.2
watt-tool-8B：0.1

作者還進(jìn)行了消融研究，結(jié)果都顯示，無(wú)論是 70B 還是 8B，SoCE 的模型選擇步驟都帶來(lái)了性能提升。

表 2a 展示了模型在 MGSM（Multilingual Grade School Math）基準(zhǔn)上的實(shí)驗(yàn)結(jié)果。SoCE 的表現(xiàn)優(yōu)于所有候選模型以及平均 souping。

隨后，作者在 MGSM、BFCL、FLORES-36 等多個(gè)基準(zhǔn)上，對(duì)大量候選模型的 checkpoint 進(jìn)行了系統(tǒng)的 model souping 實(shí)驗(yàn)與評(píng)估，并據(jù)此得出以下關(guān)鍵結(jié)論：

類別間線性相關(guān)性在模型 Souping 之后顯著提升：如圖 2 所示。

各類別整體性能穩(wěn)定提升：例如，對(duì)于在 Llama-70B 基礎(chǔ)上微調(diào)的 checkpoint，在 37 項(xiàng)模型 Souping 實(shí)驗(yàn)中的 35 項(xiàng)中，Soup 后的候選模型在 36 個(gè)類別中有超過(guò) 20 個(gè)類別的指標(biāo)得分更高，并且在所有類別上的凈性能增益均為正（見(jiàn)圖 5）。

圖 3a 和 3b 所示，SoCE 能夠找到不同類別的專長(zhǎng)模型，從而帶來(lái)顯著性能提升。

了解更多內(nèi)容，請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 論文 LLM