Meta超級(jí)智能實(shí)驗(yàn)室又發(fā)論文,模型混一混,性能直接SOTA
大語(yǔ)言模型(LLM)在眾多領(lǐng)域展現(xiàn)出卓越的能力,但它們的訓(xùn)練依然高度依賴算力和時(shí)間,需要龐大的計(jì)算資源以及精細(xì)的訓(xùn)練流程設(shè)計(jì)。
模型 Souping(Model Souping) ,即對(duì)同一架構(gòu)的多個(gè)模型進(jìn)行權(quán)重平均,形成一個(gè)新的、更強(qiáng)的模型。相比訓(xùn)練一個(gè)龐大的統(tǒng)一模型,souping 更輕量、成本更低,同時(shí)能夠融合模型的互補(bǔ)能力。
然而,傳統(tǒng)的模型 souping 方式通常采用簡(jiǎn)單的均勻平均,即把所有候選模型的參數(shù)直接做等權(quán)融合。
本文中,來(lái)自 Meta、倫敦大學(xué)學(xué)院機(jī)構(gòu)的研究者提出類專家 Soup(Soup Of Category Experts, SoCE),這是一種基于模型 Souping 的系統(tǒng)化方法,它利用基準(zhǔn)測(cè)試的類別構(gòu)成來(lái)挑選最優(yōu)模型候選,并通過(guò)非均勻加權(quán)平均來(lái)最大化整體性能。
與以往均勻平均方法不同,本文基于一個(gè)關(guān)鍵觀察:不同基準(zhǔn)類別之間的模型性能往往呈現(xiàn)弱相關(guān)性。因此,SoCE 能夠?yàn)槊總€(gè)弱相關(guān)的類別簇挑選對(duì)應(yīng)的專家模型,并通過(guò)優(yōu)化的加權(quán)方式(而非統(tǒng)一權(quán)重)將它們組合起來(lái)。
實(shí)驗(yàn)結(jié)果表明,SoCE 大大提升了模型效果與穩(wěn)健性,包括在多語(yǔ)言能力、工具調(diào)用、數(shù)學(xué)推理等任務(wù)上,并在 Berkeley Function Calling 排行榜上取得了 SOTA 成績(jī)。

- 論文地址:https://arxiv.org/pdf/2511.13254
- 項(xiàng)目地址:https://github.com/facebookresearch/llm_souping?tab=readme-ov-file
- 論文標(biāo)題:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
方法介紹
SoCE 基于這樣一個(gè)洞見(jiàn):基準(zhǔn)測(cè)試中不同類別的模型表現(xiàn)往往呈現(xiàn)高度異質(zhì)的相關(guān)結(jié)構(gòu)。不同模型在不同類別上展現(xiàn)出各自的專長(zhǎng),一些類別之間強(qiáng)相關(guān),而另一些類別之間相關(guān)性較弱,甚至可能呈負(fù)相關(guān)。
研究者為了說(shuō)明這一現(xiàn)象,他們選擇分析 Berkeley Function Calling Leaderboard(BFCL)。BFCL 包含多種不同類型的函數(shù)調(diào)用任務(wù),例如:多輪函數(shù)調(diào)用。這些任務(wù)分別測(cè)試模型不同方面的能力,因此非常適合用來(lái)觀察類別間的能力相關(guān)性。
他們制作了一張相關(guān)性熱力圖(correlation heatmap),顏色越深代表相關(guān)性越強(qiáng)。

強(qiáng)相關(guān)(深綠色區(qū)域):多輪任務(wù)之間的相關(guān)性極高,介于 0.96 到 0.98 之間。這意味著一個(gè)模型如果在某個(gè)多輪任務(wù)上表現(xiàn)優(yōu)秀,它通常在所有多輪相關(guān)場(chǎng)景中都能保持同樣的優(yōu)勢(shì)。
弱相關(guān)甚至負(fù)相關(guān)(淺綠色區(qū)域):二者之間的相關(guān)性僅 0.07。這幾乎意味著它們是兩個(gè)完全不同的能力維度。一個(gè)模型即便在結(jié)構(gòu)化的多輪場(chǎng)景中表現(xiàn)良好,也并不保證在真實(shí)用戶采集的開(kāi)放式函數(shù)調(diào)用任務(wù)中表現(xiàn)可靠。
SoCE 利用上述相關(guān)性模式,來(lái)有策略地選擇并加權(quán)模型進(jìn)行 souping(參數(shù)融合)。其核心思想是:為每個(gè)弱相關(guān)類別簇找到最擅長(zhǎng)該類別的專家模型,并通過(guò)優(yōu)化后的加權(quán)平均將它們?nèi)诤希瑥亩Y(jié)合模型間互補(bǔ)的能力。
算法 1 對(duì)整個(gè)流程進(jìn)行了形式化描述,包含四個(gè)關(guān)鍵步驟:
- 相關(guān)性分析:識(shí)別類別之間的弱相關(guān)(或不相關(guān))類別對(duì);
- 專家模型選擇:根據(jù)性能排名,為每個(gè)類別挑選表現(xiàn)最好的專家模型;
- 權(quán)重優(yōu)化:尋找能最大化整體性能的加權(quán)方案;
- 加權(quán)模型 souping:根據(jù)優(yōu)化后的權(quán)重對(duì)模型進(jìn)行加權(quán)融合,得到最終模型。
權(quán)重優(yōu)化階段,在一組統(tǒng)一的權(quán)重范圍內(nèi)進(jìn)行搜索。具體而言,對(duì)每個(gè)模型的權(quán)重從 0.1 到 0.9,以 0.1 為步長(zhǎng),遍歷所有可能的權(quán)重組合。

實(shí)驗(yàn)
作者進(jìn)行了大量實(shí)驗(yàn),以評(píng)估 SoCE 在多個(gè)維度上的有效性。
作者在 BFCL 基準(zhǔn)上對(duì)兩組模型進(jìn)行了對(duì)比,分別是 700 億參數(shù)和 80 億參數(shù)的密集模型。
對(duì)于 70B 模型,他們從官方排行榜中篩選出 4 個(gè)候選模型,并在這些模型上應(yīng)用了 SoCE 方法。結(jié)果顯示,SoCE 在 BFCL 上取得了 80.68% 的準(zhǔn)確率,創(chuàng)造了新的 SOTA,相比此前表現(xiàn)最佳的單模型 xLAM-2-70b-fc-r(78.56%)提升了 2.7%。
最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 組成,它們的最優(yōu)權(quán)重分別為 0.5、0.2 和 0.3。
對(duì)于 8B 模型,SoCE 達(dá)到了 76.50% 的準(zhǔn)確率,超越了此前 8B 模型 xLAM-2-8b-fc-r,相對(duì)提升達(dá) 5.7%。其最優(yōu)權(quán)重配置為:
- xLAM-2-8b-fc-r:0.7
- ToolACE-2-8B:0.2
- watt-tool-8B:0.1
作者還進(jìn)行了消融研究,結(jié)果都顯示,無(wú)論是 70B 還是 8B,SoCE 的模型選擇步驟都帶來(lái)了性能提升。
表 2a 展示了模型在 MGSM(Multilingual Grade School Math)基準(zhǔn)上的實(shí)驗(yàn)結(jié)果。SoCE 的表現(xiàn)優(yōu)于所有候選模型以及平均 souping。

隨后,作者在 MGSM、BFCL、FLORES-36 等多個(gè)基準(zhǔn)上,對(duì)大量候選模型的 checkpoint 進(jìn)行了系統(tǒng)的 model souping 實(shí)驗(yàn)與評(píng)估,并據(jù)此得出以下關(guān)鍵結(jié)論:
類別間線性相關(guān)性在模型 Souping 之后顯著提升:如圖 2 所示。

各類別整體性能穩(wěn)定提升:例如,對(duì)于在 Llama-70B 基礎(chǔ)上微調(diào)的 checkpoint,在 37 項(xiàng)模型 Souping 實(shí)驗(yàn)中的 35 項(xiàng)中,Soup 后的候選模型在 36 個(gè)類別中有超過(guò) 20 個(gè)類別的指標(biāo)得分更高,并且在所有類別上的凈性能增益均為正(見(jiàn)圖 5)。

圖 3a 和 3b 所示,SoCE 能夠找到不同類別的專長(zhǎng)模型,從而帶來(lái)顯著性能提升。

了解更多內(nèi)容,請(qǐng)參考原論文。

































