精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta超級(jí)智能實(shí)驗(yàn)室又發(fā)論文,模型混一混,性能直接SOTA

人工智能 新聞
本文中,來(lái)自 Meta、倫敦大學(xué)學(xué)院機(jī)構(gòu)的研究者提出類專家 Soup(Soup Of Category Experts, SoCE),這是一種基于模型 Souping 的系統(tǒng)化方法,它利用基準(zhǔn)測(cè)試的類別構(gòu)成來(lái)挑選最優(yōu)模型候選,并通過(guò)非均勻加權(quán)平均來(lái)最大化整體性能。

大語(yǔ)言模型(LLM)在眾多領(lǐng)域展現(xiàn)出卓越的能力,但它們的訓(xùn)練依然高度依賴算力和時(shí)間,需要龐大的計(jì)算資源以及精細(xì)的訓(xùn)練流程設(shè)計(jì)。

模型 Souping(Model Souping) ,即對(duì)同一架構(gòu)的多個(gè)模型進(jìn)行權(quán)重平均,形成一個(gè)新的、更強(qiáng)的模型。相比訓(xùn)練一個(gè)龐大的統(tǒng)一模型,souping 更輕量、成本更低,同時(shí)能夠融合模型的互補(bǔ)能力。

然而,傳統(tǒng)的模型 souping 方式通常采用簡(jiǎn)單的均勻平均,即把所有候選模型的參數(shù)直接做等權(quán)融合。

本文中,來(lái)自 Meta、倫敦大學(xué)學(xué)院機(jī)構(gòu)的研究者提出類專家 Soup(Soup Of Category Experts, SoCE),這是一種基于模型 Souping 的系統(tǒng)化方法,它利用基準(zhǔn)測(cè)試的類別構(gòu)成來(lái)挑選最優(yōu)模型候選,并通過(guò)非均勻加權(quán)平均來(lái)最大化整體性能。

與以往均勻平均方法不同,本文基于一個(gè)關(guān)鍵觀察:不同基準(zhǔn)類別之間的模型性能往往呈現(xiàn)弱相關(guān)性。因此,SoCE 能夠?yàn)槊總€(gè)弱相關(guān)的類別簇挑選對(duì)應(yīng)的專家模型,并通過(guò)優(yōu)化的加權(quán)方式(而非統(tǒng)一權(quán)重)將它們組合起來(lái)。

實(shí)驗(yàn)結(jié)果表明,SoCE 大大提升了模型效果與穩(wěn)健性,包括在多語(yǔ)言能力、工具調(diào)用、數(shù)學(xué)推理等任務(wù)上,并在 Berkeley Function Calling 排行榜上取得了 SOTA 成績(jī)。

  • 論文地址:https://arxiv.org/pdf/2511.13254
  • 項(xiàng)目地址:https://github.com/facebookresearch/llm_souping?tab=readme-ov-file
  • 論文標(biāo)題:Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

方法介紹

SoCE 基于這樣一個(gè)洞見(jiàn):基準(zhǔn)測(cè)試中不同類別的模型表現(xiàn)往往呈現(xiàn)高度異質(zhì)的相關(guān)結(jié)構(gòu)。不同模型在不同類別上展現(xiàn)出各自的專長(zhǎng),一些類別之間強(qiáng)相關(guān),而另一些類別之間相關(guān)性較弱,甚至可能呈負(fù)相關(guān)。

研究者為了說(shuō)明這一現(xiàn)象,他們選擇分析 Berkeley Function Calling Leaderboard(BFCL)。BFCL 包含多種不同類型的函數(shù)調(diào)用任務(wù),例如:多輪函數(shù)調(diào)用。這些任務(wù)分別測(cè)試模型不同方面的能力,因此非常適合用來(lái)觀察類別間的能力相關(guān)性。

他們制作了一張相關(guān)性熱力圖(correlation heatmap),顏色越深代表相關(guān)性越強(qiáng)。

強(qiáng)相關(guān)(深綠色區(qū)域):多輪任務(wù)之間的相關(guān)性極高,介于 0.96 到 0.98 之間。這意味著一個(gè)模型如果在某個(gè)多輪任務(wù)上表現(xiàn)優(yōu)秀,它通常在所有多輪相關(guān)場(chǎng)景中都能保持同樣的優(yōu)勢(shì)。

弱相關(guān)甚至負(fù)相關(guān)(淺綠色區(qū)域):二者之間的相關(guān)性僅 0.07。這幾乎意味著它們是兩個(gè)完全不同的能力維度。一個(gè)模型即便在結(jié)構(gòu)化的多輪場(chǎng)景中表現(xiàn)良好,也并不保證在真實(shí)用戶采集的開(kāi)放式函數(shù)調(diào)用任務(wù)中表現(xiàn)可靠。

SoCE 利用上述相關(guān)性模式,來(lái)有策略地選擇并加權(quán)模型進(jìn)行 souping(參數(shù)融合)。其核心思想是:為每個(gè)弱相關(guān)類別簇找到最擅長(zhǎng)該類別的專家模型,并通過(guò)優(yōu)化后的加權(quán)平均將它們?nèi)诤希瑥亩Y(jié)合模型間互補(bǔ)的能力。

算法 1 對(duì)整個(gè)流程進(jìn)行了形式化描述,包含四個(gè)關(guān)鍵步驟:

  • 相關(guān)性分析:識(shí)別類別之間的弱相關(guān)(或不相關(guān))類別對(duì);
  • 專家模型選擇:根據(jù)性能排名,為每個(gè)類別挑選表現(xiàn)最好的專家模型;
  • 權(quán)重優(yōu)化:尋找能最大化整體性能的加權(quán)方案;
  • 加權(quán)模型 souping:根據(jù)優(yōu)化后的權(quán)重對(duì)模型進(jìn)行加權(quán)融合,得到最終模型。

權(quán)重優(yōu)化階段,在一組統(tǒng)一的權(quán)重范圍內(nèi)進(jìn)行搜索。具體而言,對(duì)每個(gè)模型的權(quán)重從 0.1 到 0.9,以 0.1 為步長(zhǎng),遍歷所有可能的權(quán)重組合。

實(shí)驗(yàn)

作者進(jìn)行了大量實(shí)驗(yàn),以評(píng)估 SoCE 在多個(gè)維度上的有效性。

作者在 BFCL 基準(zhǔn)上對(duì)兩組模型進(jìn)行了對(duì)比,分別是 700 億參數(shù)和 80 億參數(shù)的密集模型。

對(duì)于 70B 模型,他們從官方排行榜中篩選出 4 個(gè)候選模型,并在這些模型上應(yīng)用了 SoCE 方法。結(jié)果顯示,SoCE 在 BFCL 上取得了 80.68% 的準(zhǔn)確率,創(chuàng)造了新的 SOTA,相比此前表現(xiàn)最佳的單模型 xLAM-2-70b-fc-r(78.56%)提升了 2.7%。

最佳模型配置由 xLAM-2-70b-fc-r、CoALM-70B 和 watt-tool-70B 組成,它們的最優(yōu)權(quán)重分別為 0.5、0.2 和 0.3。

對(duì)于 8B 模型,SoCE 達(dá)到了 76.50% 的準(zhǔn)確率,超越了此前 8B 模型 xLAM-2-8b-fc-r,相對(duì)提升達(dá) 5.7%。其最優(yōu)權(quán)重配置為:

  • xLAM-2-8b-fc-r:0.7
  • ToolACE-2-8B:0.2
  • watt-tool-8B:0.1

作者還進(jìn)行了消融研究,結(jié)果都顯示,無(wú)論是 70B 還是 8B,SoCE 的模型選擇步驟都帶來(lái)了性能提升。

表 2a 展示了模型在 MGSM(Multilingual Grade School Math)基準(zhǔn)上的實(shí)驗(yàn)結(jié)果。SoCE 的表現(xiàn)優(yōu)于所有候選模型以及平均 souping。

隨后,作者在 MGSM、BFCL、FLORES-36 等多個(gè)基準(zhǔn)上,對(duì)大量候選模型的 checkpoint 進(jìn)行了系統(tǒng)的 model souping 實(shí)驗(yàn)與評(píng)估,并據(jù)此得出以下關(guān)鍵結(jié)論:

類別間線性相關(guān)性在模型 Souping 之后顯著提升:如圖 2 所示。

各類別整體性能穩(wěn)定提升:例如,對(duì)于在 Llama-70B 基礎(chǔ)上微調(diào)的 checkpoint,在 37 項(xiàng)模型 Souping 實(shí)驗(yàn)中的 35 項(xiàng)中,Soup 后的候選模型在 36 個(gè)類別中有超過(guò) 20 個(gè)類別的指標(biāo)得分更高,并且在所有類別上的凈性能增益均為正(見(jiàn)圖 5)。

圖 3a 和 3b 所示,SoCE 能夠找到不同類別的專長(zhǎng)模型,從而帶來(lái)顯著性能提升。

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-09-08 23:19:25

2025-09-12 09:11:54

Meta語(yǔ)言模型LSP

2025-09-22 10:41:42

2025-07-01 09:04:00

2025-08-20 09:10:00

2025-09-26 08:59:36

2023-10-17 12:33:27

AI模型

2025-10-23 10:17:20

2025-07-02 01:40:00

OpenAI人工智能扎克伯格

2021-08-04 09:48:05

數(shù)字化

2025-08-20 12:41:10

2018-02-07 16:49:20

浦發(fā)銀行

2025-10-11 18:05:23

智能論文AI

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2015-10-10 11:23:49

2011-05-25 17:51:40

2017-10-12 15:51:14

AI人工智能

2025-10-17 09:20:49

2025-07-29 09:06:00

2009-09-21 11:45:36

CCIE實(shí)驗(yàn)室考試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

av电影免费在线看| 在线视频精品免费| 97视频一区| 福利二区91精品bt7086| 午夜精品美女久久久久av福利| 亚洲视频一区在线播放| 欧美精品三级| 国产亚洲福利一区| 中文字幕一二三| 成人免费看黄| 一区二区三区中文字幕在线观看| 久久久www免费人成黑人精品| 中文字幕人成人乱码亚洲电影| 欧美在线高清| 亚洲视频在线免费看| 三级黄色片免费观看| 男人皇宫亚洲男人2020| 亚洲精品国产精品乱码不99| 欧美精品与人动性物交免费看| 国产麻豆免费视频| 日韩综合在线视频| 久久久久久久一区二区| 很污很黄的网站| 日韩激情网站| 日韩久久久久久| 国产三级三级看三级| 高清在线视频不卡| 亚洲精品视频在线观看网站| 日韩三级电影| 天堂在线中文资源| 风间由美一区二区三区在线观看| 国产精品一区二区三区久久久| 久久黄色精品视频| 亚洲国产网站| 久久999免费视频| 国产又色又爽又高潮免费| 久久av中文| 日韩精品久久久久久福利| 不卡的一区二区| 99国内精品久久久久| 欧美性色综合网| 乱子伦视频在线看| 在线观看福利电影| 五月天中文字幕一区二区| 日本丰满少妇黄大片在线观看| www 日韩| 国产欧美日韩三区| 日本视频一区在线观看| 欧美视频免费一区二区三区| 99视频超级精品| 精品乱码一区二区三区| 日本激情一区二区| av成人老司机| 精品欧美国产一区二区三区不卡| 免费观看的毛片| 99久久夜色精品国产网站| 国产精品久久久久久久久久久久冷 | 亚洲**2019国产| 精品无码免费视频| 激情久久一区| 欧美在线激情网| 人妻丰满熟妇av无码区| 老鸭窝91久久精品色噜噜导演| 97成人超碰免| aaaaaa毛片| 免费在线观看精品| 国产精品在线看| 国产熟女一区二区三区四区| 国产999精品久久| 国产在线一区二区三区四区| 日本高清中文字幕二区在线| 国产偷国产偷精品高清尤物| 亚洲ai欧洲av| 国产三级在线播放| 亚洲高清一区二区三区| 九色在线视频观看| 日韩一级二级| 7777精品伊人久久久大香线蕉| 日本xxxx免费| 五月激激激综合网色播| 综合136福利视频在线| 欧美色视频一区二区三区在线观看 | 亚洲国产精品一区二区三区| 18禁裸乳无遮挡啪啪无码免费| 加勒比久久综合| 久久久国产精品x99av| 国产无遮挡aaa片爽爽| 日日噜噜夜夜狠狠视频欧美人 | 亚洲熟妇无码久久精品| 国产精品va在线观看视色| 国产一区二区三区精品在线观看| 91精品国产综合久久久久久久久久| 又黄又爽又色的视频| 日本天堂一区| 久久视频免费观看| 久久黄色精品视频| 激情综合五月婷婷| 久久伊人一区| 羞羞视频在线观看免费| 91高清视频在线| av影片在线播放| 欧美日韩中文字幕一区二区三区 | 亚洲熟妇一区二区三区| 久久久久久国产免费a片| 三级精品视频| 中文字幕无线精品亚洲乱码一区 | 婷婷色在线资源| 狠狠色狠狠色综合日日小说| 91高清国产视频| 国产精品中文字幕制服诱惑| 日韩在线视频观看正片免费网站| 日韩av一二三区| 国产麻豆精品视频| 日韩一区国产在线观看| 91精品国产黑色瑜伽裤| 欧美日韩久久不卡| 搡老熟女老女人一区二区| 91精品国产91久久久久久密臀 | 97视频一区| 自拍亚洲一区欧美另类| 久久青青草原亚洲av无码麻豆| 国产精品88888| 伊人久久av导航| 亚洲伦理影院| 亚洲精品国产精品国自产在线| 国产午夜手机精彩视频| 青青草国产成人av片免费| 国精产品一区二区| 少女频道在线观看高清| 欧美日韩电影一区| 在线小视频你懂的| 在线视频日韩| 国产一区二区在线网站| 免费在线观看av电影| 51午夜精品国产| 国产精品久久国产精麻豆96堂| 香蕉久久久久久久av网站| 国产伦精品一区二区三区照片| 成人影院www在线观看| 欧美午夜影院一区| 午夜在线观看一区| 老司机精品导航| 欧美乱偷一区二区三区在线| 91av亚洲| 亚洲美女av电影| 成人免费看片98欧美| 99久久精品国产一区二区三区| www.射射射| 噜噜噜狠狠夜夜躁精品仙踪林| 97婷婷涩涩精品一区| 天天爽夜夜爽夜夜爽| 天天综合天天做天天综合| 强迫凌虐淫辱の牝奴在线观看| 亚洲日本激情| 精品欧美一区二区三区久久久 | 成人网在线免费观看| 在线视频婷婷| 欧美精品国产精品| 亚洲欧美小视频| 国产成人99久久亚洲综合精品| avav在线播放| 免费日韩一区二区三区| 欧洲亚洲免费在线| 天堂v在线视频| 头脑特工队2免费完整版在线观看| 亚洲一区二区三区自拍| 国产不卡一二三| 乱码第一页成人| 色综合视频二区偷拍在线| 欧美天堂一区| 欧美大片在线免费观看| 日日夜夜精品免费| 色综合久久精品| 中国1级黄色片| 懂色av中文字幕一区二区三区| 国产精品三级一区二区| 欧美爱爱网站| 国产精品成人v| www免费在线观看| 亚洲丁香婷深爱综合| 在线永久看片免费的视频| 国产精品你懂的在线| 伊人av在线播放| 国产精品久久久亚洲一区| 亚洲欧美精品| 国产成人在线中文字幕| 国产mv久久久| 牛牛影视精品影视| 宅男噜噜噜66一区二区66| 国产污视频在线看| 亚洲国产精品成人综合色在线婷婷| 日本精品一区在线| 亚洲精品韩国| 一区二区三区四区欧美| 国产精品欧美大片| 欧洲成人在线观看| 色婷婷在线播放| 亚洲日本中文字幕| 成人av免费播放| 欧美综合欧美视频| 日本免费一二三区| 中文av字幕一区| 久久久久久久人妻无码中文字幕爆| 日本欧美大码aⅴ在线播放| 国产一级片91| 成人激情在线| 国产一级精品aaaaa看| 日韩三级成人| 国产v综合ⅴ日韩v欧美大片| 女人黄色免费在线观看| 色吧影院999| 欧美精品少妇| 欧美成va人片在线观看| 一本一道精品欧美中文字幕| 欧美日韩国产综合新一区| 永久看片925tv| 中文字幕欧美区| 精品人妻一区二区免费视频| 国内精品久久久久影院色| 少妇性l交大片| 亚洲黄色影院| 国产高清不卡无码视频| 久久中文字幕二区| 欧美一区二区三区在线播放| 精品视频高潮| 成人在线免费网站| 国产亚洲字幕| 国产精品视频一| 欧亚一区二区| 2019中文字幕全在线观看| 欧美性video| 欧美理论片在线观看| 黄色一级大片在线免费看产| 一色桃子一区二区| 黄色软件在线| 亚洲人成在线免费观看| 色网站在线免费观看| 亚洲国产精品成人va在线观看| 国产成人免费看一级大黄| 欧美日韩激情一区二区| 日批视频免费观看| 色成年激情久久综合| 四虎精品永久在线| 懂色av影视一区二区三区| 天天操中文字幕| 欧美午夜xxx| 丁香六月婷婷综合| 欧美丝袜一区二区三区| 国产精品久久久久久久久久久久久久久久久| 亚洲最色的网站| 久久久久成人网站| 亚洲一级电影视频| 国产精品111| 午夜国产不卡在线观看视频| 日韩免费观看一区二区| 粉嫩老牛aⅴ一区二区三区 | 国产精品videosex极品| 无码毛片aaa在线| 国产一区日韩一区| 日韩欧美国产综合在线| 国产一区成人| 亚洲激情在线观看视频| 久久电影网站中文字幕| 国产在线视频三区| 成人精品高清在线| 亚洲中文字幕无码av| 久久久久久麻豆| 性少妇xx生活| 亚洲免费观看视频| 欧美亚洲天堂网| 欧美综合一区二区三区| 国产喷水吹潮视频www| 精品第一国产综合精品aⅴ| 天堂中文资源在线观看| 夜夜嗨av一区二区三区四区| 老司机在线视频二区| 欧美丰满少妇xxxx| 九色porny视频在线观看| 国产精品黄色av| 久久的色偷偷| 精品国产综合区久久久久久| 第一会所亚洲原创| 成人在线观看毛片| 亚洲综合欧美| 91丨九色丨蝌蚪| 成人一区在线看| 日本高清黄色片| 亚洲国产裸拍裸体视频在线观看乱了| 黄色片中文字幕| 91精品国产福利| 视频一区二区在线播放| 日韩一中文字幕| 爱啪视频在线观看视频免费| 国产精品盗摄久久久| 秋霞影院一区| 日本在线一区| 好吊视频一区二区三区四区| 热久久精品免费视频| 国产伦精品一区二区三区视频青涩 | 成年人视频免费| 欧美精品一区二区三区蜜臀| 丁香婷婷在线| 韩国三级日本三级少妇99| 国产91欧美| 九九九九精品| 欧美日韩国产免费观看| 国产视频一区二区视频| 国产91精品免费| 免费91在线观看| 欧美午夜精品久久久久久久| 国产高清精品软件丝瓜软件| 国产午夜精品全部视频在线播放 | 国产最新视频在线观看| 欧美黑人巨大精品一区二区| 超碰这里只有精品| 精品伊人久久大线蕉色首页| 中文字幕一区二区三区久久网站| 男女视频一区二区三区| 94色蜜桃网一区二区三区| 久久久久久久久毛片| 欧美日韩一区在线| 麻豆av电影在线观看| 韩国精品久久久999| 高清久久一区| 亚洲人一区二区| 日产欧产美韩系列久久99| 国产熟女高潮一区二区三区| 一区二区在线电影| av网站免费播放| www.国产精品一二区| 国产精品传媒麻豆hd| 欧美国产二区| 亚洲欧美成人综合| 极品白嫩的小少妇| 一区二区三区**美女毛片| 国产又大又黑又粗| 色老头一区二区三区在线观看| 国产精品伦理| 欧美日韩在线精品一区二区三区| 亚洲精品美女91| 天天插天天射天天干| 午夜国产精品影院在线观看| 人妻va精品va欧美va| 久久久女女女女999久久| 在线视频亚洲欧美中文| 男人天堂手机在线视频| 东方aⅴ免费观看久久av| www.99re7.com| 亚洲精品久久视频| 女人让男人操自己视频在线观看| 国内成+人亚洲| 亚洲一区日本| 加勒比综合在线| 91高清视频在线| 亚洲乱亚洲乱妇| 亚洲一区二区三区视频| 欧美va天堂在线| 国产一线在线观看| 日韩欧美在线视频观看| 日漫免费在线观看网站| 国产精品高清免费在线观看| 欧美电影一二区| 欧美污在线观看| 亚洲成人资源网| 天堂av网在线| 国产精品久久久久91| 色88久久久久高潮综合影院| 永久av免费在线观看| 亚洲国产欧美日韩另类综合 | 亚洲一区二区三区四区电影| 国产a级片网站| 久久久久久电影| 91丨porny丨在线中文 | 国产一区二区三区视频在线播放| 日本妇女毛茸茸| 亚洲福利小视频| 欧美精品高清| 日韩人妻精品一区二区三区| 成人免费看的视频| 国产免费a视频| 美女精品久久久| 一区二区小说| av噜噜在线观看| 亚洲国产精品久久艾草纯爱| 国产在线网站| 成人黄色在线免费观看| 久久人人精品| 欧美日韩国产精品综合| 亚洲人成在线观看网站高清| 国产精品久久久久久久久久久久久久久| 青草视频在线观看视频| 国产欧美日韩不卡免费| 精品免费久久久| 国产成人av网址| 欧美区亚洲区| 国产精品久久久视频| 亚洲国产毛片完整版| 图片一区二区| 欧美国产亚洲一区| 亚洲人成影院在线观看|