精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

11個LLM一起上,性能爆炸提升!AI2聯合USC開源LLM-Blender集成學習框架:先排序再融合

人工智能 新聞
11個LLM臭皮匠,能不能比得上GPT-4?

隨著Alpaca, Vicuna, Baize, Koala等諸多大型語言模型的問世,研究人員發現雖然一些模型比如Vicuna的整體的平均表現最優,但是針對每個單獨的輸入,其最優模型的分布實際上是非常分散的,比如最好的Vicuna也只在20%的任務里比其他模型有優勢。

有沒有可能通過集成學習來綜合諸多開源的「弱」LLM的能力,來使得他們整體成為一個「強」LLM呢?

AI2,USC,和浙大的研究員由此提出了一個集成學習框架,LLM-Blender,它通過排序和融合來對各個LLM的輸出進行集成,從而達到了較為穩定的提升。

圖片

論文鏈接:https://arxiv.org/abs/2306.02561

代碼鏈接:https://github.com/yuchenlin/LLM-Blender

對于同一條指令來自不同LLMs的回答,LLM-Blender框架可以有效選擇出其中質量更高的回答,再基于這些回答融合生成一個新的質量更高的回答。

圖片

為了促進集成學習在LLM社區的發展和測試LLM-Blender的能力,論文作者們構建了一個新的指令數據集MixInstrcut。

數據采樣于Aplapa-GPT-4, Laion, ShareGPT等流行的指令數據集。對于每個指令,MixInstruct還包括了11個包括Vicuna, Baize, Open Asssistant等當前流行的開源大型語言模型的回答。

論文的進行了一系列實驗評估了不同LLMs在MixInstruct數據集上的差異性,并測試了LLM-Blender在集成多個LLMs回答的能力。

實驗證明了LLM-Blender集成得到的回答在所有LLM回答中平均排名為3.01,其中68.59%都排名在前三,這遠超平均排名最好為3.90的單個模型Open Assistant,以及Vicuna(只有有52.88%的回答被排到前三)。

主要貢獻

1. 提出了一個新的針對大型語言模型的集成學習框架LLM-Blender,用于對多個LLMs的回答進行排序與融合。LLM-Blender由兩個簡單有效的模塊PairRanker與GenFuser組成。

2. 一個新的指令數據集MixInstruct。其中的每一條指令都包含了來自Vicuna等數十個當前流行的開源LLMs的回答,用來訓練與評估集成學習框架LLM-Blender。

3. 首次證明了集成學習在LLM社區的顯著效果與其應用價值。

4. 開源LLM-Blender工具包,方便LLM社區研究人員使用與進一步研究。

大型語言模型的集成學習

LLM-Blender: 排序+融合

LLM-Blender主要包含兩個模塊,PairRanker和GenFuser,分別對應框架運行的兩個階段:排序(Rank)與融合(Fuse)。

在排序階段,論文首先通過PairRanker對不同的LLMs回答進行成對比較,得到這些回答的排名。

在融合階段,論文選擇其中的排名中的前k(如k=3)個回答,將其于原指令一起打包送到GenFuser模塊作為輸入,再重新生成一個融合回答。

圖片

對于第一個模塊PairRanker,論文認為基于雙向注意力的成對比較在候選回答較為相似的情況下十分重要。

以往的排序模型均采用將源文本和單個候選序列連接編碼,并在推導時直接輸出一個絕對分數作為對候選序列排序的依據。

而LLM-Blender的第一個模塊PairRanker將源文本與一組(兩個)候選序列同時連接進行編碼,利用雙向注意力來提高排序模型的表現,作者認為這種方法可以更好的捕捉不同候選回答之間的微小差異,從而提高比較的正確率。

圖片

此外,與傳統的成對排序方法僅僅在訓練過程中采用成對比較的損失函數不同的是,PairRanker在推導過程中同樣采用成對比較。

論文提出了三種簡單的聚合方法,MaxLogits, MaxWins, 與Bubble Sort來完成從比較矩陣到單個候選序列分數的計算,這三種方法在后續實驗中均被證明有效。其中MaxLogits效果最好。

圖片

與現有的部分文本融合方法不同,GenFuser并未直接將所有候選序列(即數十個LLMs的回答)作為一起送入這一模塊,而是在PairRanker的排序結果上選擇最好的前k個,與源文本一起送入GenFuser進行融合。

這是因為論文認為部分未經篩選的低質量的候選序列可能會影響GenFuser模塊的融合質量。

MixInstruct: 新的LLMs集成學習基準

為了更好地評估LLM-Blender地能力,論文構建了MixInstruct數據集。指令來源包括Alpaca-GPT4 等四種流行的大型指令數據集,標準回答來源于GPT-4, ChatGPT和人類標注。

其中每一條指令都包含Vicuna等數十個當前流行的大型語言模型的回答。

圖片

論文還使用ChatGPT對在測試集(5K)這些回答進行成對比較,并統計每個回答在比較中獲勝的次數,將不同LLMs獲勝次數排名第一的比例在圖中進行了總結。可以明顯看到不同LLM回答的質量各有千秋,并非一家獨大。

此結果證明了不同LLMs之間能力的多樣性,而這也正是集成學習框架LLM-Blender能夠成功的原因之一。

實驗

實驗設置

論文實驗中,LLM-Blender的兩個模塊PairRanker與GenFuser分別采用Deberta-v3-Large(400m)和Flan-T5-XL(3b)作為各自的骨架模型(backbone)。兩個模型均在MixInstruct大小為100k的訓練集上進行訓練(更多細節見論文)。

為了更好地評估不同各種生成模型在MixInstruct上的能力,論文不僅采用了一些傳統自動度量指標BERTScore, BLEURT和BARTScore, 并將ChatGPT的比較結果按照比較中獲勝的次數歸并為整體排名值(GPT-Rank)。

由于Vicuna與Open Assistant在LLM社區的顯著表現,論文還特別將所有模型的結果與這兩個模型進行了比較,給出了對應的獲勝比例。此外,實驗還統計了不同模型在與其他所有模型比較的過程中被排名為前3的比例(Top-3)。

LLMs:各有千秋

在這些模型中,Open Assistant、Vicuna和Alpaca是表現最好的三個模型,繼它們之后,Baize、Moss和ChatGLM也在MixInstruction上表現出色。

而Mosaic MPT、StableLM和Flan-T5在評估中排名較為靠后。盡管如此,他們的GPT-Rank也并非一個接近最低排名(11)的數字,再次說明每個LLM的回答都有他們自己的優勢。

此外,同樣可以注意的是,盡管Open Assistant和Vicuna綜合表現最為出色,在其他模型與這兩個模型的比較中,仍舊有部分比例的回答被認為要優于他們。

Rankers:PairRanker優勢明顯

而在諸多排序模型的比較中,PairRanker作為成對比較的排序模型,表現明顯要優于SummaReranker和SimCLS等非成對比較的模型。

尤其在GPT-Rank,BARTScore,BLEURT和Top-3的比例上,PairRanker取得了所有排序模型中最好的效果,并且要優于任意一個LLM。

除了對排序模型得到的Top-1選擇進行分析外,論文還對排序模型的整體排序質量通過Pearson相關系數,Spearman相關系數和Searman’s Footrule距離進行了評估。

正如表中所示,在所有的自動度量指標的排序中,BartScore的排序結果與GPT-Rank相關性最高。而PairRanker的排序結果在所有排序模型中取得的相關性最高,甚至超過BARTScore。

GenFuser進一步提高PairRanker效果

論文最后比較了整個LLM-Blender框架生成的回答的質量。LLM-Blender將PairRanker排序得到的前3個回答送入到GenFuser中進行融合生成。

最終發現,融合生成的回答不僅在三個自動度量指標BARTScore等上取得了巨大的提升,還在GPT-Rank和Top-3比例上取得了最佳的結果,LLM-Blender在實驗的評估中展現了預期中的卓越性能。

結語

LLM-Blender是一個簡單的集成學習框架,適用于任何LLMs和任務。它通過學習通過成對比較的方式來排序每個回答的質量,再通過融合生成的方式來決定最后的輸出。在MixInstruct的測試集上取得了最優的效果。

作者簡介

圖片

Dongfu Jiang 姜東甫, 本科畢業于浙江大學[1] 計算機學院,南加州大學INK Research Lab科研實習生,將前往加拿大滑鐵盧大學攻讀計算機科學博士學位。他在本科期間曾獲國家獎學金等榮譽。

圖片

Xiang Ren 任翔(USC)南加州大學副教授,領導INK Research Lab。曾獲得Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,Facebook Sponsored Research Award, 2021,NSF CAREER Award, 2021等榮譽。

圖片

Yuchen Lin 林禹臣(AI2)現任Allen Institute for AI(AI2)研究員。他本科畢業于上海交通大學IEEE試點班(2018),博士畢業于USC南加州大學 (2022)。曾獲得WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔任NLP和ML領域頂級會議審稿人,Area Chair (ACL2023; EMNLP 2023),多次參與組織workshop和tutorials。他目前的研究興趣在將大語言模型的分析和增強,以及如何利用常識知識構建通用的智能體。


責任編輯:張燕妮 來源: 新智元
相關推薦

2023-07-24 15:20:05

機器學習集成學習

2023-06-15 14:06:13

2023-09-11 09:37:58

開源軟件套AI模型

2024-07-29 09:46:00

2024-05-06 12:52:30

2023-08-11 13:17:12

AI模型

2023-06-30 09:00:00

Falcon LLM開源

2025-02-05 12:53:21

2025-01-24 15:40:00

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2024-11-27 16:17:00

2024-02-26 07:43:10

大語言模型LLM推理框架

2024-11-26 10:44:18

2025-10-20 09:05:00

2024-06-05 09:59:13

2025-02-03 00:00:01

Ai2o1LLM

2024-04-18 10:39:57

2025-06-06 07:00:00

2023-06-19 16:05:22

大型語言模型人工智能

2023-08-14 10:54:34

AI框架大型語言模型
點贊
收藏

51CTO技術棧公眾號

96sao在线精品免费视频| 在线观看免费黄视频| 亚洲免费网址| 久久精品国产亚洲一区二区| 特级特黄刘亦菲aaa级| 深夜成人在线| 18涩涩午夜精品.www| 国产精品日韩欧美一区二区三区| 天天爽夜夜爽人人爽| 婷婷另类小说| 亚洲欧洲偷拍精品| 中文字幕1区2区| 成人啊v在线| 亚洲v日本v欧美v久久精品| 亚洲精品电影在线一区| 蜜臀av在线观看| 麻豆成人综合网| 91av中文字幕| 欧美成人aaa片一区国产精品| 亚洲三级精品| 精品伦理精品一区| 在线播放av中文字幕| 精品国产免费人成网站| 亚洲国产毛片aaaaa无费看| 午夜老司机精品| 午夜在线视频观看| 国产激情一区二区三区| 国产精品久久久久久搜索| 国产精品第108页| 亚洲激情五月| 日韩视频欧美视频| 国产中年熟女高潮大集合| 成人盗摄视频| 日韩三级中文字幕| 超碰成人在线播放| 国产福利亚洲| 欧美色综合网站| 免费看a级黄色片| 玛雅亚洲电影| 色综合久久88色综合天天| r级无码视频在线观看| 2024最新电影在线免费观看| 国产精品国产馆在线真实露脸| 欧美精品久久| 奇米影视888狠狠狠777不卡| 成人18视频日本| 国产免费一区| 人妻91麻豆一区二区三区| 国产伦精品一区二区三区免费| 国产精品视频一区二区高潮| 国产在线观看第一页| 老妇喷水一区二区三区| 国产精品白嫩初高中害羞小美女 | 国产黄色免费在线观看| 国产网红主播福利一区二区| 欧美日韩电影一区二区| 青青草免费在线| 国产亚洲午夜高清国产拍精品 | 黑人巨大精品欧美一区免费视频 | 日韩三级免费看| 中文久久精品| 欧美孕妇性xx| 国产91av在线播放| 激情五月婷婷综合网| 成人免费淫片视频软件| 国产熟女一区二区三区五月婷| 国产一区二区三区观看| 999视频在线免费观看| 亚洲精品一级片| 99精品视频在线播放观看| 欧美日本国产精品| 1区2区3区在线观看| 亚洲色图制服诱惑| 国产乱子伦精品无码专区| 草莓视频丝瓜在线观看丝瓜18| 精品人伦一区二区三区蜜桃网站| 日本三级免费观看| 国产精品高潮久久| 日韩一区二区三区在线观看| 久久久男人的天堂| 国产成人av| 日韩亚洲第一页| 精品视频一区二区在线观看| 午夜综合激情| 成人情趣片在线观看免费| 黄色福利在线观看| 国产欧美久久久精品影院| 婷婷视频在线播放| 91超碰在线免费| 欧美性视频一区二区三区| 看看黄色一级片| 久久a级毛片毛片免费观看| 亚洲三级av在线| 久久久久亚洲av无码专区体验| 在线综合欧美| 成人有码视频在线播放| 手机看片福利在线| 亚洲欧美一区二区在线观看| 成人性免费视频| 宅男噜噜噜66国产精品免费| 亚洲精品乱码久久久久久金桔影视| 性爱在线免费视频| 日韩中文字幕电影| 九色porny视频在线观看| 在线亚洲欧美专区二区| 色综合久久久无码中文字幕波多| 日本成人中文| 欧美另类第一页| 国产一卡二卡三卡| 成人性生交大片免费看中文网站| 水蜜桃一区二区| 嗯啊主人调教在线播放视频 | 国产精品久久久久9999吃药| 日韩伦理在线免费观看| 久久久久毛片| 亚洲图片在区色| 久热这里只有精品在线| 久久精品99久久久| 日本精品一区二区| 三妻四妾完整版在线观看电视剧| 欧美一区二区三区视频免费播放 | 国产精品jizz在线观看麻豆| 朝桐光av在线一区二区三区| 中文字幕在线一区二区三区| 久久久精品在线视频| 成人18夜夜网深夜福利网| 日韩中文字幕视频在线| 波多野结衣理论片| 99精品视频中文字幕| 黄色激情在线视频| 日韩亚洲精品在线观看| 色七七影院综合| 人妻中文字幕一区二区三区| 91啪亚洲精品| 69堂免费视频| 色爱av综合网| 97视频在线观看成人| 欧美性受xxxx狂喷水| 一区二区三区不卡在线观看 | 91麻豆免费在线观看| 精品久久人人做人人爱| 黑人巨大精品欧美| 国产精品试看| 另类视频在线观看+1080p| 97人人爽人人澡人人精品| 精品国产乱码久久久久久图片| 国产女人被狂躁到高潮小说| 国产精品综合二区| 欧美美女黄色网| 99ri日韩精品视频| 久久乐国产精品| 天堂中文在线视频| 色综合天天综合给合国产| 97人妻精品一区二区三区免| 午夜亚洲视频| 日韩视频在线播放| 欧美aaaaaa| 欧美精品免费播放| 国产91麻豆视频| 黄色一区二区在线| 泷泽萝拉在线播放| 日韩精品一卡二卡三卡四卡无卡| 亚洲 国产 日韩 综合一区| 国产香蕉久久| 九九九热精品免费视频观看网站| 亚洲第一页在线观看| 午夜精品久久久久久久久久| 久久久久国产精品区片区无码| 香蕉av777xxx色综合一区| 欧美日韩国产综合视频在线| 日本成人福利| 久久国产精品视频| 午夜一区在线观看| 欧美伊人久久大香线蕉综合69| 日韩av毛片在线观看| 国产电影一区二区三区| 国产综合av在线| 精品国产一区二区三区四区| 成人欧美在线观看| 国产乱码午夜在线视频| 一区二区三区美女xx视频| 国产精品无码AV| 香蕉乱码成人久久天堂爱免费| 制服 丝袜 综合 日韩 欧美| 精品一区二区三区蜜桃| 成人免费观看cn| 日韩1区2区| av资源站久久亚洲| 欧美最新精品| 欧美激情免费观看| 国产二区视频在线观看| 日韩午夜中文字幕| 美女又爽又黄免费视频| 成人欧美一区二区三区黑人麻豆| 岛国精品一区二区三区| 老司机精品视频网站| 可以免费看的黄色网址| 亚洲精品亚洲人成在线观看| 91色视频在线观看| 性感女国产在线| 欧美久久精品午夜青青大伊人| 青青草视频免费在线观看| 91精品国产高清一区二区三区蜜臀| 国产一级二级三级视频| 欧美国产丝袜视频| 久久久久亚洲av成人网人人软件| 日韩精品欧美成人高清一区二区| www.国产二区| 青青草国产免费一区二区下载 | 天天操,天天操| 亚洲美女少妇无套啪啪呻吟| 91社在线播放| 成人精品久久| 欧美成人综合一区| xxxx日韩| 91精品黄色| 婷婷丁香久久| 国产精品成av人在线视午夜片| 大桥未久在线视频| 欧美疯狂xxxx大交乱88av| 日本www在线观看| 亚洲欧美国产精品专区久久| 农村少妇久久久久久久| 538prom精品视频线放| 亚洲av无码精品一区二区| 亚洲成人资源在线| 好吊色视频在线观看| 最新热久久免费视频| 中国女人特级毛片| 久久久久久久国产精品影院| 95视频在线观看| 国产99久久久久久免费看农村| 亚洲综合激情视频| 人人超碰91尤物精品国产| 18岁视频在线观看| 久久久久久一区二区| 欧美亚洲国产成人| 99精品视频免费| 欧美 日韩 亚洲 一区| 亚洲第一在线| 奇米影视亚洲色图| 亚洲精品看片| 午夜免费福利小电影| 狠狠爱www人成狠狠爱综合网| 日本a在线天堂| 欧美成人午夜| 成人免费在线视频播放| 久久亚洲国产| youjizz.com亚洲| 综合久久婷婷| www污在线观看| 99精品国产福利在线观看免费| cao在线观看| 欧美中文日韩| 午夜免费福利在线| 精品亚洲国内自在自线福利| 午夜免费看毛片| 国产美女主播视频一区| 国内自拍偷拍视频| av不卡免费电影| 亚洲av无码国产精品久久| 久久一区二区三区四区| 手机毛片在线观看| 国产精品久久久久影院色老大 | 可以看的av网址| 成人久久久精品乱码一区二区三区 | 婷婷五月色综合| 66视频精品| 欧美人成在线观看| 久久婷婷影院| 成人亚洲免费视频| 成人免费黄色大片| 精品人妻一区二区三区蜜桃视频 | 欧美精品乱码视频一二专区| 亚洲高清免费观看高清完整版在线观看| 欧美bbbbbbbbbbbb精品| 欧美性一二三区| www香蕉视频| 亚洲美女视频网| 麻豆传媒免费在线观看| 久久久久久美女| 99久久er| 国产日韩在线一区二区三区| 欧美日韩国产传媒| 日韩人妻精品一区二区三区| 亚洲看片一区| 成年网站免费在线观看| 99久久婷婷国产精品综合| 2019男人天堂| 亚洲成年人网站在线观看| www.五月婷婷.com| 精品乱人伦小说| 色多多视频在线观看| 国内精品久久久久久久久| 成人福利片在线| 精品久久久久久亚洲| 久久综合av| 六月丁香婷婷激情| 国产一区二区三区美女| 9.1成人看片免费版| 亚洲欧美另类小说| 国产女优在线播放| 亚洲精品久久久一区二区三区| 午夜视频成人| 欧美在线激情网| 超碰成人97| 三上悠亚免费在线观看| 日韩av中文字幕一区二区三区| 中文字幕无码毛片免费看| 欧美国产97人人爽人人喊| 久久久久久av无码免费网站| 欧美日精品一区视频| 日韩二区三区| 国语对白做受69| 韩国一区二区三区视频| 亚洲成人a**址| 噜噜噜躁狠狠躁狠狠精品视频| 中文字幕永久免费| 亚洲婷婷国产精品电影人久久| 波多野结衣高清视频| 日韩乱码在线视频| 免费电影网站在线视频观看福利| 91精品久久久久久久久久久久久| 一区二区导航| 黄色动漫网站入口| 波多野洁衣一区| 久久久久久久九九九九| 欧美一区二区免费视频| 免费看a在线观看| 国产精品视频播放| 国产欧美日韩在线观看视频| 日本成年人网址| 久久一区二区三区四区| 好看的av在线| 日韩精品中文字| 涩涩在线视频| 欧美1o一11sex性hdhd| 99精品福利视频| 亚洲一区二区乱码| 欧美日韩免费在线观看| 色一情一乱一区二区三区| 高清在线视频日韩欧美| av成人资源| 日韩国产一级片| www.亚洲人| 国产成人亚洲欧洲在线| 亚洲国产精品资源| 国产伦理精品| 欧美极品色图| 热久久一区二区| 999精品视频在线观看播放| 欧美剧情片在线观看| 国产在线激情视频| 51国产成人精品午夜福中文下载| 欧美日韩三级电影在线| 岛国av免费观看| 欧美日韩国产激情| 久香视频在线观看| 国产精品美女av| 亚洲综合中文| 妖精视频一区二区| 日本韩国欧美一区| 秋霞午夜在线观看| 成人黄色片视频网站| 99热在线精品观看| 特级西西www444人体聚色 | 亚洲精品视频91| …久久精品99久久香蕉国产| 久久99国产成人小视频| 四季av一区二区三区| 一区二区久久久久久| 午夜小视频在线播放| 国产精品久久久亚洲| 午夜精品毛片| 五月天激情小说| 在线免费不卡电影| av网站网址在线观看| 国产一区二区无遮挡| 老司机午夜精品视频在线观看| 美女网站视频色| 欧美v亚洲v综合ⅴ国产v| 69久成人做爰电影| 一区二区三区四区免费视频| 国产丶欧美丶日本不卡视频| 国产午夜精品久久久久| 久久精品国产精品| 人人香蕉久久| www.com污| 日韩欧美亚洲成人| h片在线免费观看| 免费在线观看一区二区| 国产一区二区三区高清播放| 在线天堂中文字幕| 欧美精品日韩三级| 欧美军人男男激情gay| 亚洲少妇中文字幕| 欧美日韩精品一区二区三区蜜桃| 成人性生交大片免费看在线播放| 亚洲成人蜜桃| 99久久99久久精品国产片果冻 |