精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大型語言模型的知識融合(ICLR2024) 原創

發布于 2024-9-6 13:49
瀏覽
0收藏

?摘要: 從頭開始訓練大型語言模型(LLM)可以生成具有獨特功能和優勢的模型,但這需要巨大的成本,并可能導致冗余功能。另一種具有成本效益且引人注目的方法是將現有的預訓練LLM合并為一個更強大的模型。然而,由于這些LLM架構各不相同,直接融合它們的權重并不可行。在本文中,我們引入了LLM知識融合的概念,旨在將現有LLM的能力整合并轉移到一個單一的LLM中。通過利用源LLM的生成分布,我們外化了它們的集體知識和獨特優勢,從而有可能將目標模型的能力提升到超越任何單一源LLM的水平。我們使用三種具有不同架構的流行LLM——Llama-2、MPT 和 OpenLLaMA——在各種基準和任務中驗證了我們的方法。我們的研究結果表明,LLM的融合可以提高目標模型在推理、常識和代碼生成等多種能力上的表現。我們的代碼、模型權重和數據已公開在(https://github.com/fanqiwan/FuseLLM)。

(論文思想:假設我們有三個大型語言模型(LLMs):Llama-2、OpenLLaMA和MPT,它們分別擅長不同任務。Llama-2在推理任務中表現最佳,OpenLLaMA在常識問答上表現出色,而MPT在代碼生成方面非常強大。

現在,我們希望通過FUSELLM方法將這三個模型的知識融合到一個新的目標模型中,讓這個目標模型同時具備這三種能力。以下是FUSELLM方法如何工作的一個簡化示例:

1. 概率分布提取:我們提供一個文本序列,比如 `"The capital of France is..."`,讓Llama-2、OpenLLaMA和MPT分別預測下一個單詞是什么,并生成它們的概率分布。Llama-2可能對“Paris”有較高的概率,OpenLLaMA對“Paris”也有類似的預測,而MPT雖然更擅長代碼生成,但也會給出一個相對較低的概率。

2. 詞匯對齊:由于每個模型使用的分詞器可能不同,我們需要對齊它們生成的tokens,確保這些模型的輸出可以被比較和融合。例如,如果一個模型預測的是“Paris”,而另一個模型可能將其分為兩個token:“Par-” 和 “-is”,我們通過最小編輯距離對齊這些token。

3. 概率融合:我們將三個模型的概率分布進行融合。假設Llama-2和OpenLLaMA在常識問答中表現較好,它們的預測權重會更高。我們選擇使用MinCE方法,也就是選擇具有最小交叉熵分數的模型概率分布,因此目標模型會傾向于使用Llama-2和OpenLLaMA的預測。

4. 持續訓練:接著,我們用這些融合后的概率分布來指導目標模型的訓練,通過最小化目標模型的預測與融合分布之間的差異,讓目標模型逐步學習這三個模型的能力。

最終,目標模型經過持續訓練,不僅可以像Llama-2那樣擅長推理,還能像OpenLLaMA一樣處理常識問題,并在代碼生成任務上有類似MPT的表現。這個融合后的模型將具備更廣泛的能力,能夠在多種任務中表現出色。)

1、引言

隨著大型語言模型(LLMs)如GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023)系列在各種自然語言處理(NLP)任務中的持續成功,開發屬于自己的LLM已成為公司戰略的關鍵。然而,LLM開發成本極其高昂。除了需要大量的訓練數據、高級技術、巨大的計算資源和熟練的勞動力外,開發過程還對能源消耗和環境造成巨大壓力(Rillig et al., 2023)。雖然這些LLMs在結構和功能上有所不同,但它們在一系列NLP任務上有著相似的能力。因此,除了從零開始訓練LLM的傳統方法外,還有一種替代選擇是將現有的LLM組合成一個新的、更強大的模型,本文稱之為LLM的知識融合。如果成功,這種融合不僅可以降低初始訓練成本,還能使集成模型受益于所有LLM的優勢。該新模型也可以通過微調和適應各種下游任務。此外,融合也可以發生在專注于特定任務的微調LLM之間。

整合多個模型能力的嘗試由來已久。例如,集成方法(Littlestone & Warmuth, 1994; Jiang et al., 2023)直接聚合不同模型的輸出,以增強預測性能和魯棒性。然而,這種方法需要維護多個訓練好的模型,并在推理時執行每一個模型,這對于LLM來說是不可行的,因為它們需要大量的內存和推理時間。同樣,這種方法不支持微調,而微調對于許多LLM來說至關重要。另一種方法是通過參數級的算術操作直接將多個神經網絡合并為一個網絡(Wortsman et al., 2022; Jin et al., 2022)。這種方法通常假設網絡架構統一,并嘗試在不同神經網絡權重之間建立映射,但在LLM的上下文中,這往往是難以實現的。此外,當參數空間存在較大差異時,權重融合可能會導致次優結果(Li et al., 2022)。

在本文中,我們從概率分布的角度探討LLM的融合。對于一個輸入文本,我們認為不同源LLM生成的概率分布可以反映它們對該文本的固有知識。因此,提出的FUSELLM方法利用源LLM的生成分布,將它們的集體知識和個體優勢外化,并通過輕量級的持續訓練將這些知識轉移到目標LLM中。為此,我們開發了一種新策略,用于對齊來自不同LLM的分詞,并探索了兩種融合這些多樣化LLM生成的概率分布的方法。在持續訓練過程中,FUSELLM非常重視最小化目標LLM的概率分布與源LLM的概率分布之間的差異。

為了實證證明FUSELLM的有效性,我們在一個具有挑戰性但通用的LLM融合場景中進行實驗,其中源模型之間的共性最小。具體來說,我們重點關注三個具有不同架構和功能的流行開源LLM:Llama-2(Touvron et al., 2023)、OpenLLaMA(Geng & Liu, 2023)和MPT(Team, 2023)。通過對跨越推理、常識和代碼生成的三個基準共42個任務的評估,驗證了我們的方法訓練出的目標模型在大多數任務中都優于每個源LLM和基線。此外,我們通過在多個特定領域語料庫上持續訓練單個基礎模型,模擬了具有相同架構但功能不同的LLM的存在。根據困惑度(perplexity)的評估結果表明,FUSELLM在將這些結構相同的LLM的能力組合起來時,表現出比傳統的集成和權重融合方法更強的潛力。

總而言之,本文探討了一個新的挑戰,即LLM的融合,旨在創建一個能夠有效利用多樣化LLM集體能力和獨特優勢的統一模型。如圖1所示,我們提出的方法區別于傳統的集成和權重融合技術,通過優先外化和轉移多個LLM的知識進行融合。本研究得出了一些可能引發未來研究的發現。首先,盡管我們通過輕量級的持續訓練在緊湊、高質量的語料庫上展示了我們方法的有效性,但訓練語料庫的精心選擇可能是一個關鍵考慮因素,尤其是其與下游任務的相關性。其次,在源LLM能力差異顯著的情況下,融合功能對于有效結合各自的優勢至關重要。最后,與傳統的模型集成和融合技術相比,LLM融合領域似乎是一條更具探索前景的途徑,特別是在考慮到LLM的多樣化結構和巨大的模型規模時。

大型語言模型的知識融合(ICLR2024)-AI.x社區

圖1:展示了傳統模型融合技術(集成和權重合并)以及我們針對大型語言模型(LLMs)的知識融合方法(FUSELLM)。不同的動物圖標代表不同的LLMs,不同種類表示擁有不同架構的LLMs。FUSELLM將多個LLMs的知識外化,并將它們的能力轉移到目標LLM上。

2、相關工作

模型融合

整合不同模型的能力一直是一個長期的目標,現有的方法主要分為兩類。首先,傳統的模型集成技術通過結合多個模型的輸出來增強系統整體性能(Littlestone & Warmuth, 1994;Sagi & Rokach, 2018)。需要注意的是,這種技術并不涉及將多個模型顯式地合并為一個新模型。常見的模型集成方法包括加權平均(Littlestone & Warmuth, 1994)或多數投票(Monteith et al., 2011),以整合不同模型的預測結果。最近,Jiang等人(2023)引入了一個集成框架,旨在利用多個開源LLM的多樣化優勢。該框架首先使用成對比較方法來檢測候選輸出之間的細微差異,隨后結合最優的候選結果以產生增強的輸出,發揮其優勢并減少其劣勢。

其次,權重融合是另一種通過參數層面實現模型融合的方法。Gupta等人(2020)和Wortsman等人(2022)通過不同策略或配置獲得的具有相同結構的模型權重進行融合,以提高整體性能。同樣,Cha等人(2021)、Rame等人(2022)和Arpit等人(2022)通過加權平均不同配置的模型來提高分布外(out-of-distribution)的泛化能力。此外,Jin等人(2022)將為特定領域或任務設計的模型融合在一起,以創建能夠處理所有領域或任務的通用模型。除了對整個模型進行參數融合之外,Wang等人(2022b)、Huang等人(2023)和Zhang等人(2023)還應用線性數學運算對適配器參數進行融合,以實現更好的泛化性能。

總而言之,雖然模型集成需要并行部署多個模型,權重融合通常僅限于結構相同的模型。相比之下,本文提出的方法支持通過顯式轉移其知識和能力,將具有不同架構的多個LLM進行融合。

知識蒸餾

知識蒸餾(Hinton et al., 2015)最初提出用于模型壓縮,它包括在一個或多個教師模型的指導下訓練學生模型。在NLP領域,知識蒸餾廣泛應用于文本分類任務中。這些應用包括訓練學生模型以復制教師模型的輸出分布(Sanh et al., 2019;Turc et al., 2019),以及教師模型中間層提取的特征(Sun et al., 2019;Jiao et al., 2020)和關系(Wang et al., 2020)。在文本生成領域,傳統方法側重于最小化學生模型和教師模型生成分布之間的KL散度。這是通過使用教師在每個時間步的概率分布作為監督來實現的(Khanuja et al., 2021;Gu et al., 2023),或者直接在教師生成的文本上進行訓練(Peng et al., 2023;Xu et al., 2023)。

盡管我們的方法框架類似于多教師知識蒸餾,但存在兩個顯著區別。首先,在傳統的知識蒸餾中,學生模型通常被限制為比教師模型小的尺寸。然而,在我們的場景中,對目標模型的尺寸沒有限制。其次,傳統的知識蒸餾通常會導致學生模型在蒸餾后性能低于教師模型。相反,我們期望在融合之后,目標模型的性能能超越任何單個源模型。

3、大型語言模型的知識融合

LLM融合的主要目標是外化多個源LLM中嵌入的集體知識,并將它們的能力整合到目標LLM中。給定 K 個源LLM {Msj}j=1K,這些模型架構各異,并分別在不同的數據集上進行預訓練或微調。我們提出的核心思想是通過預測下一個token來激發這些LLM展現其固有的知識。通過評估這些預測生成的概率分布,我們使用最準確的預測來對目標LLM Mt 進行持續訓練,使用語料庫 C 并基于因果語言建模(CLM)目標進行訓練。在接下來的部分中,我們首先簡要介紹基本概念,然后詳細說明我們的LLM融合框架,最后討論實現細節。

3.1 基本概念

設 t 表示從語料庫 C 中采樣的長度為 N 的文本序列,t_{<i} = (t_1, t_2, ..., t_{i-1}) 表示第 i 個token之前的序列。基于因果語言建模(CLM)目標對參數化為 θ 的語言模型進行訓練,其定義為最小化負對數似然:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中,p_{θ}(t_i | t_{<i}) 是模型給定前面token后對token t_i 的預測概率。

大型語言模型的知識融合(ICLR2024)-AI.x社區

上述目標將序列的似然分解為token級的交叉熵損失,將每個token的預測分布與其單熱(one-hot)表示進行比較。為了提供一個更廣泛的視角,我們將這種token級的視圖重新框定為順序分布的格式。具體而言,對于文本序列 t,我們將token級預測聚合并創建一個概率分布矩陣 P_{θ}^t in mathbb{R}^{N times V},其中第 i 行表示模型對第 i 個token在詞匯表大小為 V 的情況下預測的分布。然后,CLM目標可以解釋為減少 P_{θ}^t 和單熱標簽矩陣 O^t in 0, 1^{N times V} 之間的差異,每行都是對應金標token的單熱表示。形式上,CLM目標轉化為以下表示:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中 D(·,·) 表示兩個矩陣之間的差異函數,當使用KL散度實現時,等價于公式(1)。

3.2 LLM的融合

基于對語言模型的這一觀點,我們認為概率分布矩陣可以反映其對文本理解中的某些固有知識。因此,來自不同LLM的相同文本的不同概率分布矩陣可用于表示這些模型中嵌入的多樣化知識。考慮到這一點,所提出的FUSELLM方法通過概率建模來處理LLM的融合,旨在通過融合源LLM的概率分布來創建一個統一的LLM。為實現這一點,在開始融合一組LLM時,FUSELLM會對目標LLM進行輕量級的持續訓練,使用一個與預訓練數據集類似的原始文本語料庫。除了依賴CLM目標外,FUSELLM還重點最小化目標LLM的預測概率分布與源LLM概率分布之間的差異。

大型語言模型的知識融合(ICLR2024)-AI.x社區

對于語料庫 C 中的每個文本,我們應用提供的 K 個源LLM并獲得一組概率分布矩陣,表示為 P_{θ_j}^t_{j=1}^{K},其中 θ_j 表示第 j 個LLM的參數。利用這些矩陣,我們將單個模型的知識外化到一個統一的空間,實際上是在文本上創建了統一的概率表示。我們承認源LLM之間詞匯表的差異可能導致矩陣 P_{θ_j}^t_{j=1}^{K} 未對齊。為了解決這個問題,我們采用了一個詞匯對齊策略,這將在3.3節中進行解釋,以促進跨模型的更一致概率解釋。

在對齊概率矩陣后,我們繼續將它們融合為一個緊湊的表示。可以應用多種融合策略來實現這一目標,具體將在3.3節中詳細介紹。我們用 P^t 來表示融合后的表示矩陣,定義如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中 text{Fusion}(·) 表示組合多個矩陣的函數,結果矩陣 P^t 被視為源LLM集體知識和獨特優勢的表示。

為了將源LLM的能力轉移到目標LLM,我們在目標LLM的預測與融合表示矩陣 P^t 之間強制對齊。我們用 Q^t 來表示目標LLM對文本 t 的輸出分布矩陣,然后將融合目標定義為:

大型語言模型的知識融合(ICLR2024)-AI.x社區

我們的持續訓練的總體目標包括CLM目標 L_{text{CLM}} 和融合目標 L_{text{Fusion}} 的加權組合,公式如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區

3.3 FUSELLM的實現

在本節中,我們介紹FUSELLM方法中詞匯對齊和融合函數的實現細節。

詞匯對齊

確保多個LLM之間的token對齊對知識融合至關重要,因為它可以保證概率分布矩陣的正確映射。Fu等人(2023)采用動態規劃的方法,通過遞歸最小化將一個token序列編輯為另一個序列的總成本。如果兩個token之間存在一對一的映射,則對應的概率分布完全映射。否則,映射的分布退化為單熱向量。由于由不同分詞器為相同序列生成的token通常差異有限,我們建議通過用最小編輯距離(MinED)策略替換Fu等人(2023)提出的精確匹配(EM)約束,以基于最小編輯距離對不同分詞器生成的token進行映射。這種對齊方式的放寬有助于在分布矩陣中保留大量信息,同時引入的誤差很小。更多詞匯對齊的細節可參考附錄A。

融合策略

為了在保留源LLM獨特優勢的同時整合其集體知識,評估不同LLM的質量并對其相應的分布矩陣賦予不同的重要性是至關重要的。為此,在處理文本 t 時,我們使用分布矩陣與金標標簽之間的交叉熵損失作為LLM預測質量的指標(Marion et al., 2023)。較低的交叉熵分數表明源LLM對文本的理解更準確,其預測應賦予更大的權重。基于這一標準,我們引入了兩種融合函數:(1) MinCE:該函數輸出交叉熵分數最低的分布矩陣;(2) AvgCE:該函數根據交叉熵分數對分布矩陣進行加權平均。

FUSELLM方法的完整流程在算法1中描述。

大型語言模型的知識融合(ICLR2024)-AI.x社區

大型語言模型的知識融合(ICLR2024)-AI.x社區


4、實驗

在我們的實驗中,我們考慮了一種通用但具有挑戰性的LLM融合場景,其中源模型在架構或功能上幾乎沒有共性。具體來說,我們在7B規模下進行實驗,并選擇了三個具有代表性的開源模型:Llama-2、OpenLLaMA和MPT作為融合的源LLM。對于目標LLM,我們選擇了另一個Llama-2 7B,它通常是三個源LLM中最強大的一個。目標LLM從與源模型相同的預訓練權重開始,但在訓練期間會更新參數。為了評估FUSELLM的性能,我們在推理、常識和代碼生成能力的基準上進行了實驗。

4.1 實驗設置

用于持續訓練的數據集

為了持續訓練目標LLM進行LLM融合,重要的是選擇一個緊湊且多樣化的訓練數據集。我們選擇了MiniPile,這是通過仔細的聚類和篩選過程生成的精選數據集。MiniPile由大約100萬個文檔組成,涵蓋22個領域,包含18億個token,約占Llama-2訓練token的0.1%。更多數據集的詳細信息可參見附錄B。

融合函數

對于融合函數,我們使用最小交叉熵(MinCE)。然而,我們將在第4.4節中考察使用其他融合函數的影響。

訓練細節

我們使用批量大小為128、最大長度為2048的Llama-2 7B目標LLM,訓練在配備8個每個40GB顯存的NVIDIA A100 GPU的單節點上進行。我們的訓練框架基于Huggingface Transformers(Wolf et al., 2020)并通過FlashAttention(Dao et al., 2022)加速。我們經驗性地將公式(5)中的組合權重(lambda)設置為0.9。訓練僅進行一個epoch,約需33小時。更多超參數的細節可參見附錄C。

評估

我們在三個基準上評估FUSELLM,這些基準代表LLM的不同核心能力,涵蓋推理、常識和代碼生成。

- Big-Bench Hard (BBH)(Suzgun et al., 2022)是一個評估LLM推理能力的基準。它包含23個選擇題任務和4個自由生成任務,來自Big-Bench(Srivastava et al., 2022),可分為四類:算法和算術推理、自然語言理解、世界知識和多語言知識與推理。我們遵循之前的工作(Wang et al., 2023b),基于少樣本鏈式思維(CoT)提示生成預測并計算精確匹配(EM)準確率。

- Common Sense (CS) 是一個評估LLM常識能力的基準。我們考慮了5個標準選擇題任務:ARC easy和ARC challenge(Clark et al., 2018)、BoolQ(Clark et al., 2019a)、HellaSwag(Zellers et al., 2019)和OpenBookQA(Mihaylov et al., 2018)。我們使用lm-eval-hardness(Gao et al., 2021)進行基于似然的零樣本評估。具體來說,我們選擇給定上下文情況下似然最高的選項并報告準確率。

- MultiPL-E (ME)(Cassano et al., 2022)是一個多語言編程基準,用于評估LLM的代碼生成能力。它由Python基準(Chen et al., 2021)翻譯而成,覆蓋18種編程語言的平行數據集。我們使用bigcode-evaluation-hardness(Ben Allal et al., 2022)進行零樣本代碼生成,涉及10種流行編程語言的HumanEval類任務,并基于每個問題生成的20個樣本報告pass@1(Chen et al., 2021)得分。

基線

在我們的實驗中,我們將FUSELLM與兩組基線進行比較:(1) 原始LLM,包括Llama-2 7B、OpenLLaMA 7B和MPT 7B;(2) Llama-2 CLM:僅使用因果語言建模目標在MiniPile上持續訓練的Llama-2 7B。

4.2 總體結果

表1展示了FUSELLM與基線方法在BBH上的總體結果。可以看到,三個源LLM在27個BBH任務上的表現各不相同,通常Llama-2表現優于其他模型。使用緊湊且多樣的語料庫進行持續訓練后,Llama-2 CLM相較于Llama-2表現出1.86%的相對提升,盡管這一提升相對溫和且在不同任務中的一致性不高。總體而言,FUSELLM在所有27個任務中的平均相對性能提升為5.16%,顯著優于原始Llama-2。在某些特定任務中,FUSELLM的增強效果尤為顯著(例如,Hyperbaton任務中的準確率從54.40提升至65.20)。在一些簡單持續預訓練導致性能下降的任務中(如Dyck Languages),FUSELLM通過結合個體源LLM的優勢實現了性能恢復。需要注意的是,FUSELLM偶爾在某些任務(如Geometric Shapes和Word Sorting)上表現不佳,這可能有兩個原因。首先,除了Llama-2以外的其他源LLM在這些任務上的表現較差,影響了融合結果。其次,持續訓練數據集與下游任務的相關性也對性能下降有所貢獻。


大型語言模型的知識融合(ICLR2024)-AI.x社區

表2展示了FUSELLM與基線方法在Common Sense基準上的零樣本性能。結果表明,FUSELLM在所有五個任務上持續超越基線,平均相對性能提升為1.25%。相比之下,Llama-2 CLM僅表現出0.16%的相對提升,且提升幅度較小。在具有挑戰性的ARC-challenge(2.40%)和OpenBookQA(2.71%)任務中,從Llama-2到FUSELLM的顯著提升突顯了FUSELLM在利用集體知識解決復雜問題方面的有效性。

對于代碼生成評估,表3展示了FUSELLM在MultiPL-E基準上的零樣本性能。我們觀察到,FUSELLM在10個任務中的9個上優于Llama-2,特別是在某些編程語言(如R)的pass@1得分上有顯著提升,從4.97提升至5.84。由于OpenLLaMA和MPT在代碼生成任務中相比Llama-2表現出色,通過FUSELLM融合的結果在平均表現上提升了6.36%,遠高于Llama-2 CLM的1.37%提升。然而,值得注意的是,在該評估中FUSELLM仍然表現出與OpenLLaMA或MPT相比的性能差距。這種差異可以歸因于兩個主要原因:Llama-2作為目標模型在代碼生成上的初始表現較差,以及持續訓練語料庫中與代碼相關的文本比例不足,估計約為7.59%。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.3 融合概率分布的效果

我們探討了從多個LLM獲得的融合概率分布的有效性,并跟蹤訓練過程中性能提升的趨勢。圖2展示了在BBH上的少樣本CoT性能隨訓練數據規模的變化情況。我們的觀察表明,FUSELLM相比Llama-2 CLM在精確匹配(EM)準確率上提升了2.5%,并在僅使用0.52億個token時達到了Llama-2 CLM最佳性能。值得注意的是,與Llama-2 CLM需要的15.7億個token相比,這代表了訓練token需求的3.9倍減少。這些結果表明,LLM生成的概率分布包含比原始文本序列更易學習的知識,從而加速了優化過程。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.4 實現過程分析

在本節中,我們深入探討了FUSELLM實現中的關鍵要素,包括源LLM的數量、詞匯對齊的標準以及融合函數的選擇。

源LLM的數量

我們展示了融合不同數量的LLM的結果。我們注意到,隨著模型數量從1增加到3,FUSELLM的性能顯著提高。然而,整合更多模型的好處在各個基準中的表現有所不同。在BBH中,性能提升是顯而易見的;而在CS或ME中,當融合兩個模型時,提升效果更加顯著。這種現象可能是由于三個模型在BBH中的各項任務上性能差異較大,而在CS或ME任務上的性能差異相對較小。


大型語言模型的知識融合(ICLR2024)-AI.x社區

詞匯對齊的標準

在LLM融合過程中,確保不同模型生成的tokens和詞匯表的一致性至關重要。顯然,基于最小編輯距離(MinED)的方法相比Fu等人(

2023)提出的精確匹配(EM)方法表現更優。我們推測這種性能提升源于MinED的寬松限制,能夠有效對齊由不同分詞器生成的輕微差異的tokens,從而保留了大量有用的token信息,同時引入的錯誤較少。

融合函數的選擇

在3.3節中,我們介紹了FUSELLM的兩種融合函數:一種是使用最小交叉熵分數(MinCE)的分布矩陣,另一種是基于交叉熵分數對分布矩陣進行加權平均(AvgCE)。結果表明,FUSELLM使用MinCE在所有基準上的表現優于AvgCE。這可能是由于AvgCE中的簡單加權平均引入了扭曲,削弱了各個LLM的獨特優勢。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.5 FUSELLM與知識蒸餾的比較

雖然知識蒸餾技術也可以用于提升LLM的能力,但FUSELLM在兩個方面脫穎而出,正如前文所述。在本節中,我們將FUSELLM與傳統的知識蒸餾進行比較。具體而言,我們從Llama-2 13B中提取概率分布,并應用傳統知識蒸餾方法,將其能力轉移到Llama-2 7B中。通過知識蒸餾獲得的模型(Llama-2 KD)在所有基準上表現優于原始Llama-2 7B,證明了知識蒸餾的有效性。然而,與FUSELLM相比,Llama-2 KD的提升幅度相對較小,尤其是在BBH中(2.97% vs. 5.16%)。這表明通過持續訓練集成三種具有不同架構的7B模型,FUSELLM獲得的優越結果超越了從單個13B模型中簡單提取知識的收益。這一觀察突出了“更多有不同,差異也能成就更多”的理念。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.6 FUSELLM與集成/融合的比較

正如之前提到的,傳統技術如模型集成和權重融合通常用于融合多個大型語言模型(LLMs)。為了比較我們提出的FUSELLM與這些現有融合方法的有效性,我們進行了實驗,模擬了多個LLM來源于相同基礎模型但在不同語料庫上訓練的場景。我們首先從The Pile數據集中選擇了三個相關領域(PhilPapers、NIH ExPorter和USPTO Backgrounds),并使用每個領域的10億個token對Pythia 1B模型(Biderman等人, 2023)進行持續訓練,生成了三個結構相同但領域不同的LLM。然后,我們將不同的融合技術應用于這些LLM:(1) 集成方法計算所有LLM生成的概率的加權平均值,權重基于每個模型的表現;(2) 權重融合方法在參數空間中融合多個LLM,融合權重由模型表現決定;(3) FUSELLM在從這三個領域中采樣的1億個token上進行持續訓練。

表7展示了FUSELLM和其他融合方法在測試集上的困惑度(perplexity)結果,我們使用The Pile中實現的方法,按每個UTF-8編碼字節(BPB)測量困惑度。我們觀察到,經過10億個token的訓練后,原始LLM的能力被轉移到每個特定領域的LLM中,導致它們在其他領域的表現下降。盡管所有融合技術都能夠整合不同模型的優勢,但FUSELLM在三個領域中始終實現了最低的平均困惑度,這表明它比集成和權重融合方法更有效地利用集體知識。


大型語言模型的知識融合(ICLR2024)-AI.x社區

5、結論

本文提出了一種稱為FUSELLM的新方法,用于實現大型語言模型(LLMs)的知識融合。我們的主要目標是將多個源LLM的集體知識和獨特優勢外化,并將這些知識轉移到一個目標LLM中。通過從不同的LLM中提取概率分布,我們利用源模型的多樣化能力,使目標LLM在推理、常識和代碼生成等任務上的表現得到提升。與傳統的模型集成和權重融合方法不同,FUSELLM能夠在架構不同的LLM之間實現知識融合。

我們通過實驗驗證了FUSELLM的有效性,實驗結果表明在不同的評估基準上,FUSELLM的目標模型在大多數任務中的性能超越了任何單個源LLM。盡管我們的方法已經展示了其潛力,未來的研究仍可進一步探索以下方向:研究如何在更多LLM之間實現更有效的融合,并開發更加高效的訓練策略,以進一步減少所需的訓練時間和資源。

1School of Computer Science and Engineering, Sun Yat-sen University, China 2Tencent AI Lab

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/3ncHDUFWpqhy31QxHpAccg??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
日韩免费毛片| 秋霞成人午夜鲁丝一区二区三区| 亚洲 欧美 另类人妖| 黄色精品在线观看| 成人av片在线观看| 国产成人av网址| 欧美精品久久久久久久久46p| 成人直播在线观看| 欧美日韩国产乱码电影| 日韩中字在线观看| 亚洲精品承认| 不卡电影免费在线播放一区| 国产精品入口福利| 日本少妇性生活| 久久国产成人精品| 日韩精品999| 杨幂一区二区国产精品| 天堂在线中文网官网| 亚洲欧美福利一区二区| 日韩av不卡播放| 免费观看a视频| 蜜臀av性久久久久蜜臀aⅴ四虎 | 在线观看中文字幕的网站| 99re在线精品| 97久久天天综合色天天综合色hd | 免费日韩一区二区| 欧美国产日韩二区| 日日操免费视频| 伊人成综合网伊人222| 日韩欧美一级在线播放| 黄大色黄女片18第一次| 亚洲1234区| 亚洲高清一区二区三区| a级片一区二区| 91高清在线| 国产日韩影视精品| 久久视频在线观看中文字幕| 亚洲国产精品一| 国产一区二区三区免费在线观看| 国产精品久久久久77777| xxxx.国产| 99riav1国产精品视频| 欧美福利小视频| 国产一区二区播放| 亚洲一级毛片| 久久九九免费视频| 黄色录像二级片| 久久久久久久久久久久久久| 色吧影院999| 肉色超薄丝袜脚交69xx图片| 色琪琪久久se色| 日韩中文字幕视频在线| 一二三四在线观看视频| 久久国产成人精品| 久久精品99无色码中文字幕| 日本一级特级毛片视频| 亚洲啊v在线观看| 欧美成人免费播放| 久久久久免费看| 国户精品久久久久久久久久久不卡| 久久深夜福利免费观看| 小泽玛利亚一区二区免费| 亚洲精彩视频| 欧美激情乱人伦一区| 激情综合网五月婷婷| 亚洲国产网站| 欧美有码在线视频| 日韩av免费播放| 久久国产日韩欧美精品| 91夜夜揉人人捏人人添红杏| 国产美女永久免费| 国产suv一区二区三区88区| 国产精品一区二区在线观看| 色偷偷在线观看| 久久久久久久久久久久久久久99 | 色八戒一区二区三区| 手机在线免费观看毛片| 国产精品久久久久久久久久辛辛 | av毛片在线免费看| 午夜电影一区二区三区| 日韩中文字幕免费在线| 四虎精品永久免费| 精品日产卡一卡二卡麻豆| 亚洲第九十七页| 成人免费av| 久久91亚洲精品中文字幕奶水| 亚洲国产精品午夜在线观看| 麻豆久久精品| 91最新在线免费观看| 少妇高潮一区二区三区69| 波多野洁衣一区| 色视频一区二区三区| 老司机精品影院| 激情亚洲一区二区三区四区| 久久精品免费网站| 91精品国产自产精品男人的天堂| 亚洲欧美国产精品久久久久久久 | 拍真实国产伦偷精品| 亚洲一区二区视频在线| 国产一区视频免费观看| 国产精品一区二区三区av| 亚洲福利小视频| www.xx日本| 夜夜夜久久久| 亚洲综合第一页| 九色视频在线播放| 亚洲国产精品久久艾草纯爱| xx欧美撒尿嘘撒尿xx| 老牛影视av一区二区在线观看| 中文在线资源观看视频网站免费不卡| 青青草手机在线视频| 日韩一区精品字幕| 国产一区二区三区奇米久涩| 91美女视频在线| 色综合色狠狠综合色| 亚洲三级在线视频| 日韩一区二区三区免费播放| 91大神在线播放精品| 国产同性人妖ts口直男| 国产女同互慰高潮91漫画| 青草网在线观看| gogo大尺度成人免费视频| 亚洲欧美国产精品久久久久久久| 国产精品18p| 国产精品中文欧美| 一区二区三区四区视频在线观看| 成人欧美一区二区三区的电影| 欧美videos中文字幕| 激情高潮到大叫狂喷水| 天堂蜜桃91精品| 精品亚洲欧美日韩| a级片免费在线观看| 欧美一区二区三区在| 小嫩苞一区二区三区| 日韩av不卡一区二区| 欧美xxxx黑人又粗又长精品| 123区在线| 精品国免费一区二区三区| a在线视频播放观看免费观看| 精彩视频一区二区| 亚洲精品国产系列| 国产精品伦一区二区| 亚洲人成在线观看| 手机在线看片1024| 久久久久免费观看| 国产免费视频传媒| 国内成人自拍| 国产精品黄色av| www.亚洲.com| 欧美日韩久久一区| 亚洲av无一区二区三区| 久久激情五月婷婷| 亚洲国产精品影视| 久久99精品久久久野外观看| 久久综合久中文字幕青草| h片在线免费看| 亚洲高清视频在线| 97香蕉碰碰人妻国产欧美 | 亚洲欧洲制服丝袜| 在线免费黄色小视频| 欧美在线视屏| 国产精品一区二区av| 男人久久天堂| 国产午夜精品免费一区二区三区| 波多野结衣黄色| 国产精品国产成人国产三级 | 成人av在线资源网| 欧美日韩亚洲一| 精品免费在线| 成人午夜高潮视频| 久久久123| 国产视频精品xxxx| 中文字幕在线观看第二页| 中文字幕中文乱码欧美一区二区| 免费精品99久久国产综合精品应用| 你懂的视频一区二区| 国产富婆一区二区三区| 中文在线免费视频| 日韩中文在线中文网在线观看| 99精品在线看| 欧美日韩中文字幕综合视频| 国产又粗又黄又猛| 国产精品影视网| 亚洲熟妇国产熟妇肥婆| 日韩精品欧美激情一区二区| 96成人在线视频| 电影亚洲精品噜噜在线观看| 久久艳片www.17c.com| 天堂国产一区二区三区| 日韩欧美在线字幕| 精品国产视频在线观看| 99视频有精品| 91精品视频国产| 欧美资源在线| 九一免费在线观看| 国产成人手机高清在线观看网站| 成人有码在线视频| 中文字幕这里只有精品| 麻豆成人在线看| 狠狠v欧美ⅴ日韩v亚洲v大胸| 在线成人午夜影院| 天堂а√在线中文在线新版| 亚洲三级理论片| 欧洲女同同性吃奶| 国产99久久精品| 日韩中文字幕a| 国产精品一卡| 91视频 - 88av| 色综合久久网| 欧美日韩精品免费观看视一区二区| 精品国产欧美| 国产精品一区二区久久久| 国产黄大片在线观看| 久久视频精品在线| 1024国产在线| 亚洲欧美在线一区| 色婷婷av一区二区三区之红樱桃| 欧美一区二区视频在线观看2020| 波多野结衣一区二区在线 | 成人免费性视频| 五月天激情综合网| 亚洲精品成人久久久998| 亚洲国产欧美日韩在线观看第一区 | 美女视频一区| 2019最新中文字幕| 黄污视频在线观看| 九九热精品视频| 免费观看在线午夜影视| 国产一区二区黄| 亚洲 欧美 激情 另类| 日韩免费高清视频| 99久久亚洲精品日本无码| 欧美在线观看18| 最近免费中文字幕大全免费版视频| 亚洲成人av在线电影| 九九热精品在线观看| 亚洲欧美偷拍另类a∨色屁股| 久久免费手机视频| 国产精品久久久久永久免费观看| 亚洲国产av一区| 久久久午夜精品理论片中文字幕| 国产精品无码专区| 9久草视频在线视频精品| 野战少妇38p| 不卡视频一二三| 国产成人无码一区二区在线观看| 99精品一区二区| 国产三级国产精品| 久久久久久综合| 影音先锋男人在线| 国产精品久久久一区麻豆最新章节| 午夜黄色福利视频| 综合色天天鬼久久鬼色| www.5588.com毛片| 一区二区在线观看av| 青娱乐免费在线视频| 亚洲香肠在线观看| 久久久久久久黄色片| 日韩欧美国产高清91| 天天操天天干视频| 在线精品视频一区二区| 中文字幕在线2018| 欧美一区二区二区| 日韩在线观看视频一区| 日韩第一页在线| 国产大学生校花援交在线播放| 一区二区三区久久精品| 欧美日韩xx| 欧美激情精品久久久| 中文在线аv在线| 国产在线久久久| 澳门成人av| 欧美日韩一区二区视频在线观看| 成人一区而且| 欧美久久久久久久久久久久久久| 午夜在线播放视频欧美| 国产野外作爱视频播放| 国产伦理精品不卡| 国产精品成人一区二区三区电影毛片| 国产欧美视频一区二区三区| 色欲一区二区三区精品a片| 亚洲超丰满肉感bbw| 国产精品欧美综合| 日韩精品专区在线影院重磅| 日本亚洲一区| 久久中文字幕视频| 日本免费一区二区六区| 国产在线a不卡| 欧美中文一区| 国产成年人在线观看| 一区二区三区福利| 一区二区三区四区毛片| 99精品国产视频| 欧美一级片在线视频| 黑人精品xxx一区一二区| 一级片aaaa| 日韩久久免费电影| 成人a在线视频免费观看| 4444欧美成人kkkk| 国产精品一区免费在线| 蜜桃视频在线观看91| 一级毛片免费高清中文字幕久久网| 色综合久久久久无码专区| 精品一区二区三区免费| 国精产品一区一区三区免费视频 | 免费污污视频在线观看| 日韩欧美一级在线播放| av福利在线播放| 7777免费精品视频| 日韩综合一区二区三区| 日韩欧美一区二区视频在线播放| 精品96久久久久久中文字幕无| 亚洲va在线va天堂va偷拍| 久久久青草青青国产亚洲免观| 久久久精品国产sm调教| 7878成人国产在线观看| 国产精品二线| 国产91在线播放精品91| 第四色中文综合网| 久久最新免费视频| 另类人妖一区二区av| 国精产品一区二区三区| 欧美日韩视频免费播放| 成人毛片视频免费看| 久久中文字幕在线视频| 成人四虎影院| 日韩免费av电影| 视频在线观看一区| 少妇真人直播免费视频| 五月激情六月综合| 欧美一级片免费| 欧美高清在线观看| 日韩一二三区| 91精品国产毛片武则天| 国产综合成人久久大片91| 国产精品久久久免费看| 欧美日韩国产bt| 日本视频在线免费观看| 国产精品毛片a∨一区二区三区|国| 久久不见久久见免费视频7| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 不卡一区在线观看| av大片免费观看| 亚洲女人天堂av| 亚洲精品国产精品国产| 噜噜噜噜噜久久久久久91| 国产欧美日韩亚洲一区二区三区| 无码人妻精品一区二区三区99不卡| 一区二区三区中文字幕电影| 精品国产99久久久久久宅男i| 久久伊人免费视频| 亚洲一区二区三区在线免费 | 任你操精品视频| 欧美精品自拍偷拍动漫精品| 国产在线69| 999精品视频一区二区三区| 国产精品porn| 艳妇乳肉亭妇荡乳av| 欧美日韩在线视频一区二区| 免费播放片a高清在线观看| 国产精品成人免费电影| 青青草国产成人a∨下载安卓| 亚洲精品综合在线观看| 亚洲精品一二三| 色综合免费视频| 国产精品白丝jk喷水视频一区 | 日韩在线激情视频| 日本伊人久久| 水蜜桃色314在线观看| 2020国产精品| 一级片一区二区三区| 欧美日韩爱爱视频| 婷婷激情久久| 免费av不卡在线| 午夜激情综合网| www.亚洲.com| 99久久免费国| 免费在线亚洲| 欧美爱爱免费视频| 日韩精品亚洲视频| www.欧美| 日韩精品一区二区三区久久| 国产精品久久久久久久浪潮网站| 国产成人av免费看| 欧美在线视频一二三| 99久久婷婷这里只有精品 | 亚洲精品国产精品国| 人九九综合九九宗合| 亚洲精品a级片| 亚洲av片不卡无码久久| 在线播放91灌醉迷j高跟美女 | 国产精品自产拍在线观看中文| 中文字幕免费精品| 无码h肉动漫在线观看| 91精品国产色综合久久久蜜香臀| 精品极品在线| 99热一区二区三区| 久久久九九九九| 成人av免费播放| 国产精品欧美日韩一区二区|