精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Mamba作者新作:將Llama3蒸餾成混合線性 RNN

人工智能 新聞
最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權(quán)重,大型 transformer 可以被蒸餾成大型混合線性 RNN,只需最少的額外計算,同時可保留其大部分生成質(zhì)量。

Transformer 在深度學(xué)習(xí)領(lǐng)域取得巨大成功的關(guān)鍵是注意力機制。注意力機制讓基于 Transformer 的模型關(guān)注與輸入序列相關(guān)的部分,實現(xiàn)了更好的上下文理解。然而,注意力機制的缺點是計算開銷大,會隨輸入規(guī)模而二次增長,Transformer 也因此難以處理非常長的文本。

前段時間,Mamba 的出現(xiàn)打破了這一局面,它可以隨上下文長度的增加實現(xiàn)線性擴展。隨著 Mamba 的發(fā)布,這些狀態(tài)空間模型 (SSM) 在中小型規(guī)模上已經(jīng)可以與 Transformer 匹敵,甚至超越 Transformer,同時還能維持隨序列長度的線性可擴展性,這讓 Mamba 具有有利的部署特性。

簡單來說,Mamba 首先引入了一個簡單卻有效的選擇機制,其可根據(jù)輸入對 SSM 進行重新參數(shù)化,從而可讓模型在濾除不相關(guān)信息的同時無限期地保留必要和相關(guān)的數(shù)據(jù)。

最近,一篇題為《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的論文證明:通過重用注意力層的權(quán)重,大型 transformer 可以被蒸餾成大型混合線性 RNN,只需最少的額外計算,同時可保留其大部分生成質(zhì)量。

由此產(chǎn)生的混合模型包含四分之一的注意力層,在聊天基準(zhǔn)測試中實現(xiàn)了與原始 Transformer 相當(dāng)?shù)男阅埽⑶以诹奶旎鶞?zhǔn)測試和一般基準(zhǔn)測試中優(yōu)于使用數(shù)萬億 token 從頭開始訓(xùn)練的開源混合 Mamba 模型。此外,該研究還提出了一種硬件感知推測解碼算法,可以加快 Mamba 和混合模型的推理速度。

圖片

論文地址:https://arxiv.org/pdf/2408.15237

該研究的性能最佳模型是從 Llama3-8B-Instruct 中蒸餾出來的,在 AlpacaEval 2 上相對于 GPT-4 實現(xiàn)了 29.61 的長度控制(length-controlled)勝率,在 MT-Bench 上實現(xiàn)了 7.35 的勝率,超越了最好的指令調(diào)整線性 RNN 模型。

方法

知識蒸餾(KD)作為一種模型壓縮技術(shù),用于將大型模型(教師模型)的知識遷移到較小的模型(學(xué)生模型)中,旨在訓(xùn)練學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)的行為。該研究旨在對 Transformer 進行蒸餾,使其性能與原始語言模型相當(dāng)。

該研究提出了一種多級蒸餾方法,結(jié)合了漸進式蒸餾、監(jiān)督微調(diào)和定向偏好優(yōu)化。與普通蒸餾相比,這種方法可以獲得更好的困惑度和下游評估結(jié)果。

該研究假設(shè)來自 Transformer 的大部分知識都保留在從原始模型遷移而來的 MLP 層中,并專注于蒸餾 LLM 的微調(diào)和對齊步驟。在此階段,MLP 層保持凍結(jié)狀態(tài),Mamba 層進行訓(xùn)練。

圖片

該研究認(rèn)為線性 RNN 和注意力機制之間天然存在一些聯(lián)系。通過刪除 softmax 可以線性化注意力公式:

圖片

但線性化注意力會導(dǎo)致模型能力退化。為了設(shè)計一個有效的蒸餾線性 RNN,該研究盡可能接近原始 Transformer 參數(shù)化,同時以有效的方式擴展線性 RNN 的容量。該研究沒有嘗試讓新模型捕獲精確的原始注意力函數(shù),而是使用線性化形式作為蒸餾的起點。

如算法 1 所示,該研究將來自注意力機制的標(biāo)準(zhǔn) Q、K、V 頭直接饋入到 Mamba 離散化中,然后應(yīng)用得到的線性 RNN。這可以看作是使用線性注意力進行粗略初始化,并允許模型通過擴展的隱藏狀態(tài)學(xué)習(xí)更豐富的交互。

圖片

該研究用微調(diào)線性 RNN 層直接替換 Transformer 注意力頭,保持 Transformer MLP 層不變,不訓(xùn)練它們。這種方法還需要處理其他組件,例如跨頭共享鍵和值的分組查詢注意力。研究團隊注意到,這種架構(gòu)與許多 Mamba 系統(tǒng)中使用的架構(gòu)不同,這種初始化允許用線性 RNN 塊替換任何注意力塊。

圖片

該研究還提出了一種使用硬件感知多步生成的線性 RNN 推測解碼新算法。

算法 2 和圖 2 顯示了完整的算法。該方法僅在緩存中保留一個 RNN 隱藏狀態(tài)以進行驗證,并根據(jù)多步內(nèi)核的成功來延遲推進它。由于蒸餾模型包含 transformer 層,該研究還將推測解碼擴展到 Attention/RNN 混合架構(gòu)。在此設(shè)置中,RNN 層根據(jù)算法 2 執(zhí)行驗證,而 Transformer 層僅執(zhí)行并行驗證。

圖片

為了驗證這種方法的有效性,該研究使用 Mamba 7B 和 Mamba 2.8B 作為目標(biāo)模型進行推測。結(jié)果如表 1 所示。

圖片

圖 3 顯示了多步內(nèi)核本身的性能特征。

圖片

H100 GPU 上的加速。該研究提出的算法在 Ampere GPU 上表現(xiàn)出強大的性能,如上表 1 所示。但在 H100 GPU 上面臨巨大挑戰(zhàn)。這主要是因為 GEMM 操作速度太快,這使得緩存和重新計算操作產(chǎn)生的開銷更加明顯。實際上,該研究的算法的簡單實現(xiàn)(使用多個不同的內(nèi)核調(diào)用)在 3090 GPU 上實現(xiàn)了相當(dāng)大的加速,但在 H100 上根本沒有加速。

實驗及結(jié)果

該研究使用兩個 LLM 聊天模型進行實驗:Zephyr-7B 是在 Mistral 7B 模型的基礎(chǔ)上微調(diào)而來, 以及 Llama-3 Instruct 8B。對于線性 RNN 模型,該研究使用 Mamba 和 Mamba2 的混合版本,其中注意力層分別為 50%、25%、12.5% 和 0%,并將 0% 稱為純 Mamba 模型。Mamba2 是 Mamba 的一種變體架構(gòu),主要針對最近的 GPU 架構(gòu)而設(shè)計。

在聊天基準(zhǔn)上的評估

表 2 顯示了模型在聊天基準(zhǔn)上的性能,主要對比的模型是大型 Transformer 模型。結(jié)果顯示:

蒸餾后的混合 Mamba 模型 (50%) 在 MT 基準(zhǔn)測試中取得的分?jǐn)?shù)與教師模型相似,在 LC 勝率和總體勝率方面都略優(yōu)于 AlpacaEval 基準(zhǔn)測試中的教師模型。

蒸餾后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基準(zhǔn)測試中略遜于教師模型,但即使在 AlpcaaEval 中具有更多參數(shù),它仍然超越了一些大型 Transformer。

蒸餾后的純 (0%) Mamba 模型的準(zhǔn)確性確實顯著下降。

值得注意的是,蒸餾后的混合模型的表現(xiàn)優(yōu)于 Falcon Mamba,后者是從頭開始訓(xùn)練的,使用了超過 5T 的 token。

圖片

一般基準(zhǔn)評估

零樣本評估。表 3 顯示了從不同教師模型中蒸餾出的 Mamba 和 Mamba2 在 LM Eval 基準(zhǔn)中的零樣本性能。從 Llama-3 Instruct 8B 中蒸餾出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型與從頭開始訓(xùn)練的開源 TRI Mamba 和 Nvidia Mamba 模型相比表現(xiàn)更好。

圖片

基準(zhǔn)評估。表 4 顯示經(jīng)過蒸餾的混合模型的性能與 Open LLM Leaderboard 上最好的開源線性 RNN 模型相匹配,同時在 GSM8K 和 CRUX 中優(yōu)于相應(yīng)的開源指令模型。

圖片

混合推測性解碼

對于 50% 和 25% 的蒸餾模型,與非推測基線相比,該研究在 Zephyr-Hybrid 上實現(xiàn)了超過 1.8 倍的加速。

實驗還表明,該研究訓(xùn)練的 4 層 draft 模型實現(xiàn)了更高的接收率,不過由于 draft 模型規(guī)模的增加,額外開銷也變大了。在后續(xù)工作中,該研究將專注于縮小這些 draft 模型。

圖片

與其它蒸餾方法的比較:表 6(左)比較了不同模型變體的困惑度。該研究在一個 epoch 內(nèi)使用 Ultrachat 作為種子提示進行蒸餾,并比較困惑度。結(jié)果發(fā)現(xiàn)刪除更多層會使情況變得更糟。該研究還將蒸餾方法與之前的基線進行了比較,發(fā)現(xiàn)新方法顯示出較小的退化,而 Distill Hyena 模型是在 WikiText 數(shù)據(jù)集中使用小得多的模型進行訓(xùn)練的,并且顯示出較大的困惑度退化。

表 6(右)展示了單獨使用 SFT 或 DPO 不會產(chǎn)生太大的改進,而使用 SFT + DPO 會產(chǎn)生最佳分?jǐn)?shù)。

圖片

表 7 比較了幾種不同模型的消融研究。表 7(左)展示了使用各種初始化的蒸餾結(jié)果,表 7(右)顯示漸進式蒸餾和將注意層與 Mamba 交錯帶來的收益較小。

圖片

表 8 比較了使用兩種不同初始化方法的混合模型的性能:結(jié)果證實注意力權(quán)重的初始化至關(guān)重要。

圖片

表 9 比較了有 Mamba 塊和沒有 Mamba 塊的模型的性能。有 Mamba 塊的模型性能明顯優(yōu)于沒有 Mamba 塊的模型。這證實了添加 Mamba 層至關(guān)重要,并且性能的提高不僅僅歸功于剩余的注意力機制。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-09-10 13:30:00

2024-05-27 09:00:00

2024-09-05 12:27:17

2025-06-03 08:43:00

2024-07-15 08:20:00

2024-07-16 09:41:01

2024-05-16 09:20:29

OllamaLlama3框架

2024-03-15 09:00:00

2024-05-16 10:44:10

2024-03-04 08:40:44

Llama3AI谷歌

2024-03-04 13:23:34

數(shù)據(jù)模型

2024-04-25 09:41:24

項目模型

2024-04-30 08:28:44

開源大模型Llama

2025-05-27 15:16:38

Llama運營模型

2024-04-02 09:03:43

TransformeMambaRNN

2025-04-24 08:20:00

C#Llama3人工智能

2024-04-26 07:48:45

DockerLLama3模型

2024-05-21 13:06:02

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲а∨天堂久久精品2021| 女人被男人躁得好爽免费视频 | 亚洲色大成网站www| 99亚洲伊人久久精品影院红桃| 亚洲精品视频免费在线观看| 一个色综合久久| 日本不卡1234视频| 最新日韩av在线| 精品综合在线| 国产精品无码免费播放| 国产毛片久久| 久久久成人精品| 国产中年熟女高潮大集合| 国产va免费精品观看精品| 欧美日韩在线视频一区| 午夜在线视频免费观看| 青草久久伊人| 国产成人综合自拍| 国产精品久久久久秋霞鲁丝| 日韩aaaaaa| 91成人观看| 国产亚洲欧美日韩精品| 日本一卡二卡在线| 欧美一级大片在线视频| 欧洲av一区二区嗯嗯嗯啊| 欧日韩免费视频| 欧美第一页浮力影院| 天天摸天天干天天操| 久久99在线观看| 日本中文字幕久久看| 免费中文字幕在线观看| 五月激情久久久| 国产一区二区日韩精品欧美精品| 日韩av在线播放资源| 国产真实乱子伦| 91在线超碰| 一区二区不卡在线播放| 欧美h视频在线观看| 成人好色电影| 久久久久九九视频| 精品国产乱码久久久久久郑州公司| 国产美女免费视频| 激情欧美日韩一区二区| 国产精品网红直播| 亚洲永久精品一区| 视频在线观看国产精品| 5566成人精品视频免费| 日本少妇久久久| 精品福利av| 久久久久五月天| 精品97人妻无码中文永久在线| 久久精品一区二区不卡| 日韩一区视频在线| 国产黄色录像片| 91亚洲自偷观看高清| 国产一区二区三区免费播放| 欧美日韩国产成人在线91| av日韩一区二区三区| 国产白丝在线观看| 性做久久久久久免费观看欧美| 欧美中文字幕在线观看视频| 欧美xxxx视频| 婷婷久久综合九色综合伊人色| 成人黄色av片| 在线天堂资源www在线污| 色婷婷激情综合| 15—17女人毛片| 亚洲成人高清| 日韩限制级电影在线观看| 性猛交╳xxx乱大交| 久久精品论坛| 国产亚洲精品久久| 激情无码人妻又粗又大| 亚洲第一天堂| 久久久久久亚洲精品中文字幕| 日韩精品久久久久久久| 久久狠狠婷婷| 国产欧美精品xxxx另类| 精品乱子伦一区二区| 成人丝袜18视频在线观看| 久久亚洲午夜电影| 欧美一级二级三级九九九| 国内精品久久久久久久久久| 成人黄页在线观看| 欧美最大成人综合网| 日韩黄色影院| 亚洲国产精品久久久久秋霞影院| 18禁网站免费无遮挡无码中文| 丁香六月综合| 91精品国产品国语在线不卡| 极品白嫩的小少妇| 精品久久久久久久久久久下田| 久久精品视频中文字幕| 日产精品久久久久久久| 久久av中文字幕片| 国产亚洲情侣一区二区无| 国产日产精品久久久久久婷婷| 1000精品久久久久久久久| 被灌满精子的波多野结衣| 欧美日韩精品一区二区三区视频| 欧美一区二区啪啪| 亚洲永久精品ww.7491进入| 先锋资源久久| 日韩免费观看网站| 丰满少妇被猛烈进入| 国产日韩欧美不卡在线| 天天做天天躁天天躁| 欧美日韩不卡| 亚洲国产欧美一区二区三区同亚洲| 国产免费一区二区三区网站免费| 欧美三级乱码| 91久久国产精品| 国产黄在线观看| 五月天欧美精品| 婷婷中文字幕在线观看| 久久综合影院| 7m第一福利500精品视频| 国产精品女人久久久| 久久婷婷综合激情| 欧美一区二区激情| 国产一区二区三区免费在线| 亚洲夜晚福利在线观看| 在线看成人av| 懂色av一区二区夜夜嗨| 吴梦梦av在线| 99re久久| 一本色道久久88综合亚洲精品ⅰ| 日韩欧美三级在线观看| 国产精品资源在线看| 亚洲最新在线| 麻豆传传媒久久久爱| 成人欧美一区二区三区的电影| 日韩午夜av一区| 开心激情五月网| 日本不卡高清视频| 你懂的视频在线一区二区| 高清电影在线免费观看| 日韩欧美精品在线| 永久免费看mv网站入口| 蜜臀久久99精品久久久画质超高清| 蜜桃av噜噜一区二区三| 瑟瑟视频在线看| 亚洲国产精彩中文乱码av| 久久久久成人网站| 国产成人综合亚洲91猫咪| 青青草影院在线观看| 91精品国产一区二区在线观看| 中文字幕一区日韩电影| 日本成人一级片| 亚洲国产精品成人综合| 天天操天天爽天天射| 精品视频99| 国产精品第七影院| av片在线看| 欧美日韩精品一区二区天天拍小说| 国内精品卡一卡二卡三| 久久精品五月| 亚洲成人第一| 成人精品动漫| 久久国产精品电影| 亚洲AV无码一区二区三区少妇| 亚洲欧美电影一区二区| 中文字幕一二三区| 国模吧视频一区| 国产一区二区三区高清| 一区二区乱码| 中文字幕欧美日韩精品| 97人妻精品一区二区三区视频| 亚洲天堂2014| 亚洲成a人无码| 亚洲精品一二| 性刺激综合网| youjizzjizz亚洲| 久久久99精品免费观看| 成人动漫在线视频| 白浆在线视频| 在线日韩欧美视频| av小说天堂网| 精品福利在线观看| 欧美三级视频网站| 国产一区二区三区久久悠悠色av| av在线com| 国内黄色精品| 5g影院天天爽成人免费下载| 看黄在线观看| 精品国产一区二区三区四区在线观看 | 18av在线播放| 国产午夜精品理论片a级探花| 姑娘第5集在线观看免费好剧| 亚洲美女视频在线观看| 亚洲久久久久久| 另类的小说在线视频另类成人小视频在线 | 五十路六十路七十路熟婆 | 亚洲国产精品第一页| 久久精品1区| 中国黄色录像片| 精品一区欧美| 国产91视觉| 色8久久久久| 欧美亚洲国产日韩2020| 国产在线观看a视频| 日韩成人中文字幕在线观看| 97人妻精品一区二区三区视频| 欧美日韩综合视频| 国产盗摄x88av| 国产欧美日韩精品在线| japanese在线观看| 激情另类小说区图片区视频区| 久久国产色av免费观看| 欧美视频成人| 伊人久久大香线蕉av一区| 天天躁日日躁狠狠躁欧美巨大小说| 成人黄色av网| 日韩一区二区三区在线免费观看| 久久久在线视频| 国产高清一区二区三区视频| 亚洲偷欧美偷国内偷| 欧美日韩激情视频在线观看| 日韩新的三级电影| 久久琪琪电影院| 2024最新电影在线免费观看| 中文字幕视频在线免费欧美日韩综合在线看 | 日韩手机在线导航| 91丨porny丨在线中文 | 久久免费福利视频| 成人在线观看亚洲| 日韩在线免费视频观看| 加勒比一区二区三区在线| 亚洲激情在线观看视频免费| 性生交生活影碟片| 欧美一区二区网站| 国产精品一区二区免费视频| 欧美日韩一卡二卡| 中文字幕欧美在线观看| 欧洲在线/亚洲| www.av88| 欧美影视一区二区三区| 国产午夜麻豆影院在线观看| 欧美色欧美亚洲高清在线视频| 亚洲 欧美 视频| 激情成人在线视频| 日韩少妇裸体做爰视频| 亚洲va欧美va人人爽| 久久精品国产亚洲AV无码男同| 伊人婷婷欧美激情| 午夜写真片福利电影网| 亚洲精品视频自拍| 激情综合网五月天| 午夜电影网亚洲视频| 免费毛片一区二区三区| 欧美日在线观看| 日本中文字幕在线观看视频| 色老汉一区二区三区| 99久久久无码国产精品免费蜜柚| 欧美午夜精品伦理| 国产熟妇一区二区三区四区| 日本久久精品电影| 亚洲熟妇无码久久精品| 4438亚洲最大| 好吊色一区二区| 日韩精品久久久久| 麻豆国产在线播放| 中文字幕精品久久| 激情成人四房播| 久久久久久久久久av| mm视频在线视频| 国产精品igao视频| 99视频这里有精品| 国产高清一区视频| 伊人精品一区| 一区高清视频| 亚洲二区免费| 丝袜制服一区二区三区| 日韩子在线观看| 亚洲欧美三级在线| 日韩在线资源| 久久久久久有精品国产| 成人性生活av| 成人免费网视频| 日本成人精品| 久久久久久久久久久久久久久久av | 久久国产毛片| 性生活一级大片| 91尤物视频在线观看| 天堂网中文在线观看| 亚洲成人一区在线| 中文字幕一区二区免费| 欧美变态tickle挠乳网站| 欧美孕妇孕交xxⅹ孕妇交| 久久精品国产96久久久香蕉| 暧暧视频在线免费观看| 国产99久久精品一区二区 夜夜躁日日躁| 亚洲免费看片| 久久伊人一区二区| 一区二区三区四区在线观看国产日韩| 日日橹狠狠爱欧美超碰| 国产在线精品一区二区三区不卡 | 成人亚洲免费视频| 99久久99久久精品免费观看| 长河落日免费高清观看| 午夜a成v人精品| 国产精品一级二级| 亚洲欧美一区二区三区久久 | 国产成人精品视频在线| 视频一区日韩精品| 亚洲一卡二卡| 香蕉亚洲视频| 韩国av中国字幕| 中文字幕一区在线| 精品国产午夜福利| 精品国产网站在线观看| 麻豆视频免费在线观看| 日本sm极度另类视频| 波多野结衣在线一区二区| 伊人情人网综合| 日韩高清一区在线| 久久久久久久无码| 亚洲一区二区三区四区不卡| 在线观看免费观看在线| 亚洲色图13p| 欧美少妇网站| 国语精品中文字幕| 欧美日韩亚洲国产精品| 国产传媒免费观看| 国产欧美日韩在线| 国模私拍一区二区| 亚洲免费影视第一页| sm久久捆绑调教精品一区| 国产91精品入口17c| 欧美日韩免费| 女王人厕视频2ⅴk| 亚洲精品国产a| 国产视频在线观看免费| 久久精品一本久久99精品| 粉嫩91精品久久久久久久99蜜桃| 国产亚洲精品福利| 稀缺小u女呦精品呦| 亚洲美女区一区| 国产人妖一区二区三区| 久久久www成人免费精品| 日韩一级特黄| 欧美日韩一级在线| 国产在线麻豆精品观看| 男女性高潮免费网站| 欧美一区二区成人| 污视频网站免费在线观看| 91手机在线观看| 国产精品大片免费观看| 亚洲少妇一区二区三区| 亚洲成av人片一区二区梦乃| 亚洲风情第一页| 国模精品一区二区三区色天香| 国产精品15p| 国产极品尤物在线| 久久综合久久综合亚洲| 日本中文字幕久久| 国产亚洲欧美日韩美女| 欧美电影在线观看网站| 日本一区免费| 久久99久久99小草精品免视看| 日本精品在线免费观看| 日韩欧美在线观看一区二区三区| 牛牛电影国产一区二区| 久久久久久九九九九| 日本最新不卡在线| 精品人妻伦九区久久aaa片| 欧美不卡视频一区| 中文字幕人成乱码在线观看| 日韩中文字幕一区二区| 狠狠狠色丁香婷婷综合激情 | 欧美性生活大片免费观看网址| 久久综合九色综合久| 国产美女搞久久| 午夜久久tv| 成人网站免费观看| 欧美日韩在线播| 岛国毛片av在线| 欧美日韩精品不卡| 国产在线精品视频| 精品国产乱码一区二区| 中文字幕自拍vr一区二区三区| 试看120秒一区二区三区| 黄色a级片免费| 亚洲视频一区在线| 婷婷婷国产在线视频| 国产欧美精品在线| 激情一区二区| 色www亚洲国产阿娇yao| 欧美精品一区二| 日韩av免费| 日本中文字幕在线视频观看| 欧美国产成人在线| 日本激情一区二区三区| 国产精品视频99| 亚洲精品1区2区| 女人18毛片毛片毛片毛片区二 | 欧美人与禽zozo性伦| gogo高清在线播放免费| 一区二区成人国产精品 | 久久激情五月激情|