精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DenseMamba:大模型的DenseNet時刻,Mamba和RetNet精度顯著提升

人工智能 新聞
近期,來自華為諾亞方舟實驗室的研究者提出了 DenseSSM,用于增強 SSM 中各層間隱藏信息的流動。通過將淺層隱藏狀態有選擇地整合到深層中,DenseSSM 保留了對最終輸出至關重要的精細信息。DenseSSM 在保持訓練并行性和推理效率的同時,通過密集連接實現了性能提升。該方法可廣泛應用于各種 SSM 類型,如 Mamba 和 RetNet。

隨著 ChatGPT 的突破性進展,大型語言模型(LLMs)迎來了一個嶄新的里程碑。這些模型在語言理解、對話交互和邏輯推理方面展現了卓越的性能。過去一年,人們目睹了 LLaMA、ChatGLM 等模型的誕生,它們基于 Transformer 架構,采用多頭自注意力(MHSA)機制來捕捉詞匯間的復雜關系,盡管 MHSA 模塊在模型中扮演著核心角色,但其在推理過程中對計算和內存資源的需求卻極為龐大。具體來說,對于長度為 N 的輸入句子,自注意力的計算復雜度高達 O (N^2),而內存占用則達到了 O (N^2D),其中 D 是模型的維度。

為了應對這一挑戰,最新的研究致力于簡化 Transformer 架構,以降低其在計算和空間上的復雜度。研究者們探索了多種創新方法,包括卷積語言模型、循環單元、長上下文模型,以及狀態空間模型(SSMs)。這些新興技術為構建高效能的 LLMs 提供了強有力的替代方案。SSMs 通過引入高效的隱藏狀態機制,有效處理長距離依賴問題,同時保持了訓練的并行性和推理的高效率。隱藏狀態能夠在時間維度上傳遞信息,減少了在每一步中訪問歷史詞匯的計算負擔。通過狀態轉移參數 A,隱藏狀態能夠將前一時間步的信息傳遞至當前時間步,實現對下一個詞匯的自回歸預測。

盡管隱藏狀態在 SSMs 中起著至關重要的作用,但其在以往的研究中并未得到充分研究。不同層的權重和隱藏特征包含了從細粒度到粗粒度的多層次信息。然而,在早期的 SSMs 版本中,隱藏狀態僅在當前層內流動,限制了其傳遞更深層信息的能力,從而影響了模型捕獲豐富層次信息的能力。

為了解決這個挑戰,華為諾亞方舟實驗室的科研團隊發表了新工作《DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models》, 提出一個適用于各類 SSM 模型例如 Mamba 和 RetNet 的 DenseSSM 方法,該方法有選擇地將淺層隱藏狀態整合到深層,保留了對最終輸出至關重要的淺層細粒度信息,以增強深層感知原始文本信息的能力。

圖片


  • 論文鏈接:https://arxiv.org/abs/2403.00818
  • 項目主頁:https://github.com/WailordHe/DenseSSM

文章首先分析了狀態空間模型(SSMs)中的隱藏狀態退化問題,

圖片

上標 “l” 表示第 l 個塊。其中,Θ(·) 是從 SSM 模塊的最后一個輸出到輸入的轉換,例如卷積和前饋網絡(FFN)。從公式 (7) 可以看出,從第 (l-m) 層到第 l 層的隱藏信息傳遞需要經過 m 個變換塊和 m 次 BC 矩陣乘法。這樣復雜的計算過程可能導致顯著的信息丟失,這意味著在第 l 層嘗試檢索淺層的某些信息變得非常困難和不清晰。

方法

密集(Dense)隱藏層連接

在上述分析中發現隨著層深度的增加,SSM 中重要隱藏狀態的衰減。因此,DenseSSM 提出了一種密集連接的隱藏狀態方法,以更好地保留來自淺層的細粒度信息,增強深層感知原始文本信息的能力。對于第 l 個塊,DenseSSM 在其前 m 個塊中密集連接隱藏狀態。

圖片

首先,收集淺層隱藏狀態,并引入一個選擇性轉換模塊 φ,同時將它們投影到目標層的子空間并選擇有用的部分:

圖片

操作圖片是融合中間隱藏向量和當前隱藏狀態的函數。具有所提出的密集隱藏層連接的 SSM 被稱為 DenseSSM, 下圖為遞歸模式的 DenseSSM 示例。

圖片

DenseSSM 也可以基于卷積模式以實現高效訓練。根據狀態空間模型(SSM)的公式圖片可以得到:

圖片

這個過程可以通過對輸入序列圖片進行卷積來實現:

圖片

在文章所提出的 DenseSSM 中,可以獲得隱藏狀態加強的 SSM 的輸出:

圖片

DenseSSM 方法的并行實現示例圖:

圖片

Selective Transition Module (選擇性轉換模塊)

圖片

選擇性轉換模塊 φ(·) 的目的是將輸入投影到目標子空間,并同時選擇隱藏信息的有用部分。通過投影層和門控選擇機制實現了選擇性轉換模塊,如上圖所示。首先,前 m 個 SSM 塊中的隱藏狀態會被投影到相同的空間:

圖片

然后,根據輸入圖片生成門控權重,并使用它們來選擇有用的隱藏狀態:

圖片

在實踐中作者保持了簡單且高效的實現。投影層使用線性變換實現,而門控模塊則使用參數高效的帶有激活函數的兩層 MLP。

Hidden Fusion Module (隱藏層融合模塊)

選擇性轉換模塊后從淺層獲得了選擇的隱藏狀態,即圖片后,DenseSSM 方法利用一個隱藏融合模塊將這些精選的淺層隱藏狀態與當前層的隱藏狀態結合起來。由于這些精選狀態已經被投影到相同的空間,因此可以簡單地將它們累加到當前層的隱藏狀態上:

圖片

為了保持模型的高效性,其他可能的實現方式,例如拼接和交叉注意力機制沒有被使用。

擴展到 RetNet

RetNet 可以被視為一種狀態空間模型,它利用線性注意力來簡化自注意力的計算復雜度。與標準 Transformer 相比具有快速推理和并行化訓練兼得的優勢。

圖片

其中,圖片是循環狀態, RetNet 的密集 KV 連接執行方式如下。首先,淺層的 K 和 V 被連接起來:

圖片

然后,這些 K 和 V 被注入到當前層的原始鍵(或值)中:

圖片

配備了使用所提出 DenseSSM 方法的密集鍵值(KV)連接的 RetNet 被稱為 DenseRetNet,如下圖所示。

此外,DenseRetNet 也可以在并行模式下實現,也就是說,可以在 GPU 或 NPU 上并行訓練。DenseRetNet 的并行模式公式如下:

圖片

實驗

文章進行了全面的實驗,以驗證所提出的 DenseSSM 的有效性。這些實驗在不同的架構上進行,包括 RetNet 和 Mamba。

預訓練數據

在實驗中,選擇了 The Pile 數據集的一個子集,并從頭開始訓練所有模型。為了確保訓練集包含 150 億(15B)個 tokens,對數據集進行了隨機抽樣。在所有實驗中,統一使用了 LLaMA 分詞器來處理這些數據。

評估數據集

在評估模型性能時,特別關注了模型在多種下游任務上的零樣本和少樣本學習能力。這些任務包括了一系列測試常識推理和問答的數據集,例如 HellaSwag、BoolQ、COPA、PIQA、Winograd、Winogrande、StoryCloze、OpenBookQA、SciQ、ARC-easy 和 ARC-challenge。此外,文章還報告了 WikiText 和 LAMBADA 的詞困惑度指標。所有評估都通過使用 LM evaluation harness 標準化的評估工具進行,以確保評估模型能力的一致性。

實驗設置

為了驗證提出的 DenseSSM 機制的有效性,選擇了 350M 和 1.3B 兩種模型規格進行實驗。所有模型都是從頭開始訓練的,并進行了一個 Epoch 的訓練,共使用了 1.5B tokens。訓練時,設置訓練的 batch size 為 0.5M,序列長度為 2048 個 token。訓練過程中使用了 AdamW 優化器,并采用了多項式學習率衰減,warm-up 比例設置為總訓練步數的 1.5%。權重衰減設置為 0.01,梯度裁剪設置為 1。

DenseRetNet 的實驗

DenseRetNet 模型的大小和超參數設置詳細列出如下。此外,DenseRetNet 模型中還進一步集成了全局注意力單元(GAU)。GAU 將注意力機制與前饋網絡(FFN)塊結合為一個單元,這使得模型能夠同時進行通道混合和 token 混合。與原始的 GAU 不同,多頭機制仍然被采用以實現多尺度的指數衰減,這種設計旨在提高模型對不同尺度特征的捕捉能力,從而提升性能。

圖片

在通用語料庫以及包括常識推理和問答在內的多種下游任務上,對 DenseRetNet 模型進行了評估。實驗結果的比較表格顯示,DenseRetNet 模型在 Wikitext 和 LAMBADA 語料庫上取得了更低的困惑度。此外,在零樣本和少樣本設置的下游任務中,DenseRetNet 表現出了顯著的優勢。與 RetNet 相比,DenseRetNet 顯著提升了性能,并且在與基于 Transformer 的語言模型的比較中,實現了更優越的性能表現。這些結果表明,DenseRetNet 在處理自然語言處理任務時,具有強大的能力和潛力。

圖片

DenseMamba 的實驗

下表詳細列出了 DenseMamba 模型的參數設置。由于 DenseMamba 使用的分詞器相比于 Mamba 模型中使用的 GPT-NeoX 分詞器規模較小,為了使參數數量相匹配,作者在模型中增加了兩層。除此之外,模型結構和其他訓練設置均遵循了 Mamba 論文中的描述。具體而言,對于 360M 參數的模型,學習率被設定為 3e-4;對于 1.3B 參數的模型,學習率被設定為 2e-4。在這兩種情況下,均沒有采用 dropout 技術。

圖片

下表比較了 DenseMamba 與相對應模型的性能。DenseMamba 在測試集上表現出卓越的困惑度和準確性,優于 Mamba 和其他基于 Transformer 的模型。

圖片

總結

文章提出了一個新的框架 ——DenseSSM(密集狀態空間模型),旨在通過增強隱藏信息在不同層之間的流動來提升狀態空間模型(SSM)的性能。在 SSM 中,隱藏狀態是存儲關鍵信息的核心單元,更有效地利用這些狀態對于模型的基本功能至關重要。為了實現這一目標,作者提出了一種方法,即從淺層收集隱藏狀態,并將它們有選擇性地融合到深層的隱藏狀態中,這樣可以增強 SSM 對文本低層信息的感知能力。

DenseSSM 方法的設計考慮到了保持 SSM 原有的優點,如高效的自回歸推理能力和高效的并行訓練特性。通過將 DenseSSM 方法應用于流行的架構,例如 RetNet 和 Mamba,作者成功地創造了具有更強大的基礎語言處理能力的新架構。這些新架構在公共基準測試中表現出了更高的準確性,證明了 DenseSSM 方法的有效性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-14 09:57:35

華為模型

2024-01-22 12:48:00

數據模型

2024-09-27 10:31:22

2025-03-10 08:47:00

模型AI訓練

2024-08-13 12:49:29

2025-03-05 00:15:00

2025-06-18 11:16:50

大模型性能KV-Cache

2024-07-10 10:19:26

2009-07-24 12:35:17

刀片惠普數據中心

2025-08-20 12:38:26

2023-06-27 12:56:23

微軟AI

2024-09-03 14:10:00

模型測試

2024-10-21 12:30:52

2025-02-06 10:21:51

2024-01-19 13:41:00

AI模型

2023-07-18 14:19:00

模型AI

2023-11-29 18:41:35

模型數據

2024-09-23 08:20:00

模型訓練

2025-05-06 09:03:00

2025-07-22 17:20:36

大模型商業化
點贊
收藏

51CTO技術棧公眾號

av一区二区在线播放| 精品视频一二三| 欧美日韩亚洲一区在线观看| 亚洲精品国精品久久99热| 欧美三级一级片| 五月天激情开心网| 久久99国产精品免费网站| 久久久视频精品| 亚洲天堂岛国片| 哺乳挤奶一区二区三区免费看| 色婷婷亚洲一区二区三区| 亚洲在线色站| 亚洲高清视频网站| 日本不卡高清视频| 久久久久久欧美| av片在线免费看| 久久亚州av| 91麻豆精品国产91久久久久久久久| 精品人妻大屁股白浆无码| 深夜福利视频一区| 国产伦精品一区二区三区免费 | 欧美一区二区视频免费观看| aa在线观看视频| av激情在线| 国产日韩欧美精品一区| 国产在线一区二区三区欧美 | 精品sm在线观看| 污视频免费在线观看网站| av蜜臀在线| 亚洲欧美韩国综合色| 日本一区精品| 五月婷婷六月激情| 成人免费视频视频| 亚洲自拍欧美另类| 国产又大又黄的视频| 天堂av在线一区| 欧美一区二粉嫩精品国产一线天| 免费视频一二三区| 久久国产成人精品| 影音先锋欧美精品| 国产熟妇久久777777| 永久免费精品视频| 日韩精品一区二区三区中文不卡| 日本人69视频| 99riav视频一区二区| 午夜精品一区在线观看| 9色porny| 3344国产永久在线观看视频| 一区二区视频免费在线观看| 亚洲黄色网址在线观看| 国产激情小视频在线| 国产精品欧美一级免费| 亚洲精品久久区二区三区蜜桃臀| 国产黄在线播放| 国产欧美日韩在线视频| 色999五月色| aaa在线观看| 国产精品久久看| 尤物国产精品| 自拍亚洲图区| 亚洲午夜精品网| 水蜜桃色314在线观看| 成人高潮aa毛片免费| 亚洲成人免费电影| 亚洲 高清 成人 动漫| 中文字幕在线高清| 91福利社在线观看| 日韩精品视频一二三| 日韩在线电影| 日韩美女在线视频| 亚洲一区二区在线免费| 亚洲警察之高压线| 国产性猛交xxxx免费看久久| 天天色天天综合| 欧美黄色免费| 2023亚洲男人天堂| 蜜臀99久久精品久久久久小说| 男女男精品网站| 亚洲在线免费视频| 天堂国产一区二区三区| 久久久久久久久久久电影| 五月天亚洲综合| 在线观看的网站你懂的| 婷婷六月综合网| 黑人粗进入欧美aaaaa| 高清一区二区中文字幕| 亚洲第一网站免费视频| 少妇无套高潮一二三区| 欧美韩日精品| 国产成人综合精品| 精品久久久中文字幕人妻| 99久久久国产精品免费蜜臀| 日韩亚洲欧美精品| 中文在线手机av| 一本久久精品一区二区| av在线网站免费观看| 亚洲动漫精品| 欧美成人h版在线观看| 欧美h在线观看| 国产在线精品免费| 免费久久99精品国产自| 在线午夜影院| 在线看一区二区| 波多野结衣办公室双飞 | 在线观看欧美亚洲| 大桥未久在线视频| 欧美一区二区成人| 最近中文字幕在线mv视频在线 | 国产av一区二区三区精品| 91色在线porny| av电影一区二区三区| 韩日精品一区二区| 欧美精品一区二区三区一线天视频| 成都免费高清电影| 亚洲精品视频啊美女在线直播| 国产精品亚洲自拍| 你懂的视频在线免费| 亚洲在线观看免费视频| 亚洲va综合va国产va中文| 亚洲涩涩av| 欧美精品成人在线| 国产免费的av| 国产精品久久久久久亚洲毛片| 国产二区视频在线播放| 亚洲一区网址| 另类图片亚洲另类| 91成品人影院| 国产精品入口麻豆原神| 精品久久久久久久免费人妻| 国产精品极品| 麻豆乱码国产一区二区三区 | 劲爆欧美第一页| 精品一区二区三区免费观看| 亚洲一区免费看| 国产私拍福利精品视频二区| 亚洲乱亚洲乱妇无码| 国产黄色片免费看| 99国产精品久久久久久久久久| 99在线观看视频免费| 精品成人18| 久久国产视频网站| 国产免费av观看| 亚洲婷婷国产精品电影人久久| 在线观看免费的av| 四虎成人av| 成人黄在线观看| 精品自拍一区| 日韩一区二区三区在线观看| 五月天丁香激情| 国产成人一级电影| 欧美狂野激情性xxxx在线观| 黄色欧美网站| 26uuu另类亚洲欧美日本一| 亚洲aⅴ乱码精品成人区| 欧美日韩美女在线观看| mm131美女视频| 日韩av高清在线观看| 亚洲精品国产精品国自产观看| 欧美男男gaygay1069| 久久久国产成人精品| 99国产精品99| 亚洲成国产人片在线观看| 欧美xxxxx精品| 免费永久网站黄欧美| 天堂va久久久噜噜噜久久va| 亚洲精品无播放器在线播放| 欧美精品制服第一页| 人妻一区二区三区免费| 色综合久久久久| 久久精品在线观看视频| 国产麻豆成人传媒免费观看| 人人妻人人做人人爽| 伊人久久大香线蕉综合网站| 国产精品视频久久久久| 在线午夜影院| 亚洲乱亚洲乱妇无码| 国产精品毛片久久久久久久av| 亚洲在线视频免费观看| 亚欧洲乱码视频| 国产在线播精品第三| 免费一级特黄毛片| 日韩国产一区| 99久久伊人精品影院| 天堂√中文最新版在线| 色婷婷成人综合| 日韩中文字幕观看| 欧美日韩精品一区二区三区四区| 久草国产在线观看| 国产亚洲污的网站| 亚洲 自拍 另类 欧美 丝袜| 久久国产精品久久久久久电车| 香蕉精品视频在线| 色综合www| 91精品免费久久久久久久久| 国产网站在线| 麻豆乱码国产一区二区三区| 黄色网址在线播放| 欧美mv日韩mv亚洲| 国产日韩在线免费观看| 亚洲国产视频在线| 香蕉久久久久久久| 99国产精品久久| 韩国一区二区在线播放| 久久久久综合| youjizz.com在线观看| 国产一卡不卡| 国产美女99p| 99er精品视频| 国产精品高潮视频| 免费成人在线电影| 欧美丰满少妇xxxxx做受| av网站在线免费观看| 日韩电影中文 亚洲精品乱码 | 奇米影视第四色777| 最新高清无码专区| 蜜臀久久99精品久久久久久| 成人中文字幕在线| 中文字幕一区二区三区四| 天堂va蜜桃一区二区三区| 人人妻人人添人人爽欧美一区| 99久久夜色精品国产亚洲1000部| 欧美激情第六页| 国产美女撒尿一区二区| 91成人免费视频| 日韩五码电影| 国产精品欧美一区二区| 欧美大片1688| 亚洲欧美国产高清| 亚洲18女电影在线观看| 中文字幕丰满孑伦无码专区| 国产福利精品导航| 91丝袜超薄交口足| 另类小说综合欧美亚洲| 欧美性猛交久久久乱大交小说| 日韩视频一区| 国产精品久久久久久久乖乖| 欧美体内she精视频在线观看| 一级一片免费播放| 国产精品久久久久久久久妇女| 亚洲 国产 欧美一区| 国产精品亚洲片在线播放| 快播亚洲色图| 国产九一精品| 亚洲开发第一视频在线播放| 日韩精品2区| 性欧美精品一区二区三区在线播放| 第一会所sis001亚洲| 色爱区成人综合网| 国产精品精品国产一区二区| 大地资源第二页在线观看高清版| 91精品国产91久久综合| 99热这里只有精品7| 欧美 日韩 国产一区二区在线视频| 久久久成人精品一区二区三区| 中文一区一区三区免费在线观看| 成人午夜视频免费观看| 欧美日韩一区二区国产| 给我免费播放片在线观看| 亚洲精选成人| 欧美日韩亚洲一二三| 秋霞影院一区二区| 男女污污视频网站| 国产福利一区二区三区视频 | 久久久国产一区| av毛片在线看| 97人人模人人爽人人喊中文字 | 国产精品密蕾丝袜| 亚洲欧洲国产专区| 久久久精品一区二区涩爱| 五月天亚洲精品| 日批视频免费观看| 91精品国产色综合久久不卡蜜臀| 蜜桃在线一区二区| 亚洲欧美另类自拍| 国产一二三区在线观看| 欧美激情按摩在线| 久久久一本精品| 91久久精品久久国产性色也91| 1204国产成人精品视频| 久久久久无码国产精品一区| 91欧美大片| 黄色国产一级视频| 免费人成黄页网站在线一区二区| 亚洲视频在线不卡| 91美女蜜桃在线| 天堂网中文在线观看| 亚洲最大成人网4388xx| 久久久久久在线观看| 欧美一二三四在线| 日韩二区三区| 久久成人一区二区| 奇米777日韩| 成人久久18免费网站漫画| 九九在线精品| 欧美一区二区三区综合| 首页亚洲欧美制服丝腿| 欧美人与性动交α欧美精品| 久久久精品免费网站| 久久99久久98精品免观看软件 | 人妻内射一区二区在线视频| 国产精品综合一区二区三区| 一道本在线观看| 一区二区国产视频| 一区两区小视频| 亚洲欧美国产精品专区久久| 青青草视频在线免费直播| 国产精品美女久久久久久免费| 国产精品流白浆在线观看| 午夜精品福利一区二区| 亚洲欧美卡通另类91av| 波多野结衣中文字幕在线播放| 国产清纯美女被跳蛋高潮一区二区久久w | 国产精品网站在线看| 影音欧美亚洲| 日韩精品欧美精品| 一女三黑人理论片在线| 亚洲激情在线激情| 亚洲系列在线观看| 国产亚洲欧美日韩精品| 国产ktv在线视频| 99精品国产高清在线观看| 99久久精品国产亚洲精品| 那种视频在线观看| 99国产麻豆精品| 免费在线黄色片| 欧美一区二区美女| 黄色网在线免费看| 国产欧美一区二区三区久久| 精品久久综合| 国产成人精品视频ⅴa片软件竹菊| 成人动漫一区二区| 精品少妇一二三区| 日韩精品一区二区在线观看| 视频在线观看入口黄最新永久免费国产| 国产日本欧美一区二区三区在线| 欧美理论在线播放| 熟妇人妻无乱码中文字幕真矢织江| 久久免费看少妇高潮| 亚洲GV成人无码久久精品| 亚洲精品久久久久中文字幕欢迎你 | 国产精品乱码久久久| 日韩视频欧美视频| 欧美天堂一区| 永久久久久久| 国产一区二区精品在线观看| 国产又黄又爽又无遮挡| 欧美一区二区日韩| 日本在线观看大片免费视频| 成人久久18免费网站漫画| 亚洲二区精品| 人妻丰满熟妇aⅴ无码| 欧美日韩午夜激情| 你懂的在线看| 国产日韩欧美在线观看| 一区二区三区午夜视频| 爱情岛论坛亚洲自拍| 亚洲午夜免费电影| 亚洲人视频在线观看| 国产ts人妖一区二区三区| blacked蜜桃精品一区| 亚洲一区二区福利视频| 亚洲精品高清在线观看| 人妻va精品va欧美va| 日本中文字幕成人| 久久亚洲在线| 又色又爽又黄18网站| 大桥未久av一区二区三区| 飘雪影视在线观看免费观看| 国产精品美女免费| 中文字幕人成人乱码| 国模私拍在线观看| 在线免费视频一区二区| 免费在线看黄色| 国产欧美亚洲日本| 日韩高清不卡在线| 欧美成欧美va| 亚洲欧美日韩网| 国产精品久久久久久av公交车| 男女视频网站在线观看| 中文字幕高清不卡| 六月婷婷中文字幕| 国产精品欧美日韩| 国产精品hd| 久久久久无码精品国产sm果冻| 91麻豆精品国产| 成人免费直播| 看一级黄色录像| 久久先锋影音av| 国产ts人妖调教重口男| 日韩av成人在线观看| 中文精品电影| 色屁屁草草影院ccyy.com| 欧美mv和日韩mv国产网站| 浪潮色综合久久天堂| 999久久欧美人妻一区二区| 国产欧美一区二区精品婷婷| 欧美 中文字幕| 国产综合久久久久| 久久av一区二区三区| 久久久久久久黄色|