精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MoE與Mamba強強聯(lián)合,將狀態(tài)空間模型擴展到數(shù)百億參數(shù)

人工智能 新聞
近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

狀態(tài)空間模型(SSM)是近來一種備受關注的 Transformer 替代技術,其優(yōu)勢是能在長上下文任務上實現(xiàn)線性時間的推理、并行化訓練和強大的性能。而基于選擇性 SSM 和硬件感知型設計的 Mamba 更是表現(xiàn)出色,成為了基于注意力的 Transformer 架構的一大有力替代架構。

近期也有一些研究者在探索將 SSM 和 Mamba 與其它方法組合起來創(chuàng)造更強大的架構,比如機器之心曾報告過《Mamba 可以替代 Transformer,但它們也能組合起來使用》。

近日,波蘭一個研究團隊發(fā)現(xiàn),如果將 SSM 與混合專家系統(tǒng)(MoE/Mixture of Experts)組合起來,可望讓 SSM 實現(xiàn)大規(guī)模擴展。MoE 是目前常用于擴展 Transformer 的技術,比如近期的 Mixtral 模型就使用了這一技術,參閱機器之心文章

這個波蘭研究團隊給出的研究成果是 MoE-Mamba,即將 Mamba 和混合專家層組合起來的模型。

圖片

論文地址:https://arxiv.org/pdf/2401.04081.pdf

MoE-Mamba 能同時提升 SSM 和 MoE 的效率。而且該團隊還發(fā)現(xiàn),當專家的數(shù)量發(fā)生變化時,MoE-Mamba 的行為是可預測的。

該團隊也進行了實驗論證,如圖 1 所示,結果表明:相比于 Mamba,MoE-Mamba 達到同等性能時所需的訓練步驟數(shù)少 2.2 倍,這彰顯了新方法相較于 Transformer 和 Transformer-MoE 的潛在優(yōu)勢。這些初步結果也指出了一個頗具潛力的研究方向:SSM 也許可以擴展到數(shù)百億參數(shù)!

圖片

相關研究

狀態(tài)空間模型

狀態(tài)空間模型(SSM)是一類用于序列建模的架構。這些模型的思想源自控制論領域,可被看作是 RNN 和 CNN 的組合。盡管它們具有相當大的優(yōu)勢,但也有一些問題,因此難以成為語言建模任務的主導架構。但是,近期的一些研究突破卻讓深度 SSM 可以擴展到數(shù)十億參數(shù),同時還能維持計算效率和強大的性能表現(xiàn)。

Mamba

Mamba 是基于 SSM 構建的模型,能實現(xiàn)線性時間的推理速度(對上下文長度而言),并且其還通過硬件感知型設計實現(xiàn)了高效的訓練流程。Mamba 采用了一種工作高效型的并行掃描方法,可以減輕循環(huán)的序列性的影響,而融合 GPU 操作則可無需實現(xiàn)擴展狀態(tài)。反向傳播所必需的中間狀態(tài)不會被保存下來,而是會在反向通過過程中被重新計算,由此可以降低內(nèi)存需求。Mamba 優(yōu)于注意力機制的優(yōu)勢在推理階段尤其顯著,因為其不僅能降低計算復雜度,而且內(nèi)存使用量還不會取決于上下文長度。

Mamba 能解決序列模型的效率和效果之間的根本性權衡,這就凸顯了狀態(tài)壓縮的重要性。高效的模型必需要小狀態(tài),而有效的模型所需的狀態(tài)應當包含上下文的所有關鍵信息。不同于其它 SSM 對時間和輸入不變性的需求,Mamba 引入了一種選擇機制,可以控制信息沿序列維度傳播的方式。這一設計選擇的靈感來自對選擇性復制和歸納頭等合成任務的直觀理解,讓模型可以分辨和保留關鍵信息,同時濾除無關信息。

研究發(fā)現(xiàn),Mamba 有能力高效地利用更長的上下文(長達 1M token),并且隨著上下文長度增長,預訓練困惑度也會得到改善。Mamba 模型是由堆疊的 Mamba 塊構成的,在 NLP、基因組學、音頻等多個不同領域都取得了非常好的結果,其性能可以媲美和超越已有的 Transformer 模型。因此,Mamba 成為了通用序列建模骨干模型的一個有力候選模型,參閱《五倍吞吐量,性能全面包圍 Transformer:新架構 Mamba 引爆 AI 圈》。

混合專家

混合專家(MoE)這類技術能極大提升模型的參數(shù)數(shù)量,同時不會影響模型推理和訓練所需的 FLOPs。MoE 最早由 Jacobs et al. 于 1991 年提出,并在 2017 年由 Shazeer et al. 開始用于 NLP 任務。

MoE 有一個優(yōu)勢:激活很稀疏 —— 對于處理的每個 token,只會用到模型的一小部分參數(shù)。由于其計算需求,Transformer 中的前向層已經(jīng)變成了多種 MoE 技術的標準目標。

研究社區(qū)已經(jīng)提出了多種方法用于解決 MoE 的核心問題,即將 token 分配給專家的過程,也稱路由(routing)過程。目前有兩種基本的路由算法:Token Choice 和 Expert Choice。其中前者是將每個 token 路由到一定數(shù)量(K)的專家,至于后者則是路由到每個專家的 token 數(shù)量是固定的。

Fedus et al. 在 2022 年的論文《Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity》中提出的 Switch 是一種 Token Choice 架構,其是將每個 token 路由到單個專家(K=1),而他們使用該方法將 Transformer 的參數(shù)規(guī)模成功擴增至了 1.6 萬億。波蘭的這個團隊在實驗中也采用了這種 MoE 設計。

最近,MoE 也開始進入開源社區(qū),比如 OpenMoE。

項目地址:https://github.com/XueFuzhao/OpenMoE

尤其值得一提的是 Mistral 開源的 Mixtral 8×7B,其性能可比肩 LLaMa 2 70B,同時所需的推理計算預算只有后者的約六分之一。

模型架構

盡管 Mamba 的主要底層機制與 Transformer 中使用的注意力機制大不相同,但 Mamba 保留了 Transformer 模型的高層級、基于模塊的結構。使用這一范式,由相同模塊構成的一層或多層會彼此堆疊在一起,而每一層的輸出都會被添加到殘差流(residual stream)中,見圖 2。之后,這個殘差流的最終值會被用于預測語言建模任務的下一個 token。

MoE-Mamba 利用了這兩種架構的兼容能力。如圖 2 所示,在 MoE-Mamba 中,每間隔一個 Mamba 層就會被替換成一個基于 Switch 的 MoE 前饋層。

圖片

不過該團隊也注意到這一設計和《Mamba: Linear-time sequence modeling with selective state spaces》的設計有些相似;后者交替堆疊了 Mamba 層和前饋層,但得到的模型相比于單純的 Mamba 還略有不及。該設計在圖 1 中被記為 Mamba-MLP。

MoE-Mamba 分開了 Mamba 層執(zhí)行的每個 token 的無條件處理和 MoE 層執(zhí)行的有條件處理;其中的無條件處理可高效地將序列的整個上下文整合到一個內(nèi)部表征中,而有條件處理可為每個 token 使用最相關的專家。這種將有條件處理和無條件處理交替起來的思路在一些基于 MoE 的模型中已經(jīng)得到了應用,不過它們通常是交替基本的和 MoE 的前饋層。

主要結果

訓練設置

該團隊比較了 5 種不同設置:基本 Transformer、Mamba、Mamba-MLP、MoE 和 MoE-Mamba。

在大多數(shù) Transformers 中,前饋層包含 8dm2 個參數(shù),而 Mamba 論文中則讓 Mamba 更小一些(約 6dm2),這樣兩個 Mamba 層的參數(shù)數(shù)量與一個前饋層和一個注意力層加起來差不多。為了讓 Mamba 和新模型中每個 token 的活動參數(shù)數(shù)量大致一樣,該團隊將每個專家前向層的大小縮小到了 6dm2。除了嵌入層和解除嵌入(unembedding)層,所有模型都是每個 token 使用大約 2600 萬參數(shù)。訓練過程使用了 65 億個 token,訓練步驟數(shù)為 100k。

訓練使用的數(shù)據(jù)集是 English C4 數(shù)據(jù)集,任務是預測下一 token。文本的 token 化使用了 GPT2 tokenizer。表 3 給出了超參數(shù)的完整列表。

圖片

結果

表 1 給出了訓練結果。MoE-Mamba 的表現(xiàn)顯著優(yōu)于普通 Mamba 模型。

圖片

值得注意的是,MoE-Mamba 只用僅僅 46% 的訓練步驟就達到了與普通 Mamba 同等的結果水平。由于學習率是針對普通 Mamba 進行調(diào)整的,因此可以預計,如果再針對 MoE-Mamba 對訓練流程進行一番優(yōu)化,MoE-Mamba 的表現(xiàn)還會更好。

消融研究

為了評估 Mamba 是否能隨專家數(shù)量的增長而很好地擴展,研究者比較了使用不同數(shù)量專家的模型。

圖 3 展示了使用不同數(shù)量的專家時的訓練運行步驟情況。

圖片

表 2 給出了 100k 步驟后的結果。

圖片

這些結果表明新提出的方法能隨專家數(shù)量而很好地擴展。如果專家的數(shù)量為 8 或更多,新模型的最終性能優(yōu)于普通 Mamba。由于 Mamba-MLP 比普通 Mamba 差,可以預見使用少量專家的 MoE-Mamba 的性能表現(xiàn)會比 Mamba 差。當專家數(shù)為 32 時,新方法得到了最佳結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-24 09:36:43

模型架構

2023-07-18 09:54:43

模型語言

2013-02-21 09:41:49

CitusData數(shù)據(jù)庫Postgres

2023-11-16 16:33:43

谷歌人工智能

2015-08-13 13:44:21

優(yōu)化多核

2017-02-09 16:39:54

百度

2023-03-08 14:14:51

微軟ChatGPT

2009-11-12 15:30:44

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2009-11-12 15:19:54

2022-03-23 16:28:18

微軟NVIDIAGPU

2017-05-26 23:09:47

2009-02-25 16:50:00

2021-01-01 09:46:43

微軟Windows 10Windows

2022-11-10 08:02:41

GitOpsDevOpsKubernetes

2009-09-08 11:05:00

JRuby入門Ruby

2020-09-25 22:29:06

OPPO終端美的

2020-06-05 14:30:03

CephCPU 線程

2022-11-01 08:00:00

2023-03-03 14:08:51

網(wǎng)絡安全首席信息安全官
點贊
收藏

51CTO技術棧公眾號

国内精品麻豆美女在线播放视频 | 美女羞羞视频在线观看| 国产成人福利夜色影视| 粉嫩aⅴ一区二区三区四区| 亚洲桃花岛网站| 亚洲xxxx视频| 中文字幕第4页| 性一交一乱一乱一视频| 久久福利影院| 在线一区二区三区四区| 精品综合在线| 久草国产在线视频| 爱情电影网av一区二区| 中文字幕av在线一区二区三区| 91极品视频在线| 高清中文字幕mv的电影| 高清免费电影在线观看| 看国产成人h片视频| 在线成人中文字幕| 免费看污污网站| 国产小视频在线| 午夜视频精品| 日韩女同互慰一区二区| 日本xxx免费| 国产精品久久久久久免费免熟| 日韩av二区| 精品成人一区二区三区四区| 日本福利视频网站| 亚洲精品久久久久久久久久久久久久| 久久精品九九| 国产亚洲精品久久久久久| 日本成人在线免费视频| 黄色在线小视频| 国产成人av影院| 国产色视频一区| 亚洲欧美卡通动漫| 麻豆一区在线| 亚洲午夜电影在线观看| 国产精品日本一区二区 | 欧美综合一区| 欧美日韩在线不卡| 国产大尺度在线观看| 99久久国产免费| 黑人一区二区三区四区五区| 日韩欧美一区中文| 奇米影视四色在线| 欧美人与性动交α欧美精品济南到| 国产成人h网站| 亚洲最大成人免费视频| xxxxxx国产| 在线观看欧美理论a影院| 欧美综合色免费| 日本一本二本在线观看| 又爽又大又黄a级毛片在线视频| 激情成人午夜视频| 97免费中文视频在线观看| 尤物视频最新网址| 久久99精品久久久野外观看| 精品视频在线免费| 永久免费的av网站| 国产激情欧美| 欧美日韩电影在线播放| 亚洲精品无码国产| www.久久热.com| 丁香天五香天堂综合| 国产97在线|亚洲| www.99re6| 久久久久久影院| 日韩国产欧美区| 小明看看成人免费视频| 不卡专区在线| 一区二区中文字幕在线| 国产一区自拍视频| 国产一区二区三区在线观看| 99热免费精品| 久久久av一区| 成人免费网站黄| 神马电影久久| 欧美精品一区二区在线观看| 在线天堂www在线国语对白| 色999久久久精品人人澡69| 欧美日韩免费在线| 日本一道在线观看| h网站在线免费观看| 国产精品国产三级国产普通话蜜臀| 国产精品二区三区四区| 国产又粗又长又大视频| 国产成人鲁色资源国产91色综| 国产精品电影网| 日本少妇在线观看| 石原莉奈在线亚洲二区| 69影院欧美专区视频| 精产国品一区二区| 国产欧美午夜| 欧美成人手机在线| 娇小11一12╳yⅹ╳毛片| 午夜精品国产| 26uuu另类亚洲欧美日本老年| 久操免费在线视频| 久久午夜视频| 18成人在线| 韩国中文字幕2020精品| 亚洲女同ⅹxx女同tv| 亚洲欧洲免费无码| 国产在线你懂得| 亚洲你懂的在线视频| 成年人视频网站免费观看| 成人在线视频区| 欧美乱妇20p| 玖玖爱视频在线| 麻豆精品少妇| 日韩av中文字幕在线| 亚洲天堂最新地址| 成人免费看片39| 色在人av网站天堂精品| 欧美日韩在线视频免费| 一区二区三区午夜探花| 久久天天躁狠狠躁夜夜躁2014| 免费黄色国产视频| 国产精品久久国产愉拍| 亚洲伊人久久综合| 成人综合影院| 天天色天天操综合| 成人免费毛片网| 人狥杂交一区欧美二区| 欧美日韩一区二区免费在线观看| 亚洲一二三不卡| 玖玖玖视频精品| 国产一区二区三区欧美| 国产 日韩 欧美 在线| 香蕉国产精品偷在线观看不卡| 国产999精品久久久| 丰满人妻一区二区三区四区53| 波多野结衣中文字幕一区二区三区| 国产精品国产三级国产专区53| 69久久夜色| 一区二区三区四区激情 | 亚洲综合自拍网| 欧美交a欧美精品喷水| 亚洲精品久久久久久下一站 | 中日韩av在线| 久久黄色级2电影| 日本一区二区不卡高清更新| 日本在线观看免费| 在线一区二区观看| 性欧美13一14内谢| 免费在线日韩av| 精品国产乱码久久久久久88av | 亚洲欧洲精品一区二区三区不卡| 免费黄色一级网站| 婷婷伊人五月天| 国产免费福利视频| 国产日韩高清在线| 亚洲一区二区三区精品视频| 羞羞视频在线观看不卡| 欧美日韩国产综合新一区| 国产亚洲精品成人a| 午夜日韩福利| 国产精品久久久久久久久久久久冷 | 久久高清内射无套| 国产一区二区三区精品视频| 国产日韩在线一区二区三区| 秋霞在线午夜| 精品播放一区二区| 成人午夜视频在线播放| 精品一区二区免费| 高清不卡一区二区三区| 国产乱妇乱子在线播视频播放网站| 日韩人体视频一二区| 日本高清免费在线视频| 在线精品视频在线观看高清| www.久久久| 天堂中文а√在线| 6080日韩午夜伦伦午夜伦| 精品久久久久久中文字幕人妻最新| 欧美aaaaaaaaaaaa| 欧美专区在线播放| 韩国av免费在线| 亚洲国产日韩在线一区模特| 国产精品自在自线| 九九综合久久| 国产日本欧美视频| 男女免费观看在线爽爽爽视频| 日韩av一区在线观看| 糖心vlog精品一区二区| 99久久99久久综合| 一区二区成人国产精品| 日韩在线精品强乱中文字幕| 色777狠狠综合秋免鲁丝 | 色婷婷激情久久| 日本女人性生活视频| 床上的激情91.| 欧美日韩在线中文| 亚洲国产精品久久久久蝴蝶传媒| 国产日韩在线一区二区三区| 成人四虎影院| 久久久久日韩精品久久久男男 | 欧美精品一区二区三| 无码人妻丰满熟妇区bbbbxxxx | 国产白丝精品91爽爽久久| aa在线观看视频| 亚洲不卡在线| 国产91色在线免费| 人妖欧美1区| 日韩在线国产精品| 少妇高潮一区二区三区99小说 | 亚洲美女激情视频| 国产真实的和子乱拍在线观看| 国产精品一区二区久激情瑜伽| 一本久久a久久精品vr综合| 丁香婷婷成人| 国产精品自拍网| 777电影在线观看| 亚洲国产小视频| 国产偷拍一区二区| 在线精品视频免费播放| 日本在线视频中文字幕| 中文字幕欧美一| 久久美女免费视频| 99国内精品久久| 男人女人拔萝卜视频| 欧美gay男男猛男无套| 久久99九九| 精品3atv在线视频| 中文字幕少妇一区二区三区| 一级aaaa毛片| 亚洲精品欧美二区三区中文字幕| 中文字幕a在线观看| 国产精品亚洲成人| 日韩中文字幕免费在线| 精品国产网站| 成人av在线亚洲| 色呦呦视频在线观看| 日韩在线视频一区| porn亚洲| 国产一区二区三区在线观看网站 | 日韩欧美看国产| 亚洲精品456在线播放狼人| 97成人免费视频| 欧美亚洲国产一区二区三区va | 亚洲国产成人在线观看| 欧美日韩在线免费视频| 日韩黄色片网站| 国产精品久久久久久久久免费相片 | 欧美va在线| 国产999精品| 欧美日韩五码| 国产成人一区二区| 日本美女在线中文版| 一本色道久久综合狠狠躁篇怎么玩 | 欧美激情在线一区| 国产免费a视频| 粉嫩老牛aⅴ一区二区三区| 日韩精品一区二区在线播放| 亚洲午夜日本在线观看| 久久综合色综合| 久久九九全国免费| 日本在线观看视频一区| 精品一区二区三区免费观看| 亚洲第一色av| 国产又粗又猛又爽又黄91精品| 亚洲第一区第二区第三区| 国产精品一区二区久激情瑜伽 | 免费黄色片视频| 日本韩国一区二区| 中文字幕在线有码| 久久综合九色综合久久久精品综合| 欧美黄色性生活| 九九视频精品免费| 中文字幕在线观看视频www| 高清日韩电视剧大全免费| 欧美日韩一区二区三区四区五区六区| 日日夜夜精品视频免费| 免费在线黄网站| 日韩在线视屏| 熟女视频一区二区三区| 欧美区国产区| 亚洲狠狠婷婷综合久久久| 999久久久免费精品国产| www国产无套内射com| 亚洲欧洲视频| 国产精品igao激情视频| 影音先锋中文字幕一区二区| 一区二区三区四区五区精品| 中文字幕日韩在线| 国产在线视频一区| 亚洲三级av| 欧美精品欧美精品系列c| 99ri日韩精品视频| 91免费看国产| 国产91亚洲精品久久久| 91亚洲va在线va天堂va国| 狼人精品一区二区三区在线 | 精品久久久久久久中文字幕| 无码人妻丰满熟妇奶水区码| 日韩一区和二区| 一区二区三区www污污污网站| 精品人在线二区三区| 精品久久久中文字幕人妻| 欧美丰满少妇xxxbbb| 秋霞av鲁丝片一区二区| 精品三级在线看| 国产视频三级在线观看播放| 久久国产精品久久精品| 欧美黑人一区| 国产精品国模大尺度私拍| 日韩精品一区二区三区免费观看| 国产高清www| 久久精品二区亚洲w码| 欧美 日本 国产| 久久综合九色欧美综合狠狠 | 牛牛澡牛牛爽一区二区| 日韩av最新在线观看| 黄色精品免费看| 欧美日本亚洲视频| 粉嫩91精品久久久久久久99蜜桃| 国产一区二区在线网站| 无码一区二区三区视频| 精品91一区二区三区| 久久精品天堂| 天天躁日日躁狠狠躁免费麻豆| ...xxx性欧美| 老熟妇一区二区三区啪啪| 日韩电影中文字幕av| 日本片在线看| 5566av亚洲| 婷婷综合社区| 日韩精品视频一二三| 久久免费精品国产久精品久久久久| 久久久综合久久久| 日韩精品专区在线影院重磅| 免费网站黄在线观看| 国产精品高潮粉嫩av| 亚洲大片精品免费| 久久久一本二本三本| 水蜜桃久久夜色精品一区的特点 | 涩爱av色老久久精品偷偷鲁 | 91国产免费观看| 亚洲欧洲精品视频| 国产午夜精品免费一区二区三区 | 亚洲成av人片观看| 在线免费黄色av| 亚洲国产精品久久久久| 国产三级电影在线观看| 人人爽久久涩噜噜噜网站| 日本久久成人网| 久久国产成人精品国产成人亚洲| 成人av综合在线| 日韩精品一卡二卡| 日韩av在线免费观看| 亚洲欧美韩国| 91色视频在线观看| 五月开心六月丁香综合色啪| 国产欧美激情视频| 亚洲人成网站在线| 日韩欧美中文字幕一区二区| 欧美性高清videossexo| 成年人在线观看网站| 国产欧美日韩中文字幕在线| 欧美激情国产在线| 色偷偷中文字幕| 久久久久久久综合狠狠综合| www.国产com| 伊人精品在线观看| 亚洲精品三区| 青草视频在线观看视频| 99精品在线免费| 无码视频一区二区三区| 色吧影院999| 色妞ww精品视频7777| 人妻熟妇乱又伦精品视频| 久久精品欧美日韩精品| 国产精品久久777777换脸| 欧美日韩爱爱视频| 日本午夜精品久久久| 精品久久久久久久无码| 亚洲人成精品久久久久久 | 亚洲欧美日韩成人| 国产精品第一| 免费一级淫片aaa片毛片a级| 久久亚洲欧美国产精品乐播| 亚洲一级av毛片| 久久久久国产精品一区| 国产成人黄色| 欧美 日韩 国产 高清| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲精品无码一区二区| 一本大道久久a久久综合婷婷| 日日夜夜精品一区| 国模精品一区二区三区| 美女视频一区二区| 人人人妻人人澡人人爽欧美一区| 欧美日韩在线播| 超免费在线视频| 色大师av一区二区三区| 久久国产精品久久久久久电车| 天堂网av2018| 欧美午夜一区二区三区免费大片| 伊人电影在线观看| 91网免费观看|