精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

專家模型不要專家并行!微軟開源MoE新路徑

人工智能 新聞
近日,來自微軟的研究人員開源了使用全新方法訓練的MoE大模型,不走尋常路,且編碼和數學表現出色。

繼Phi家族之后,微軟又開源了新的混合專家大模型——GRIN MoE。

與Phi-3.5同樣的個頭(16 * 3.8B),卻采用了截然不同的訓練方法。

這個「不走尋常路」如果寫個太長不看版,那就是兩句話:

1. 使用新一代SparseMixer來精確估計專家路由的梯度,解決傳統方案中利用門控梯度代替路由梯度的問題。


2. 專家并行不要了,訓練中改用數據、pipeline和張量并行,避免了傳統方法丟棄token的問題。

圖片

論文地址:https://arxiv.org/abs/2409.12136

當然了,上面兩句話是小編說的,多少有點糙,文中細節,還請諸君繼續閱讀~

這年頭,新來一個LLM,當然要先刷分了——

參數要少,效果要好,所以要在左上角:

圖片

GRIN作為MoE架構,總參數量約42B,推理時激活的參數為6.6B,打同級別(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3還要略勝一籌。

圖片

在上面的這份成績單中,GRIN MoE表現優異,尤其是在編碼和數學測試中。

比如,在衡量數學問題解決能力的GSM-8K中,GRIN MoE得分為90.4,而在編碼任務基準HumanEval上拿到了74.4分。

在MMLU(大規模多任務語言理解)基準測試中GRIN得分為79.4,超過了同為MoE架構的Mixtral(70.5分),以及自家的Phi-3.5(78.9分)。

如果對比流行的商用模型,GPT-3.5表示感受到時代的力量,默默退出群聊。

圖片

開放權重:https://huggingface.co/microsoft/GRIN-MoE

demo:https://github.com/microsoft/GRIN-MoE

MoE全新訓練路徑

GRIN MoE由常規的Transformer塊構成,采用分組查詢注意力(GQA)和滑動窗口注意力來提高計算效率。

采用RoPE進行位置編碼,以便在預訓練后實現長上下文能力。

圖片

在MoE架構中,模型通過路由網絡為每個輸入token挑選適合的專家模塊。對于有n個專家的網絡,一個用于推理的MoE模塊的輸出為:

圖片

其中z = Router(x,r),本文中Router采用線性網絡,Gating是門控函數(通常為softmax),Expert是FNN層。

MoE通過TopK函數進行專家分配,這個專家路由的過程是不可微的,所以反向傳播的時候沒法求導。

對此,傳統的MoE訓練將TopK視為常數,僅通過Gating來反向傳播計算路由權重梯度,相當于用門控的梯度代替了路由的梯度。

這多少有點糙。

不可導怎么辦

恰好,本文一作之前有一篇工作(SparseMixer):

圖片

論文地址:https://arxiv.org/pdf/2310.00811

受到直通梯度估計器的啟發,作者擴展了前作,提出了SparseMixer-v2。

作者首先將TopK函數替換為模型訓練中離散變量的隨機采樣,然后應用heun’s third order method來近似專家路由梯度,并構建一個改進的反向傳播,為專家路由給出數學上合理的梯度估計。

圖片

前作中,SparseMixer的有效性在神經機器翻譯任務和ELECTRA語言模型訓練中得到了證明。

而在GRIN MoE的開發過程中,SparseMixer-v2終于有機會大規模應用于自回歸語言模型訓練。

作者用2.5T token訓練了兩個16×0.9B MoE。其中一個遵循GRIN MoE中使用的相同方案,另一個用傳統的GShard方法替換 SparseMixer-v2。

圖片

如上圖所示,將SparseMixer-v2的性能提升推廣到16×0.9B尺度的自回歸語言模型訓練。

在前0.5T token上GShard表現更好,但SparseMixer-v2在訓練后期取得了更強的性能。

專家模型不要專家并行

傳統的MoE訓練采用專家并行,簡單理解就是把不同的專家分配到不同的顯卡上。

一個明顯的問題是負載不均衡,有的專家會分到更多的token,有的專家卻很閑。

圖片

之前的做法是設定一個閾值,比如1000個token分給4個專家,每人應該是250,這時候每張卡就最多只算250個token,超過后直接丟棄(送到下一層)。

而在本文中,作者利用數據并行、pipeline并行和張量并行來訓練GRIN MoE。

此外,對于沒有專家并行性的MoE計算,作者發現Megablocks包非常有用,它的grouped_GEMM內核和包裝器的性能更好。

應用這些新的工程化方法避免了專家并行,也就不用丟棄token了。

最終,與具有相同激活參數的密集模型相比,本文的方法實現了超過80%的訓練效率提升。

圖片

上表中,作者將兩種不同大小的MoE模型與具有相同激活參數量的密集模型進行了比較,使用相同的硬件測量了它們的訓練吞吐量。

盡管MoE總的參數量是密集模型的六倍多,但在實驗中達到了超過80%的相對吞吐量,證實了使用GRIN MoE方法的模型具有顯著的計算擴展潛力。

(PS:密集模型的吞吐量是在與MoE模型相同的并行度設置下測量的,這里的比較是為了研究密集激活網絡(非MoE)和稀疏激活網絡(MoE)的GPU內核效率)

此外,在擴大模型大小時,密集模型和MoE模型顯示出相似的減速模式,比如6.6B密集模型的訓練吞吐量大約比1.6B密集模型的訓練吞吐量慢4.19倍(后者的參數少4倍)。同樣,42B MoE模型的訓練吞吐量比10B MoE 模型的訓練吞吐量慢約3.96倍(對應參數少4.2倍)。

并行實驗

在只使用pipeline并行的情況下,通過在GPU之間進一步劃分不同層,可以將最大專家數量從16個擴展到32個。但是,如果再增加專家數量,則會導致單個層的參數過多,一個GPU就放不下了。

所以下一個維度采用張量并行。

專家并行在前向和后向計算中有兩個all-to-all通信開銷,而張量并行在前向和后向計算中有兩個all-reduce通信開銷。

相比之下all-reduce操作的延遲更高一點,但可以通過精心排布前向和反向的計算來overlap掉一部分開銷。

圖片

如上圖所示,通過結合pipeline并行和張量并行,系統支持的最大專家數量擴展到52個(總共132B參數)。

這個數量是因為實驗只用了64個GPU,最多能將模型劃分為64個階段,如果有更多的GPU,那么還能繼續向上擴展。

不過作者也表示,使用更復雜的并行通常會導致計算吞吐量降低。

負載均衡

如前所述,本文沒有采用專家并行,但是負載不均衡的事實依然存在。

作者在這里通過調整負載均衡損失來調節全局的負載均衡。常見的負載均衡損失定義為:

圖片

其中α是超參數,n是專家數量,fi是調度給專家的token比例。

傳統方法在本地不同的GPU上計算fi,因此負載均衡損失將調節本地專家負載均衡并緩解token丟棄。

在本文中,作者通過計算全局的fi(比如數據并行過程中組內的all-reduce)來修改負載均衡損失,調節專家負載以達到全局平衡。

盡管這種調整會產生額外的通信開銷,但類似于張量并行,這些通信也可以與計算overlap,從而在很大程度上減少額外的延遲。

最后,放一個測試結果來show一下GRIN MoE的數學推理能力:

圖片

作者注:我們對新發布的GAOKAO(即全國普通大學和學院入學統一考試)的數學問題進行案例研究,這是中國一年一度的全國本科入學考試。


該考試以其嚴格的安全協議而聞名,是評估AI模型回答數學問題的能力的理想測試平臺。請注意,GRIN MoE的訓練于太平洋標準時間6月3日結束,2024年GAOKAO于中國標準時間6月7日開始。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-10 16:01:28

2024-01-10 17:37:17

概率token模型

2024-05-14 09:06:42

谷歌模型

2025-02-17 03:00:00

LLMsMoELLM

2025-03-11 00:35:00

DeepSeektoC業務

2025-05-30 09:06:00

2025-01-24 14:19:21

2025-02-25 18:41:39

2013-01-04 15:57:49

微軟Tech 2012

2024-08-06 08:16:05

2010-11-12 10:50:07

微軟Azure

2023-12-09 13:32:21

GPT-4MoE架構開源大模型

2024-07-15 13:22:56

2013-10-29 09:27:34

383方案專家電信重組

2009-07-17 16:38:40

2010-07-01 10:24:30

UML小工具

2010-01-13 14:25:49

C++特點

2009-12-31 13:50:46

ADO.NET模型

2012-03-05 11:23:52

2015-11-03 15:13:34

CDO大數據首席數據官
點贊
收藏

51CTO技術棧公眾號

成 人 免费 黄 色| 国产传媒在线看| 51精品视频| www国产亚洲精品久久麻豆| 欧美在线一级va免费观看| 日本一区二区视频在线播放| 高清国产一区二区三区四区五区| 亚洲最新在线观看| 欧美精品与人动性物交免费看| 久久久999久久久| 午夜精品久久| 亚洲女人天堂av| 涩涩网站在线看| h片在线观看视频免费免费| 国产日韩欧美电影| 产国精品偷在线| 日韩人妻精品中文字幕| 中文字幕午夜精品一区二区三区 | 成人av网站在线观看| 日本亚洲欧美三级| 亚洲av无码一区二区三区在线| 亚洲国产精品嫩草影院久久av| 欧美美女激情18p| 91专区在线观看| 日本美女在线中文版| 91在线国产观看| 5g影院天天爽成人免费下载| 69av视频在线观看| 亚洲精选久久| 欧美激情视频一区| 99热这里只有精品4| 午夜精品福利影院| 精品电影一区二区| 日韩精品aaa| 日韩城人网站| 欧美日韩一区二区三区| 麻豆视频传媒入口| 毛片在线播放a| 久久久国产午夜精品| 国产伦精品一区二区三区照片| 亚洲欧美偷拍视频| 亚洲激情专区| 久久福利视频网| 懂色av粉嫩av浪潮av| 亚洲另类av| 亚洲国产婷婷香蕉久久久久久| 伊人精品视频在线观看| 欧美激情三区| 日韩欧美极品在线观看| 全黄性性激高免费视频| 日本不卡影院| 亚洲综合一二三区| 免费看日b视频| 手机av在线播放| 日韩美女久久久| 亚洲精品中字| 日本精品一区二区三区在线播放| 中文字幕国产一区| 天堂精品一区二区三区| h视频在线观看免费| 久久久精品黄色| 日本婷婷久久久久久久久一区二区| 无码精品视频一区二区三区| 国产精品99精品久久免费| 91亚洲精品一区| 国产免费的av| 国产精品夜夜爽| 99免费在线观看视频| 成人乱码一区二区三区| 成人免费视频视频在线观看免费| 亚洲一区二区三区四区在线播放| 99riav国产| 国产99精品国产| 国产激情一区二区三区在线观看| 国产 日韩 欧美 综合| 91偷拍与自偷拍精品| 欧美大陆一区二区| 国产精品麻豆一区二区三区| 国产精品欧美一级免费| 91免费网站视频| 一二三四区在线观看| 亚洲mv在线观看| 国产a视频免费观看| 欧美啪啪网站| 欧美一个色资源| 麻豆精品国产传媒av| 丝袜美腿一区二区三区动态图| 亚洲少妇中文在线| 三级黄色在线观看| 激情综合在线| 国产激情视频一区| 国产精品久久久久久69| 国产91色综合久久免费分享| 精品国产中文字幕| 欧美天天影院| 亚洲国产日韩a在线播放| 四虎永久在线精品无码视频| av日韩一区| 亚洲第一视频网站| 亚洲a∨无码无在线观看| 中文av一区| 国产成人精品免费视频| 国产成人精品一区二三区四区五区| 国产99精品视频| 日韩欧美精品在线不卡| 中中文字幕av在线| 色婷婷精品大在线视频| 污免费在线观看| 蜜桃一区二区三区| 精品视频9999| 99re热视频| 成人少妇影院yyyy| 91免费视频黄| 松下纱荣子在线观看| 7777精品伊人久久久大香线蕉超级流畅 | h视频在线播放| 亚洲福利视频一区二区| 一区二区三区韩国| 久久人人爽人人爽人人片av不| 色视频www在线播放国产成人| 国产又色又爽又黄的| 国产在线观看免费一区| 欧美高清性xxxxhd| 国产精品一区hongkong| 在线播放国产精品二区一二区四区 | 亚洲成人激情图| 国产黄a三级三级| 国产欧美91| 超碰97人人人人人蜜桃| 日本美女在线中文版| 91福利小视频| 少妇精品一区二区三区| 激情亚洲网站| 波多野结衣久草一区| 成人在线播放| 欧美日韩精品一区二区在线播放 | 一女二男一黄一片| 国产亚洲成aⅴ人片在线观看 | 色图在线观看| 欧美日韩1区2区| 人与嘼交av免费| 久久久久国产精品午夜一区| 国产日韩二区| www.超碰在线| 亚洲国产精品悠悠久久琪琪| 免费在线观看日韩| 国产黑丝在线一区二区三区| 亚洲欧美一二三| 亚洲色图综合| 久久精品精品电影网| 中文字幕av在线免费观看| 久久久噜噜噜久久人人看| 99视频在线免费播放| 超碰97成人| 欧美激情一二三| 六月婷婷综合网| 亚洲国产一区二区三区 | 中文字幕免费高清网站| 久久久久国产精品人| 国产精品无码专区av在线播放| 亚洲人成网亚洲欧洲无码| 欧美最猛性xxxxx免费| 国产免费视频在线| 欧美日韩久久久一区| 国产麻豆a毛片| 久久成人免费日本黄色| 亚洲激情免费视频| 国产精品一线| 日本成人黄色片| 成人免费在线观看| 欧美日韩三级视频| 欧美日韩在线观看成人| www.欧美色图| 久久久久久久久久久久久久国产| 伊人精品一区| 国产精品电影网站| 里番在线观看网站| 日韩一区二区在线观看视频| 日本三级中文字幕| 久久久久久久电影| 日韩高清第一页| 激情视频一区二区三区| 欧美日韩国产高清视频| 91精品视频一区二区| 欧美国产日韩在线| 日本一卡二卡四卡精品| 欧美日韩国产经典色站一区二区三区| 免费成年人视频在线观看| 丁香五精品蜜臀久久久久99网站| jizzjizzxxxx| 外国成人免费视频| 久久精品人成| 精品久久毛片| 性欧美xxxx| 婷婷在线视频| 亚洲精品98久久久久久中文字幕| 波多野结衣人妻| 亚洲精品国产无套在线观| 丰满少妇一区二区三区| 久久福利资源站| 欧美三级一级片| 欧美国产美女| 久久国产精品亚洲va麻豆| 亚洲免费资源| 午夜精品一区二区三区在线视| 在线观看免费黄视频| 亚洲福利在线观看| 99久久久国产精品无码网爆| 婷婷成人激情在线网| 亚洲av无一区二区三区| 91年精品国产| 在线精品视频播放| 精品一区二区三区日韩| 女人扒开屁股爽桶30分钟| 女主播福利一区| 午夜免费电影一区在线观看| 另类图片第一页| 91在线精品播放| 日韩精品一区二区三区av| 国自在线精品视频| 成人免费在线| 中文字幕在线亚洲| 欧美日韩伦理片| 亚洲电影免费观看高清| 国产高清在线免费| 欧美日韩一区高清| 欧美成人一区二区三区四区| 亚洲高清视频在线| 老妇女50岁三级| 中文字幕亚洲成人| 蜜臀久久99精品久久久久久| 99久久亚洲一区二区三区青草| 永久看看免费大片| 韩国三级电影一区二区| 黄色av免费在线播放| 性欧美xxxx大乳国产app| 欧美激情视频免费看| 国产一区二区三区四区老人| 中文字幕在线亚洲精品| 成人影院在线| 日韩久久精品一区二区三区| 少妇高潮一区二区三区| 狠狠爱一区二区三区| theporn国产在线精品| 超碰97网站| jizzjizzjizz欧美| 国产伦精品一区二区三区照片| 国产毛片精品| 国新精品乱码一区二区三区18| 日韩一二三区在线观看| 69堂成人精品视频免费| 24小时成人在线视频| 成人女保姆的销魂服务| 国产精品视频首页| 97在线电影| 国产成人福利av| 国产精品区一区二区三在线播放 | 国产精品电影| 性视频1819p久久| 欧美在线极品| 国产成人免费91av在线| 日本精品裸体写真集在线观看| 国产精品久久中文| 日韩美女在线| 成人黄色片视频网站| 爱爱精品视频| 久久久久一区二区| 欧美亚洲高清| 四虎免费在线观看视频| 激情久久婷婷| 成人羞羞国产免费网站| 久久国产精品色婷婷| caoporm在线视频| 成人av午夜影院| 亚洲自拍偷拍一区二区| 国产精品色呦呦| wwwav国产| 欧美日韩在线观看视频| 国产九色91回来了| 日韩视频在线一区二区| 日批视频在线播放| 国产午夜一区二区| av在线网址观看| 欧美一区二区三区图| 欧美特黄色片| 国产精品yjizz| 国产成人黄色| 国产三级中文字幕| 国产精品永久| 国产黑丝在线视频| 久久综合久久综合九色| 人与动物性xxxx| 午夜精品视频一区| 91丨porny丨在线中文 | 91天堂素人约啪| 中文字幕第24页| 亚洲国产精品一区二区www在线| 91video| 91精品国产综合久久蜜臀| 色偷偷在线观看| 日韩中文字幕网| 亚洲黄色中文字幕| 99久久自偷自偷国产精品不卡| 国产欧美一区| www.夜夜爱| 美女免费视频一区| 亚洲视频在线播放免费| 中文字幕在线观看一区| 黄色片免费观看视频| 欧美精品v日韩精品v韩国精品v| 天堂中文在线8| 久久99久国产精品黄毛片入口| 成人片免费看| 国产不卡一区二区三区在线观看| 欧洲乱码伦视频免费| 波多野结衣之无限发射| 国产麻豆精品视频| 三级黄色片在线观看| 欧美日韩中文字幕在线视频| 国产同性人妖ts口直男| 尤物九九久久国产精品的分类| 3344国产永久在线观看视频| 亚洲最大av网站| 色喇叭免费久久综合网| 无码精品国产一区二区三区免费| 成人综合在线视频| 日本一二三区在线观看| 91成人网在线| 免费在线高清av| 欧美国产日韩一区二区在线观看| 91麻豆精品国产综合久久久| 五月婷婷综合色| 爽好多水快深点欧美视频| 中文字幕在线播放一区| 亚洲国产精品久久一线不卡| 国产视频第一页| 精品精品国产国产自在线| 国产精品日日夜夜| 色综合天天综合色综合av| 日韩一级免费视频| 欧美激情伊人电影| 亚洲乱码一区| 亚洲精品天堂成人片av在线播放| 久久精品国产网站| 少妇的滋味中文字幕bd| 91精品91久久久中77777| 午夜影院在线视频| 国自产精品手机在线观看视频| 超碰成人免费| 999在线观看视频| av中文字幕一区| 日韩少妇高潮抽搐| 亚洲免费一级电影| 性欧美18一19sex性欧美| 日本在线免费观看一区| 免费在线观看一区二区三区| 亚洲色图日韩精品| 欧美精品一二三四| 图片区小说区亚洲| 国产激情美女久久久久久吹潮| 亚洲精选在线| 美女爆乳18禁www久久久久久| 色偷偷成人一区二区三区91| 国产中文字幕在线| 国产精品丝袜高跟| 中文精品久久| 成年人的黄色片| 欧美色道久久88综合亚洲精品| 国产美女性感在线观看懂色av | 亚洲成人精品在线| 爱搞国产精品| 日本视频一区二区在线观看| 蜜臂av日日欢夜夜爽一区| 久久久精品视频免费观看| 亚洲成色777777女色窝| 第84页国产精品| 综合一区中文字幕| 成人激情校园春色| 午夜影院免费在线观看| 日韩综合中文字幕| 国产精品白丝久久av网站| 人妻少妇精品久久| 国产日韩亚洲欧美综合| 国产视频手机在线观看| 91高潮精品免费porn| 成人一区二区| 国产免费无码一区二区| 在线免费观看日本一区| 大地资源网3页在线观看| 精品综合久久| 另类人妖一区二区av| 国产香蕉在线视频| 国产亚洲激情在线| 日韩精品免费视频一区二区三区| 欧美视频免费看欧美视频| 国产精品美女久久久久aⅴ| 刘亦菲毛片一区二区三区| 国产精品欧美日韩久久| 亚洲作爱视频| 搜索黄色一级片|