精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可與ViT一較高下,DeepMind從稀疏轉向Soft混合專家模型

人工智能 新聞
對于谷歌 DeepMind 的 Soft MoE,有人表示:「即使它不是萬能藥,仍可以算得上一個突破」。

隨著大模型涌現出令人驚艷的性能,模型大小已經成為影響模型性能的關鍵因素之一。通常,對 Transformer 模型來說,模型越大,性能就會越好,但計算成本也會增加。近期有研究表明,模型大小和訓練數據必須一起擴展,才能最佳地使用給定的訓練計算預算。

稀疏混合專家模型(MoE)是一種很有前途的替代方案,可以在計算成本較少的情況下,擴展模型的大小。稀疏 MoE Transformer 有一個關鍵的離散優化問題:決定每個輸入 token 應該使用哪些模塊。這些模塊通常是稱為專家的 MLP。

為了讓 token 與專家良好匹配,人們設計了許多方法,包括線性規劃、強化學習、最優傳輸(optimal transport)等。在許多情況下,需要啟發式輔助損失(auxiliary loss)來平衡專家的利用率并最大限度地減少未分配的 token。這些挑戰在分布外場景中可能會加劇。

現在,來自 Google DeepMind 的研究團隊提出了一種稱為「Soft MoE」的新方法 ,解決了許多問題。

圖片

論文地址:https://arxiv.org/pdf/2308.00951.pdf

Soft MoE 不采用稀疏且離散的路由器在 token 和專家之間進行硬分配(hard assignment),而是通過混合 token 來執行軟分配(soft assignment)。值得注意的是,這種方法會計算所有 token 的多個加權平均值(weighted average),其中權重取決于 token 和專家,然后由相應的專家處理每個加權平均值。

常見的稀疏 MoE 算法通常會學習一些路由器參數,但這些算法的效果有時甚至不如隨機固定路由。在 Soft MoE 中,由于每個路由(或混合)參數都是根據單個輸入 token 直接更新的,因此可以在訓練路由器期間提供穩定性。研究團隊還觀察到,在訓練期間,大部分輸入 token 可以同時改變網絡中的離散路由。

此外,硬路由(hard routing)在專家模塊數量較多時可能具有挑戰性,因此大多數研究的訓練只有幾十個專家模塊。相比之下,Soft MoE 可擴展至數千個專家模塊,并且可以通過構建實現平衡。最后,Soft MoE 在推理時不存在批次效應(batch-effect)。

該研究進行了一系列實驗來探究 Soft MoE 方法的實際效果。實驗結果表明,Soft MoE L/16 在上游任務、少樣本任務和微調方面擊敗了 ViT H/14,并且 Soft MoE L/16 僅需要一半的訓練時間,推理速度還是 ViT H/14 的 2 倍。值得注意的是,盡管 Soft MoE B/16 的參數量是 ViT H/14 的 5.5 倍,但 Soft MoE B/16 的推理速度卻是 ViT H/14 的 5.7 倍。

此外,該研究用實驗表明通過軟路由學習的表征保留了圖像 - 文本對齊的優勢。

Soft MoE 模型

算法描述

Soft MoE 路由算法如下圖 2 所示。研究者使用 X ∈ R^m×d 來表示一個序列的輸入 token,其中 m 是 token 數量,d 是維數。每個 MoE 層使用一組 n 個專家函數應用于單個 token,即 {f_i : R^d → R^d}_1:n。每個專家將處理 p 個 slot,每個 slot 有相應的 d 維參數向量。他們用圖片來表示這些參數。

圖片

研究者遵循稀疏 MoE 的常規設計,利用 Soft MoE 塊替換掉了 Transformer MLP 塊的一個子集。這里通常會替換掉 MLP 塊的后半部分。slot 的總數量是 Soft MoE 層的關鍵超參數,這是因為時間復雜度依賴于 slot 數量而不是專家數量。比如可以將 slot 數設置為與輸入序列長度相等,以匹配等效密集 Transformer 的 FLOP。

圖片

Soft MoE 的特性

首先 Soft MoE 完全可微。Soft MoE 中的所有操作都是連續且完全可微的。我們可以將帶有 softmax 分數的加權平均值解釋為軟分類,這也是 Soft MoE 算法名稱的由來。作為對比,稀疏 MoE 方法通常采用的是硬分類。

其次 Soft MoE 沒有 token dropping 和專家不平衡。Soft MoE 基本上不受這兩點的影響,這得益于每個 slot 都填充了所有 token 的加權平均值。并且由于 softmax,所有權重都是嚴格正的。

再次 Soft MoE 速度快。它的主要優勢是完全避免了排序或 top-k 操作,這些操作速度慢并且通常不太適合硬件加速器。因此,Soft MoE 的速度明顯要快于大多數稀疏 MoE,具體如下圖 6 所示。

圖片

Soft MoE 還兼具稀疏和密集的特點。稀疏 MoE 的稀疏性來自于專家參數僅應用于輸入 token 的子集。然而,Soft MoE 在技術上不稀疏,這是因為每個 slot 是所有輸入 token 的加權平均值。并且每個輸入 token 會極少部分激活所有模型參數。同樣所有輸出 token 也極少部分依賴所有 slot(和專家)。還要注意一點,Soft MoE 不是密集 MoE(其中每個專家處理所有輸入 token),它的每個專家僅處理 slot 的子集。

最后 Soft MoE 具有序列性。由于它組合了每個輸入序列中的所有 token,因此只需將組大小設置為一個大序列。每個專家會處理每個輸入的 token,這可能會在一定程度上限制高級 specialization 的數量。這也意味著 Soft MoE 呈現逐實例確定性和速度快,而稀疏 MoE 的典型實例不是這樣。

實現

時間復雜度。假設單個專家函數的逐 token 成本是 O (k),則一個 Soft MoE 層的時間復雜度為 O (mnpd + npk)。通過為每個專家選擇 p = O (m/n) 個 slot,也就是 token 數量除以專家數量,成本可以降低至 O (m^2d + mk)。

歸一化。在 Transformer 中,MoE 層通常用來替換掉每個編碼器塊中的前饋層。因此當使用預歸一化作為大多數現代 Transformer 架構時,MoE 層的輸入是「層歸一化的」。

圖片

分布式模型。研究者采用標準技術將模型分布在很多設備上。分布式模型通常會增加模型的成本開銷,不過他們上文推導的基于 FLOP 的時間復雜度分析并沒有捕獲這一點。因此在所有實驗中,研究者不僅測量了 FLOP,還測量了以 TPUv3-chip-hour 為單位的掛鐘時間。

圖像分類實驗結果

研究者展示了圖像分類的三種類型的實驗:

  • 訓練帕累托邊界
  • 推理時優化模型
  • 模型消融

研究者在 JFT-4B 數據集上對模型進行預訓練,這是一個專有數據集,最新版本包含了超過 4B 張圖像、29k 個類別。

在預訓練期間,他們提供了兩個指標的評估結果,即 JFT-4B 的上游驗證 precision-at-1 和 ImageNet 10-shot 準確率。此外還提供了在 ImageNet-1k(1.3M 張圖像)上進行微調后,ImageNet-1k 驗證集上的準確率。

研究者對比了兩個流行 MoE 路由算法,分別是 Tokens Choice 和 Experts Choice。

訓練帕累托 - 優化模型

研究者訓練了 VIT-S/8、VIT-S/16、VIT-S/32、VIT-B/16、VIT-B/32、VIT-L/16、VIT-L/32 和 VIT-H/14 模型,以及它們的稀疏對應模型。

下圖 3a 和 3b 顯示了每個類別中模型的結果,這些模型位于各自的訓練成本 / 性能帕累托邊界上。在上述兩個評估指標上,對于任何給定的 FLOP 或時間預算,Soft MoE 顯著優于密集和其他稀疏方法。

圖片

長訓練運行

除了較短的運行和消融實驗之外,研究者還訓練了運行更長(幾百萬 step)的模型,從而在更大的計算規模上測試 Soft MoE 的性能。

首先研究者訓練了從 Small 到 Huge 的不同大小的 ViT 和 Soft MoE 模型,它們運行了 4 百萬 step。下圖 4 和表 2 展示了結果。

其中圖 4 展示了 Soft MoE 與 ViT 的 JFT-4B 精度、ImageNet 10-shot 準確率和 ImageNet 微調準確率,以及 ExaFLOPS 的訓練成本。表 2 提供了所有結果。對于給定的計算預算,Soft MoE 模型的性能遠優于 ViT 模型。

圖片

圖片

再來看針對推理進行優化的 Soft MoE。對于具有較小主干的 Soft MoE 可以與較大 ViT 模型一較高下這一事實,研究者受到了鼓舞,繼續訓練小的主干,以在非常低的推理成本下獲得更高質量的模型。

對于更長時間的運行,研究者觀察到冷卻時間(學習率線性降低到 0)越長,Soft MoE 的效果很好。因此,他們將冷卻時長從 50k step 增加到最多 500k。下圖 5 展示了這些模型。

圖片

從結果來看,經過 1k TPUv3 days 訓練的 Soft MoE B/16 優于在類似時間預算下訓練的 ViT H/14,同時在 FLOP 推理上成本 10 倍降低,在掛鐘時間上 5.7 倍減少。

即使將 ViT-H/14 的訓練預算加倍(2M step 和 2039.8 train days),Soft MoE B/16(1011.4 days)也幾乎與它性能相近。

此外,Soft MoE L/16 大幅地擊敗所有模型,同時推理速度是 ViT H/14 的近 2 倍。

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2012-03-06 09:09:39

虛擬化vmwareWin Server

2024-10-25 13:31:31

2013-09-13 09:54:00

VMwareAmazon云計算

2013-12-03 16:56:05

微信阿里

2024-04-18 09:02:11

數據流Mixtral混合模型

2014-04-01 11:14:29

AWSIBM開源Hadoop

2023-10-27 13:04:46

AI模型

2024-01-10 16:01:28

2021-01-31 18:12:18

SD-WANIT網絡

2024-03-08 13:02:56

Claude 3GPT-4Opus

2012-08-24 14:05:00

黑客馬拉松黑客

2013-04-19 09:45:20

AMPLabHadoopHDFS

2013-03-07 09:13:43

2011-06-07 10:32:05

iPad黑莓

2024-11-13 14:37:30

2022-09-21 10:54:49

無線Wi-Fi 6

2010-04-28 09:27:30

惠普收購McAfee投資者

2024-12-31 09:08:32

2024-12-02 14:20:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

九九视频免费观看| www.cao超碰| 国模吧精品人体gogo| 久久久久久亚洲精品杨幂换脸| 亚洲老头同性xxxxx| 黄色片视频在线| 激情影院在线| 国产色综合一区| 97久久天天综合色天天综合色hd| 东京热无码av男人的天堂| 日本在线一区二区三区| 欧美性xxxxhd| 中文视频一区视频二区视频三区| 亚洲国产成人一区二区| 久久天堂精品| 欧美激情一区二区三区成人| 99久久精品免费视频| 日韩中文字幕无砖| 欧美午夜不卡在线观看免费| 黄色网在线视频| 91激情在线| 91麻豆国产香蕉久久精品| 亚洲福利视频网站| 蜜桃视频一区二区在线观看| 九色视频网站在线观看| 热久久一区二区| 欧美有码在线观看| 久草视频免费播放| 日本h片久久| 日本一区二区三区四区在线视频| 国产欧美va欧美va香蕉在线| 日韩毛片一区二区三区| 久久丁香四色| 欧美精品一二三四| 国产三级国产精品国产专区50| 老色鬼在线视频| 一区2区3区在线看| 亚洲欧美日韩不卡一区二区三区| 波多野结衣mp4| 国产精品社区| 国模吧一区二区三区| 亚洲色偷偷综合亚洲av伊人| 不卡一区综合视频| 国产亚洲精品高潮| 国产三级av在线播放| 97中文字幕在线观看| 成人性爱视频在线观看| 久久品道一品道久久精品| 日韩av观看网址| 日本视频免费在线| 99精品国产在热久久| 亚洲国产高清高潮精品美女| ass极品水嫩小美女ass| 任你弄在线视频免费观看| 亚洲精品国产无天堂网2021| 黄色网zhan| 亚洲一级片免费看| 久久66热re国产| 91九色国产视频| 老熟妇一区二区三区| 一区二区三区国产盗摄| 69av在线播放| 亚洲综合成人av| 久久精品国产一区二区三| 国产热re99久久6国产精品| 一级黄色片在线观看| 黄色资源网久久资源365| 91系列在线观看| 亚洲精品一区二区三区四区| 国产成人精品三级麻豆| 99蜜桃在线观看免费视频网站| 亚洲男人第一天堂| 成人国产精品免费观看视频| 噜噜噜噜噜久久久久久91| 国内av一区二区三区| 国产精品福利一区| 日韩精品一区二区在线视频| 日韩在线伦理| 欧美日韩日日摸| av影片在线播放| 日韩三级毛片| 日韩在线播放一区| 日本在线视频免费观看| 玖玖视频精品| 91福利视频导航| 午夜av免费在线观看| 国产欧美日韩综合精品一区二区 | 国产无限制自拍| 欧美激情20| 欧美日韩一二三区| 特级特黄刘亦菲aaa级| 欧美男男gaytwinkfreevideos| 最近2019年日本中文免费字幕 | 欧美午夜a级限制福利片| 亚州精品天堂中文字幕| 成人av网站在线播放| 国产一区二区三区在线看麻豆| 国产视频在线观看一区| 97视频精彩视频在线观看| 亚洲人被黑人高潮完整版| 日本免费黄视频| 精品一区二区三区中文字幕在线| 亚洲精品久久久久久下一站| 日本黄色录像视频| 免费视频一区二区三区在线观看| 成人久久18免费网站图片| 亚洲欧美色视频| 依依成人综合视频| 啊啊啊国产视频| 欧美理伦片在线播放| 久久精品国产96久久久香蕉| 中文字幕精品三级久久久| 国产麻豆精品在线观看| 午夜欧美一区二区三区免费观看| heyzo高清中文字幕在线| 亚洲aⅴ怡春院| av在线免费观看不卡| 欧美美女一区| 欧洲一区二区视频| 日韩在线观看视频一区| 亚洲视频在线观看一区| 色悠悠久久综合网| 免费短视频成人日韩| 久久免费福利视频| 午夜精品久久久久久久蜜桃| 99久久精品免费| 免费网站永久免费观看| 国产精品视频一区视频二区 | 高清电影在线免费观看| 91精品国产麻豆| 成人免费看aa片| 亚洲精品国产日韩| 国产99在线播放| 菠萝菠萝蜜在线视频免费观看| 欧美色大人视频| www.99热| 欧美aⅴ一区二区三区视频| 久久久www免费人成黑人精品| 久久不射影院| 精品对白一区国产伦| 欧美激情图片小说| 国产真实乱子伦精品视频| 一区二区视频在线免费| 久久久免费人体| 日韩网站免费观看高清| 这里只有久久精品视频| 亚洲国产精品ⅴa在线观看| 午夜视频在线瓜伦| 波多野结衣在线观看一区二区三区| 国产99久久精品一区二区永久免费 | 国产主播第一页| 国产亚洲短视频| 成人性做爰aaa片免费看不忠| 九九综合九九| 国产精品美女在线| 在线毛片网站| 欧美一区二区视频免费观看| www.99re7| 国产成人8x视频一区二区| 91亚洲精品国产| 第一区第二区在线| 69久久夜色精品国产7777| 神马电影在线观看| 91成人国产精品| 美女福利视频网| 国产激情视频一区二区三区欧美 | 午夜精品123| av无码av天天av天天爽| 日韩专区欧美专区| 庆余年2免费日韩剧观看大牛| 一级黄色片视频| 久久亚洲综合色一区二区三区| 国产成人综合一区| 99久久亚洲精品蜜臀| 不卡视频一区二区| 亚洲校园激情春色| 国产一区二区亚洲| 国产亚洲视频在线观看| 亚洲专区在线播放| 亚洲综合免费观看高清完整版| 国产黑丝在线观看| 神马久久av| 欧美不卡一区二区三区| 我家有个日本女人| 91丨porny丨首页| 久久婷婷综合色| 黄色亚洲大片免费在线观看| 久久综合狠狠综合久久综青草| 97久久网站| 欧美黑人巨大xxx极品| 国产一级免费在线观看| 欧美一区二区福利视频| 久久丫精品国产亚洲av不卡| 精品一区二区三区免费播放| 精品视频在线观看一区| sdde在线播放一区二区| 成人免费观看网站| 姬川优奈av一区二区在线电影| 亚洲视频在线观看免费| 日韩大片免费在线观看| 久色婷婷小香蕉久久| 亚洲一卡二卡区| 国产精品一区二区三区美女| 日韩亚洲精品视频| 日本人妖在线| 精品1区2区在线观看| 国产成+人+综合+亚洲欧美丁香花| 天堂在线观看免费视频| 一本高清dvd不卡在线观看| 午夜免费激情视频| 国产精品伦一区二区三级视频| 波多野结衣加勒比| 国产经典欧美精品| 日本激情视频在线播放| 午夜一区在线| 青青草国产精品视频| 伊人久久大香线蕉综合四虎小说| 欧美亚洲国产免费| 久草精品视频| 国产精品国色综合久久| av在线成人| 国产精品偷伦免费视频观看的| 日韩深夜视频| 91av在线播放视频| 里番在线播放| 久久6免费高清热精品| 免费av不卡| 丝袜亚洲另类欧美重口| 高清国产福利在线观看| 亚洲天堂影视av| 国产在线资源| 亚洲网址你懂得| 欧美日韩免费做爰大片| 日韩激情av在线免费观看| 二区三区在线视频| 精品国产一区二区亚洲人成毛片| 91久久久久国产一区二区| 欧美性做爰猛烈叫床潮| www.久久视频| 欧美日韩色综合| 制服丝袜在线一区| 欧美日韩成人激情| 国产性生活网站| 亚洲一区二区欧美激情| 国产香蕉在线视频| 五月天亚洲婷婷| av黄色在线播放| 色88888久久久久久影院野外| 99re这里只有精品在线| 在线观看网站黄不卡| 成人黄色片在线观看| 欧美美女喷水视频| 国产jzjzjz丝袜老师水多 | 91精品国产网站| 午夜伦理福利在线| 日韩免费av片在线观看| 日韩一区二区三区免费视频| 国产在线播放91| 精品一区视频| 国产在线一区二区三区播放| 女人av一区| 午夜精品一区二区三区四区| 天天综合精品| 野外做受又硬又粗又大视频√| 9色精品在线| 日本老熟妇毛茸茸| 国产在线看一区| 性猛交╳xxx乱大交| 91亚洲精品久久久蜜桃网站| 成年人免费观看视频网站| 国产精品你懂的| 久久久全国免费视频| 精品免费在线观看| 中日韩av在线| 精品美女一区二区三区| 欧美美乳在线| 久久av.com| 五月天av在线| 成人国产在线激情| 久久久久观看| 亚洲一区二区三区免费观看| 午夜欧美精品久久久久久久| 男人操女人逼免费视频| 蜜桃av一区二区三区| 图片区偷拍区小说区| 国产日韩欧美在线一区| 东方av正在进入| 欧美性猛交xxxx| 国产99999| 亚洲石原莉奈一区二区在线观看| 免费av在线播放| 2025国产精品视频| 国产日韩欧美中文在线| 欧美一区1区三区3区公司| 欧美99久久| 欧美伦理视频在线观看| 国产精品12区| 亚洲国产日韩一区无码精品久久久| 亚洲人成在线观看一区二区| 天天干天天操天天爱| 欧美一区二区精美| www免费网站在线观看| 国内精品小视频在线观看| 成人免费黄色| 欧美一区二区三区在线播放 | 亚洲欧洲综合另类在线| 精品视频一二三区| 亚洲精品美女久久| av免费在线免费| 国产精品久久综合av爱欲tv| 高清一区二区三区| 麻豆一区二区三区在线观看| 日韩av中文在线观看| www.超碰97| 亚洲五码中文字幕| 国产伦理吴梦梦伦理| 国产亚洲精品一区二区| 黄色在线观看视频网站| 91在线免费看网站| 成人综合一区| 中文字幕无码不卡免费视频| 成人av电影在线观看| 玖玖爱免费视频| 欧美一区二区三区视频在线| 777电影在线观看| 国产精品精品视频| 久草精品在线| 欧洲av无码放荡人妇网站| av中文一区二区三区| 国产在线视频二区| 日韩欧美一区二区在线视频| 久久久久久久久免费视频| 国产精品视频地址| 色爱综合网欧美| 无限资源日本好片| 国产精品午夜久久| 伊人精品一区二区三区| 永久免费毛片在线播放不卡| 欧美粗大gay| 日韩福利二区| 日本不卡免费在线视频| 国产又粗又黄又猛| 欧美亚洲高清一区二区三区不卡| 第一视频专区在线| 国产美女高潮久久白浆| 国产高清一区二区| www.午夜av| 亚洲专区一二三| 欧美一级性视频| 欧美专区日韩视频| 深爱激情综合| 99re精彩视频| 亚洲美女屁股眼交3| 性一交一乱一乱一视频| 久久中国妇女中文字幕| 日韩视频在线直播| 免费不卡av在线| 91看片淫黄大片一级在线观看| 中文字幕在线欧美| www.久久久久| 日韩中文在线| 99色精品视频| 国产精品国产三级国产aⅴ入口 | 日韩不卡中文字幕| 欧美日韩成人影院| 综合色婷婷一区二区亚洲欧美国产| 国产一区二区成人久久免费影院 | 免费h在线看| 久久草.com| 日韩国产精品久久久| 91n在线视频| 精品久久久久久久久久久院品网 | 成人欧美一区二区| 亚洲尤物精选| 中国美女黄色一级片| 日韩限制级电影在线观看| 成人国产电影在线观看| 国产专区欧美专区| 韩日精品视频| 少妇特黄a一区二区三区| 日韩av一区二区三区| 天天看片中文字幕| 亚洲精品综合久久中文字幕| 亚洲男女网站| 青草青草久热精品视频在线网站| 日韩欧美一区二区三区免费看| 激情视频综合网| 久久综合久久综合久久综合| 国产 日韩 欧美 成人| 亚洲最新av在线网站| 第一区第二区在线| 国产精品一区二区小说| 亚洲高清在线精品| 亚洲s色大片| 亚洲一区在线免费观看| 国产免费久久久久| 亚洲精品在线91| 一区中文字幕电影| 97超碰在线视| 黄色日韩网站视频|