精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比Transformer更好,無Attention、MLPs的BERT、GPT反而更強了

人工智能 新聞
本文探索了 Monarch Mixer (M2) ,這是一種在序列長度和模型維度上都是次二次的新架構,并且在現代加速器上具有很高的硬件效率。

從 BERT、GPT 和 Flan-T5 等語言模型到 SAM 和 Stable Diffusion 等圖像模型,Transformer 正以銳不可當之勢席卷這個世界,但人們也不禁會問:Transformer 是唯一選擇嗎?

斯坦福大學和紐約州立大學布法羅分校的一個研究團隊不僅為這一問題給出了否定答案,而且還提出了一種新的替代技術:Monarch Mixer。近日,該團隊在 arXiv 公布了相關論文和一些檢查點模型及訓練代碼。順帶一提,該論文已入選 NeurIPS 2023 并獲得 Oral Presentation 資格。

圖片

論文地址:https://arxiv.org/abs/2310.12109

代碼地址:https://github.com/HazyResearch/m2

該方法去掉了 Transformer 中高成本的注意力和 MLP,代之以富有表現力的 Monarch 矩陣,使之在語言和圖像實驗中以更低的成本取得了更優的表現。

這并不是斯坦福大學第一次提出 Transformer 的替代技術。今年六月該校的另一個團隊還曾提出過一種名為 Backpack 的技術,參閱機器之心文章《斯坦福訓練 Transformer 替代模型:1.7 億參數,能除偏、可控可解釋性強》。當然,這些技術要取得真正的成功,還需要研究社區的進一步檢驗并在應用開發者手中變成切實好用的產品。

下面我們看看這篇論文中對 Monarch Mixer 的介紹以及一些實驗結果。

論文介紹

在自然語言處理和計算機視覺領域,機器學習模型已能處理更長的序列和更高維度的表征,從而支持更長的上下文和更高的質量。然而,現有架構的時間和空間復雜性在序列長度和 / 或模型維度上呈二次增長模式,這會限制上下文長度并提升擴展成本。舉個例子,Transformer 中的注意力和 MLP 會隨序列長度和模型維度呈二次擴展模式。

針對這一問題,斯坦福大學和紐約州立大學布法羅分校的這個研究團隊聲稱找到了一種高性能的架構,其復雜度隨序列長度和模型維度的增長是次二次的(sub-quadratic)。

他們的研究靈感來自 MLP-mixer 和 ConvMixer;這兩項研究觀察到:許多機器學習模型的運作方式都是沿序列和模型維度軸對信息進行混合,并且它們往往對兩個軸使用了單個算子。

尋找表現力強、次二次且硬件效率高的混合算子的難度很大。舉個例子,MLP-mixer 中的 MLP 和 ConvMixer 中的卷積都頗具表現力,但它們都會隨輸入維度二次擴展。近期有一些研究提出了一些次二次的序列混合方法,這些方法使用了較長的卷積或狀態空間模型,而且它們都會用到 FFT,但這些模型的 FLOP 利用率很低并且在模型維度方面依然是二次擴展。與此同時,不損質量的稀疏密集 MLP 層方面也有一些頗具潛力的進展,但由于硬件利用率較低,某些模型實際上可能還比密集模型更慢。

基于這些靈感,這個研究團隊提出了 Monarch Mixer (M2),其使用到了一類富有表現力的次二次結構化矩陣:Monarch 矩陣。

Monarch 矩陣是一類泛化了快速傅立葉變換(FFT)的結構化矩陣,并且研究表明其涵蓋了范圍廣泛的線性變換,包括哈達瑪變換、托普利茲矩陣、AFDF 矩陣和卷積。它們可通過分塊對角矩陣的積進行參數化,這些參數被稱為 Monarch 因子,與排列交織。

它們的計算是次二次擴展的:如果將因子的數量設為 p,則當輸入長度為 N 時,計算復雜度為 圖片,從而讓計算復雜度可以位于 p = log N 時的 O (N log N) 與 p = 2 時的 之間。

M2 使用了 Monarch 矩陣來沿序列和模型維度軸混合信息。這種方法不僅易于實現,而且硬件效率也很高:使用支持 GEMM(廣義矩陣乘法算法)的現代硬件就能高效地計算分塊對角 Monarch 因子。

圖片

該研究團隊實現了一個 M2 層來進行概念驗證 —— 完全使用 PyTorch 編寫,代碼行數不到 40(包括 import 軟件包),而且其只需依賴矩陣乘法、轉置、reshape 和逐元素乘積(見圖 1 中部的偽代碼);結果,對于大小為 64k 的輸入,這些代碼在一臺 A100 GPU 上實現了 25.6% 的 FLOP 利用率。在 RTX 4090 等更新的架構上,對于同樣大小的輸入,一個簡單的 CUDA 實現就能實現 41.4% 的 FLOP 利用率。

圖片

有關 Monarch Mixer 的更多數學描述和理論分析請參看原論文。

實驗

該研究團隊在 Transformer 已占主導地位的三個任務上對 Monarch Mixer 和 Transformer 進行了比較:BERT 風格的非因果掩碼語言建模任務、ViT 風格的圖像分類任務、GPT 風格的因果語言建模任務。

在每個任務上,實驗結果表明新提出的方法在不使用注意力和 MLP 的前提下均能達到與 Transformer 相媲美的水平。他們還在 BERT 設置中評估了新方法相較于強大 Transformer 基準模型的加速情況。

非因果語言建模

對于非因果語言建模任務,該團隊構建了一種基于 M2 的架構:M2-BERT。M2-BERT 可以直接替代 BERT 風格的語言模型,而 BERT 是 Transformer 架構的一大主力應用。對于 M2-BERT 的訓練,使用了在 C4 上的掩碼語言建模,token 化器則是 bert-base-uncased。

M2-BERT 基于 Transformer 骨干,但其中的注意力層和 MLP 被 M2 層替換,如圖 3 所示。

圖片

在序列混合器中,注意力被帶殘差卷積的雙向門控卷積替代(見圖 3 左側)。為了恢復卷積,該團隊將 Monarch 矩陣設置為 DFT 和逆 DFT 矩陣。他們還在投射步驟之后添加了逐深度的卷積。

在維度混合器中,MLP 中兩個密集矩陣被替換成了學習得到的分塊對角矩陣(1 階 Monarch 矩陣,b = 4)。

研究者預訓練了 4 個 M2-BERT 模型:其中兩個是大小分別為 80M 和 110M 的 M2-BERT-base 模型,另外兩個是大小分別為 260M 和 341M 的 M2-BERT-large 模型。它們分別相當于 BERT-base 和 BERT-large。

表 3 給出了相當于 BERT-base 的模型的性能表現,表 4 給出了相當于 BERT-large 的模型的性能表現。

圖片

從表中可以看到,在 GLUE 基準上,M2-BERT-base 的表現可以媲美 BERT-base,同時參數還少了 27%;而當兩者參數數量相當時,M2-BERT-base 勝過 BERT-base 1.3 分。類似地,參數少 24% 的 M2-BERT-large 與 BERT-large 表現相當,而參數數量一樣時,M2-BERT-large 有 0.7 分的優勢。

表 5 給出了相當于 BERT-base 的模型的前向吞吐量情況。其中報告的是在 A100-40GB GPU 上每毫秒處理的 token 數,這能反映推理時間。

圖片


可以看到,M2-BERT-base 的吞吐量甚至超過了經過高度優化的 BERT 模型;相較于在 4k 序列長度上的標準 HuggingFace 實現,M2-BERT-base 的吞吐量可達其 9.1 倍!


表 6 則報告了 M2-BERT-base (80M) 和 BERT-base 的 CPU 推理時間 —— 結果是直接運行這兩個模型的 PyTorch 實現得到的。


圖片

當序列較短時,數據局部性的影響依然主導著 FLOP 的減少情況,而過濾器生成(BERT 中沒有)等操作的成本更高。而當序列長度超過 1K 時,M2-BERT-base 的加速優勢就漸漸起來了,當序列長度達 8K 時,速度優勢可達 6.5 倍。

圖像分類

在非因果建模方面,為了驗證新方法在圖像上也有在語言上一樣的優勢,該團隊還評估了 M2 在圖像分類任務上的表現。

表 7 給出了 Monarch Mixer、ViT-b、HyenaViT-b 和 ViT-b-Monarch(用 Monarch 矩陣替換了標準 ViT-b 中的 MLP 模塊)在 ImageNet-1k 上的性能表現。

圖片

Monarch Mixer 優勢非常明顯:只需一半的參數量,其表現就能勝過原始 ViT-b 模型。而更讓人驚訝的是,參數更少的 Monarch Mixer 很能勝過 ResNet-152;要知道,ResNet-152 可是專門針對 ImageNet 任務設計的。

因果語言建模

GPT 風格的因果語言建模是 Transformer 的一大關鍵應用。該團隊為因果語言建模構建了一個基于 M2 的架構:M2-GPT。

對于序列混合器,M2-GPT 組合使用了來自 Hyena 的卷積過濾器、當前最佳的無注意力語言模型以及來自 H3 的跨多頭參數共享。他們使用因果參數化替換了這些架構中的 FFT,并完全移除了 MLP 層。所得到的架構完全沒有注意力,也完全沒有 MLP。

他們在因果語言建模的標準數據集 PILE 上對 M2-GPT 進行了預訓練。結果見表 8。

圖片

可以看到,盡管基于新架構的模型完全沒有注意力和 MLP,但其在預訓練的困惑度指標上依然勝過 Transformer 和 Hyena。這些結果表明,與 Transformer 大不相同的模型也可能在因果語言建模取得出色表現。

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-22 16:23:05

2023-06-05 14:04:59

模型AI

2023-08-15 10:33:06

微軟必應人工智能

2025-10-22 08:41:22

2023-05-22 07:10:38

GPTpromptPerplexity

2021-08-31 23:33:50

AndroidiOS功能

2023-03-30 11:08:49

AI模型訓練

2023-03-28 08:23:38

2025-01-16 08:20:00

2021-07-21 08:59:10

requestsPython協程

2020-06-16 16:27:28

戴爾

2022-04-25 10:04:56

df命令Linux

2022-04-20 12:17:50

命令Batcat

2010-02-03 17:51:42

Ubuntu Linu

2010-03-04 09:41:39

Ubuntu Joli

2023-11-07 08:28:08

GPT模型環境

2025-10-23 08:25:08

2023-12-25 09:41:37

點云訓練

2023-07-18 15:00:00

AI代碼

2023-05-09 15:41:03

點贊
收藏

51CTO技術棧公眾號

亚洲丝袜精品| 国产白丝一区二区三区| 天堂аⅴ在线地址8| 国产精品久久久久久久| 欧美福利一区二区| av中文字幕av| 欧美性猛交 xxxx| 亚洲精品1区2区| 精品乱人伦小说| 国产97在线 | 亚洲| 国产日本在线| 国产一区二区三区免费| 色综合视频网站| 久久综合桃花网| 91九色porn在线资源| 久久久青草青青国产亚洲免观| 国产精品国语对白| 亚洲精品久久久久久国| 国产精品天天看天天狠| 亚洲成人资源在线| 鲁片一区二区三区| 在线免费观看高清视频| 极品av少妇一区二区| 亚洲欧美日韩视频一区| 中文字幕一区二区在线观看视频 | 午夜剧场在线免费观看| 先锋成人av| 中文字幕欧美国产| 成人日韩在线电影| 日韩欧美成人一区二区三区 | 欧美一区二区三区久久精品茉莉花| 亚洲大胆人体av| 欧美精品成人网| 免费看美女视频在线网站| 成人黄色av网站在线| 欧美一区在线直播| 中文字幕亚洲欧美日韩| 一区视频网站| 欧美精品日日鲁夜夜添| 成熟了的熟妇毛茸茸| 国内精品不卡| 国产精品色一区二区三区| 精品国产一区二区三区免费| 91麻豆视频在线观看| 日韩视频不卡| 精品中文字幕在线2019| wwwwww日本| 91午夜精品| 在线91免费看| 爆乳熟妇一区二区三区霸乳| 国产极品在线观看| 一区二区免费在线| 午夜啪啪免费视频| 国产美女性感在线观看懂色av | 色综合久久久久久中文网| 九九九视频在线观看| 欧美美女在线| 国产午夜精品理论片a级探花| 亚洲综合色在线观看| 亚洲欧洲美洲av| heyzo中文字幕在线| 成人美女视频在线观看| 91九色在线视频| 在线观看日本视频| 欧美片第1页综合| 久久深夜福利免费观看| www..com.cn蕾丝视频在线观看免费版 | 久久久噜噜噜久噜久久综合| 国产精品高潮呻吟久久av野狼| 天堂网一区二区三区| 亚洲激情综合| 亚洲91精品在线| 精品国产乱码久久久久久鸭王1| 亚欧日韩另类中文欧美| 日韩激情在线视频| www.自拍偷拍| 国产精品午夜一区二区三区| 亚洲国产婷婷香蕉久久久久久| 制服丝袜在线第一页| 风间由美性色一区二区三区四区 | 97se亚洲国产综合自在线| 国产美女精品在线观看| 免费观看国产视频| 99久久久国产精品| 精品一卡二卡三卡四卡日本乱码 | 日本久久一二三四| 日韩在线资源网| 娇小11一12╳yⅹ╳毛片| 精品香蕉视频| 在线免费观看羞羞视频一区二区| 中文字幕一区三区久久女搜查官| 丝袜美腿一区二区三区动态图| 亚洲热线99精品视频| 中文字幕日韩三级片| 黑人操亚洲人| 久久精彩免费视频| 九九九久久久久| 在线精品在线| 国产精品91在线观看| 国产精品xxxxxx| 国产一区美女在线| 成人字幕网zmw| 亚洲国产精品欧美久久| 久久中文娱乐网| 视频二区一区| www在线视频| 亚洲色图欧美偷拍| 亚洲精品久久久久久久蜜桃臀| 性欧美18xxxhd| 欧美日韩午夜影院| www.啪啪.com| 精品盗摄女厕tp美女嘘嘘| 日日骚av一区| 国产精品成人av久久| 视频一区免费在线观看| www.一区二区三区| 亚洲 小说区 图片区 都市| 中文字幕在线播放不卡一区| 岛国大片在线播放| 日本一区二区三区中文字幕| 精品日韩av一区二区| 黄免费在线观看| 国产在线日韩| 国产欧美日韩中文字幕在线| 婷婷在线免费观看| 亚洲欧洲99久久| 青青在线视频观看| 日韩激情电影| 日韩午夜在线观看| 日本一卡二卡在线播放| 影音国产精品| 成人免费视频在线观看超级碰| 日本一二三区在线视频| 亚洲黄色免费电影| 一道本视频在线观看| 老汉色老汉首页av亚洲| 一区二区三欧美| 欧美日韩乱国产| 国产大片一区二区| 亚洲三区在线观看| 日本精品在线中文字幕| 亚洲大尺度美女在线| 国产又黄又爽又无遮挡| 奇米综合一区二区三区精品视频| 国产一区自拍视频| 日本aa在线| 欧美美女一区二区| 国产精品探花一区二区在线观看| 欧美另类专区| 91免费版网站入口| av午夜在线| 在线视频一区二区三区| 熟女少妇一区二区三区| 亚洲久久一区| 国产女主播一区二区三区| 色婷婷在线播放| 91精品国产综合久久国产大片| 亚洲久久久久久久| 久久激情中文| 日本不卡久久| 日韩电影免费观| 亚洲美女喷白浆| 国产精品100| 91麻豆精品在线观看| 久久这里只有精品23| 亚洲高清在线一区| 亚洲社区在线观看| 青青草视频在线观看免费| 久久无码av三级| 国产精品少妇在线视频| 欧美日韩国产传媒| 国产精品久久视频| 尤物网在线观看| 8x8x8国产精品| 91九色丨porny丨极品女神| 男人操女人的视频在线观看欧美 | 欧美另类69xxxxx| 国产精品国产亚洲伊人久久 | 国产亚洲精品超碰| av污在线观看| 中文字幕一区二区精品区| 国产日本欧美一区| 91国内在线| 亚洲国产精品久久精品怡红院| 国产一级特黄aaa大片| 国产精品综合网| 女人帮男人橹视频播放| 一道本一区二区三区| 国产精品69av| 二区三区在线观看| 亚洲福利精品在线| 久久精品视频1| 91亚洲国产成人精品一区二区三| 2022亚洲天堂| 97久久夜色精品国产| 51成人做爰www免费看网站| 97人人在线视频| 亚洲开心激情网| 夜夜躁狠狠躁日日躁av| 亚洲自拍偷拍麻豆| 精品人伦一区二区三电影| 国产综合成人久久大片91| 99在线观看视频免费| 精品一区在线| 亚洲一区久久久| 美足av综合网| 揄拍成人国产精品视频| 99久久久国产精品无码网爆| 亚洲第一av色| 又嫩又硬又黄又爽的视频| 成人在线一区二区三区| 一道本视频在线观看| 激情视频一区二区三区| 日本高清一区| 网站一区二区| 国产精品白丝jk喷水视频一区 | 久久久国产午夜精品| 手机在线免费毛片| 久久视频一区| 91.com在线| 久久综合电影| 久久久久久九九| 手机在线成人av| 影音先锋日韩在线| 欧美日韩成人一区二区三区| 精品国产乱码久久久久久樱花| 2019精品视频| 羞羞的视频在线看| 原创国产精品91| 欧美在线 | 亚洲| 69堂精品视频| 国产日韩在线免费观看| 天天亚洲美女在线视频| 欧美成人黄色网| 久久综合资源网| 国产伦精品一区三区精东| 国产综合成人久久大片91| 69久久久久久| 日韩国产欧美在线视频| 91精品国产91久久久久麻豆 主演| 天天久久综合| 天天综合狠狠精品| 亚洲涩涩av| 91视频网页| 91麻豆精品国产91久久久更新资源速度超快| 91av在线看| 91九色国产在线播放| 久久成人免费视频| 久操视频在线播放| 日韩中文字幕视频| 福利在线播放| 日韩精品亚洲精品| 日韩一级免费毛片| 亚洲国产精品久久| 秋霞av鲁丝片一区二区| 精品国产一区二区三区久久久蜜月 | 黄色免费大全亚洲| 91久久国产综合久久蜜月精品| 男人天堂久久| 国产欧美精品va在线观看| 国产综合色在线观看| 2019av中文字幕| 在线免费日韩片| 日韩av电影中文字幕| 大胆人体一区| 国产精品第3页| 精品176极品一区| 国产狼人综合免费视频| 你懂得影院夜精品a| 国产精品99久久久久久人| 欧美成人精品三级网站| 国产精品极品尤物在线观看| 欧美成人app| 日韩av电影手机在线| 国产成人免费9x9x人网站视频| 国产精品美女主播在线观看纯欲| 精品日本视频| 成人精品久久久| 亚洲精品不卡在线观看| 国产一区喷水| 婷婷精品视频| 性欧美精品一区二区三区在线播放| 国产精品一区高清| 亚洲精品中文字幕乱码三区不卡| 婷婷亚洲综合| 午夜免费福利小电影| 久久久精品午夜少妇| www.日本xxxx| 国产综合色视频| 亚洲av永久无码精品| 国产喷白浆一区二区三区| 午夜成人亚洲理伦片在线观看| 亚洲色图在线视频| www.国产成人| 欧美视频一二三区| 精品国产亚洲一区二区麻豆| 日韩av网站在线| 超碰免费在线| 日韩视频在线免费| 国产中文在线播放| 国产精品一区久久久| 一区二区在线免费播放| 日本不卡一区| 亚洲国产婷婷| 日本55丰满熟妇厨房伦| 久久久久久97三级| 久久精品视频国产| 制服丝袜亚洲网站| 黄上黄在线观看| 久久久之久亚州精品露出| 亚洲欧美专区| 五月婷婷综合色| 亚洲一区黄色| 中文字幕99页| 亚洲色图在线播放| 一区二区不卡视频在线观看| 精品无人区太爽高潮在线播放| 性爱视频在线播放| 91在线中文字幕| 成人91在线| 玩弄japan白嫩少妇hd| 99视频一区二区| 免费视频网站www| 欧美另类久久久品| av网站在线播放| 国产精品久久av| 一本久久青青| 99蜜桃臀久久久欧美精品网站| 成人性色生活片免费看爆迷你毛片| 天天天天天天天天操| 欧美日韩五月天| wwwww在线观看免费视频| 情事1991在线| 亚洲图区在线| 欧美牲交a欧美牲交aⅴ免费下载| 成人黄色在线网站| 日本熟妇一区二区| 精品久久一区二区| 91探花在线观看| 精品国产乱码久久久久| 亚洲麻豆视频| 国产人妻人伦精品1国产丝袜| 午夜欧美在线一二页| 视频一区二区免费| 26uuu另类亚洲欧美日本一| 久久久免费毛片| 国产成人无码a区在线观看视频| av毛片久久久久**hd| 日本三级午夜理伦三级三| 精品国产一区二区三区不卡| 亚洲男同gay网站| 超碰在线观看97| 亚洲精品极品| 91精品人妻一区二区| 色94色欧美sute亚洲线路一久 | 亚洲午夜精品久久久久久人妖| 9i在线看片成人免费| 中文字字幕在线中文| 亚洲午夜未满十八勿入免费观看全集| 日韩精选视频| 一区二区不卡视频| 国产成人亚洲精品青草天美 | 欧美性生活一区| 在线观看免费高清完整| 亚洲va欧美va国产综合久久| 欧美精选一区| 日本三级日本三级日本三级极| 欧美性色xo影院| 亚洲xxxxxx| 成人看片视频| 另类av一区二区| 99成人在线观看| 亚洲第一区第一页| 欧美精选视频一区二区| 浴室偷拍美女洗澡456在线| 成人精品国产一区二区4080| 无码人妻丰满熟妇精品区| 色老头一区二区三区在线观看| 一区二区亚洲视频| 国产精品无码一本二本三本色| 最新成人av在线| 三级毛片在线免费看| 国产欧美精品一区二区三区介绍| 欧美日韩理论| 性猛交娇小69hd| 精品国产一区二区三区久久久蜜月 | 日本aa在线| 日本高清不卡一区二区三| 国产麻豆精品久久一二三| 日韩av大片在线观看| 日韩小视频在线观看| 电影一区二区在线观看| 无需播放器的av| 亚洲综合久久av| av黄色在线观看| 国产欧美一区二区在线播放| 美女国产一区二区三区| 精品一区免费观看| 日韩在线视频中文字幕| 亚洲精品456|