精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行

發布于 2024-4-16 12:41
瀏覽
0收藏

從國際頂流 GPT-4 128K、Claude 200K 到國內「當紅炸子雞」支持 200 萬字上下文的 Kimi Chat,大語言模型(LLM)在長上下文技術上不約而同地卷起來了。當全世界最聰明的頭腦都在卷一件事的時候,這件事的重要性和難度就自然不言自明。


極長的上下文可以極大拓展大模型的生產力價值。隨著 AI 的普及,用戶已經不再滿足于調戲大模型幾個腦筋急轉彎,用戶開始渴望利用大模型來真正提高生產力。畢竟從前花一周憋出來的 PPT,現在只需要喂給大模型一串提示詞和幾份參考文檔就分分鐘生成出來,打工人誰能不愛呢?


新型高效序列建模方法比如:Lightning Attention (TransNormerLLM), State Space Modeling (Mamba), Linear RNN (RWKV, HGRN, Griffin) 等最近成為炙手可熱的研究方向。研究人員渴望通過改造已經 7 歲高齡的 Transformer 架構,獲得性能與之旗鼓相當,但復雜度僅為線性的新型架構。這類方法專注于模型架構設計,并提供了基于 CUDA 或 Triton 的硬件友好實現,使其能夠像 FlashAttention 一樣在單卡 GPU 內部高效計算。


與此同時,另一個長序列訓練的殺手锏:序列并行獲得了越來越多的關注。通過把長序列在序列維度切分為多個等分短序列,再將短序列分散至不同 GPU 卡并行訓練,再輔以卡間通信便達到了序列并行訓練的效果。從最早出現的 Colossal-AI 序列并行、到 Megatron 序列并行、再到 DeepSpeed Ulysses、以及近期的 Ring Attention,研究人員不斷設計更加優雅高效的通信機制以提升序列并行的訓練效率。當然這些已知方法全部是為傳統注意力機制設計的,本文中我們稱之為 Softmax Attention。這些方法也已經有各路大神做了精彩分析,本文不過多探討。


那么問題來了。如何讓新型高效序列建模方法實現序列并行,從而跨越單卡 GPU 顯存限制實現真正意義的無限序列長度(當然你得有無限 GPU)的高效大語言模型訓練,成為了一個開放的問題。已經成熟的序列并行方法如 DeepSpeed Ulysses, Megatron-SP 當然可以應用在線性序列建模方法上,但以 Softmax Attention 為設計藍本的它們注定天生不是最優解。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

  • 論文標題:Linear Attention Sequence Parallelism
  • 論文地址:https://arxiv.org/abs/2404.02882
  • LASP代碼地址:https://github.com/OpenNLPLab/LASP


本文即將介紹的 LASP 便應運而生。來自上海人工智能實驗室的研究人員提出了 Linear Attention Sequence Parallelism (LASP) 方法以充分利用 Linear Attention 的線性右乘特性實現高效的序列并行計算。在 128 卡 A100 80G GPU、TransNormerLLM 1B 模型、FSDP backend 的配置下,LASP 可以最高將序列長度擴展至 4096K,即 4M。與成熟的序列并行方法相比,LASP 可訓練的最長序列長度是 Megatron-SP 的 8 倍、DeepSpeed Ulysses 的 4 倍,速度則分別快了 136% 和 38%。


值得注意的是,雖然方法的名字包含 Linear Attention,LASP 并不局限于 Linear Attention 方法,而是可以廣泛應用于包括 Lightning Attention (TransNormerLLM),  State Space Modeling (Mamba), Linear RNN (RWKV, HGRN, Griffin) 等在內的線性序列建模方法。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 方法介紹


為了充分理解 LASP 的思路,讓我們先回顧下傳統 Softmax Attention 的計算公式:O=softmax ((QK^T)⊙M) V,其 Q, K, V, M, O 分別為 Query, Key, Value, Mask 和 Output 矩陣,這里的 M 在單向任務(如 GPT)中是一個下三角的全 1 矩陣,在雙向任務(如 BERT)中則可以忽略,即雙向任務沒有 Mask 矩陣。我們下面將 LASP 拆為四點進行解釋:


Linear Attention 原理


Linear Attention 可以視為 Softmax Attention 一種變體。Linear Attention 去除了計算成本高昂的 Softmax 算子,Attention 的計算公式可以寫為 O=((QK^T)⊙M) V 的簡潔形式。但由于單向任務中 Mask 矩陣 M 的存在,使得該形式依然只能進行左乘計算(即先計算 QK^T),從而不能獲得 O (N) 的線性復雜度。但對于雙向任務,由于沒有 Mask 矩陣的存在,其計算公式可以進一步簡化為 O=(QK^T) V。Linear Attention 的巧妙之處在于,僅僅利用簡單的矩陣乘法結合律,其計算公式就可以進一步轉化為:O=Q (K^T V),這種計算形式被稱之為右乘,可見 Linear Attention 在這種雙向任務中可以達到誘人的 O (N) 復雜度!

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 數據分發


LASP 首先將長序列數據從序列維度切分為多個等分的子序列,再將子序列分散發送至序列并行通信組內的所有 GPU,使得每張 GPU 上各有一段子序列,以供后續序列并行的計算使用。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 核心機制


隨著 decoder-only 的類 GPT 形式的模型逐漸成為 LLM 的事實標準,LASP 的設計充分考慮了單向 Casual 任務的場景。由切分后子序列 Xi 計算而來的便是按照序列維度切分的 Qi, Ki, Vi,每一個索引 i 對應一個 Chunk 和一個 Device(即一張 GPU)。由于 Mask 矩陣的存在,LASP 作者巧妙地將各個 Chunk 對應的 Qi, Ki, Vi 區分為兩種,即:Intra-Chunk 和 Inter-Chunk。其中 Intra-Chunk 為 Mask 矩陣分塊后對角線上的 Chunk,可以認為仍然有 Mask 矩陣的存在,依然需要使用左乘;Inter-Chunk 則為 Mask 矩陣非對角線上的 Chunk,可以認為沒有 Mask 矩陣的存在,可以使用右乘;顯然,當切分的 Chunk 越多時,對角線上的 Chunk 占比越少,非對角線上的 Chunk 占比越多,可以利用右乘實現線性復雜度 Attention 計算的 Chunk 就越多。其中,對于右乘的 Inter-Chunk 的計算,前向計算時每個設備需要使用點對點通信 Recive 上一個設備的 KV,并 Send 自己的更新后的 KV 給下一個設備。反向計算時則正好相反,只是 Send 和 Recive 的對象變為了 KV 的梯度 dKV。其中前向計算過程如下圖所示:


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

LASP 代碼實現

為了提高 LASP 在 GPU 上的計算效率,作者對 Intra-Chunk 和 Inter-Chunk 的計算分別進行了 Kernel Fusion,并將 KV 和 dKV 的更新計算也融合到了 Intra-Chunk 和 Inter-Chunk 計算中。另外,為了在反向傳播過程中避免重新計算激活 KV,作者選擇在前向傳播計算后立即將其存儲在 GPU 的 HBM 中。在隨后的反向傳播過程中,LASP 直接訪問 KV 以供使用。需要注意的是,存儲在 HBM 中的 KV 大小為 d x d,完全不受序列長度 N 的影響。當輸入序列長度 N 較大時,KV 的內存占用變得微不足道。在單張 GPU 內部,作者實現了由 Triton 實現的 Lightning Attention 以減少 HBM 和 SRAM 之間的 IO 開銷,從而加速單卡 Linear Attention 計算。


想要了解更多細節的讀者,可以閱讀論文中的 Algorithm 2(LASP 前向過程)和 Algorithm 3(LASP 反向過程),以及文中詳細的推導過程。


通信量分析


LASP 算法中需要注意前向傳播需要在每個 Linear Attention 模塊層進行 KV 激活的通信。通信量為 Bd^2/h,其中 B 是 batch 大小,h 是頭數。相比之下,Megatron-SP 在每個 Transformer 層中的兩個 Layer Norm 層之后分別使用了一次 All-Gather 操作,并在 Attention 和 FFN 層之后分別使用了一次 Reduce-Scatter 操作,這導致其通信量為 2BNd + 4BNd/T,其中 T 為序列并行維度。DeepSpeed-Ulysses 使用了 All-to-All 集合通信操作來處理每個 Attention 模塊層的輸入 Q, K, V 和輸出 O,導致通信量為 4BNd/T。三者的通信量對比如下表所示。其中 d/h 是頭維度,通常設置為 128。在實際應用中,當 N/T>=32 時,LASP 便能夠實現最低的理論通信量。此外,LASP 的通信量不受序列長度 N 或子序列長度 C 的影響,這對于跨大型 GPU 集群的極長序列并行計算是一個巨大的優勢。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

Data-Sequence 混合并行


數據并行(即 Batch-level 的數據切分)已經是分布式訓練的常規操作,在原始數據并行(PyTorch DDP)的基礎上,已經進化出了更節省顯存的切片式數據并行,從最初的 DeepSpeed ZeRO 系列到 PyTorch 官方支持的 FSDP,切片式數據并行已經足夠成熟并被越來越多用戶使用。LASP 作為 Sequence-level 的數據切分方法,可以能夠和包括 PyTorch DDP, Zero-1/2/3, FSDP 在內的各種數據并行方法兼容使用。這對 LASP 的使用者來說無疑是好消息。


精度實驗


在 TransNormerLLM (TNL) 和 Linear Transformer 上的實驗結果表明,LASP 作為一種系統優化方法能夠和各種 DDP backends 結合,并均能達到與 Baseline 持平的性能。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

可擴展性實驗


得益于高效的通信機制設計,LASP 可以輕松擴展至上百卡 GPU,并保持很好的可擴展性。


極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

速度對比實驗


與成熟的序列并行方法 Megatron-SP 和 DeepSpeed-Ulysses 對比,LASP 可訓練的最長序列長度是 Megatron-SP 的 8 倍、DeepSpeed-Ulysses 的 4 倍,速度則分別快了 136% 和 38%。

極長序列、極快速度:面向新一代高效大語言模型的LASP序列并行-AI.x社區

結語


為了方便大家試用,作者已經提供了一個即裝即用的 LASP 代碼實現,無需下載數據集和模型,只需 PyTorch 分分鐘體驗 LASP 的極長極快序列并行能力。


代碼傳送門:https://github.com/OpenNLPLab/LASP


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/wPJsmgSAYgh3Si2eZ0_HzA??


收藏
回復
舉報
回復
相關推薦
好吊妞www.84com只有这里才有精品| 欧美激情xxxxx| 青青草久久伊人| 日韩激情美女| 国产片一区二区| 91亚洲国产成人精品性色| 国产91av视频| 99精品在线观看| 欧美精品一区二区三区蜜臀| 性生交免费视频| 国产盗摄一区二区| 国产精品久99| 欧美日韩电影一区二区| av在线免费在线观看| 麻豆精品91| 久久久亚洲精选| 中文字幕观看av| 欧美欧美黄在线二区| 精品成人私密视频| 一区二区久久精品| 精品日本视频| 欧美日韩国产综合视频在线观看中文| 一区二区三区欧美在线| 欧美套图亚洲一区| 成人综合激情网| 亚洲va欧美va国产综合久久| 中文字幕av片| 石原莉奈在线亚洲三区| 性欧美办公室18xxxxhd| 免费毛片在线播放免费| 91精品观看| 色偷偷88888欧美精品久久久 | 91麻豆国产在线观看| 亚洲人成网站在线| 欧美一卡二卡在线| 手机在线成人免费视频| 中老年在线免费视频| 亚洲国产日韩综合久久精品| 潘金莲一级淫片aaaaa免费看| 国产精品无码2021在线观看| 91在线视频观看| 国产精品国产亚洲精品看不卡15| 国产麻豆一精品一男同| 美女网站一区二区| 国产精品久久久久久久久久新婚 | 爱爱爱免费视频在线观看| 99久久精品国产一区| 国产成人成网站在线播放青青| 国产一区二区在线不卡| 久久国产精品色婷婷| 国产精品日韩在线| 伊人亚洲综合网| 看片的网站亚洲| 国产日韩欧美一二三区| 国产精品久久久久久免费| 久久国产综合精品| 91欧美精品成人综合在线观看| 亚洲一区二区色| 精品一区二区三区免费观看 | 中文字幕av一区二区三区| 欧美日韩高清在线一区| 成人在线播放视频| 国产精品不卡一区二区三区| 国产又黄又爽免费视频| 成人免费网址| 亚洲国产精品尤物yw在线观看| 国产freexxxx性播放麻豆| 大桥未久在线视频| 色婷婷综合久久久久中文一区二区| 日本精品www| 伊人久久高清| 3d动漫精品啪啪1区2区免费| 久久无码人妻一区二区三区| 国产精品白浆| 亚洲三级 欧美三级| 国产精品69久久久久孕妇欧美| 99久久久久| 隔壁老王国产在线精品| 亚洲欧美一区二区三区在线观看 | 欧美熟妇另类久久久久久多毛| 一区二区三区四区精品视频| 亚洲福利精品在线| 黄免费在线观看| 中文字幕日韩一区二区不卡 | 无码国模国产在线观看| 日韩av在线播放资源| 亚洲欧美va天堂人熟伦 | 国产v片免费观看| av高清一区| 欧美一区二区女人| 亚洲一级中文字幕| 亚洲综合婷婷| 欧美一区二区.| 国产精品伊人久久| 91免费观看国产| 日本一本草久p| 午夜久久中文| 欧美一区二区三区思思人| 色噜噜在线观看| 国产精品99一区二区三| 欧美尤物巨大精品爽| 国产精品人人爽| 久久一区二区三区四区| 艳母动漫在线观看| 嫩草伊人久久精品少妇av杨幂| 日韩欧美美女一区二区三区| 国产ts在线播放| 亚洲一本视频| 91视频国产精品| 加勒比一区二区三区在线| 亚洲毛片av在线| 青青在线免费观看视频| 国内毛片久久| 久久av资源网站| 免费黄色片视频| aaa国产一区| 麻豆传媒网站在线观看| 成人午夜在线| 一本一道久久a久久精品逆3p| 欧美成人综合色| 精品无人区卡一卡二卡三乱码免费卡| 欧美另类一区| 欧洲一区精品| 亚洲精品一区二区三区香蕉| 天天操夜夜操av| 免费观看在线色综合| 麻豆成人av| 神马久久午夜| 亚洲国产古装精品网站| 免看一级a毛片一片成人不卡| 六月丁香婷婷久久| 亚洲丰满在线| 日韩欧美精品一区二区综合视频| 精品亚洲夜色av98在线观看 | 99视频免费在线观看| 欧美调教femdomvk| 四季av中文字幕| 免费的国产精品| 亚洲三区在线| 日韩一级特黄| 久久久国产91| 国产精品探花视频| 亚洲色图视频免费播放| 国产乱码一区二区三区四区| 久久亚洲在线| 成人信息集中地欧美| 黄网站视频在线观看| 欧美日本视频在线| 久艹在线观看视频| 国产精品亚洲第一区在线暖暖韩国 | 国内精品久久久久久久影视简单| 青青草精品毛片| 国产专区在线| 欧美日韩一区二区三区不卡 | 亚洲一本大道在线| 性活交片大全免费看| 在线观看一区| 蜜桃av久久久亚洲精品| 巨茎人妖videos另类| 一区二区欧美在线| 国产精品国产一区二区三区四区| 日韩一区欧美一区| 亚洲 自拍 另类 欧美 丝袜| 在线观看视频免费一区二区三区| 久久久精品国产一区二区三区| 成人小电影网站| 一夜七次郎国产精品亚洲| 中文在线免费看视频| 亚洲日本在线a| 亚洲午夜久久久久久久久| 亚洲综合好骚| 亚洲一区二区三区免费观看| 亚洲图色一区二区三区| 91sao在线观看国产| 大片免费播放在线视频| 7878成人国产在线观看| 国产精品成人网站| 国产欧美一区在线| 中文字幕55页| 先锋a资源在线看亚洲| 亚洲一区bb| 国产色噜噜噜91在线精品| 国产精品96久久久久久| av在线app| 亚洲欧美中文日韩在线| 国产精品久久免费| 五月婷婷激情综合| 手机看片国产日韩| 成a人片国产精品| 国产又大又黄又猛| 激情综合在线| 亚洲亚洲精品三区日韩精品在线视频| 日韩一区二区三区高清在线观看| 欧美亚洲激情在线| 老司机精品影院| 亚洲日本中文字幕免费在线不卡| 精品毛片一区二区三区| 在线观看日韩高清av| 久艹视频在线观看| 国产精品大尺度| 亚洲第一成人网站| 成人永久看片免费视频天堂| 午夜免费高清视频| 一区二区三区成人精品| 激情五月五月婷婷| 欧美艳星介绍134位艳星| 国产精品青青草| 国产精品一级在线观看| 国产精品国语对白| 波多野结衣久久| 欧美成人午夜免费视在线看片 | 久久国产免费看| 欧美综合在线播放| 欧美99在线视频观看| 少妇免费毛片久久久久久久久| 国产精品qvod| 成人动漫在线观看视频| 亚洲精品三区| 国产精品久在线观看| 在线手机中文字幕| 久久久女女女女999久久| av免费网站在线| 色噜噜国产精品视频一区二区 | 久久精品免费网站| 国产亚洲亚洲| 东北少妇不带套对白| 夜间精品视频| 日本不卡一区二区三区四区| 成人短片线上看| 日产精品久久久一区二区| 日韩精品免费一区二区夜夜嗨| 国产乱码精品一区二区三区日韩精品 | 精品亚洲欧美日韩| 久久99国产精品久久99大师| 91九色在线观看| 清纯唯美激情亚洲| 亚洲精品欧美日韩专区| 青青国产精品| 91精品国产综合久久男男| 久久精品97| 国产日韩av高清| 亚洲成人1区| 亚洲va男人天堂| 日韩精品中文字幕一区二区 | 亚洲系列另类av| 蜜桃传媒视频麻豆第一区免费观看 | 亚欧视频在线观看| 亚洲福利视频三区| 中文字幕在线观看视频网站| 懂色aⅴ精品一区二区三区蜜月| 国产综合精品视频| 色诱亚洲精品久久久久久| 免费看毛片网站| 欧美在线色视频| 亚洲中文一区二区三区| 欧美一区二区三区视频在线观看| 国产超碰人人模人人爽人人添| 精品人在线二区三区| 婷婷五月综合激情| 亚洲欧美变态国产另类| 91在线不卡| 久久国产精品影片| 999福利在线视频| 欧美中文在线视频| 巨胸喷奶水www久久久| 亚洲一区二区三区香蕉| 久草精品视频| 深田咏美在线x99av| 欧美激情国产在线| 久青草视频在线播放| 亚洲综合不卡| 在线免费av播放| 国产高清一区日本| 美国黄色a级片| 国产精品久久久久久久久搜平片 | 欧美一区2区三区4区公司二百| 成人动漫免费在线观看| 国产内射老熟女aaaa| 亚洲影院一区| gai在线观看免费高清| 成人激情免费电影网址| 国产精品密蕾丝袜| 亚洲男人的天堂网| 欧产日产国产69| 欧美一区二区精品久久911| 亚州av在线播放| 日韩中文字幕网站| 中老年在线免费视频| 成人亚洲欧美一区二区三区| 美日韩黄色大片| 久久久国产精华液999999| 好吊视频一区二区三区四区| 免费国产成人av| 成人爽a毛片一区二区免费| 东京热无码av男人的天堂| 亚洲午夜国产一区99re久久| 怡春院在线视频| 日韩激情在线视频| 在线视频观看国产| 国产精品欧美一区二区| 麻豆一区二区麻豆免费观看| av不卡在线免费观看| 麻豆亚洲精品| 国产精品伦子伦| 一区二区三区欧美日| 日本成人一级片| 精品视频—区二区三区免费| 亚洲丝袜一区| 国产日韩欧美一二三区| 精品久久网站| 国产女女做受ⅹxx高潮| www.在线成人| 欧美日韩在线观看成人| 欧美日韩一区高清| 免费黄网站在线观看| 国外成人在线直播| 欧美激情三级| 欧美亚洲视频一区| 国产精品嫩草99av在线| 色综合五月婷婷| 国产精品久久久久久久蜜臀| 97久久久久久久| 亚洲国产黄色片| 超碰97国产精品人人cao| 91日韩久久| 亚洲有吗中文字幕| 午夜国产福利在线观看| 国产精品成人在线观看| 中文字幕无线码一区| 在线观看91久久久久久| 日韩三区在线| 西游记1978| 蜜臀国产一区二区三区在线播放| 欧美激情视频二区| 欧美色图12p| 在线观看黄av| 国产日韩欧美日韩| 亚洲欧美网站在线观看| 天天综合成人网| 一区二区在线观看不卡| 国产黄色片网站| 欧美精品国产精品日韩精品| 亚洲成av人片在线观看www| 桥本有菜av在线| 国产精品资源在线看| 欧美黄色一级网站| 亚洲国产精彩中文乱码av在线播放| а√在线中文网新版地址在线| 国产偷国产偷亚洲高清97cao| 亚洲激情不卡| 素人fc2av清纯18岁| 在线看日本不卡| 天天影视久久综合| 91日韩在线视频| 激情久久久久久久| 男生裸体视频网站| 在线视频一区二区三| 美女国产在线| 99超碰麻豆| 国产精品一区毛片| 韩国三级hd中文字幕| 制服视频三区第一页精品| 欧美理论片在线播放| 欧美日本韩国一区二区三区| 美女网站在线免费欧美精品| 高h视频免费观看| 亚洲精品wwwww| 国产一区一一区高清不卡| 最新精品视频| 成人蜜臀av电影| 一级一片免费看| 久久中文字幕视频| 精品综合久久88少妇激情| xxxx一级片| 亚洲美女淫视频| 日韩在线免费播放| 国产日韩欧美91| 制服诱惑一区二区| 国产精品夜夜夜爽阿娇| 亚洲国产欧美一区二区丝袜黑人| 亚洲天堂一区二区| 免费看黄色a级片| 久久品道一品道久久精品| 91成品人影院| 国模私拍一区二区三区| 欧美色图国产精品| 69亚洲乱人伦| 欧美日韩国产高清一区| 国产黄大片在线观看| 宅男噜噜99国产精品观看免费| www.亚洲精品| 国产精品久久久久久久久久久久久久久久久久| 久久久久久久久国产| 日韩系列欧美系列| 亚洲av无码一区二区三区网址| 91精品国产麻豆| 日韩另类视频| 亚洲 高清 成人 动漫| 亚洲欧美一区二区三区极速播放| 日本一二三区在线视频|