精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

在Transformer時代重塑RNN,RWKV將非Transformer架構擴展到數百億參數

人工智能 新聞
本文提出了一種新穎的模型架構,Receptance Weighted Key Value(RWKV),將 Transformer 的高效可并行訓練與 RNN 的高效推理相結合。實驗證明,RWKV 的性能與相同規模的 Transformer 相當。

Transformer 模型在幾乎所有自然語言處理(NLP)任務中都帶來了革命,但其在序列長度上的內存和計算復雜性呈二次方增長。相比之下,循環神經網絡(RNNs)在內存和計算需求上呈線性增長,但由于并行化和可擴展性的限制,很難達到與 Transformer 相同的性能水平。本文提出了一種新穎的模型架構,Receptance Weighted Key Value(RWKV),將 Transformer 的高效可并行訓練與 RNN 的高效推理相結合。實驗證明,RWKV 的性能與相同規模的 Transformer 相當。

深度學習技術在人工智能領域取得了重大進展,在各種科學和工業應用中發揮了關鍵作用。這些應用通常涉及復雜的序列數據處理任務,包括自然語言理解、對話式人工智能、時間序列分析等,其中用到的技術主要包括循環神經網絡(RNNs)、卷積神經網絡(CNNs)和 Transformer 等。

不過,這些方法各自存在不同的缺點,從而限制了它們在某些場景下的效率。循環神經網絡(RNNs)面臨著梯度消失的問題,使得它們難以對長序列進行訓練。此外,在訓練過程中無法在時間維度上并行化,進而限制了其可擴展性。另一方面,卷積神經網絡(CNNs)只擅長捕捉局部模式,在處理長程依賴方面還很欠缺,而這對于許多序列處理任務至關重要。

Transformer 模型由于其處理局部和長程依賴關系的能力以及可并行化訓練的特點而成為一個強大的替代方案,如 GPT-3、ChatGPT、GPT-4、LLaMA 和 Chinchilla 等都展示了這種架構的能力,推動了自然語言處理領域的前沿。盡管取得了這些重大進展,Transformer 中固有的自注意力機制帶來了獨特的挑戰,主要是由于其二次復雜度造成的。這種復雜性使得該架構在涉及長輸入序列或資源受限情況下計算成本高昂且占用內存。這也促使了大量研究的發布,旨在改善 Transformer 的擴展性,但往往以犧牲一些特性為代價。

為了應對這些挑戰,一個由 27 所大學、研究機構組成的開源研究團隊,聯合發表論文《 RWKV: Reinventing RNNs for the Transformer Era 》,文中介紹了一種新型模型:RWKV(Receptance Weighted Key Value),這是一種新穎的架構,有效地結合了 RNN 和 Transformer 的優點,同時規避了兩者的缺點。RWKV 設計精良,能夠緩解 Transformer 所帶來的內存瓶頸和二次方擴展問題,實現更有效的線性擴展,同時保留了使 Transformer 在這個領域占主導的一些性質。

圖片


  • 論文地址:https://arxiv.org/pdf/2305.13048.pdf
  • RWKV 模型下載:https://huggingface.co/BlinkDL/rwkv-4-raven
  • Demo 地址:https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

本文利用線性注意力機制,允許將模型定義為 Transformer 或 RNN,從而在訓練期間并行化計算,并在推理過程中保持恒定的計算和內存復雜性,使其成為第一個可擴展到數百億參數的非 Transformer 架構。

RWKV 其中的一個特征是它能夠提供并行訓練和強大的可擴展性,類似于 Transformer。此外,該研究對 RWKV 中的注意力機制進行了重新闡述,引入了線性注意力的一個變體,避開了傳統點積(dot-product)token 交互,轉而采用更有效的通道導向注意力( channel directed attention )。這種方法與傳統的 Transformer 架構形成了鮮明的對比,其中特定的 token 交互主導了注意力。在 RWKV 中,線性注意力的實施是無需近似的,這在效率上提供了顯著的改進,并增強了可擴展性,詳見表 1。

圖片

該研究表示,開發 RWKV 的主要動機是彌補神經網絡架構在計算效率和表達能力之間的差距。它為處理涉及數十億參數的大規模模型的任務提供了一個有希望且可行的解決方案,以極低的計算成本展現出強有力的競爭性。

實驗結果表明,RWKV 可以成為一個有價值的工具,用于解決各個領域擴展和部署人工智能模型的各種挑戰,特別是那些涉及序列數據處理的領域。RWKV 為下一代更可持續、計算效率更高的序列處理任務的 AI 模型鋪平了道路。

總結而言,本文的貢獻如下:

  • 引入了 RWKV 網絡架構,該架構結合了 RNN 和 Transformer 的優點,同時減輕了它們已知的限制。
  • 本文提出了一個新的注意力機制重構,進而提出線性注意力,避開了與標準 Transformer 模型相關的二次復雜性。
  • 本文在基準數據集上進行了一系列全面的實驗,展示了 RWKV 在處理涉及大規模模型和長距離依賴任務上的性能、效率和可擴展性。
  • 發布了預訓練模型,其大小從 1.69 億到 140 億的參數不等,這些模型是在 Pile 上訓練的。

值得注意的是,論文參與機構之一的 EleutherAI 表示:這篇論文還不是最終版本,后續會不斷完善。

圖片

RWKV 模型

RWKV 架構的名稱來源于時間混合和通道混合塊中使用的四個主要模型元素,分別如下:

  • R:Receptance 向量,用于接收以往信息;
  • W:權重(weight)是位置權重衰減向量,是可訓練的模型參數;
  • K:鍵(Key)是類似于傳統注意力中 K 的向量;
  • V:值(Value)是類似于傳統注意力中 V 的向量。

每一時間步的主要元素之間的交互是相乘增加的,具體如下圖 2 所示。

圖片

架構細節

RWKV 架構由一系列堆疊的殘差塊組成,每個殘差塊又由具有循環結構的時間混合和通道混合子塊組成。

循環被表示為當前輸入和前一個時間步的輸入之間的線性插值(研究者稱這種技術為時移混合或 token shift,如下圖 3 所示),該插值可以針對輸入嵌入的每個線性投影進行獨立調整(比如時間混合中的 R、K 和 V,通道混合中的 R 和 K),并作為公式 14 中形式化的 WKV 的時變更新。

圖片

類 Transformer 的并行化

RWKV 可以在時間并行模式下進行高效地并行化,讓人聯想到 Transformer。單個層中一個 batch 序列的時間復雜度為 O (BTd^2 ),它主要由矩陣乘法 W_□,  □ ∈ {r, k, v, o}(假設 B 個序列、T 個最大 token 和 d 個通道)。同時更新注意力分數 wkv_t 需要串行掃描,并且復雜度為 O (BTd)。

類 RNN 的序列解碼

在循環網絡中,將狀態 t 時的輸出用作狀態 t+1 時的輸入很常見。這在語言模型的自回歸解碼推理中尤為明顯,要求每一個 token 在饋入下一步之前必須進行計算,從而使 RWKV 可以利用類 RNN 結構(即時序模式)。在這種情況下,RWKV 可以方便地循環用于推理解碼,從而利用每個輸出 token 僅依賴于最新狀態的優勢。

然后 RWKV 充當 RNN 解碼器,在序列長度方面保持恒定速度和內存占用,從而更高效地處理更長的序列。相比之下,自注意力通常需要 KV 緩存相對于序列長度呈線性增長,這會導致效率下降,并隨序列長度增加消耗更多內存和時間。

軟件實現

RWKV 最初使用 PyTorch 深度學習庫和自定義 CUDA 內核(它用于 WKV 計算)來實現。盡管 RWKV 是一個通用循環網絡,但其當前的實現主要集中在語言建模任務(RWKV-LM)。該模型架構包含了一個嵌入層,為此研究者遵循第 4.7 節中的設置,并按照第 4.6 節中的原則依次應用幾個相同的殘差塊,具體如上圖 2 和 3 所示。

梯度穩定性和層堆疊

RWKV 架構被設計為 Transformer 和 RNN 的融合,與傳統的 RNN 相比,Transformers 具有穩定梯度和更深層次架構的優勢,同時推理效率高。

RWKV 模型具有用于更新類似注意力分數的單步過程,其中包括一個依賴于時間的 softmax 操作,該操作有助于數值穩定性并防止梯度消失(有關嚴格證明,請參見附錄 F)。直觀地說,此操作可確保梯度沿最相關的路徑傳播。Layer normalization (Ba et al., 2016) 是架構的另一個關鍵方面,它通過穩定梯度、解決梯度消失和爆炸問題來增強深度神經網絡的訓練動態。

利用時間結構進行時序數據處理

RWKV 通過三種機制的組合來捕獲和傳播時序信息:循環、時間衰減和 token shift。

RWKV 時間混合塊中的循環是模型捕獲序列元素之間復雜關系和隨時間傳播局部信息的能力的基礎。

時間衰減機制(等式 14 中的 e^?w 和 e^u)保持了對序列元素之間位置關系的敏感性。通過逐漸減少以往信息隨時間的影響,該模型保留了時間局部性和進展感,這對于時序處理至關重要。

token shift 或 time-shift 混合或(圖 3 中的對角線箭頭),也有助于模型適應時序數據。通過在當前輸入和前一個時間步輸入之間進行線性插值,模型自然地聚合和門控輸入通道中的信息。

實驗結果

實驗的重點是回答以下問題:

  • RQ1:在參數數量和訓練 token 數量相等的情況下,RWKV 與二次 transformer 架構相比具有競爭力嗎?
  • RQ2:增加參數數量時,RWKV 是否仍然具有與二次 transformer 架構相競爭的能力?
  • RQ3:當 RWKV 模型被訓練用于開源二次 transformer 無法高效處理的上下文長度時,增加 RWKV 的參數是否能夠獲得更好的語言建模損失?

首先是回答 RQ1 和 RQ2 問題,從圖 4 可以看出,在六個基準測試中(Winogrande、PIQA、ARC-C、ARC-E、LAMBADA 和 SciQ),RWKV 與開源二次復雜度 transformer 模型 Pythia、OPT 和 BLOOM 具有相當的競爭力。RWKV 甚至在四個任務(PIQA、OBQA、ARC-E 和 COPA)中勝過了 Pythia 和 GPT-Neo。

圖片


對于 RQ3,圖 5 顯示,增加上下文長度會導致 Pile 上的測試損失降低,這表明 RWKV 能夠有效利用較長的上下文信息。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-01-23 12:57:00

模型數據

2023-07-07 09:55:23

互聯網論文

2024-07-30 11:20:00

圖像視覺

2024-05-24 15:53:20

視覺圖像

2024-06-13 11:44:43

2024-04-15 07:50:00

AI架構

2009-02-26 10:50:04

NetApp虛擬化VMware ESX

2009-02-25 16:50:00

2017-05-26 23:09:47

2024-08-15 11:37:05

2024-02-01 12:43:16

模型數據

2024-03-04 13:23:34

數據模型

2013-02-21 09:41:49

CitusData數據庫Postgres

2022-06-20 07:16:25

機器學習模型Codex

2023-11-16 16:33:43

谷歌人工智能

2023-11-22 09:00:00

NLP語言模型LSTM

2024-08-14 08:16:53

2015-08-13 13:44:21

優化多核

2023-03-08 14:14:51

微軟ChatGPT

2009-11-12 15:19:54

點贊
收藏

51CTO技術棧公眾號

亚洲一区中文在线| 久久国产精品99久久人人澡| 日韩电影免费在线观看中文字幕 | 国产精品无码午夜福利| 欧美日韩精品免费观看视欧美高清免费大片| 国产女人水真多18毛片18精品视频| 成人黄色免费在线观看| 亚洲男人第一av| 国产精品99视频| 日韩精品免费在线播放| 色男人天堂av| 台湾佬成人网| 一区二区三区日韩精品视频| 日本高清不卡三区| 国产综合在线播放| 久久99久久久久久久久久久| 17婷婷久久www| 国内偷拍精品视频| 成人影院天天5g天天爽无毒影院| 精品人在线二区三区| 亚洲视频在线观看一区二区三区| 欧美性猛片xxxxx免费中国 | 亚洲另类激情图| 一级黄色大片儿| 免费高清视频在线一区| 亚洲成人精品在线观看| 国产奶头好大揉着好爽视频| 欧美日韩影视| zzijzzij亚洲日本少妇熟睡| 成人网页在线免费观看| 伊人久久成人网| 久久精品日产第一区二区| 久久久久久18| 9999热视频| 99久久夜色精品国产亚洲96| 亚洲一区二区久久久| 亚洲麻豆一区二区三区| 日韩不卡在线视频| 欧美美女视频在线观看| 亚洲免费看av| 日韩另类视频| 色婷婷久久一区二区三区麻豆| 成年人看的毛片| 天堂av最新在线| 亚洲三级理论片| 致1999电视剧免费观看策驰影院| 高清av电影在线观看| 久久久五月婷婷| 免费看成人午夜电影| 天堂在线观看免费视频| 欧美肥胖老妇做爰| 美国av一区二区三区| 亚洲精品综合网| 国产乱码精品1区2区3区| 国产精品久久久久久久app| 亚洲另类在线观看| 久久在线精品| 国产成人亚洲综合91| 91精品国产乱码久久久张津瑜| 亚洲国产午夜| 欧美一级电影免费在线观看| 可以在线观看av的网站| 一区二区三区精品视频在线观看| 午夜精品一区二区三区在线播放| www.天天色| 国产精品毛片一区二区三区| 国产91对白在线播放| 国产伦精品一区二区三区视频网站| 亚洲综合三区| 精品人妻在线播放| 91综合精品国产丝袜长腿久久| 欧美一级黄色大片| 成人做爰69片免费| 理论片一区二区在线| 日韩成人av网| 丁香激情五月少妇| 97视频精品| 欧美国产第二页| 欧美三级韩国三级日本三斤在线观看| 亚洲一区欧美激情| 国产精品日韩欧美大师| 91亚洲欧美激情| 国产成人精品午夜视频免费| 狠狠色伊人亚洲综合网站色| 精品视频一二三| 国产精品人人做人人爽人人添| 五月天av影院| a国产在线视频| 在线观看av不卡| 亚洲av毛片在线观看| 精品一区二区男人吃奶| 在线看日韩欧美| 免费视频一二三区| 久久久人人人| 91在线网站视频| 天天躁日日躁狠狠躁伊人| 欧美国产一区二区在线观看| 少妇久久久久久被弄到高潮| 老司机2019福利精品视频导航| 欧美巨大另类极品videosbest | 免费观看成人在线| 日本成a人片在线观看| 亚洲国产另类精品专区| 8x8x最新地址| 国产精品久久久久久久久久白浆| 国产一区二区日韩| 国产一级二级毛片| 美女视频第一区二区三区免费观看网站 | 妺妺窝人体色www在线下载| 久久久精品五月天| 国产精品一区二区三区免费| 2019中文字幕在线视频| 欧美日韩国产黄| 97免费公开视频| 成人免费a**址| 555www成人网| 日韩一级片免费| 亚洲色图欧美在线| 中文字幕第80页| 日韩精品免费一区二区三区竹菊| 久久夜色撩人精品| 国产精品欧美综合| 91色乱码一区二区三区| 青青草视频在线视频| 黄色精品视频网站| 国产亚洲欧美日韩精品| 成人毛片18女人毛片| 国产高清精品在线| 美女黄色片网站| 日韩不卡免费高清视频| 亚洲精品av在线| 精品处破女学生| 国产一区二区看久久| 先锋影音亚洲资源| 香蕉视频亚洲一级| 精品亚洲一区二区三区在线观看| 国产一级黄色av| 国产成人午夜高潮毛片| 永久免费看av| 免费一级欧美在线大片| 久久天天躁狠狠躁老女人| 一级全黄少妇性色生活片| 国产欧美日韩视频在线观看| 成人免费xxxxx在线视频| 怕怕欧美视频免费大全| 午夜精品免费视频| 四虎精品成人影院观看地址| 亚洲6080在线| v天堂中文在线| 亚洲综合日韩| 日本在线免费观看一区| 欧美日韩五码| 自拍偷拍亚洲区| 国产精品福利电影| 亚洲男人的天堂在线aⅴ视频| 黄色小视频免费网站| 图片小说视频色综合| 亚洲最大福利视频网站| 最新黄网在线观看| 精品剧情在线观看| 天天做天天爱夜夜爽| 久久综合色一综合色88| 天天爱天天操天天干| 香蕉视频国产精品| 99久久99久久| 中文字幕在线视频久| 在线观看亚洲视频| 国产伦一区二区| 亚洲一区二区三区四区在线观看 | 亚洲在线观看av| 日韩理论片一区二区| 国产国语老龄妇女a片| 国产欧美另类| 亚洲一区二区精品在线观看| 视频一区日韩精品| 欧美亚洲视频在线观看| 91se在线| 精品国产91亚洲一区二区三区婷婷 | 天天操天天干天天操| 色屁屁一区二区| 亚洲天堂一级片| www.亚洲人| 男人添女人下面免费视频| 午夜日韩视频| 欧美激情一区二区三区在线视频 | 日韩欧美一区在线| 国产a∨精品一区二区三区仙踪林| 国产亚洲福利社区一区| 欧美xxxxxbbbbb| 亚洲欧美不卡| 欧美与动交zoz0z| 日本午夜精品| 92国产精品视频| 在线观看精品| 久久久久久久久久久久久久久久久久av| 青青青手机在线视频观看| 欧美放荡的少妇| 伊人中文字幕在线观看| 一区二区三区在线视频观看58 | 国产91精品黑色丝袜高跟鞋| 麻豆视频在线观看免费网站| 日韩成人xxxx| a视频免费在线观看| 色婷婷综合久久久中文一区二区 | 欧美中文一区二区三区| 久草视频免费播放| 国产精品乱码人人做人人爱| 在线精品一区二区三区| 国产精品资源网站| 一区二区三区国产免费| 亚洲精品男同| 亚洲一区 在线播放| 日韩1区在线| 免费成人看片网址| 91久久精品无嫩草影院| 国产欧美中文字幕| 涩涩视频在线播放| 欧美黄色免费网站| aaa大片在线观看| 欧美电影《轻佻寡妇》| 成人免费高清完整版在线观看| 亚洲日本天堂| 久久久久久久国产精品视频| 久操免费在线| 中文字幕日韩专区| 国产精品毛片一区二区三区四区| 亚洲国产精品美女| 亚洲第一页综合| 91精品国产色综合久久不卡蜜臀| 黄色污污视频软件| 日韩欧美在线视频日韩欧美在线视频 | 日韩高清三区| 九9re精品视频在线观看re6 | 日韩国产精品一区二区三区| 日韩av网址大全| 国产在线播放一区二区| 成人知道污网站| 高清一区二区三区视频| 欧州一区二区三区| 91系列在线播放| av在线亚洲一区| 91手机视频在线观看| 精品国产亚洲日本| 亚洲va欧美va国产综合剧情 | 欧美一区三区二区| 一本色道久久综合亚洲| 欧美日韩你懂的| 一级黄色片在线观看| 川上优的av在线一区二区| 欧美一区二区三区爱爱| 99国产精品久久久久久久成人 | 999精品视频在线| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产日韩成人内射视频| 日本免费在线视频不卡一不卡二| 国产视频一区二区三区在线播放 | 日韩欧美中文在线| 精品久久久久久久久久久久久久久久久久| 欧美视频专区一二在线观看| 欧美激情黑白配| 日本韩国欧美在线| 最近中文字幕在线观看视频| 欧美人与禽zozo性伦| 国产激情视频在线播放| 亚洲精品一区二区三区四区高清| 天堂在线中文资源| 一本色道久久88综合日韩精品 | 精品freesex老太交| 亚洲欧美久久234| 自拍欧美日韩| 可以在线看的av网站| 久久久久久夜| 中文字幕第22页| 成人高清av在线| 色一情一交一乱一区二区三区| 国产精品乱码一区二区三区软件| 丝袜 亚洲 另类 欧美 重口| 亚洲图片欧美色图| 亚洲国产成人精品女人久久| 欧美日韩mp4| 日本黄色不卡视频| 一区二区国产精品视频| 自拍亚洲图区| 日韩av电影院| 精品一区二区三区中文字幕在线| 国产一区二区三区高清| 色一区二区三区四区| 免费超爽大片黄| 免费在线看一区| 小毛片在线观看| 日韩毛片精品高清免费| wwwxxx亚洲| 欧美一级精品大片| 国产福利在线| 欧美激情在线有限公司| 国产精品亚洲无码| 国产资源精品在线观看| 大乳护士喂奶hd| 中文字幕在线观看不卡| 欧美三级一区二区三区| 欧美一区二区美女| 黄色大片在线看| 欧美精品www| 亚瑟国产精品| 视频在线观看成人| 国产欧美精品久久| 超碰人人cao| 国产精品国产三级国产三级人妇| 久久久久女人精品毛片九一| 日韩欧美一区二区免费| 欧美r级在线| 国产精品福利片| 猫咪成人在线观看| 国产成人一二三区| 国精品**一区二区三区在线蜜桃 | 国产精品激情偷乱一区二区∴| 久热这里只有精品6| 日韩精品一区二区三区三区免费 | 亚洲一区二区三区三| 国产精品久久久午夜夜伦鲁鲁| 亚洲人成网7777777国产| 99riav视频在线观看| 亚洲最大福利网站| 91视频精品| 天堂在线中文在线| 国产精品毛片大码女人| 国模私拍一区二区| 亚洲性线免费观看视频成熟| 美女91在线看| 国产在线精品一区二区三区| 精品成人在线| 天天躁日日躁狠狠躁av| 亚洲午夜在线视频| 亚洲乱码精品久久久久.. | 制服诱惑一区| 精品一区二区三区在线播放视频| 欧美性受xxxx黑人| 欧美午夜影院一区| 第三区美女视频在线| 国产成人精品在线观看| 天天久久夜夜| 久久精品午夜福利| 91在线观看地址| 国产精品美女久久久久av爽| 欧美tickling网站挠脚心| 懂色av一区| 国产女主播一区二区| 亚洲免费成人| 在线观看免费视频黄| 精品久久久久久久久国产字幕| 刘亦菲毛片一区二区三区| 国产一区二区三区四区福利| 777午夜精品电影免费看| 日韩欧美亚洲v片| 美国一区二区三区在线播放 | 久久久久久中文字幕| 大奶一区二区三区| 国产免费黄色小视频| 26uuu久久天堂性欧美| 天天做天天爱夜夜爽| 亚洲国产天堂网精品网站| 操人在线观看| 麻豆传媒一区二区| 免费的成人av| 亚洲综合网在线| 亚洲国产三级网| 二区三区不卡| 一区二区不卡在线视频 午夜欧美不卡'| 欧美96一区二区免费视频| 99精品中文字幕| 日韩欧美精品在线| 91jq激情在线观看| 日韩高清专区| 国产综合久久久久影院| 国产稀缺真实呦乱在线| 亚洲美女www午夜| 免费亚洲电影| 手机福利在线视频| 国产91丝袜在线播放0| 国内自拍视频在线播放| 亚洲午夜色婷婷在线| 色悠久久久久综合先锋影音下载| 日韩成人手机在线| 久久一日本道色综合| 国产又爽又黄又嫩又猛又粗| 欧美国产精品人人做人人爱| 伊人成综合网yiren22| 国产日韩欧美久久| 亚洲v中文字幕| 成人18在线| 国产一区二区三区四区五区在线 | 香蕉av福利精品导航 | 色哟哟网站入口亚洲精品| 国产高清亚洲| 18岁视频在线观看| 亚洲欧美aⅴ...| 国产精品秘入口| 国产精品theporn88| 久久精品国产久精国产爱| 国产在线拍揄自揄拍无码视频|