精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2 精華

發布于 2024-4-17 13:26
瀏覽
0收藏

繼Mamba之后,又一敢于挑戰Transformer的架構誕生了!


來自Meta、南加州大學(USC)、CMU和UCSD的研究人員提出了全新的神經網絡架構——Megalodon(巨齒鯊)。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

這是專為有效處理「無限上下文」長度的LLM預訓練,以及推理而設計的架構。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

論文地址:??https://arxiv.org/abs/2404.08801??


我們都知道,Transformer架構個在處理長上下文時,會受到二次復雜度,以及長度外推能力弱的限制。


盡管已有次二次方解決方案(諸如線性注意力,狀態空間模型),但它們在預訓練效率,甚至下游任務的準確率上,通常還不及Transformer。


Megalodon的出現,就是為了解決無限處理上下文的難題。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

同時,它可以同時實現高效訓練(減少通信和計算量),以及高效推理(保持恒定的KV緩存)。


值得一提的是,在與Llama 2的直接比較中,Megalodon在處理70億參數和2萬億訓練token的任務上,不僅訓練更高效,而且準確率也超過了Transformer。


具體來說,Megalodon的訓練損失為1.70,位于Llama2-7B(1.75)和 13B(1.67)之間。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

這一改變范式的創新代表著AI領域的巨大飛躍,Megalodon開啟了計算效率和性能的新時代。

GPT-3發布以來最大里程碑

網友表示,先是谷歌,又是Meta,無限上下文離我們更進一步,LLM將會釋放出無限潛力。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

還有人認為「無限上下文長度,絕對是游戲規則的改變者」!

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

更有甚者,初創公司CEO稱,「這是自GPT-3發布以來最大的里程碑,但卻沒有任何動靜?!


Megalodon就相當于是AGI的基礎」。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

「Meta的Megalodon是一項突破性進展,對AGI具有重要意義。它的無限上下文長度模擬了人類的認知,實現了無縫任務切換」。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

論文作者Hao Zhang表示,這是一種全新替代Transformer的架構。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

論文作者Beidi Chen稱,「注意力雖好,但你不需要完整的注意力機制」!

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

普林斯頓助理教授Tri Dao表示,「將SSM/RNN/EMA與注意力相結合是獲得更高質量、更長上下文和更快推理的方法!Griffin、Jamba、Zamba和現在的Megalodon都是很好的例子」。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

革命性架構,訓練更穩定

那么,Megalodon架構采用了怎樣的設計,才能取得如此優異的表現?


據介紹,它基于MEGA架構進行了改進,并新增了多個技術組件。


首先,復雜指數移動平均(CEMA)組件是一種全新技術,擴展了MEGA中使用的多維阻尼指數移動平均方法到復數域,可以增強模型處理復雜數據的能力。


其次,研究人員提出了一種創新的歸一化技術——「時間步歸一化層」。


它將傳統的組歸一化技術擴展到自回歸序列建模任務中,允許模型在處理序列數據時,進行有效的歸一化。


以往,「層歸一化」(Layer Normalization)與Transformer相結合性能,雖令人印象深刻。


但很明顯,層歸一化并不能直接減少時間步長或順序維度的內部協變量偏移。


另外,「組歸一化」(Group Normalization)雖比「層歸一化」在CV任務中獲得改進,但它卻無法直接應用于Transformer的自回歸序列建模,因未來信息會通過時間步維度的均值和方差泄漏。


如下圖所示,c展示了Megalodon架構中,層標準化和時間步標準化的方法。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

最后,研究人員為了增強大規模LLM預訓練的穩定性,提出了將歸一化注意力,和帶有兩跳殘差的預歸一化相結合的配置。


這種配置可以優化模型的學習過程,提高訓練的穩定性。


下圖3中,a是Megalodon的完整框架草圖。


中間和右邊兩張圖分別介紹了,預歸一化和帶有兩跳殘差預歸一化的配置。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

2T token訓練,性能超越Llama2-7B

在具體實驗評估中,研究人員將Megalodon擴展到70億參數規模,并將其應用于2萬億token的大規模LLM預訓練中。


此外,作者還在中/小參數規模的序列建模基準上進行了實驗,包括Long Range Arena (LRA) 、Speech Commands上的原始語音分類、ImageNet-1K上的圖像分類,以及WikiText-103和PG19上的語言建模。


結果顯示,在這些任務中,Megalodon在各種數據模式下的表現明顯優于所有最先進的基線模型。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

數據學習效率

?

通過訓練損失圖以及多個benchmark的結果可以看出,Megalodon比Transformer在7B參數下有更好的數據學習效率。


計算效率

?

針對不同的4K和32K上下文長度,Megalodon這一架構的預訓練的計算效率也是非常強的。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

學術基準上短上下文評估

?

具體來說,研究人員在短上下文(4K token)的標準學術基準上,對Megalodon與Llama 2,以及開源基礎模型進行了比較。


在相同的2萬億token訓練后,Megalodon-7B的表現明顯優于Llama2-7B。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

長上下文評估

?

針對不同長上下文困惑度,證明了Megalodon可以利用很長的上下文進行下一個token預測的能力。


圖5顯示了,驗證數據集在4K到2M各種上下文長度下的困惑度(PPL)。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

在Scroll數據集中的長上下文QA任務中,Megalodon在NaQA上獲得最佳F1,并與Llama 2 Long相競爭。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

中等規模基準評估

?

在Long Range Arena(LRA)的測試中,新架構顯著縮小了分塊注意力和全注意力之間的性能差距。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

其他評測集,如原始語音分類、ImageNet-1K、WikiText-103和PG-19的結果如下:

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

一些感想

這里quote一下這項研究原作者的一些感悟和經歷:

這個工作從有想法到最終完成,經歷了近兩年的時間。期間經歷數次失敗,也學習到了很多大規模預訓練時代正確做科研的方法。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

通過這個項目,研究者們也體會到了在大模型時代做新的模型架構時要注意的問題。總結來說:

  • 對于兩個不同模型架構的比較必須要在數據完全相同的條件下才有說服力。當數據不同的時候,哪怕不同的比例很?。?lt;10%),最后的結果也可能有明顯的差別。包括training loss和下游任務的結果,都受到訓練數據的很大影響。
  • 對于不同的架構,一定要在模型得到充分訓練的條件下的比較才有意義。例如對于7B大小的模型,2T的訓練數據幾乎是基本要求。有的模型可能在數據少的時候表現的很好,但是數據規模增大后反而落后其他模型。因此,對于大模型架構的比較,結果有說服力的前提是充分的訓練。

革命新架構掀翻Transformer!無限上下文處理,2萬億token碾壓Llama 2-AI.x社區

  • 對于架構差別很大的模型,傳統的基于flops的scaling law的比較意義在降低。原因是兩個不同架構的模型,即使有相同的flops,他們的實際速度可能差幾倍。這個和架構算法本身是不是適合在最先進的GPU上計算有很大的關系。因此,真正貼合實際的比較方法是像本文中那樣分成數據學習效率和計算效率兩個方面。但是這樣在實際中對于研究員的工程能力有很高的要求。在大模型時代,新算法的開發已經和系統等方面高度結合在一起。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/xgP9P51gjqJ93FYSWfPeaA??

收藏
回復
舉報
回復
相關推薦
国产一级做a爱片久久毛片a| 好吊操视频这里只有精品| 日本亚洲欧美| 蜜臀av性久久久久蜜臀aⅴ四虎| 色偷偷偷亚洲综合网另类| 能看毛片的网站| 肉色欧美久久久久久久免费看| 国产精品久久久久一区| 国产区一区二区三区| 中文字幕人妻一区二区在线视频| 66视频精品| 亚洲剧情一区二区| 在线观看一区二区三区视频| 久久久人成影片一区二区三区在哪下载 | 亚洲色图制服丝袜| 久久久一本精品99久久精品| 国产免费久久久| 久久综合中文| 久久久久久网址| 视频国产一区二区| 国产影视精品一区二区三区| 亚洲第一免费播放区| 色91精品久久久久久久久| 一个人www视频在线免费观看| 亚洲欧美二区三区| 亚洲三区视频| 九色在线视频| 91丨porny丨最新| 风间由美一区二区三区| 91高潮大合集爽到抽搐| 老司机精品视频网站| 久久影院中文字幕| 貂蝉被到爽流白浆在线观看| 西瓜成人精品人成网站| 亚洲精品一区二区在线观看| 国产精品久久久久久久av福利| 日本精品裸体写真集在线观看| 精品欧美激情精品一区| www.夜夜爱| 性欧美videoshd高清| 综合在线观看色| 亚洲一二三区精品| www.在线播放| 国产精品欧美久久久久无广告| 欧美一区二区三区四区五区六区 | 一级片在线观看免费| 一本一本久久| 77777少妇光屁股久久一区| 国产在线观看成人| 欧美日韩一卡| 久久久久日韩精品久久久男男| 欧美高清视频一区二区三区| 亚洲精品在线观看91| 久久精品国产亚洲精品| 精品无码久久久久成人漫画| 99久久精品费精品国产| www国产91| 中文字幕另类日韩欧美亚洲嫩草| 亚洲成人二区| 欧美激情区在线播放| 国产大片中文字幕| 亚洲二区视频| 国产成人精品免费视频| 中文字幕一区二区人妻视频| 秋霞电影网一区二区| 国产日韩欧美夫妻视频在线观看| 国产精品久久久久久久一区二区 | 野外性满足hd| 国产日韩欧美一区二区三区| 亚洲一二三在线| 欧美xxxx精品| 国产精品va| 91av在线网站| av首页在线观看| 麻豆视频观看网址久久| 91探花福利精品国产自产在线| www.桃色av嫩草.com| 成人精品亚洲人成在线| 久草精品电影| 午夜激情在线观看| 亚洲精品乱码久久久久久| a级黄色一级片| 性欧美videohd高精| 91麻豆精品国产| 小毛片在线观看| 欧美伦理在线视频| 欧美成人一二三| 国产成人亚洲精品自产在线| 日产国产欧美视频一区精品| 亚洲a∨日韩av高清在线观看| 成人无码一区二区三区| 久久精品人人爽人人爽| 男女啪啪免费观看| 性欧美1819sex性高清| 欧美一区二区在线观看| 蜜桃精品一区二区| 亚洲xxx拳头交| 青草青草久热精品视频在线网站| 亚洲香蕉在线视频| 成人精品视频一区二区三区| 亚洲精品欧美精品| 国产99在线观看| 欧美久久一区二区| 亚洲熟妇一区二区| 久久一区二区三区喷水| 久久久免费高清电视剧观看| 精品视频一二三区| 国产aⅴ综合色| 亚洲国产精品一区二区第四页av| а√天堂中文在线资源8| 欧美日免费三级在线| 亚洲天堂美女视频| 欧美福利影院| 国产精品普通话| 五月婷婷久久久| 亚洲精品伦理在线| 中文字幕免费高清在线| 台湾亚洲精品一区二区tv| 欧美精品一区在线播放| 中文字幕福利视频| 久久综合色天天久久综合图片| 乱熟女高潮一区二区在线| 激情亚洲小说| 夜夜躁日日躁狠狠久久88av | 亚洲h片在线看| 欧美日韩亚洲综合| 国产精品高清无码在线观看| 亚洲精品护士| www.成人av.com| 主播国产精品| 91精品国产aⅴ一区二区| 美女福利视频网| 日本视频免费一区| 日本在线成人一区二区| 日韩伦理在线| 亚洲精品久久久久国产| 国产精彩视频在线观看| 国产成人亚洲综合a∨猫咪| 欧美少妇一区二区三区| 日韩城人网站| 最近中文字幕日韩精品| 中文 欧美 日韩| 欧美国产97人人爽人人喊| 精品视频无码一区二区三区| 亚洲激情77| 欧美在线视频网站| 青青草在线免费视频| 日韩欧美中文字幕在线观看| 国产吞精囗交久久久| 亚洲一区二区三区四区五区午夜 | 91成人看片片| 国产精品av久久久久久无| 日本欧美在线观看| 亚洲欧洲久久| 国产一区二区三区国产精品| 九九热精品视频在线播放| 午夜精品久久久久久久99热黄桃| 亚洲综合男人的天堂| 图片区偷拍区小说区| 亚洲黄色成人| 农村寡妇一区二区三区| 成人自拍视频网| 久久在线观看视频| 国 产 黄 色 大 片| 图片区小说区国产精品视频| 三上悠亚影音先锋| 久久精品国产**网站演员| 最新av网址在线观看| 中文在线免费一区三区| 2019国产精品自在线拍国产不卡| 日韩精品视频无播放器在线看 | 欧美性受xxxx狂喷水| 午夜精品一区二区三区三上悠亚| 少妇大叫太粗太大爽一区二区| 欧美96一区二区免费视频| 一区二区三区在线视频看| 精品视频在线一区| 26uuu另类亚洲欧美日本一| yes4444视频在线观看| 日韩精品一区二区三区四区视频| 人人干人人干人人干| 国产人成一区二区三区影院| 色婷婷激情视频| 国产日本精品| 在线精品日韩| 欧美调教在线| 91色在线视频| av日韩电影| 美女视频黄免费的亚洲男人天堂| 手机在线观看免费av| 欧美日韩一区二区三区不卡| 精品视频久久久久| 国产免费成人在线视频| 老熟女高潮一区二区三区| 日本视频在线一区| 男女超爽视频免费播放| 四虎成人精品永久免费av九九| 极品尤物一区二区三区| 日本免费成人| 国产999精品| 超碰在线网站| 美女av一区二区三区| 国产高清美女一级毛片久久| 日韩精品自拍偷拍| 亚洲一区中文字幕在线| 欧美性黄网官网| www.色小姐com| 国产精品久久久久久福利一牛影视| 国产精品一区二区无码对白| 九色porny丨国产精品| 丰满人妻中伦妇伦精品app| 亚洲成人一区| 亚洲一区二区在线看| 无码日韩精品一区二区免费| 亚洲一区二区在线| 国产成人精品一区二区三区视频 | 色播一区二区| 国产欧美一区二区三区视频| 在线亚洲人成| 欧美一区第一页| av成人 com a| 久久久久久国产精品久久| 黄色片网站在线| 最近更新的2019中文字幕| 巨骚激情综合| 亚洲男人天堂网站| 天天操天天干天天插| 欧美白人最猛性xxxxx69交| 国产毛片久久久久| 欧美久久一二三四区| 一二三区在线播放| 欧美三日本三级三级在线播放| 国产寡妇亲子伦一区二区三区四区| 亚洲成人精品影院| 国产精品第九页| 亚洲国产你懂的| 久久久久亚洲av成人片| 亚洲女同女同女同女同女同69| 99热在线观看精品| 中文字幕av免费专区久久| 高清国产在线观看| 国产午夜亚洲精品午夜鲁丝片| 亚洲国产无码精品| 久久精品夜夜夜夜久久| 蜜桃av乱码一区二区三区| 久久精品视频在线免费观看| 日本乱子伦xxxx| 国产欧美日韩亚州综合| 男女男精品视频网站| 亚洲欧洲美洲综合色网| 国产真实乱在线更新| 亚洲另类在线一区| 久草视频在线资源| 五月婷婷另类国产| 国语对白永久免费| 在线观看网站黄不卡| 亚洲中文字幕在线一区| 91.麻豆视频| 亚洲av无码国产精品永久一区| 精品国产区一区| 亚洲欧洲视频在线观看| 亚洲免费视频在线观看| 中国日本在线视频中文字幕| 日韩一中文字幕| 91黄页在线观看| 日本高清不卡的在线| 国产精品第一| 97超级碰碰| 亚洲免费成人av在线| 亚洲人成人77777线观看| 欧美二区不卡| 99999精品视频| 精品一区二区免费在线观看| www.四虎精品| 久久精品男人天堂av| 国产少妇在线观看| 狠狠躁夜夜躁人人爽超碰91| 中文无码av一区二区三区| 91精品国产美女浴室洗澡无遮挡| 日本精品一区二区在线观看| 国产亚洲xxx| 在线xxxx| 国产精品久久久久久久久| 精品国产亚洲一区二区三区在线| 精品乱子伦一区二区三区| 日韩av有码| 国产美女永久无遮挡| 天堂蜜桃一区二区三区| 国产又粗又长又爽又黄的视频| 9人人澡人人爽人人精品| 娇妻被老王脔到高潮失禁视频| 亚洲黄色性网站| 欧美男人天堂网| 精品福利二区三区| 欧美高清视频| 欧美一级高清免费播放| 精品一区二区三区免费看| 欧美日韩精品免费看 | 蜜臀久久99精品久久久无需会员 | 国产在线观看不卡| 精品一区二区男人吃奶| 椎名由奈jux491在线播放| 国产婷婷精品| 91精品国产高清91久久久久久 | 色一情一乱一伦| 精品日韩成人av| 在线视频1区2区| 欧美在线视频一区二区| 亚洲一区二区三区四区电影| 午夜精品一区二区三区在线观看| 亚洲国产精品一区制服丝袜| 中文字幕55页| 国产精品丝袜91| 欧美h在线观看| 日韩av网站大全| av资源一区| 成人欧美一区二区三区在线观看| 欧美电影《睫毛膏》| 国产成人精品无码播放| 99久久国产综合精品色伊| 久久久无码一区二区三区| 日韩一区二区三区av| 毛片免费不卡| 国产日韩在线一区| 91综合视频| 日本肉体xxxx裸体xxx免费| 国产视频911| 99超碰在线观看| 亚洲精品久久久久国产| 咪咪网在线视频| 精品一区二区国产| 亚洲激情另类| 国产精品无码在线| 午夜久久电影网| 十九岁完整版在线观看好看云免费| 久久久av网站| 精品国产一区二区三区性色av| 亚洲日本理论电影| 久久91精品久久久久久秒播| 蜜桃av.com| 6080日韩午夜伦伦午夜伦| 黄在线免费看| 亚洲aa中文字幕| 欧美网站在线| 一级黄色电影片| 亚洲 欧美综合在线网络| 免费观看黄一级视频| 久久欧美在线电影| 农村少妇一区二区三区四区五区 | 国产乱色国产精品免费视频| 最新一区二区三区| 欧美一区二区国产| 男女在线观看视频| 黄色99视频| 爽爽淫人综合网网站| 成人在线手机视频| 欧美日韩午夜精品| 成人日韩欧美| 国产伦精品一区二区三区免费视频| 亚洲日本视频| 中文字幕一区二区三区人妻电影| 91福利在线观看| 秋霞午夜理伦电影在线观看| 亚洲一区二区自拍| 国产精品久久久久9999高清| 天堂久久精品忘忧草| 欧美人牲a欧美精品| 肉肉视频在线观看| 另类欧美小说| 久久成人免费网站| 久草成人在线视频| 亚洲欧美中文日韩在线| 欧美高清免费| 欧美国产日韩激情| 国产清纯美女被跳蛋高潮一区二区久久w | 亚洲视频免费| www.中文字幕av| 777午夜精品免费视频| 91九色在线看| 色播亚洲视频在线观看| 国产麻豆日韩欧美久久| 五月天婷婷久久| 日韩中文第一页| 欧美偷窥清纯综合图区| 三级av免费观看| 亚洲va韩国va欧美va精品| freemovies性欧美| 国产精品国模大尺度私拍| 日本免费在线视频不卡一不卡二| 少妇久久久久久被弄高潮| 亚洲女在线观看| 日本精品一区二区三区在线观看视频| 久久久久久久中文| 亚洲男人天堂av网| 国内精品在线视频| 成人自拍网站| 久久99蜜桃精品| 中文字幕精品无码一区二区| 欧美高清视频在线观看| 日本一区二区免费高清|