精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Multi-Token突破注意力機制瓶頸,Meta發明了一種很新的Transformer

人工智能 新聞
在本文中,研究者提出了一種超越「單個 token」瓶頸的新型注意力機制 ——Multi-Token 注意力(MTA),其高層次目標是利用多個向量對的相似性來確定注意力必須集中在哪里。

當上下文包含大量 Token 時,如何在忽略干擾因素的同時關注到相關部分,是一個至關重要的問題。然而,大量研究表明,標準注意力在這種情況下可能會出現性能不佳的問題。

標準多頭注意力的工作原理是使用點積比較當前查詢向量與上下文 Token 對應的鍵向量的相似性。與查詢相似的關鍵字會獲得更高的注意力權重,隨后其值向量會主導輸出向量。

例如,與「Alice」Token 相對應的查詢向量能夠定位上下文中所有提及「Alice」的內容。然而,每個注意力權重只取決于單個關鍵字和查詢向量(除了歸一化為 1)。

對單個 token 向量相似性的依賴給注意力機制帶來了根本性的限制。在許多情況下,上下文的相關部分無法通過單個 token 來識別。例如,查找一個同時提到「Alice」和「rabbit」的句子需要查詢向量對這兩個 token 進行編碼。用一個注意頭查找「Alice」,再用另一個注意頭查找「rabbit」,可以分別找到這兩個詞,但不足以確定這兩個詞在哪里被同時提及雖然可以通過 Transformer 的層將多個 token 編碼成一個向量,但這需要增加維度,而且模型需要將大量容量用于這項任務。

在本文中,研究者提出了一種超越「單個 token」瓶頸的新型注意力機制 ——Multi-Token 注意力(MTA),其高層次目標是利用多個向量對的相似性來確定注意力必須集中在哪里。

而研究者僅通過對現有注意力機制進行簡單的修改去實現這一目標。他們設計了對注意力權重的卷積運算,該運算在三個維度上運行:鍵、查詢和注意力頭。這就允許其注意力權重以相鄰鍵、之前的查詢和其他頭為條件。

直觀地說,在上述例子中,MTA 可以先分別查找「Alice」和「rabbit」的提及,然后將這些注意力組合在一起,只關注兩者都存在的地方。

圖片

具體來說,這項研究的亮點在于:

  • 研究者首先用一個有趣的玩具任務進行實驗,該任務揭示了標準注意力的缺陷,并證明 MTA 可以輕松解決這一問題;
  • 接下來,研究者通過在標準語言建模任務中對 1050 億個詞庫的 880M 個參數模型進行預訓練,對本文的方法進行了大規模測試;
  • 研究者發現 MTA 在驗證復雜度和標準基準任務方面都有所改進,而參數數量只增加了 0.001%;
  • 此外,研究者還在長語境任務(如 Needle-in-the-Haystack 和 BabiLong)上評估了所生成的模型,結果發現 MTA 的表現明顯優于基線。

方法概覽

如圖 1(右圖)所示,本文提出的「Multi-Token 注意力」由建立在多頭注意力基礎上的三個重要部分組成:鍵 - 查詢卷積、頭混合卷積和帶深度縮放的組歸一化。

研究者提出了鍵 - 查詢卷積,以在頭部內組合多個鍵和查詢,并提出了頭卷積,在頭之間共享知識并放大重要信息。最后,研究者應用具有深度縮放功能的組歸一化來抵消殘差流,改善梯度流。

圖片

鍵 - 查詢卷積(key-query convolution)

對于 pre-softmax 卷積,MTA 在注意力 logit 上進行了一個卷積操作,并結合來自多個查詢和鍵 token 的信息:

圖片

鍵和查詢的長度維數中采用了卷積,同時 batch 和頭維數保持獨立。更確切地說,從查詢 q_i 到鍵 k_j 的注意力權重 a_ij 計算如下:

圖片

對于鍵,研究者使用指示函數 1_i≥j?j′將未來鍵歸零。但是,這樣的掩碼太復雜,無法實現(必須修改卷積 CUDA 內核),因此本文提出了一個更簡單的版本,將已有的因果掩碼應用了兩次:

圖片

對于 post-softmax 卷積,研究者同樣在注意力權重的頂部進行卷積操作:

圖片

這使得注意力權重之間的交互累加而不是相乘。研究者試驗了兩個版本,但默認情況下使用 pre-softmax 版本。每個注意力頭都有單獨的 θ 參數,所以它們可以執行不同的卷積操作。選擇的內核維數決定了如何將離得遠的 token 組合在一起。

頭混合卷積(head mixing convolution)

鍵 - 查詢卷積允許從不同的時間步中混合注意力權重,而研究者進一步提出在頭組中使用頭卷積,因此可以將不同頭的注意力權重組合起來。

具體地,對于大小為 c_h 的頭卷積內核,所有頭被分為 M/c_h 個組。在每個組中,研究者使用了不重疊的卷積操作。這樣一來,MTA 不僅允許在每個頭內部的多個查詢和鍵向量上調整注意力權重,還可以跨頭共享注意力信息。

舉例而言,考慮將所有頭分為兩個組,使內核大小為「c_h = 2」。當使用上標來表示頭指數時,則 A^1 和 A^2 是來自兩個不同頭的注意力權重。這時,新的注意力權重如下:

圖片

其中 w_11、w_12、w_21 和 w_22 是內核權重。這里 softmax 之后出現混合,但可以在 softmax 之前混合 logit。

圖片

將一切組合起來(putting everything together)

在前文中,研究者引入兩種不同的方式來混合注意力權重,一是跨鍵 - 查詢時間步,二是跨不同頭。這兩種方式都可以在單個 MTA 模塊中實現。每種方式都有 pre - 和 post-softmax 版本,因此有多種方法將它們組合在一起。如果都采用 pre-softmax 來混合,則可以通過單個 3 維卷積操作來實現,如下圖 2 所示。

圖片

實驗結果

研究者在一系列標準和長距離(long-range)依賴任務上對 MTA 架構進行了實驗,并與基線進行了比較,從「toy」任務開始。他們使用了鍵 - 查詢卷積 pre-softmax 和頭混合 post-softmax,另有說明除外。

簡單的 toy 任務

研究者首先測試了 toy 任務,以驗證本文方法相較于標準多頭注意力的有效性。此任務中為模型提供了一個塊序列,其中每個塊由 N 個隨機字母組成。相比之下,MTA 先是找到了每個問題字母的位置,然后使用卷積操作來增加所有 L 字母一起被發現的位置的注意力。

結果如下表 1 所示,如預期一樣,具有標準多頭注意力的 transformer 解決這項任務時,即使問題中只有「L = 2」字母,通常也無法找到目標塊。相比之下,MTA 以接近零誤差的成功率解決了所有版本的任務。

圖片

大型語言建模

對于語言建模實驗,研究者對 880M 參數的模型進行了預訓練,并比較了 Transformer、DIFF Transformer 和 Transformer with MTA。對于每個模型,他們進行了兩次訓練,并在下表 2 中提供了平均驗證困惑度。

結果顯示,經過 MTA 訓練的模型,在所有驗證數據集上均實現了性能提升,即使只在四分之一的層中應用鍵 - 查詢卷積,并且要比 DIFF Transformer 的可學習參數更少。此外,使用層 scaling 的組歸一化是一個重要組件,可以為 DIFF Transformer 和 MTA 架構提供更優越的性能。

圖片

接著,研究者在以上相同的六個數據集上對模型進行了另外 10.5B token 的微調,并將上下文長度從 2048 增加到了 4096。同時將 RoPE 的 θ 值增加到了 50 萬,將權重衰減變成 0,并將預熱步驟降為 50,其他參數與預訓練階段保持一致。結果表明,使用 MTA 生成的 Transformer 模型在困惑度評估中同樣優于新的基線。

在 zero-shot 設置下,研究者進一步評估了模型在一系列流行基準上的表現,結果如下表 3 所示。經過 MTA 訓練的模型在大多數基準上優于基線,并取得了更高的平均分,盡管這些并不是長上下文任務。

圖片

長距離依賴任務 Long-range dependency tasks

此前的研究表明,Transformer 很難找到相關信息,尤其是在長上下文中。

為了在這種情況下測試 MTA,研究者在三個任務中對訓練有素的模型進行了評估: LAMBADA、NeedleIn-A-Haystack 和 BabiLong。所有這些任務都要求模型幾乎要密切關注埋藏在上下文中的長距離 tokens。

LAMBADA。研究者觀察到使用 MTA 訓練的模型在正確猜測下一個單詞方面更勝一籌(如表 4),明顯優于基線 Transformer 模型。

圖片

如表 5 所示,使用 MTA 訓練的模型在所有「針數」和不同上下文長度的撈針能力都有顯著提高。

圖片

BabiLong。研究者將重點放在了 QA1-5 任務上,在這些任務中,正確的回答需要不同數量的事實或論據關系。輸入和目標輸出樣本如表 7 所示。

圖片

圖 4(左)展示了平均準確率,附圖 5 展示了每個任務的準確率。與其他模型相比,MTA 模型表現良好,尤其是當輸入中有較多干擾文本(4K token)時。

圖片


圖片

更多實驗結果請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-07-08 09:00:00

2023-11-24 12:36:00

模型訓練

2024-10-31 10:00:39

注意力機制核心組件

2024-09-19 10:07:41

2024-12-04 09:25:00

2018-08-26 22:25:36

自注意力機制神經網絡算法

2024-11-04 10:40:00

AI模型

2024-12-17 14:39:16

2024-02-19 00:12:00

模型數據

2017-10-19 15:19:54

機器人人工智能深度學習

2023-06-12 09:57:22

AIChatGPT

2022-02-08 15:43:08

AITransforme模型

2025-06-17 09:05:00

2024-07-16 14:15:09

2024-06-28 08:04:43

語言模型應用

2024-12-31 15:34:00

大型語言模型Softmax架構

2020-09-17 12:40:54

神經網絡CNN機器學習

2025-02-07 16:15:27

2025-04-29 09:05:00

2020-05-11 15:06:36

物聯網電子元件
點贊
收藏

51CTO技術棧公眾號

国产一级特黄a大片免费| 97免费资源站| 国产又黄又粗又猛又爽的| 免费成人黄色网| 一区二区在线免费| 蜜桃av色综合| 国产精品久久久久久久久久久久久久久久久久 | 偷拍欧美精品| 亚洲黄色成人网| www.色欧美| 瑟瑟视频在线看| 亚洲欧美另类在线| 国产一级精品aaaaa看| 中文无码av一区二区三区| 亚洲欧美一级二级三级| 亚洲色图五月天| 男人网站在线观看| av在线成人| 91国在线观看| 日韩网站在线免费观看| 免费观看在线黄色网| 91香蕉视频mp4| 亚洲伊人久久大香线蕉av| 欧美日韩 一区二区三区| 禁久久精品乱码| 久久九九有精品国产23| 真实乱视频国产免费观看| 在线播放成人| 欧美色综合网站| 久久久久久久久久久福利| 欧美xxxx做受欧美88bbw| 中文在线免费一区三区高中清不卡| 国产伦理一区二区三区| av中文字幕在线免费观看| 蜜桃精品视频在线| 国产91在线高潮白浆在线观看 | 中文字幕一区二区三三| 最近2019免费中文字幕视频三| 极品白嫩丰满美女无套| 国产精品qvod| 欧美tk丨vk视频| 老女人性生活视频| 日韩第一区第二区| 欧美日韩精品免费| 在线能看的av网站| 国产成人免费| 欧美日韩夫妻久久| 污视频网站观看| 久久久久久久性潮| 欧美三级乱人伦电影| 99精品免费在线观看| 色一区二区三区| 福利视频导航一区| av网站在线观看不卡| 亚洲深夜视频| 一本久久综合亚洲鲁鲁五月天| 免费看一级大黄情大片| 日本а中文在线天堂| 狠狠做深爱婷婷久久综合一区| 欧美亚洲精品一区二区| 成人小电影网站| 欧美性受xxxx黑人xyx| 亚洲77777| 伊人久久大香伊蕉在人线观看热v| 3d成人动漫网站| 69久久精品无码一区二区| 粉嫩的18在线观看极品精品| 亚洲国产福利在线| mm131美女视频| 欧美日韩中文一区二区| 日韩在线不卡视频| 美女的奶胸大爽爽大片| 亚洲午夜极品| 欧美在线视频免费播放| 波多野结衣爱爱| 久久99精品一区二区三区| 亚洲a在线播放| 亚洲产国偷v产偷v自拍涩爱| 成人免费视频一区| 欧美成人dvd在线视频| www免费网站在线观看| 1024国产精品| 国产av国片精品| 免费观看成人性生生活片| 欧美片网站yy| av在线播放网址| 残酷重口调教一区二区| 蜜臀久久99精品久久久无需会员 | 91久久久免费一区二区| 手机免费看av网站| 国产精品毛片av| 国产一区二区黄| 欧美日韩激情在线观看| 久久高清国产| 91情侣偷在线精品国产| 涩涩视频在线观看免费| 国产精品国产自产拍高清av| www.好吊操| 成人精品三级| 亚洲国产欧美一区二区丝袜黑人 | 国产www.大片在线| 亚洲尤物视频在线| 亚洲黄色a v| 成人高潮a毛片免费观看网站| 在线观看日韩视频| 国产亚洲精品久久久久久无几年桃 | 午夜在线观看av| 国产香蕉精品| 日韩中文字幕欧美| 久久国产黄色片| 国产精品12区| 亚洲乱码一区二区三区三上悠亚| 2021天堂中文幕一二区在线观| 精品1区2区3区| 色天使在线视频| 欧美激情成人在线| 91精品在线看| 成人在线播放视频| 欧美日韩一二三四五区| 97中文字幕在线观看| 日韩中文欧美| 国产福利成人在线| 深夜影院在线观看| 亚洲福利一二三区| 欧美性猛交xx| 天天射综合网视频| 国产精品男人的天堂| 你懂的在线免费观看| 亚洲成在人线免费| 日本wwwwwww| 欧美影院一区| 91久久国产综合久久91精品网站| 成人18在线| 在线免费观看日本欧美| 欧美老熟妇乱大交xxxxx| 亚洲激情欧美| 国产精品国模大尺度私拍| 超碰超碰在线| 91精品国产综合久久国产大片| 欧美老女人性生活视频| 日本中文字幕一区二区视频| 欧美人与性禽动交精品| 九九精品调教| 日韩女优电影在线观看| 中文字幕在线观看成人| 国产精选一区二区三区| 99热都是精品| 日韩最新av| 久久久久久久久久国产精品| 性欧美18一19性猛交| 亚洲综合在线观看视频| 亚洲精品久久一区二区三区777 | 九色在线视频观看| 日韩母乳在线| 国产精品成人aaaaa网站| 国家队第一季免费高清在线观看| 色婷婷综合久久久中文一区二区| 制服 丝袜 综合 日韩 欧美| 视频一区国产视频| 亚洲精品二区| 国产精品一区二区三区av| 萌白酱国产一区二区| 亚洲h视频在线观看| 亚洲一区在线观看免费| 日韩少妇一区二区| 美女久久一区| 亚洲欧洲精品一区| 美女久久精品| 91av中文字幕| h视频在线免费| 欧美一级日韩一级| 国产乡下妇女做爰视频| 91麻豆国产香蕉久久精品| 日本熟妇人妻中出| 久久久久蜜桃| 国产伦精品一区二区三区高清| 日本三级一区| 日韩在线观看免费全| 精品久久在线观看| 日韩欧美一区视频| 国产精品理论在线| 国产精品996| 99999精品视频| 欧美国产一级| 国外成人免费视频| 国产成+人+综合+亚洲欧美| 久久久999精品视频| 欧美性猛交 xxxx| 欧美系列亚洲系列| 国产亚洲欧美精品久久久www| 92精品国产成人观看免费| 欧美男女交配视频| 亚洲乱亚洲高清| 亚洲欧美国产不卡| 菁菁伊人国产精品| 国产精品中文久久久久久久| 国产激情视频在线看| 在线电影av不卡网址| 亚洲男女视频在线观看| 在线观看精品一区| 国产一级二级毛片| 国产精品热久久久久夜色精品三区| 亚洲少妇一区二区| 奇米一区二区三区| 男人天堂1024| 欧美区日韩区| 亚洲一卡二卡三卡| 日本三级久久| 99理论电影网| 99er精品视频| 国产精品一久久香蕉国产线看观看| 欧美24videosex性欧美| 视频在线观看99| 欧美美乳在线| 精品电影一区二区三区| 国产精品国产三级国产普通话对白 | 尤物tv国产一区| 水莓100国产免费av在线播放| 日韩一区二区三区高清免费看看| 在线观看黄色网| 色8久久精品久久久久久蜜| 国产无精乱码一区二区三区| 亚洲视频一二三区| www.日本高清视频| 久久色在线视频| 日本护士做爰视频| 粉嫩av一区二区三区| 51自拍视频在线观看| 美女爽到高潮91| 亚洲欧美激情网| 日韩中文字幕不卡| 日韩av在线综合| 午夜亚洲性色福利视频| 成人性生活视频免费看| 国内综合精品午夜久久资源| 一区二区三区四区久久| 久久网站免费观看| 亚洲精品电影在线一区| 欧美色图一区| 亚洲国产欧美一区二区三区不卡| 欧美男gay| 日韩精品最新在线观看| 欧美精品尤物在线观看| 日韩成人av电影在线| 精品成av人一区二区三区| 日韩精品久久久毛片一区二区| 妖精视频一区二区三区| 蜜桃臀一区二区三区| 综合亚洲自拍| 热舞福利精品大尺度视频| 红桃视频在线观看一区二区| 日韩精品久久久毛片一区二区| 成人一级毛片| 在线视频福利一区| 亚洲一区二区日韩| 毛片av在线播放| 亚洲香蕉网站| 午夜精品久久久久久久无码| 亚洲欧美视频| 午夜在线观看av| 国产一区二区免费在线| 国产吃瓜黑料一区二区| 成人av午夜影院| 免费观看av网站| 中文字幕+乱码+中文字幕一区| 手机在线中文字幕| 亚洲激情男女视频| 日韩精品视频播放| 在线国产电影不卡| 国产精品九九九九| 亚洲成人999| 国产中文在线视频| 久久久av电影| 爱啪啪综合导航| 国产精品video| 欧美视频二区欧美影视| 国内精品久久久久久久果冻传媒| 亚州av一区| 一区二区三区电影| 一区二区日韩免费看| 亚洲一区在线不卡| 成人午夜免费电影| 精品人妻无码一区二区三区换脸| 亚洲欧洲美洲综合色网| 日本少妇裸体做爰| 欧美日精品一区视频| 亚洲国产精彩视频| 亚洲视频在线观看视频| 八戒八戒神马在线电影| 欧美整片在线观看| 国产精品va视频| 久久久久久久久久久久久久久久av| 久久精品不卡| 日韩中文字幕在线视频观看| 精品在线亚洲视频| 添女人荫蒂视频| 亚洲伦理在线精品| 国产成人无码专区| 精品久久免费看| 1769在线观看| 97在线视频免费观看| www欧美在线观看| 欧美日韩免费精品| 亚洲激情欧美| 伊人免费视频二| 久久久久国产精品麻豆ai换脸 | lutube成人福利在线观看| 久久露脸国产精品| 成人污版视频| 天堂√在线观看一区二区| 亚洲理伦在线| 国产chinesehd精品露脸| 国产精品国产三级国产有无不卡 | 免费日韩av片| 又色又爽又黄18网站| 欧美激情一区在线观看| 久久精品国产成人av| 日韩欧美久久久| av一区在线观看| 国产91在线高潮白浆在线观看| 美女福利一区| 日本a级片在线播放| 韩国v欧美v亚洲v日本v| 91狠狠综合久久久久久| 色av一区二区| 日韩电影免费| 97久久伊人激情网| 大伊香蕉精品在线品播放| 免费久久久久久| 久久99久久精品| 女同久久另类69精品国产| 欧洲av在线精品| 国产精品久久久久一区二区国产| 欧美在线视频观看| 日本一道高清一区二区三区| 色欲色香天天天综合网www| 国产宾馆实践打屁股91| 青娱乐国产在线视频| 欧美一级高清片在线观看| 超碰公开在线| 成人动漫视频在线观看完整版 | 欧美激情精品久久久久久| 精品三级国产| 国产 国语对白 露脸| 国产精品一区二区男女羞羞无遮挡| sm捆绑调教视频| 欧美精品tushy高清| 黄色网页在线免费看| 91理论片午午论夜理片久久| 91精品国产视频| 91蝌蚪视频在线| 亚洲一区二区三区爽爽爽爽爽| www夜片内射视频日韩精品成人| 蜜臀久久99精品久久久无需会员| 日韩精品成人| 国产欧美日韩网站| 91看片淫黄大片一级在线观看| 免费看日批视频| 色偷偷偷综合中文字幕;dd| 亚洲成人1区| 乱熟女高潮一区二区在线| 粉嫩绯色av一区二区在线观看| 亚洲精品1区2区3区| 国产小视频91| 日韩成人在线一区| av动漫在线播放| 97精品久久久午夜一区二区三区| 丰满少妇xoxoxo视频| 在线日韩中文字幕| 精品国产亚洲日本| 人妻少妇精品久久| 久久久久久综合| 亚洲中文字幕在线观看| 欧美乱人伦中文字幕在线| 日韩欧美在线精品| 日本黄大片一区二区三区| 一区二区激情小说| 国产黄色片在线观看| 成人网页在线免费观看| 亚洲美女色禁图| 少妇视频在线播放| 欧美电视剧在线看免费| 裤袜国产欧美精品一区| 一区二区三区四区国产| 成人免费毛片嘿嘿连载视频| 久久久久久久久黄色| 久久久国产一区| 女人抽搐喷水高潮国产精品| 制服丝袜综合网| 亚洲图片有声小说| 岛国大片在线观看| 成人国产一区二区| 日韩不卡在线观看日韩不卡视频| 欧美成人精品欧美一级私黄| 亚洲人成五月天| 精品国产一区二区三区不卡蜜臂 | 在线观看日本视频| 久热精品视频在线观看一区| 精品一区在线| 2018国产精品|