精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Attention機制竟有bug,Softmax是罪魁禍首,影響所有Transformer

人工智能 新聞
Evan Miller 的這篇博客解釋了當前流行的 AI 模型如何在關鍵位置出現錯誤,并使得所有 Transformer 模型都難以壓縮和部署。

「我發現注意力公式里有個 bug,八年了都沒有人發現。所有 Transformer 模型包括 GPT、LLaMA 都受到了影響。」

昨天,一位名叫 Evan Miller 的統計工程師的話在 AI 領域掀起了軒然大波。

我們知道,機器學習中注意力公式是這樣的:

圖片圖片

自 2017 年 Transformer 問世,這個公式已被廣泛使用,但現在,Evan Miller 發現這個公式是錯的,有 bug!

Evan Miller 的這篇博客解釋了當前流行的 AI 模型如何在關鍵位置出現錯誤,并使得所有 Transformer 模型都難以壓縮和部署。

總結而言,Evan Miller 引入了一種新函數 Quiet Attention,也叫 Softmax_1,這是對傳統 softmax 函數的創新調整。

圖片

有網友對該博客總結出了一個「太長不看版」。博客作者建議在注意力機制使用的 softmax 公式分母上加 1(不是最終輸出 softmax)。注意力單元中的 softmax 使其可以將鍵 / 查詢匹配作為概率;這些概率支持一個鍵 - 值查找的連續值版本(我們得到的權重不是一個查找的 1/0 輸出,而是高權重 = 所需的鍵 - 值查找)。

分母上加 1 將改變注意力單元,不再使用真實的權重概率向量,而是使用加起來小于 1 的權重。其動機是該網絡可以學習提供高權重,這樣調整后的 softmax 非常接近概率向量。同時有一個新的選項來提供 all-low 權重(它們提供 all-low 輸出權重),這意味著它可以選擇不對任何事情具有高置信度。

圖片

有人甚至猜測「這就是微軟 RetNet 比 transformer 性能更優的原因?」

圖片

還有網友表示,這項研究可以促進 LLM 的改進,從而極大對權重進行壓縮,使得較小的模型媲美較大的模型:

圖片


Miller 表示:你可以像使用傳統的 softmax 函數一樣使用 Softmax_1 函數,示例如下。

import torch
from softmax_one.softmax_one import softmax_one
x = torch.randn(5)y = softmax_one(x, dim=0)

基于這樣的修改,Miller 還做了實驗,結果如下:

圖片

接下來我們看看 Miller 到底發現了什么錯誤。

異常值

Evan Miller 是在閱讀關于量化的論文時發現了這個 bug。當前,內存和存儲已經成為限制人工智能發展的重要因素。人們一直在努力壓縮模型,并嘗試在云端、在邊緣設備上運行大型語言模型(LLM)。

在計算機中,信息是用二進制數據流來存儲的。如果數據流是高度可預測的,例如總是包含在有限的范圍內,那么我們就可以用相對較少的位(bit)來存儲它們。反之,如果一串數字是不可預測的,可能是千載難逢的巨大數字,我們就需要更多的二進制數字來編碼和存儲。而 Transformer 模型包含一些異常值權重。

在高通 AI Research 6 月發表的一篇論文《Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing》中,研究團隊將這些異常值的存在追溯到注意力機制的 softmax 函數。

圖片高通論文地址:https://arxiv.org/abs/2306.12929

這聽起來令人意外,但 Evan Miller 認為這是對的,并進一步發現 softmax 函數存在一個錯誤。

我們來看下 Evan Miller 是如何說明 softmax 函數在注意力機制方面并不是一個合適的工具的。

Softmax 引出的問題

為什么說 softmax 不適合注意力機制,這還得從注意力機制可以做什么開始。

一般來講,數值錯誤一般是由程序錯誤引起的,然而,當程序沒有錯誤,這時就需要從修復復雜的數學公式入手,耗費大量時間。

Evan Miller 大概閱讀了 50 篇 arXiV 論文才有點眉目。Miller 從「輸入嵌入」入手,我們可以將「輸入嵌入」理解為一個浮點向量,代表輸入字符串中的一個單詞。

舉例來說,Meta 最近推出的 LLaMA 2 模型使用了一個長度為 3204 的嵌入向量,以半精度浮點數表示,這僅僅是為了表示詞匯表中的一個單詞,而詞匯表通常包含 30000 到 50000 個條目(entry)。意味著一個單詞的嵌入向量占用 6KB + 的存儲空間。隨著技術的發展,「輸入嵌入」的長度逐漸增加,所占存儲空間也隨之增加。

如果你是一個對存儲占用非常敏感的 C 程序員,你可能接受不了這一數字,明明是 2 字節就能存儲的東西,為什么偏偏要用 6KB?如果按照 2 字節來計算,假如詞匯量少于 2^16=65384,那么我們只需要 16 位來表示一個條目。

但是,實際上 Transformer 的工作原理是這樣的:它將輸入向量轉換為大小相同的輸出向量,最終的 6KB 輸出向量用來預測下一個 token。運行中,Transformer 每一層的工作流都將信息添加到原始的單詞向量中。在這其中,還用到了殘差連接:所有的注意力機制都在為原始的兩個字節的信息添加補充材料,從而是的 LLM 能夠分析更長的上下文。

Transformer 的最后一步是將這個輸出向量與一個矩形矩陣相乘,并將得到的詞匯長度向量壓縮到一個 softmax 函數中,將這些指數化的輸出視為下一個 token 的概率。這是合理的,但眾所周知,這并不完全正確,因為我們不能確定這些輸出概率是正確的。相反,每個 Transformer 實現和其衍生版本都使用采樣機制來隱藏 softmax 過度表示概率較低的事實。

接下里,Miller 介紹了 softmax 的發展史。softmax 最初出現在統計學中,最早作為一種基于能級預測狀態分布的方法,其形式如下:

圖片

之后經濟學家又將其修改為

圖片

這一修改,softmax 才擁有了多項邏輯函數。由于 Miller 對 softmax 函數的研究頗深,因而,他能識別出 softmax 使用不恰當的地方。

Softmax 應用廣泛,在物理學中,它非常有效;在經濟學中,它可能不那么準確;但將其應用到機器學習領域時,只要涉及離散選擇,它似乎總是有效的:

圖片

Miller 進一步表示,softmax 的關鍵在于,如果你不想保留一些項,必須對 softmax 進行修改,否則結果就會產生扭曲。

舉例來說,在 LLM 上下文中,扭曲產生的原因是對非語義 token(逗號等)進行大量加權導致的,這些較高的權重成為難以壓縮的異常值,使得研究變得更加困難。來自高通的 AI 研究員也發現了這一現象,在 LLM 中,97% 以上的異常激活發生在空格和標點符號位置上。

接下來,Miller 介紹了 softmax 是如何在注意力中使用的,從而發現問題到底出現在哪里:

圖片

對上述公式進行分解,在僅解碼器模型中,??、??和??源自相同的輸入序列。它們又不完全相同,即投影方式不同。但在每一層中,它們都以相同的注釋嵌入向量開始。

????^??項用于尋找不同位置 token 向量之間的相關性,實質上構建了一個相關性矩陣(點積按圖片縮放),其中每一列和每一行對應一個 token 位置。然后,對這個方陣的每一行進行 softmax 操作,得到的概率用作??矩陣中值向量的混合函數。概率混合后的??與輸入向量相加,將求和結果傳遞給神經網絡進行進一步處理。

多頭注意力每層并行執行多次上述過程。從本質上講,這種方法劃分了嵌入向量,每個頭使用整個向量中的信息來注釋輸出向量的一個(非重疊)片段。這就是原始 Transformer 論文中的串聯操作。

使用 softmax 的問題在于,它強制每個注意力頭進行注釋,即使沒有信息可添加到輸出向量中。

Softmax_1 和 QuietAttention

來了,在這里你將看到 Softmax Super-Mod 點燃了 LLM 頻道。

有點失望,對吧?Miller 所做的只是在分母上加 1。如果想要的話,這可以讓該向量作為一個趨于 0 的整體。否則只會將值縮小一點,并且縮小的值會在歸一化過程中得到補償,這在注意力之后發生。

圖片

當 ?? 中的條目顯著小于零并且模型試圖完全避免注釋時,主要的區別在于負值限制。將如下原始 softmax 的限制行為

圖片

與新的、改進后的 softmax_1 相比較。


圖片

Vanilla softmax 將始終釋出相同的總權重;softmax_1 看起來大部分相同,但在負象限中有一個「逃出口」(escape hatch)。需要明確的是,這里的核心問題在本質上是數學而非數值問題。額外的精度并不能拯救 softmax,所有的 Transformers 都會受到影響。

你還可以觀察到關于 softmax_1 的其他一些事項。導數是正的,所以總是有一個非零梯度,并且它的和介于 0 和 1 之間,所以輸出不會失控。該函數保持以下屬性

圖片

即輸出向量中的相對值不變。

最開始 Miller 打算將這個函數稱為 ghostmax,這是因為你可以認為圖片中有一個額外的零值條目,并且 V 矩陣中有一個能夠衰減結果的零向量。

盡管 softmax_1 表面上看起來很無聊,但 Miller 99.44% 確信它將解決異常值反饋循環,使量化成為級聯研究的主題。Miller 表示,如果你想進行一些實驗來證明他是對的,可以聯系他。他將撰寫一篇論文。

改進后的機制可以被稱為 QuietAttention,它允許注意力頭保持「沉默」。

圖片

Miller 認為很快可以整合一項測試:如果你在每個輸入上下文的前面加上一個零向量,并確保你選擇的神經網絡不添加任何偏差(包括位置編碼),那么零在通過時不會改變,并對每個后續的 softmax 分母添加 unity 產生影響。這樣你不會因為處理梯度代碼失去理智。Miller 認為這可以通過使用固定嵌入和特殊前綴 token 的 LLaMA 模型來完成。

你仍然需要重新訓練模型,因此暫時不要在樹莓派(RPi)上嘗試此操作。但 Miller 想知道這些權重峰度和激活無窮范數在運行幾次后是什么樣子的。他認為這會成為有影響力的研究,無論是高通 AI Research 團隊的論文,還是 LLM 頻道有人計算出 biblatex,但自己最先發現的。

? 項目地址:https://github.com/kyegomez/AttentionIsOFFByOne

? 博客鏈接:https://www.evanmiller.org/attention-is-off-by-one.html?cnotallow=5d0e431f4edf1d8cccea47871e82fbc4

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-06-04 14:19:53

AWS谷歌巖機

2015-11-23 10:29:48

app隱藏通信安卓耗電

2011-04-21 16:34:56

打印亂碼接口

2015-10-14 11:32:55

機房空調制冷

2019-05-27 10:22:26

Oracle日志數據庫

2009-06-03 08:48:26

2015-02-26 13:34:28

2009-10-12 19:44:40

Windows 7閃屏解決辦法

2009-03-20 16:10:15

2010-03-30 09:21:24

Windows 7系統漏洞

2021-12-12 21:51:54

人工智能銀行內卷

2011-08-12 10:04:52

數據中心宕機EPO

2018-01-29 23:13:47

大數據戰略數據分析

2022-11-16 16:14:46

單踏板模式特斯拉

2009-02-25 08:58:30

裁員上網本微軟

2010-07-12 16:24:20

2020-12-01 06:58:29

富領域模型服務

2020-10-26 16:35:53

內存JavaThreadLocal

2010-09-01 09:33:15

網絡故障

2025-03-05 05:00:00

點贊
收藏

51CTO技術棧公眾號

精品在线观看一区二区| 欧美成人剧情片在线观看| 可以免费观看av毛片| 久久视频www| 国内成人自拍视频| 久久国产精彩视频| 久久国产精品无码一级毛片| 欧美aaa级| 午夜一区二区三区在线观看| 日韩午夜视频在线观看| 亚洲精品字幕在线观看| 日本最新不卡在线| 欧美国产日韩xxxxx| a级大片在线观看| 亚洲视频国产精品| 欧美色欧美亚洲另类二区| 欧美这里只有精品| 亚洲成a人v欧美综合天堂麻豆| 成人亚洲一区二区一| 国产精品偷伦一区二区| 在线观看黄网站| 午夜国产精品视频| 综合网日日天干夜夜久久| 亚洲av无码专区在线播放中文| 欧美天堂视频| 亚洲成人免费在线| 亚洲国产精品影视| 成人不用播放器| 91社区在线播放| 国产精品大全| 国产精品爽爽久久久久久| 久久在线91| 7m精品福利视频导航| 亚洲天堂一级片| 日韩精品首页| 亚洲最新av网址| 扒开jk护士狂揉免费| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | caoporm免费视频在线| 国产日韩精品一区二区三区在线| 九九九热999| 欧美 日韩 国产 成人 在线 91| 久久成人麻豆午夜电影| 国产精品一区二区性色av| 天天干天天色综合| 久久只有精品| 国产成人精品视频在线| 色一情一乱一伦| 一区二区国产在线观看| 91精品国产高清久久久久久| 国产亚洲精品久久777777| 亚洲国产日韩欧美在线| 久久视频在线播放| 亚洲综合网在线| 欧美在线1区| 欧美国产日产韩国视频| 精品少妇久久久| 国内精品美女在线观看| 欧美激情伊人电影| 国产一级一级片| 99riav国产精品| 91精品国产高清自在线| 欧美一级片免费在线观看| 免费在线欧美黄色| 国产精品1234| 亚洲中文字幕在线观看| 国产一区二区视频在线| 动漫3d精品一区二区三区| www.五月婷| 91视频在线观看免费| 日韩精品大片| 精精国产xxxx视频在线| 亚洲一区在线视频| a在线视频观看| 欧美日韩女优| 欧美一区二区三级| 免费a v网站| 国产一区毛片| 久久精品久久久久久国产 免费| 日韩高清dvd碟片| 亚洲性感美女99在线| 欧美亚洲激情在线| 一区二区视频网| 成人免费不卡视频| 日本黄网免费一区二区精品| 麻豆视频在线免费观看| 亚洲国产综合色| 亚洲色图38p| 久久综合给合| 亚洲欧美中文日韩在线v日本| 亚洲精品视频网址| 国产伊人精品| 国产成人综合精品| www.xxxx国产| 国产日韩欧美激情| 男人天堂新网址| 日韩欧美2区| 精品国产一二三区| 91视频免费看片| 欧美日韩国产一区精品一区| 国产成人涩涩涩视频在线观看| 国产三级午夜理伦三级| 久久这里只有精品6| 99热这里只有精品7| 国产高清不卡| 日韩免费一区二区| 天美传媒免费在线观看| 99精品国产99久久久久久福利| 国产精品一区二区久久国产| 五月婷婷在线播放| 亚洲婷婷在线视频| 亚洲视频在线a| 日韩高清电影免费| 九九九久久国产免费| 波多野结衣影片| 99re6这里只有精品视频在线观看| 亚洲一区二区在线免费观看| 日韩在线伦理| 亚洲成人三级在线| 成人免费视频国产免费观看| 久久久久看片| 欧美二级三级| 国产夫妻在线| 亚洲国产成人精品电影| 黄色一级片在线| 激情综合网av| 亚洲一区美女| 国产毛片精品久久| 一区二区三区无码高清视频| 国产剧情在线视频| 99热99精品| 欧美日韩不卡在线视频| 蜜桃在线一区| 欧美成人网在线| 国产欧美久久久| 亚洲丝袜自拍清纯另类| 黄色永久免费网站| 精品国产乱码久久久久久蜜坠欲下| 91黄色8090| 婷婷国产在线| 婷婷成人综合网| av网站免费在线播放| 99精品视频免费观看视频| av自拍一区| 在线观看欧美日韩| 无码免费一区二区三区| 97se亚洲国产综合自在线| 久久国产精品网| 红杏视频成人| 97av在线视频| 青青草在线免费视频| 色综合久久精品| 亚洲国产av一区| 青青草国产成人av片免费| 亚洲精品一区二区三区四区五区| 午夜av成人| 日韩中文字幕在线| 国产男男gay体育生白袜| 一区二区三区在线播| 中文字幕无人区二| 亚洲最黄网站| 欧洲在线视频一区| 欧美jizz18| 九九热精品视频在线播放| 亚洲xxxx天美| 婷婷六月综合网| 亚洲第一视频区| 国产一区欧美二区| 欧日韩免费视频| 日韩欧美中文字幕电影| 国产v综合ⅴ日韩v欧美大片| avtt亚洲| 欧美成人r级一区二区三区| 日本中文字幕免费| 国产午夜精品一区二区三区嫩草 | 精品国产乱码久久| 国产尤物在线视频| 国产精品免费网站在线观看| www.欧美激情.com| 国产精品大片免费观看| 免费观看成人高| 国产第一亚洲| 欧美精品久久一区二区| 国产一二三区在线| 欧美一区二区三区在| 800av免费在线观看| 中国av一区二区三区| 欧洲成人午夜精品无码区久久| 亚洲一区观看| 欧洲美女和动交zoz0z| 青青草久久爱| 成人伊人精品色xxxx视频| 91高清视频在线观看| 在线视频欧美性高潮| 亚洲精品97久久中文字幕无码| 日韩欧美a级成人黄色| 欧美黑人性猛交xxx| 国产欧美综合在线| 国产婷婷在线观看| 久久国产婷婷国产香蕉| 久久99中文字幕| 99久久www免费| 久久国产精品99久久久久久丝袜| 祥仔av免费一区二区三区四区| 午夜精品美女自拍福到在线| 麻豆传媒在线观看| 亚洲区中文字幕| 国模无码一区二区三区| 欧美日本一道本| 日本黄色一级视频| 亚洲成av人影院| 欧美成人免费看| 中文字幕一区二区三区色视频| 在线精品一区二区三区| 国产成人免费视频网站高清观看视频| 97公开免费视频| 亚洲婷婷在线| 国产大尺度在线观看| 欧洲杯什么时候开赛| 久久久久久国产精品免费免费| 麻豆一区在线| 亚洲aaa激情| 美女久久久久久| 国产成人av在线播放| 国产三级电影在线播放| 色综合色综合网色综合 | 欧美国产日韩一区二区| 日本中文字幕视频在线| 亚洲日韩欧美视频一区| 五月婷婷激情在线| 日韩av在线免费| 理论片中文字幕| 日韩美女主播在线视频一区二区三区| 99草在线视频| 欧美一区二区精美| 国产精品永久久久久久久久久| 欧美日韩在线直播| 最新中文字幕免费| 欧美日韩在线播| 中文字幕视频二区| 欧美日韩一区三区四区| 中文字幕在线播放av| 欧美日本视频在线| 一区二区三区亚洲视频| 欧美色倩网站大全免费| 伊人网免费视频| 欧美日韩国产大片| 国产模特av私拍大尺度| 日韩一区二区在线看| www夜片内射视频日韩精品成人| 日韩欧美一二三四区| 亚洲乱色熟女一区二区三区| 日韩一级免费一区| 性色av蜜臀av| 亚洲国产欧美一区二区丝袜黑人| 欧美特级特黄aaaaaa在线看| 亚洲精品久久久久久久久久久久久 | 国产精品第一| 成人久久久久爱| 99久久免费精品国产72精品九九| 国产精品xxx在线观看www| 欧美日韩一区二区三区四区不卡 | 色老头视频在线观看| 社区色欧美激情 | 国产原厂视频在线观看| 欧美激情小视频| 欧美黑人粗大| 国产日韩欧美一二三区| 国语精品视频| 久久国产主播精品| 日韩高清欧美| 国产精品视频网站在线观看| 一道本一区二区| 自拍偷拍21p| 国产jizzjizz一区二区| 一区二区三区四区免费| 日韩理论片中文av| 久久久久久蜜桃| 日韩欧美在线视频免费观看| 亚洲图片中文字幕| 欧美精品一区二区三区高清aⅴ| 青青草视频在线观看| xvideos成人免费中文版| 国产91足控脚交在线观看| 国产v综合ⅴ日韩v欧美大片| 精品三级国产| 女人一区二区三区| 一区二区不卡| 精品久久久久av| 国产成人日日夜夜| 永久免费成人代码| 一区二区三区不卡视频在线观看| 国产成人免费看| 制服丝袜在线91| 特黄aaaaaaaaa真人毛片| 国产午夜精品一区理论片飘花| 成人福利在线观看视频| 日本午夜精品理论片a级appf发布| 国产精品成人**免费视频| 欧美日韩在线一区二区三区| 欧美日韩精品| 亚洲爆乳无码专区| 福利一区二区在线观看| 四虎国产成人精品免费一女五男| 亚洲国产精品久久久久秋霞影院 | 性欧美hd调教| 国产在线精品日韩| 亚洲女同另类| 免费涩涩18网站入口| 91香蕉视频污在线| 久草视频免费在线| 欧美福利视频导航| 国产三级在线免费观看| 97在线视频免费看| 色播一区二区| 宅男av一区二区三区| 日本不卡一二三区黄网| 国产精品久久无码| 亚洲永久精品国产| 国产免费无遮挡| 久久精品在线播放| 日本精品另类| 日韩欧美国产二区| 久久综合影视| 大黑人交xxx极品hd| 亚洲国产精品久久艾草纯爱| 99久久亚洲精品日本无码| 少妇高潮 亚洲精品| 97精品国产99久久久久久免费| 久久艳妇乳肉豪妇荡乳av| 亚洲精品女人| 国产福利在线观看视频| 亚洲高清视频中文字幕| 性色av蜜臀av| 欧美精品videosex牲欧美| 白白在线精品| 女人帮男人橹视频播放| 高清国产一区二区| 精品97人妻无码中文永久在线| 日韩一级片在线观看| 成人免费网址| 91偷拍精品一区二区三区| 欧美福利网址| 国产性猛交96| 婷婷成人激情在线网| 天堂а在线中文在线无限看推荐| 4k岛国日韩精品**专区| 欧美性生活一级片| 国产精品秘入口18禁麻豆免会员| 99精品国产视频| 久久精品视频2| 在线观看国产精品淫| 国产精品久久久久久久久免费高清 | 99在线观看精品视频| 欧美国产亚洲视频| 精品在线网站观看| 国产性xxxx18免费观看视频| 久久只精品国产| 中文字幕丰满人伦在线| 久久精品99久久久久久久久| 日韩成人精品| 国产人妻777人伦精品hd| 91免费视频大全| 波多野结衣视频在线观看| 最近2019中文字幕一页二页| 四虎影视国产精品| 成年人视频网站免费| 不卡的看片网站| 日韩精品久久久久久免费| 色哟哟网站入口亚洲精品| 久久综合偷偷噜噜噜色| 欧美爱爱视频免费看| 欧美国产日韩亚洲一区| 91中文字幕在线播放| 欧美国产日韩在线| 久草成人资源| 精品亚洲视频在线| 亚洲成年人影院| 国产福利片在线| 亚洲已满18点击进入在线看片| 亚洲麻豆一区| 欧美a在线播放| 亚洲电影免费观看高清完整版在线观看| 竹内纱里奈兽皇系列在线观看| 一区二区视频国产| 99久久综合国产精品| 伊人久久一区二区| 91精品国产九九九久久久亚洲| 波多野结衣在线观看一区二区| 中文字幕亚洲日本| 在线观看日韩国产| 在线观看a级片| 色噜噜狠狠一区二区三区| 国产成人精品综合在线观看| 五月天婷婷久久| 蜜臀久久99精品久久久久久宅男| 偷拍亚洲色图| 久久久久亚洲av无码网站| 欧洲av一区二区嗯嗯嗯啊| h片视频在线观看|