精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動

發布于 2024-5-13 09:38
瀏覽
0收藏

眾所周知,大語言模型的訓練常常需要數月的時間,使用數百乃至上千個 GPU。以 LLaMA2 70B 模型為例,其訓練總共需要 1,720,320 GPU hours。由于這些工作負載的規模和復雜性,導致訓練大模型存在著獨特的系統性挑戰。


最近,許多機構在訓練 SOTA 生成式 AI 模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,比如谷歌的 PaLM 模型訓練過程中出現了多達 20 次的損失尖峰。


數值偏差是造成這種訓練不穩定性的潛在原因,由于大語言模型訓練運行成本極高,如何量化數值偏差儼然成為關鍵問題。


在最新的一項工作中,來自 Meta、哈佛大學的研究者開發了一個原則性定量方法來理解訓練優化中的數值偏差,以此評估不同的最新優化技術,并確定它們在用于訓練大模型時是否可能引入意外的不穩定性。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


  • 論文標題:Is Flash Attention Stable?
  • 論文鏈接:https://arxiv.org/pdf/2405.02803


結果發現,在一次單獨的前向傳遞過程中,Flash Attention 的數值偏差比 BF16 的 Baseline Attention 大一個數量級。


具體而言,該方法包括兩個階段,包括:


(1)開發一個微基準來擾動給定優化中的數值精度;

(2)通過基于 Wasserstein 距離的數據驅動分析評估數值偏差如何轉化為模型權重的變化。


研究者分析了 SOTA 優化技術 Flash Attention ,并量化了可能引入的數值偏差。Flash Attention 是一種廣泛用于加速注意力機制的技術,通常被認為是 Transformer 模型中的系統瓶頸。Flash Attention 在提高速度和減少內存訪問量的同時,也依賴于算法優化,而算法優化有可能導致數值偏差的增加。


研究者假設添加重新縮放因子(rescaling factors )可能會引入無意的近似,導致數值折衷,這可能會在后續影響訓練穩定性。


他們在多模態文本到圖像工作負載的背景下分析了 Flash Attention,以確定 Flash Attention 與其基線之間數值偏差的潛在重要性。最終,他們引入了一個框架來量化訓練優化的數值偏差及其下游影響。


研究者在數值偏差量化上主要作出了以下兩點貢獻:


(1)設計了一個微基準來分離數值精度對數值偏差的影響。


研究者所設計的微基準作為一種技術,用于衡量和量化傳統黑盒優化(如 Flash Attention)所導致的數值偏差。通過擾動通常在提供的內核中不可用的方面,他們開創性地發現在低數值精度(BF16)下,與 Baseline Attention 相比,Flash Attention 的數值偏差大約高出一個數量級。


(2)基于 Wasserstein Distance 度量進行了數據驅動的分析。


通過該分析,研究者將觀察到的數值偏差置于上下文,并為其對下游模型屬性的影響形成一個上限(upper bound)。在研究者的案例研究中,他們能夠限制觀察到的數值偏差的影響,并發現:「Flash Attention 引入的模型權重偏差大約為低精度訓練的 1/2 至 1/5 倍。」


這項研究強調了開發一種原則性方法的重要性:「不僅要量化,而且要將訓練優化對數值偏差的影響置于上下文中。」通過構建代理(proxies)來將數值偏差置于上下文中,旨在推斷通常難以衡量的下游模型效果(即訓練不穩定性)的可能性。


實驗方法


研究者首先開發了一個微基準來分離并研究 Flash Attention 引起的數值偏差。如圖 2 所示,他們通過對 Flash Attention 進行數值上的重新實現,以分析不同的數值精度,并在算法的每個步驟應用潛在的優化措施。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 2: 微基準設計摘要。


這是必要的,因為 Flash Attention 內核目前僅支持 FP16 和 BF16 數值格式。該內核還是 CUDA 代碼的包裝 API 調用,這使得擾動算法以檢查數值偏差的影響變得具有挑戰性。


相比之下,他們的微基準設計允許在算法內部進行精度輸入和修改。研究者將微基準與原始的 Flash Attention kernel 進行了驗證。


他們進一步設計了一種技術,以比較模型執行過程中每個步驟的 Attention 矩陣的輸出。并修改了模型代碼,每次調用注意力時都計算 Baseline Attention 和 Flash Attention,這允許對相同的輸入矩陣進行精確的輸出矩陣比較。


為了將其置于上下文中,研究者還通過相同和獨立的訓練運行,使用 Max difference 和 Wasserstein Distance 度量來量化模型權重在整個訓練過程中的差異。


對于訓練實驗,研究者則使用一種將文本輸入轉換為圖像的生成式 AI workload(即文本到圖像模型)。他們使用 Shutterstock 數據集重新訓練模型,并在一組英偉達 80GB A100 GPU 集群上運行此實驗。


通過微基準量化數值偏差


研究者首先分析了 Flash Attention 在前向傳遞過程中的影響。他們利用微基準測試,在隨機初始化查詢、鍵、值向量相同的情況下,檢驗不同數值精度對 Attention 計算的輸出矩陣的影響。


正如圖 3 所示,當研究者使用從 BF16 到 FP64 變化的不同數值格式時,Flash Attention 和 Baseline Attention 之間的數值偏差隨著尾數位數的增加而減小。這表明數值差異是由于較少的尾數位數所固有的近似造成的。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 3:數值格式對于 Flash Attention 的數值偏差所產生的效果。


之后,研究者為進行標準比較,在 FP64 數值格式下的 Baseline Attention 設置了「黃金值」,然后將不同數值格式下的 Attention 輸出與該值進行了比較(如圖 4 所示)。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 4:FP64 下 Baseline Attention「黃金值」的比較。


結果表明,Flash Attention 的數值偏差大約是在 BF16 下 Baseline 的 10 倍。


為了進一步分析這種觀察到的數值偏差,研究者保持 tile 大小和 SRAM 大小不變的同時,掃描了矩陣的序列長度(如圖 5 所示)。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 5: 序列長度對 Flash Attention 數值偏差的影響。


如圖所示,隨著序列長度的增加,無論是通過(a)最大差異上限的測量,還是通過(b)差異的平均值和標準差的測量,Flash Attention 和 Baseline Attention 之間的數值偏差都在增加。


除此之外,研究者還利用微基準設計進行不同優化的實驗,以便更好地了解數值偏差的影響(如圖 6 所示)。


圖 6a 顯示了調換 block 維數的順序如何導致 Flash Attention 和 Baseline Attention 之間的數值差異增大。圖 6b 中的其他擾動,比如限制 tile 大小為正方形,不會對數值偏差產生影響。圖 6c 表明了 block/tile 大小越大,數值偏差越小。


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 6: 算法的改變及其對觀察到的數值偏差的影響。


通過權重差異來了解數值偏差


雖然在前向傳遞過程中,Flash Attention 可能會導致 Attention 輸出的數值偏差,但這項研究的最終目標是確定這是否會在模型訓練過程中產生任何影響,以研究它是否會導致訓練的不穩定性。


因此,研究者希望量化 Flash Attention 是否在訓練過程中改變了模型,即上文觀察到的 Attention 輸出差異是否反映在訓練過程中更新的模型權重中。


研究者利用兩個指標來衡量使用 Baseline Attention 訓練的模型與使用 Flash Attention 訓練的模型之間的模型權重差異。首先計算最大差異,即找出權重矩陣之間差異的絕對值并取最大值,從而得出偏差的上限,如下所示:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


雖然最大差值提供了數值偏差的上限,但它沒有考慮到每個矩陣的分布情況。因此,研究者通過 Wasserstein Distance 來量化權重差異,這是衡量張量之間相似性的常用度量。雖然在計算上稍顯復雜,但 Wasserstein Distance 包含了張量分布的形狀信息以衡量相似性。計算公式概述如下:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


數值越低,表明矩陣之間的相似度越高。


利用這兩個指標,研究者隨后量化了在整個訓練過程中與 Baseline Attention 相比,Flash Attention 的模型權重是如何變化的:


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區


根據 Wasserstein Distance 和 Max Difference 這兩個指標,在整個訓練過程中,Flash Attention 的加入確實改變了模型權重,而且隨著訓練的繼續,這種差異只會越來越大,這表明了使用 Flash Attention 訓練的模型與使用 Baseline Attention 訓練的相同模型收斂到了不同的模型。


然而,訓練是一個隨機過程,某些模型結構的改變可能會在下游效應和準確性方面產生相似的結果。即使使用 Flash Attention 和 Baseline Attention 訓練的模型權重不同,這也是值得關注的。


完全訓練模型并評估準確性是一項成本昂貴且資源密集的任務,特別是對于訓練需要數月的大模型來說。


研究者通過配置一個 proxy 來探尋:


(a) 這些權重變化的意義有多大?

(b) 能否將其與其他廣泛采用的訓練優化中的標準權重變化聯系起來?


為了實現這一目標,研究者設計了一系列實驗來比較在不同場景下,訓練過程中的權重差異是如何變化的。


除了對比使用 Flash Attention 和 Baseline Attention 的訓練過程外,他們還量化了在訓練開始時權重被初始化為不同隨機值的相同訓練過程中的權重差異。這提供了一個界限,因為隨機權重初始化是一種常用的技術,并且通常會產生等效的結果。


此外,研究者還測量了使用不同精度訓練的模型權重的變化。數值精度(即 FP16 與 FP32)有可能導致下游變化,這作為確定了 Flash Attention 權重重要性的一個上限。


如圖 8 所示,可以發現,使用 Flash Attention 的模型權重偏差變化率與不同模型初始化的權重偏差變化率相當或更小(注意紅色和藍色曲線的斜率)。


此外,使用 FP16 與 FP32 時的權重變化率比不同模型初始化時的權重變化率更高,變化也更大。


這些結果提供了一個 proxy,并表明:「雖然 Flash Attention 會出現數值偏差,但它會被隨機模型初始化和低精度訓練所限制。而且所引入的模型權重偏差大約是低精度訓練時的 1/2 至 1/5 倍。」


Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動-AI.x社區

圖 8: 使用 Wasserstein Distance metric 測量的訓練過程中的相對權重差異。


更多研究細節,可參考原論文。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/sG3JaZR1isZApWP6ZkYe6Q??

收藏
回復
舉報
回復
相關推薦
2021av在线| av网站中文字幕| 欧美a在线观看| 亚洲国产精品嫩草影院| 免费不卡亚洲欧美| 亚洲综合视频在线播放| 亚洲福利专区| 在线观看视频99| 天天干天天曰天天操| 大菠萝精品导航| 国产精品久久久爽爽爽麻豆色哟哟| 97人人干人人| 国产精品成人无码| 尤物网精品视频| 色婷婷**av毛片一区| 色噜噜狠狠一区二区三区狼国成人| av在线小说| 国产精品美日韩| 久久精品国产99精品国产亚洲性色| 亚洲视频一区二区三区四区| 99在线|亚洲一区二区| 精品国产区一区二区三区在线观看| 乱码一区二区三区| 欧美91在线|欧美| 欧美午夜精品久久久久久人妖 | 特黄aaaaaaaaa真人毛片| 日本在线不卡一区| 26uuu亚洲国产精品| 黑鬼狂亚洲人videos| 国产一区二区三区四区大秀| 精品美女一区二区三区| 日本中文字幕观看| 日韩欧美一区二区三区免费观看| 亚洲高清视频在线| 91看片淫黄大片91| 秋霞午夜在线观看| 国产日韩精品一区| 久久亚洲综合网| 亚洲国产www| 国产毛片一区二区| 91久久精品美女| 一级爱爱免费视频| 乱一区二区av| 国产精品男人的天堂| 伊人久久久久久久久久久久| 一区二区国产精品| 97成人超碰免| 精品免费囯产一区二区三区| 91久久亚洲| 992tv在线成人免费观看| 九九九在线视频| 欧美在线高清| 欧美精品中文字幕一区| 欧洲猛交xxxx乱大交3| 亚洲最新av| 欧美尺度大的性做爰视频| 免费三级在线观看| 欧美淫片网站| 欧美—级a级欧美特级ar全黄| 亚洲国产美女视频| 欧美国产综合| 91精品国产高清久久久久久久久 | 不卡一卡2卡3卡4卡精品在| 国产精品无码免费播放| 国产一区二区三区高清播放| 99久久99| 亚洲欧美一区二区三| av成人免费在线| 美乳视频一区二区| 第一福利在线| 中文字幕一区二区三区在线不卡| 女女同性女同一区二区三区按摩| 操你啦视频在线| 亚洲一区中文在线| 日韩小视频在线播放| 在线最新版中文在线| 欧美综合天天夜夜久久| 57pao国产成永久免费视频| 91精品网站在线观看| 精品国产一区二区在线观看| 久久久亚洲av波多野结衣| 波多野结衣在线观看一区二区| 久久躁狠狠躁夜夜爽| 精品亚洲永久免费| 久久国产一二区| 国产自摸综合网| 欧美熟妇乱码在线一区| 国产亚洲精品久| 警花观音坐莲激情销魂小说| 日本三级一区| 欧美久久久久中文字幕| 成年女人免费视频| 国产探花一区| 欧美大荫蒂xxx| 成人一二三四区| 风间由美性色一区二区三区| 欧美裸体网站| 四虎影视国产在线视频| 一本色道a无线码一区v| 一起草最新网址| 国产成人ay| 欧美激情综合色| 在线观看毛片视频| 99精品视频一区二区三区| 亚洲一区二区不卡视频| 波多野结依一区| 欧美日韩国产另类一区| 在线免费观看a级片| 欧美独立站高清久久| 91av在线影院| 国产xxxx孕妇| 国产精品区一区二区三| koreanbj精品视频一区| 日韩精品成人| 日韩天堂在线视频| 亚洲色成人www永久网站| 粉嫩在线一区二区三区视频| 一区二区视频在线播放| 精品91久久| 亚洲精品在线电影| 91狠狠综合久久久| 日韩影院精彩在线| 欧美lavv| 九九色在线视频| 欧美一区二区视频在线观看2022| 法国空姐电影在线观看| 一本色道久久综合亚洲精品不卡| 99热国产免费| 国产成人l区| 欧美另类一区二区三区| 一级黄色录像毛片| 日韩精品久久理论片| 欧美高清视频一区| 乡村艳史在线观看| 亚洲福利视频网站| 精品肉丝脚一区二区三区| 激情五月激情综合网| 亚欧精品在线| 日本黄色一区| 一区二区三区黄色| 最新国产中文字幕| 中文字幕精品—区二区四季| 成人午夜激情av| 国产欧美日韩| 国产精品99久久久久久久久久久久| 99久久久无码国产精品性波多| 日本一区二区在线看| 国产精品av电影| 国产在线播放av| 一本大道久久a久久精品综合| www.色多多| 另类av一区二区| 水蜜桃一区二区三区| 91看片一区| 中文字幕自拍vr一区二区三区| 中文字幕欧美人妻精品一区蜜臀| 国产目拍亚洲精品99久久精品| 国产成人无码一二三区视频| 极品美女一区二区三区| 国产精品第七十二页| 最新97超碰在线| 欧美军同video69gay| 538精品在线视频| 成人网页在线观看| 欧美老熟妇喷水| 精品国产一区二区三区噜噜噜| 国产精品免费一区二区三区都可以| www.在线播放| 欧美精品 国产精品| 一区视频免费观看| av网站一区二区三区| 国产淫片av片久久久久久| 成人情趣视频网站| 亚洲一区二区免费| 黄在线观看免费网站ktv| 亚洲欧美日韩一区二区三区在线| 综合久久中文字幕| 亚洲制服欧美中文字幕中文字幕| 亚洲av成人精品一区二区三区 | 日韩一级电影| 国产精品视频内| 毛片网站在线看| 亚洲男子天堂网| 一本久道久久综合无码中文| 亚洲国产精品久久不卡毛片| 九色porny自拍视频| 麻豆国产精品777777在线| 青青在线免费视频| 日韩欧美在线精品| 成人免费视频网址| 激情国产在线| 日韩中文字幕在线精品| 四季av日韩精品一区| 欧美日韩国产高清一区| 国产主播在线播放| 国产精品视频一二| 五月天丁香社区| 人人精品人人爱| 免费毛片网站在线观看| 四虎8848精品成人免费网站| 国产欧美日韩伦理| 亚洲欧洲日韩精品在线| 777777777亚洲妇女| a级影片在线观看| 亚洲无线码在线一区观看| 男人天堂av网| 日韩一区二区三区在线| 欧美brazzers| 精品国产户外野外| 久久中文免费视频| 国产婷婷一区二区| 国产xxxxxxxxx| 国产精品一区一区| 污污的网站免费| 久久福利精品| 亚洲人精品午夜射精日韩| 天天色天天射综合网| 欧美中日韩一区二区三区| aiai久久| 国产99在线免费| 国产日韩中文在线中文字幕| 国产精品成人一区二区三区吃奶| sm捆绑调教国产免费网站在线观看| www.精品av.com| 1pondo在线播放免费| 亚洲精品自拍偷拍| 人妻精品一区一区三区蜜桃91| 制服丝袜一区二区三区| 中文字字幕在线观看| 色域天天综合网| 黄网在线观看视频| 亚洲成人免费影院| 黄色一级视频免费| 一区二区免费看| 美女毛片在线观看| 一二三四区精品视频| 加勒比婷婷色综合久久| 亚洲天堂av老司机| 黄色香蕉视频在线观看| 国产精品私人自拍| 色婷婷粉嫩av| 亚洲天堂av一区| 一区视频免费观看| 亚洲精品第1页| 久久久久久福利| 亚洲午夜久久久久| 国产无码精品视频| 午夜精品123| 波多野结衣视频网站| 欧美日韩亚洲一区二区三区| √资源天堂中文在线| 精品人伦一区二区三区蜜桃网站| 日韩精品在线免费看| 五月综合激情网| 人人草在线观看| 欧美视频第二页| 国产片高清在线观看| 欧美一级免费大片| 亚洲精品国产精| 亚洲国产精品成人va在线观看| 天天操天天干天天| 亚洲欧美制服第一页| 国产爆初菊在线观看免费视频网站| 在线观看欧美日韩国产| 国产在线观看a视频| 欧美日本高清视频| 一个人www视频在线免费观看| 国产成人久久精品| 日本中文字幕视频一区| 99国产盗摄| 亚洲精品播放| 伊人精品久久久久7777| 欧美激情综合| 日本三级免费网站| 久久se精品一区精品二区| 午夜免费福利网站| yourporn久久国产精品| 精品人妻互换一区二区三区| 国产精品进线69影院| 久久久久成人网站| 色综合久久中文字幕| 国产孕妇孕交大片孕| 精品av综合导航| 国产一区二区影视| 美女少妇精品视频| 久久毛片亚洲| 91文字幕巨乱亚洲香蕉| 亚洲美女15p| 第九区2中文字幕| 欧美一级二区| 亚洲国产综合av| 久久综合色天天久久综合图片| 国精产品视频一二二区| 亚洲高清免费观看| 中文字幕日韩国产| 亚洲成年人影院在线| 欧美一区二区三区| **欧美日韩vr在线| 日本精品在线观看| 午夜精品视频在线观看一区二区 | 欧美一区二区三区爽大粗免费| 免费在线观看视频一区| 久久久久成人精品无码中文字幕| 中文字幕日韩欧美一区二区三区| 国产情侣在线视频| 在线电影国产精品| 九色在线视频蝌蚪| 97国产精品久久| 久久综合给合| 亚洲日本精品国产第一区| 亚洲综合电影一区二区三区| 亚洲视频在线不卡| 中文在线一区二区| 99久在线精品99re8热| 欧美一区二区性放荡片| 草草影院在线观看| 欧美孕妇性xx| 看全色黄大色大片免费久久久| 正在播放一区二区三区| 蜜桃av综合| 欧美丰满少妇人妻精品| 一区二区三区在线视频观看58| 一区二区三区亚洲视频| 国产亚洲精品激情久久| 欧美激情网站| 成人性色av| 欧美在线不卡| 日韩成人av免费| 中文成人av在线| 国产情侣小视频| 亚洲视频在线观看免费| 欧美日韩国产观看视频| 国产精品久久波多野结衣| 欧美一区不卡| 黄页网站在线看| 亚洲欧美日韩中文播放| 6—12呦国产精品| 色偷偷888欧美精品久久久| 香蕉成人影院| 奇米视频888战线精品播放| 性xx色xx综合久久久xx| 在线观看国产网站| 黑人精品xxx一区| 欧美69xxxxx| 日韩av免费在线观看| 国产精品亚洲片在线播放| 日韩激情免费视频| 久久久美女艺术照精彩视频福利播放| 欧美videossex极品| 亚洲欧美一区二区三区久久 | 欧美诱惑福利视频| 精品在线手机视频| 国产精品人人妻人人爽人人牛| 国产亚洲精品bt天堂精选| 在线免费观看av网址| 综合网日日天干夜夜久久| 久久精品国产福利| 三年中国中文在线观看免费播放 | 99久久免费看精品国产一区| 亚洲国产精品久久久久秋霞影院| 视频一区二区免费| 51色欧美片视频在线观看| 狠狠综合久久av一区二区蜜桃| 三级在线视频观看| 亚洲欧洲av一区二区三区久久| 国产麻豆免费视频| 久久久久久91香蕉国产| 青草久久视频| 色片在线免费观看| 亚洲欧美日韩电影| 日本激情一区二区| 日韩av成人在线观看| 日韩精品欧美| 黄色激情在线观看| 欧美性xxxxx极品| 欧美激情视频在线播放| 国产精品久久久久久久久久直播 | 奇米影视四色在线| 有坂深雪av一区二区精品| 婷婷在线免费观看| 国产福利视频一区| 天天做天天爱综合| 无码人妻精品一区二区三区温州 | 国内偷自视频区视频综合 | 福利一区福利二区| 国产字幕在线观看| 九九热这里只有精品免费看| 天美av一区二区三区久久| 性猛交ⅹ×××乱大交| 亚洲午夜视频在线观看| 91网在线播放| 国精产品99永久一区一区| 麻豆精品一区二区三区| 精品无码久久久久久久| 中文字幕视频一区二区在线有码 | 日产中文字幕在线精品一区| 国产v日产∨综合v精品视频| 亚洲欧美日韩一区二区三区四区| 欧美激情综合色| 天天综合一区|