精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Flash Attention穩定嗎?Meta、哈佛發現其模型權重偏差呈現數量級波動

人工智能
最近,許多機構在訓練 SOTA 生成式 AI 模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,比如谷歌的 PaLM 模型訓練過程中出現了多達 20 次的損失尖峰。

Meta FAIR 聯合哈佛優化大規模機器學習時產生的數據偏差,提供了新的研究框架。

眾所周知,大語言模型的訓練常常需要數月的時間,使用數百乃至上千個 GPU。以 LLaMA2 70B 模型為例,其訓練總共需要 1,720,320 GPU hours。由于這些工作負載的規模和復雜性,導致訓練大模型存在著獨特的系統性挑戰。

最近,許多機構在訓練 SOTA 生成式 AI 模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,比如谷歌的 PaLM 模型訓練過程中出現了多達 20 次的損失尖峰。

數值偏差是造成這種訓練不穩定性的潛在原因,由于大語言模型訓練運行成本極高,如何量化數值偏差儼然成為關鍵問題。

在最新的一項工作中,來自 Meta、哈佛大學的研究者開發了一個原則性定量方法來理解訓練優化中的數值偏差,以此評估不同的最新優化技術,并確定它們在用于訓練大模型時是否可能引入意外的不穩定性。

圖片


  • 論文標題:Is Flash Attention Stable?
  • 論文鏈接:https://arxiv.org/pdf/2405.02803

結果發現,在一次單獨的前向傳遞過程中,Flash Attention 的數值偏差比 BF16 的 Baseline Attention 大一個數量級。

具體而言,該方法包括兩個階段,包括:

  • 開發一個微基準來擾動給定優化中的數值精度;
  • 通過基于 Wasserstein 距離的數據驅動分析評估數值偏差如何轉化為模型權重的變化。

研究者分析了 SOTA 優化技術 Flash Attention ,并量化了可能引入的數值偏差。Flash Attention 是一種廣泛用于加速注意力機制的技術,通常被認為是 Transformer 模型中的系統瓶頸。Flash Attention 在提高速度和減少內存訪問量的同時,也依賴于算法優化,而算法優化有可能導致數值偏差的增加。

研究者假設添加重新縮放因子(rescaling factors )可能會引入無意的近似,導致數值折衷,這可能會在后續影響訓練穩定性。

他們在多模態文本到圖像工作負載的背景下分析了 Flash Attention,以確定 Flash Attention 與其基線之間數值偏差的潛在重要性。最終,他們引入了一個框架來量化訓練優化的數值偏差及其下游影響。

研究者在數值偏差量化上主要作出了以下兩點貢獻:

(1)設計了一個微基準來分離數值精度對數值偏差的影響。

研究者所設計的微基準作為一種技術,用于衡量和量化傳統黑盒優化(如 Flash Attention)所導致的數值偏差。通過擾動通常在提供的內核中不可用的方面,他們開創性地發現在低數值精度(BF16)下,與 Baseline Attention 相比,Flash Attention 的數值偏差大約高出一個數量級。

(2)基于 Wasserstein Distance 度量進行了數據驅動的分析。

通過該分析,研究者將觀察到的數值偏差置于上下文,并為其對下游模型屬性的影響形成一個上限(upper bound)。在研究者的案例研究中,他們能夠限制觀察到的數值偏差的影響,并發現:「Flash Attention 引入的模型權重偏差大約為低精度訓練的 1/2 至 1/5 倍。」

這項研究強調了開發一種原則性方法的重要性:「不僅要量化,而且要將訓練優化對數值偏差的影響置于上下文中。」通過構建代理(proxies)來將數值偏差置于上下文中,旨在推斷通常難以衡量的下游模型效果(即訓練不穩定性)的可能性。

實驗方法

研究者首先開發了一個微基準來分離并研究 Flash Attention 引起的數值偏差。如圖 2 所示,他們通過對 Flash Attention 進行數值上的重新實現,以分析不同的數值精度,并在算法的每個步驟應用潛在的優化措施。

圖片

圖 2: 微基準設計摘要。

這是必要的,因為 Flash Attention 內核目前僅支持 FP16 和 BF16 數值格式。該內核還是 CUDA 代碼的包裝 API 調用,這使得擾動算法以檢查數值偏差的影響變得具有挑戰性。

相比之下,他們的微基準設計允許在算法內部進行精度輸入和修改。研究者將微基準與原始的 Flash Attention kernel 進行了驗證。

他們進一步設計了一種技術,以比較模型執行過程中每個步驟的 Attention 矩陣的輸出。并修改了模型代碼,每次調用注意力時都計算 Baseline Attention 和 Flash Attention,這允許對相同的輸入矩陣進行精確的輸出矩陣比較。

為了將其置于上下文中,研究者還通過相同和獨立的訓練運行,使用 Max difference 和 Wasserstein Distance 度量來量化模型權重在整個訓練過程中的差異。

對于訓練實驗,研究者則使用一種將文本輸入轉換為圖像的生成式 AI workload(即文本到圖像模型)。他們使用 Shutterstock 數據集重新訓練模型,并在一組英偉達 80GB A100 GPU 集群上運行此實驗。

通過微基準量化數值偏差

研究者首先分析了 Flash Attention 在前向傳遞過程中的影響。他們利用微基準測試,在隨機初始化查詢、鍵、值向量相同的情況下,檢驗不同數值精度對 Attention 計算的輸出矩陣的影響。

正如圖 3 所示,當研究者使用從 BF16 到 FP64 變化的不同數值格式時,Flash Attention 和 Baseline Attention 之間的數值偏差隨著尾數位數的增加而減小。這表明數值差異是由于較少的尾數位數所固有的近似造成的。

圖片

圖 3:數值格式對于 Flash Attention 的數值偏差所產生的效果。

之后,研究者為進行標準比較,在 FP64 數值格式下的 Baseline Attention 設置了「黃金值」,然后將不同數值格式下的 Attention 輸出與該值進行了比較(如圖 4 所示)。

圖片

圖 4:FP64 下 Baseline Attention「黃金值」的比較。

結果表明,Flash Attention 的數值偏差大約是在 BF16 下 Baseline 的 10 倍。

為了進一步分析這種觀察到的數值偏差,研究者保持 tile 大小和 SRAM 大小不變的同時,掃描了矩陣的序列長度(如圖 5 所示)。

圖片

圖 5: 序列長度對 Flash Attention 數值偏差的影響。

如圖所示,隨著序列長度的增加,無論是通過(a)最大差異上限的測量,還是通過(b)差異的平均值和標準差的測量,Flash Attention 和 Baseline Attention 之間的數值偏差都在增加。

除此之外,研究者還利用微基準設計進行不同優化的實驗,以便更好地了解數值偏差的影響(如圖 6 所示)。

圖 6a 顯示了調換 block 維數的順序如何導致 Flash Attention 和 Baseline Attention 之間的數值差異增大。圖 6b 中的其他擾動,比如限制 tile 大小為正方形,不會對數值偏差產生影響。圖 6c 表明了 block/tile 大小越大,數值偏差越小。

圖片

圖 6: 算法的改變及其對觀察到的數值偏差的影響。

通過權重差異來了解數值偏差

雖然在前向傳遞過程中,Flash Attention 可能會導致 Attention 輸出的數值偏差,但這項研究的最終目標是確定這是否會在模型訓練過程中產生任何影響,以研究它是否會導致訓練的不穩定性。

因此,研究者希望量化 Flash Attention 是否在訓練過程中改變了模型,即上文觀察到的 Attention 輸出差異是否反映在訓練過程中更新的模型權重中。

研究者利用兩個指標來衡量使用 Baseline Attention 訓練的模型與使用 Flash Attention 訓練的模型之間的模型權重差異。首先計算最大差異,即找出權重矩陣之間差異的絕對值并取最大值,從而得出偏差的上限,如下所示:

圖片

雖然最大差值提供了數值偏差的上限,但它沒有考慮到每個矩陣的分布情況。因此,研究者通過 Wasserstein Distance 來量化權重差異,這是衡量張量之間相似性的常用度量。雖然在計算上稍顯復雜,但 Wasserstein Distance 包含了張量分布的形狀信息以衡量相似性。計算公式概述如下:

圖片

數值越低,表明矩陣之間的相似度越高。

利用這兩個指標,研究者隨后量化了在整個訓練過程中與 Baseline Attention 相比,Flash Attention 的模型權重是如何變化的:

圖片

根據 Wasserstein Distance 和 Max Difference 這兩個指標,在整個訓練過程中,Flash Attention 的加入確實改變了模型權重,而且隨著訓練的繼續,這種差異只會越來越大,這表明了使用 Flash Attention 訓練的模型與使用 Baseline Attention 訓練的相同模型收斂到了不同的模型。

然而,訓練是一個隨機過程,某些模型結構的改變可能會在下游效應和準確性方面產生相似的結果。即使使用 Flash Attention 和 Baseline Attention 訓練的模型權重不同,這也是值得關注的。

完全訓練模型并評估準確性是一項成本昂貴且資源密集的任務,特別是對于訓練需要數月的大模型來說。

研究者通過配置一個 proxy 來探尋:

(a) 這些權重變化的意義有多大?

(b) 能否將其與其他廣泛采用的訓練優化中的標準權重變化聯系起來?

為了實現這一目標,研究者設計了一系列實驗來比較在不同場景下,訓練過程中的權重差異是如何變化的。

除了對比使用 Flash Attention 和 Baseline Attention 的訓練過程外,他們還量化了在訓練開始時權重被初始化為不同隨機值的相同訓練過程中的權重差異。這提供了一個界限,因為隨機權重初始化是一種常用的技術,并且通常會產生等效的結果。

此外,研究者還測量了使用不同精度訓練的模型權重的變化。數值精度(即 FP16 與 FP32)有可能導致下游變化,這作為確定了 Flash Attention 權重重要性的一個上限。

如圖 8 所示,可以發現,使用 Flash Attention 的模型權重偏差變化率與不同模型初始化的權重偏差變化率相當或更小(注意紅色和藍色曲線的斜率)。

此外,使用 FP16 與 FP32 時的權重變化率比不同模型初始化時的權重變化率更高,變化也更大。

這些結果提供了一個 proxy,并表明:「雖然 Flash Attention 會出現數值偏差,但它會被隨機模型初始化和低精度訓練所限制。而且所引入的模型權重偏差大約是低精度訓練時的 1/2 至 1/5 倍。」

圖片

圖 8: 使用 Wasserstein Distance metric 測量的訓練過程中的相對權重差異。

更多研究細節,可參考原論文。

責任編輯:姜華 來源: 機器之心
相關推薦

2021-04-22 12:36:20

網絡安全安全運維

2024-06-11 07:38:00

2020-03-26 10:42:31

人工智能機器學習技術

2016-11-21 11:39:05

芯片

2025-05-14 09:07:00

2020-02-25 07:00:54

谷歌Android技術

2024-01-02 09:27:00

AI超算

2022-07-22 14:49:37

語言模型DeepMindAlphaFold2

2025-10-31 08:55:00

2025-05-09 08:54:56

2015-08-10 13:40:56

運維網站

2022-08-18 15:13:37

模型參數

2022-05-05 09:00:00

AI模型數據

2011-09-15 13:18:47

iPad應用SkyfireFlash視頻

2021-11-09 16:59:56

模型人工智能GPU

2024-07-08 06:30:00

2024-05-27 09:01:42

Llama 3大型語言模型人工智能

2021-12-17 15:11:18

加密貨幣數字貨幣貨幣

2025-05-06 13:43:31

零代碼Qwen3微調
點贊
收藏

51CTO技術棧公眾號

天天想你在线观看完整版电影免费| 欧美日韩电影在线观看| 激情伊人五月天| 天堂а√在线8种子蜜桃视频 | 一个人看的www久久| 亚洲天堂网一区| av免费网站在线观看| 成人精品视频一区二区三区 | 成人做爰视频www| 欧美体内谢she精2性欧美| 亚洲成人久久网| 日本精品免费在线观看| av资源种子在线观看| 国产精品一卡二卡在线观看| 性视频1819p久久| 日韩av大片在线| 亚洲色图100p| 国产人妖ts一区二区| 欧美亚洲综合一区| 天堂8在线天堂资源bt| 国产在线观看免费网站| 国产69精品一区二区亚洲孕妇| 欧美在线观看视频| 亚洲色图综合区| 精品国产91久久久久久浪潮蜜月| 日韩亚洲欧美在线| 成人3d动漫一区二区三区| 日本不卡影院| 国产精品国产自产拍高清av| 久久精品美女| 国产叼嘿视频在线观看| 日韩1区2区3区| 午夜精品久久久久久久男人的天堂 | 91美女蜜桃在线| 亚洲xxxx做受欧美| 自拍偷拍精品视频| 亚洲欧美日韩视频二区| 欧美丰满片xxx777| 欧美大片xxxx| 久久中文字幕二区| 中日韩午夜理伦电影免费| 狠狠人妻久久久久久综合蜜桃| 日韩激情精品| 欧美一区永久视频免费观看| 久久这里只精品| 欧美成a人片在线观看久| 欧美日韩国产一区在线| 精品人妻少妇一区二区| 97caopor国产在线视频| 18欧美乱大交hd1984| 亚洲一区二区三区午夜| gogogo高清在线观看免费完整版| 久久久精品国产免大香伊| 久久久com| 瑟瑟在线观看| 91丨九色丨蝌蚪富婆spa| 国产精品日韩欧美一区二区| 亚洲精品成av人片天堂无码| 国产精品一区二区在线播放 | 久久久久观看| 亚洲精品福利免费在线观看| 成人免费看片载| 91精品入口| 亚洲国产成人精品久久| 久久人人爽人人人人片| 日韩深夜福利| 亚洲色图日韩av| 亚洲图片第一页| 999精品视频| 久久久精品999| 免费又黄又爽又色的视频| 欧美精品啪啪| 5278欧美一区二区三区| 亚洲欧美一区二区三区在线观看| 视频在线观看91| 国产精品免费在线免费| 97精品人妻一区二区三区在线 | 日韩无码精品一区二区| 亚洲欧洲色图| 中文日韩电影网站| 美女福利视频在线观看| 亚洲经典一区| 国内精品免费午夜毛片| 免费看污视频的网站| 久久电影网电视剧免费观看| 99三级在线| 天堂av在线免费| 中文字幕免费观看一区| 久久久久久久免费视频| 日本在线播放一二三区| 在线免费不卡视频| 91视频免费入口| 欧美性生活一级片| 日韩中文字幕av| 国产精品18p| 日韩在线一区二区| 5566av亚洲| 黄网站在线观看| 亚洲精品中文在线影院| 成人免费观看毛片| 成人午夜888| 亚洲欧美国产精品va在线观看| 亚洲欧洲综合网| 国产精品资源| 91免费视频网站| 欧美日韩国产综合视频| 亚洲三级电影网站| 成人精品视频一区二区| 久久婷婷五月综合色丁香| 777亚洲妇女| 插吧插吧综合网| 欧美在线黄色| 国产精品美女主播| 国产77777| 欧美激情一区在线观看| 日韩欧美一区二区三区四区| 日本在线观看大片免费视频| 欧美丝袜丝交足nylons图片| 亚洲香蕉中文网| 91麻豆精品国产91久久久平台| 亚州国产精品久久久| 国产男男gay体育生白袜| 国产毛片久久久久久久| 91精品日本| 色av吧综合网| 欧美国产成人精品一区二区三区| 国产剧情在线观看一区二区| 婷婷精品国产一区二区三区日韩| а√在线中文网新版地址在线| 欧美精品久久久久久久久老牛影院 | 久久免费精彩视频| 另类调教123区| 热re99久久精品国产99热| 国产高潮在线| 精品久久五月天| www.色小姐com| 精品一区二区免费在线观看| 婷婷五月色综合| 欧美性suv| 国产视频精品在线| 免费在线观看黄网站| 国产精品亚洲视频| 波多野结衣激情| 日日夜夜综合| 中文字幕日韩欧美在线视频| 波多野结衣视频观看| 久久伊人中文字幕| 欧美成人免费高清视频| 亚洲精品蜜桃乱晃| 欧美最猛性xxxxx免费| 天堂在线中文网| 天天射综合影视| 黄色网址在线视频| 国产精品视区| 美国av一区二区三区| 色偷偷偷在线视频播放| 精品亚洲国产成av人片传媒| 欧美激情黑白配| 久久久国产午夜精品| 日韩精品一区中文字幕| 精品美女久久久| 国产中文欧美精品| 超碰在线网址| 日韩欧美国产电影| 国产无遮挡aaa片爽爽| av一本久道久久综合久久鬼色| 日韩欧美一区二| 亚洲影院天堂中文av色| 国产精品夫妻激情| 午夜视频在线观看网站| 777a∨成人精品桃花网| 欧美成人综合色| av高清久久久| 欧美激情国产精品日韩| 成人系列视频| 亚洲精品免费av| 超碰在线97国产| 日韩久久免费视频| 中文字幕在线播放日韩| 亚洲欧美日韩一区二区| 91传媒理伦片在线观看| 男人的天堂亚洲| 制服丝袜综合日韩欧美| 成人爽a毛片| 日韩美女福利视频| 在线午夜影院| 亚洲免费视频在线观看| 国产精品久久久久久久久久久久久久久久 | 国产精品18p| 国产欧美日韩另类视频免费观看| 中文字幕亚洲欧洲| 亚洲九九精品| 亚洲永久激情精品| 精品欠久久久中文字幕加勒比| 国产成人在线播放| 欧美巨大xxxx做受沙滩| 国产亚洲欧美日韩美女| 亚洲av无码国产精品久久不卡| 精品久久久久久久久久| 51精品免费网站| 久久久久久久久久美女| 一起草最新网址| 久久人人97超碰国产公开结果| 一区二区视频在线免费| 久久综合五月婷婷| 成人福利视频网| 欧美成人免费电影| 欧美激情xxxxx| 婷婷在线视频| 亚洲男人天堂视频| 丰满少妇高潮在线观看| 精品视频一区二区三区免费| 免费在线观看黄网站| 亚洲日本中文字幕区| 成人免费av片| 成人v精品蜜桃久久一区| 午夜免费看毛片| 久久青草久久| 国产精品va无码一区二区| 欧美成熟视频| 亚洲日本精品| 精品国产91久久久久久浪潮蜜月| 国产午夜精品一区| 欧美aaaaaaaa| 国产精品狠色婷| 中文字幕人成乱码在线观看| 欧美国产亚洲视频| 久操视频在线播放| 色一情一乱一区二区| 韩国免费在线视频| 国产偷亚洲偷欧美偷精品| 日本免费网站在线观看| 欧美一区二区国产| 在线观看毛片网站| 在线观看日韩一区| 手机av免费观看| 黑人极品videos精品欧美裸| 国产乱码久久久久久| 亚洲免费观看在线观看| 国内毛片毛片毛片毛片毛片| 久久久精品黄色| av男人的天堂av| 久久久久久99精品| 91资源在线播放| 久久久91精品国产一区二区精品| 亚洲国产精品成人综合久久久| 成人av片在线观看| 日本少妇xxxx| 91色在线porny| 一本色道久久综合亚洲精品图片| 9i在线看片成人免费| 国产精品成人99一区无码| 成人永久免费视频| 日本黄色录像片| 2024国产精品| 乐播av一区二区三区| 国产日韩高清在线| 91导航在线观看| 中文字幕中文在线不卡住| 成人免费视频网站入口::| 亚洲蜜臀av乱码久久精品蜜桃| 一级黄色录像视频| 亚洲亚洲精品在线观看| 日韩精品在线不卡| 色哟哟亚洲精品| 一区二区三区在线免费观看视频| 欧美理论片在线| jizz中国女人| 亚洲第一精品福利| 男人的天堂av高清在线| 色系列之999| 青草影视电视剧免费播放在线观看| 久久久久久亚洲精品不卡| 国产美女高潮在线观看| 日本欧美中文字幕| 96sao精品免费视频观看| www.成人av| 少妇一区二区三区| 午夜欧美性电影| 欧美三级午夜理伦三级中文幕| 欧美爱爱视频免费看| 日韩主播视频在线| 欧美激情第四页| 91视频免费播放| 性生交大片免费全黄| 图片区日韩欧美亚洲| 欧美超碰在线观看| 日韩欧美中文字幕公布| 福利视频一区二区三区| 国产一区二区三区黄片| 欧美一级片在线| 日本韩国免费观看| 一区二区三区 在线观看视| 国产黄网站在线观看| 97热在线精品视频在线观看| 成人va天堂| 91网免费观看| 国产精品最新| 国产一级大片免费看| 美女诱惑一区| 亚洲综合123| 国产亚洲综合在线| 妺妺窝人体色www聚色窝仙踪| 色婷婷久久久久swag精品| 不卡的日韩av| 中文字幕亚洲图片| а√在线中文在线新版| 亚洲qvod图片区电影| 国产伦精品一区二区三区千人斩| 影音先锋成人资源网站| 天堂一区二区在线免费观看| 午夜福利三级理论电影| ...中文天堂在线一区| 国产一卡二卡三卡| 日韩成人中文字幕在线观看| 1769免费视频在线观看| 国产精品入口免费视频一| 看全色黄大色大片免费久久久| 中国成人亚色综合网站| 日韩av电影免费观看高清完整版| 在线观看国产免费视频| 青青在线视频| 国产亚洲欧美日韩美女| 高清精品在线| 福利视频久久| 欧美日韩一视频区二区| 亚洲综合激情视频| 日本一区二区三区国色天香| av资源免费观看| 亚洲成人1234| 欧美理论片在线播放| 3d动漫啪啪精品一区二区免费 | 成人国产精品一区二区免费麻豆 | 亚洲一区在线视频| 国产女人18毛片18精品| 精品国产一区二区在线| 成人黄色图片网站| 亚洲欧美日韩综合一区| 日韩精品亚洲专区| 亚洲av无码一区二区三区人 | 久久久久国色av免费观看性色| 亚洲一区有码| 一区二区不卡在线观看| 日av在线不卡| 1024手机在线观看你懂的| 欧美色视频一区| jzzjzzjzz亚洲成熟少妇| 国产精品欧美激情在线播放| 俺要去色综合狠狠| 亚洲人视频在线| 亚洲男人都懂的| www.av网站| 欧美精品国产精品日韩精品| 精品福利一区| 欧美精品一区免费| 国产午夜三级一区二区三| 日韩黄色片网站| 日韩最新av在线| 免费欧美网站| 亚洲国产精品久久人人爱蜜臀| 色婷婷av国产精品| 亚洲精品资源美女情侣酒店| 电影亚洲精品噜噜在线观看| 亚洲美女网站18| 国产一区二区精品在线观看| 久久97人妻无码一区二区三区| 亚洲精品在线电影| 亚洲一二三四| 亚洲欧洲日夜超级视频| 国产尤物一区二区| 国产一级二级三级视频| 精品亚洲一区二区三区四区五区| 欧美三级网址| 成人性做爰片免费视频| 成人高清视频免费观看| 国产精品第5页| 日韩视频免费看| 日韩在线视频一区二区三区| 黄页网站大全在线观看| 久久免费美女视频| 91亚洲欧美激情| 国内精品久久影院| 久久在线视频| 亚洲啪av永久无码精品放毛片 | 国产精品高潮呻吟久久久久| www.浪潮av.com| 亚洲欧美色一区| 欧美男男同志| 成人激情视频网| 鲁大师影院一区二区三区| 成人午夜免费影院| 精品国产伦一区二区三区观看方式 | 成人综合国产精品| 国产日韩欧美三区| 永久免费看片直接| 国产手机视频精品| 精品国产亚洲日本| 免费大片在线观看| 亚洲一区二区三区四区五区中文| 岛国在线大片|