精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind研究成本大起底,一篇ICML論文燒掉1290萬美元

人工智能 新聞
DeepMind最近被ICML 2024接收的一篇論文,完完全全暴露了他們背靠谷歌的「豪橫」。一篇文章預估了這項研究所需的算力和成本,大概是Llama 3預訓練的15%,耗費資金可達12.9M美元。

發一篇頂會論文,需要多少實驗預算?

最近,DeepMind發表了一項研究,對LLM擴大規模時各種算法和架構細節,比如參數和優化器的選擇,進行了廣泛的實證調查。

這篇論文已被ICML 2024接收。

圖片

論文地址:https://arxiv.org/abs/2407.05872

63頁的論文涵蓋了數以萬計的模型,備選方案包括3種優化器、4種參數化方案、幾種對齊假設、十多個學習率,以及最高達26.8B的14種參數規模。

圖片

需要進行實驗的4種參數化方案

僅僅聽到這些數字,就不難知道,這項研究必定涉及海量的模型運行實驗。

而有一位忠實讀者,為了測試自己對論文內容的理解,統計了其中進行的所有實驗,并估算出了復現論文的成本。

圖片

將所需算力全部加在一起,林林總總,居然達到了驚人的1290萬美元。

考驗基本功的時刻到了,假如你是研究團隊的leader,根據實驗計劃對所需算力和成本進行預估是一項必不可少的技能。

那就讓我們跟著這篇博客文章盤一遍,這一千多萬美元,究竟燒在哪里。

Transformer架構信息

論文附錄C提供了關于模型算法和架構的各種細節設置,比如使用decoder-only架構、層歸一化、GeLU激活函數、無dropout、T5分詞器、批大小為256、用FSDP并行等等。

圖片

實驗模型的參數規模統計

通過架構方面的信息,我們可以大致估算出訓練中每個token所需的FLOPS,記為M。

由于論文沒有描述到任何GQA/MQA機制,所以就假設Rkv=1,此外還有lseq=512,Dhead=128,L=8(深度),V=32101(分詞器詞匯量)。

模型總參數量可以表示為:

圖片

因此,就可以得到M的計算公式:

圖片

默認情況下,每次實驗處理的token數(tokens per experiment, TPE)為5k(訓練步數)×256(批大小)×512(lseq),約為6.5536e9。

def M(d: int, L=8, l_seq=512, V=32101) -> int:
    return 6*d * (L*(12*d + l_seq) + V)
TPE = 50000 * 256 * 512

對齊實驗

假設對齊實驗中,直接使用了后面的學習率掃描得出的最優結果,并沒有單獨進行學習率掃描,因此這一步的成本計算比較簡單:

圖片

def alignment() -> int:
    return 4 * TPE * sum(M(d) for d in [1024,2048,4096])
# >>> f'{alignment():.3E}'
# '3.733E+20'
# >>> cost_of_run(alignment())[0]
# 888.81395400704

如果H100每運行1小時的花費以3美元計算,對齊實驗的成本大致為888美元。

學習率

子問題:最佳評估損失(eval loss)實驗

論文的表E1記錄了6種模型規模下,所有可能的優化器×參數化方案×模型大小×實驗設置的組合,分別進行基礎學習率掃描,以獲得最佳評估損失。

圖片

總共包括如下幾個實驗變量:

- 模型維度D∈3072,4096,6144,8192,12288,16384

- 4種參數化方案

- 3種優化器,其中SGD僅有5個實驗設置,Adam和Adam+Param Scaling有7個實驗設置

假設這里的實驗都是單獨進行,沒有從其他地方復制結果,因此如果全部運行一遍,有成本上限預估:

圖片

H = [1,2,4,6,8,12,16,20,24,32,48,64,96,128]
D = [h * 128 for h in H]
def table_e1() -> int:
  sets_x_optims = 5 + 7 + 7
  return 4 * sets_x_optims * TPE * sum(M(d) for d in D[-6:])
# >>> f'{table_e1():.3E}';cost_of_run(table_e1())
# '1.634E+23'
# (388955.9991064986, 16206.499962770775)

這部分的成本就接近40萬美元,雖然仍屬于可接受范圍內,但對于大多數學術預算來說,已經算是非常昂貴了。

表E1給出了最佳評估損失,但沒有描述LR的掃描策略,每張圖上的點數也不盡相同。

圖片

由于沒有得到論文作者的答復,我們也無法確定具體機制,因此假設每個最佳評估損失都經過了15次實驗(目測發現,每條線的點數約為10~15)。

β參數

根據論文4.2節內容,學習率還涉及到兩個超參數的選擇:β和γ。

圖片

如果僅有β參數,則被稱為「LR+default」設置:

圖片

這部分包括3×優化器,4×參數化,加上全局和單層(GlobalLR、Perlayer-fullalign)分別進行實驗,以及未知的LR掃描數量:

圖片

def beta_only() -> int:
  return 3*4*2*PpL * TPE * sum(M(d) for d in D)
# 7.988E+23 (1902022.3291813303, 79250.93038255542)

從公式就可以看出,成本和下文的epsilon實驗類似,都是200萬美元。

γ參數

相比β參數的實驗,這部分有兩個細節差異。

首先,除了GlobalLR、Perlayer-fullalign兩種設置外,還需要加上Perlayer-noalign設置。

圖片

其次,僅針對d=1024=b,進行3D超參數搜索(γ_1,γ_h,γ_L+1),因此有額外的800次運行。

圖片

兩者結合后的計算公式為:

圖片

這部分的預估成本與Adam的epsilon熱力圖實驗接近,約為320萬美元。

def gamma_expts() -> int:
  return 36*TPE * (800*M(1024) + PpL*sum(M(d) for d in D))
# gamma_expts 1.354E+24 (3224397.534237257, 134349.8972598857)

Adam優化器的Epsilon參數

論文4.3節所述的Epsilon參數實驗是計算量的大頭。

圖片

圖片

根據上面的推斷,每次找到最佳評估損失時都嘗試過15個不同的學習率(points per line),那么圖6所示的epsilon參數變化圖耗費的計算量為:

圖片

計算結果透露出一種簡潔的昂貴,也就是200萬美元的賬單而已。

PpL = 15 # unprincipled estimate
def eps_variants() -> int:
  return 4 * 6 * PpL * TPE * sum(M(d) for d in D)
'''
>>> f'{eps_variants():.3E}';cost_of_run(eps_variants())
'7.988E+23'
(1902022.3291813303, 79250.93038255542)
'''

除了圖6左側的折線圖,還有附錄F熱力圖的結果。

圖片

假設每個方塊值都是經過13次學習率掃描后得到的結果,這部分計算量則為:

圖片

結果發現,僅僅要得到這8張熱力圖,成本就是320萬美元。而且,由于我們將LR掃描數量建模為常數13,這個數字可能低于實際成本。

def eps_heatmaps() -> int:
  # eps-type * eps-val * parameterizations * LR range * ...
  return 2 * 6 * 4 * 13 * TPE * sum(M(d) for d in D[-6:])
'''
>>> f'{eps_heatmaps():.3E}';cost_of_run(eps_heatmaps())
'1.341E+24'
(3193533.466348094, 133063.89443117057)
'''

權重衰減

權重衰減實驗(附錄G)比較好理解,對4×參數化方案以及所有參數進行一次基本的LR掃描:

圖片

比epsilon實驗便宜不少,也就是灣區工程師一年的工資——31.7萬美元。

def weight_decay() -> int:
  return 4 * PpL * TPE * sum(M(d) for d in D)
'''
>>> f'{weight_decay():.3E}'; cost_of_run(weight_decay())
'1.331E+23'
(317003.7215302217, 13208.488397092571)
'''

Adafactor優化器

這部分實驗在附錄C3中有詳細描述,是為了檢驗Adafactor和Adam+parameter scaling是否有相似的寬度縮放機制。

圖片

共有2×4張圖,其中每個優化器收集11個數據點,因此計算公式為:

圖片

賬單上再加18.8萬美元。

def adafactor() -> int:
  return 2*2*4*PpL*TPE*sum(M(d) for d in D[:11])
'''
>>> f'{adafactor():.3E}'; cost_of_run(adafactor())
'7.918E+22'
(188532.80765144504, 7855.533652143543)
'''

計算最優化

論文嘗試改變注意力頭H的數量,希望找到計算最優化的設置,但其中涉及步長和數據集的改變,因此這部分不使用公式描述,計算代碼如下:

def P(d: int, L=8, V=32101) -> int:
    return 2 * d * (6*L*d + V)

def compute_optimal():
  indices_50k = (14, 14, 12)
  return 4*PpL*sum([
    TPE * sum(sum( M(d) for d in D[:i] ) for i in indices_50k),
        20  * sum(P(d)*M(d) for d in D[:11]) *3,
  ])
# compute_optim 7.518E+23 (1790104.1799513847, 74587.67416464102)

總結

將以上各部分實驗的算力和成本匯總在一起:

alignment       3.733E+20 (888.81395400704, 37.033914750293334)
table_e1        1.634E+23 (388955.9991064986, 16206.499962770775)
eps_variants    7.988E+23 (1902022.3291813303, 79250.93038255542)
eps_heatmaps    1.341E+24 (3193533.466348094, 133063.89443117057)
beta_only       7.988E+23 (1902022.3291813303, 79250.93038255542)
gamma_expts     1.354E+24 (3224397.534237257, 134349.8972598857)
weight_decay    1.331E+23 (317003.7215302217, 13208.488397092571)
adafactor       7.918E+22 (188532.80765144504, 7855.533652143543)
compute_optim   7.518E+23 (1790104.1799513847, 74587.67416464102)

結果發現,整篇論文的運算量為5.42e24 FLOPS。

這個數字僅僅是Llama 3訓練計算量的15%,如果在10萬卡H100集群上運行,只需要2天時間即可完成所有實驗。

total_flops=5.421E+24
rental price: US$12.9M
h100 node months required: 746.9595590938408

(sanity check) D=[128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 4096, 6144, 8192, 12288, 16384]
(sanity check) model sizes: ['0.00979B', '0.0227B', '0.058B', '0.106B', '0.166B', '0.325B', '0.534B', '0.794B', '1.1B', '1.87B', '4.02B', '6.97B', '15.3B', '26.8B']
(sanity check) M/6P: ['63.4%', '68.5%', '75.3%', '79.7%', '82.8%', '86.8%', '89.3%', '91.0%', '92.2%', '93.9%', '95.7%', '96.7%', '97.7%', '98.3%']

然而,如果不從LLM預訓練的標準來衡量,僅把DeepMind的這篇論文看做一篇學術研究,這個計算量就顯得相當奢侈了。

如果實驗室僅有10張H100,就根本不可能進行這個量級的研究。

有100張H100的大型實驗室,或許能用幾年時間跑完以上所有實驗。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-07-03 10:58:35

DeepMind深度學習

2020-09-04 16:38:01

網絡攻擊勒索軟件數據泄露

2023-06-21 11:10:12

人工智能AI

2021-08-01 12:04:03

數據泄露漏洞信息安全

2021-05-04 21:22:35

勒索軟件數據恢復網絡攻擊

2021-08-03 15:04:13

數據泄露漏洞信息安全

2012-02-10 09:34:02

2015-08-25 14:23:07

數據

2009-02-25 09:27:47

微軟游戲學習能力

2023-07-25 13:59:29

谷歌論文

2017-03-06 16:43:04

無人駕駛Google X懸滑板

2023-07-25 13:39:00

2021-09-16 09:02:59

數據泄露漏洞成本

2021-04-30 11:31:42

勒索軟件攻擊組織

2021-10-11 14:07:28

比特幣虛擬貨幣加密貨幣

2021-08-15 21:35:08

數據泄露漏洞信息安全

2021-05-18 14:32:25

勒索軟件攻擊數據泄露

2021-03-15 09:50:01

漏洞網絡安全網絡攻擊

2020-10-15 12:31:45

安全合規成本IT安全

2023-09-10 10:45:37

模型人工智能
點贊
收藏

51CTO技術棧公眾號

69视频免费在线观看| 三上悠亚在线一区| 99视频免费看| 午夜久久一区| 日韩三级.com| 久久久久免费看黄a片app| 外国精品视频在线观看| 午夜在线精品偷拍| 亚洲色图五月天| 91福利国产成人精品播放| 欧美三级黄网| av在线这里只有精品| 欧洲精品在线视频| 懂色av粉嫩av浪潮av| www黄色网址| 操欧美老女人| 欧美片在线播放| 四虎4hu永久免费入口| 午夜黄色小视频| 免费成人美女在线观看.| 久久精品亚洲热| 日本精品一二三| 日韩精品麻豆| 亚洲成人资源网| 鲁片一区二区三区| 伊人久久一区二区| 在线国产欧美| 中文字幕自拍vr一区二区三区| 中文字幕在线视频一区二区| 2018av在线| 中文字幕在线观看不卡| 精品一卡二卡三卡四卡日本乱码 | 围产精品久久久久久久| 精品1区2区在线观看| av观看免费在线| h视频在线免费观看| 2021久久国产精品不只是精品| 国产在线拍偷自揄拍精品| 日韩精品――中文字幕| 日韩三级在线| 亚洲免费一在线| wwwxxx色| 在线播放成人| 欧美主播一区二区三区| 国产视频一视频二| 曰本三级在线| 国产欧美视频一区二区三区| 粉嫩av一区二区三区免费观看| 中文字幕乱伦视频| 国产亚洲毛片在线| 久久久久久久国产| 破处女黄色一级片| 四虎成人av| 夜夜嗨av一区二区三区四区| 亚洲av成人无码一二三在线观看| 警花av一区二区三区| 欧美日韩一区二区在线观看| 99久久久无码国产精品6| av网址在线| 亚洲欧美日韩国产一区二区三区| 国产成a人无v码亚洲福利| 久久亚洲国产精品成人av秋霞| 熟女少妇一区二区三区| 少妇精品在线| 日韩欧美国产精品一区| 亚洲天堂国产视频| 伦一区二区三区中文字幕v亚洲| 91久久精品一区二区三| a√天堂在线观看| 欧美黄色视屏| 亚洲一区在线看| 99久热在线精品视频| 色多多视频在线观看| 国产精品萝li| 亚洲精品不卡| 日本啊v在线| 久久久久久麻豆| 欧美日韩在线高清| 激情福利在线| 国产精品欧美一区喷水| 在线观看欧美激情| 成人在线影视| 一二三四社区欧美黄| 91.com在线| 丰满大乳少妇在线观看网站 | 97超碰人人在线| 久久五月婷婷丁香社区| 蜜桃传媒视频麻豆第一区免费观看| 午夜视频在线播放| 久久综合九色综合欧美98| 日本精品视频一区| 国产中文在线| 亚洲欧美综合在线精品| 日韩中文字幕av在线| av在线免费一区| 亚洲视频香蕉人妖| avav在线播放| 在线看的毛片| 在线观看网站黄不卡| 香蕉视频禁止18| 一区二区三区| 亚洲国产高清自拍| 午夜精产品一区二区在线观看的| 91综合在线| 欧美极品少妇与黑人| 亚洲GV成人无码久久精品| 蜜臀av一区二区在线观看| 95av在线视频| 水中色av综合| 亚洲天堂免费看| 国产 福利 在线| 黄色成人小视频| 精品美女在线观看| 最近中文字幕在线mv视频在线| 久久综合国产| 欧洲成人免费视频| 国产精品女同一区二区| 92精品国产成人观看免费 | 亚洲女同中文字幕| 久久久爽爽爽美女图片| 精品无码一区二区三区的天堂| 国产一区二区剧情av在线| 久久国产精品 国产精品| 国产主播福利在线| 一区二区理论电影在线观看| 亚洲中文字幕久久精品无码喷水 | 777亚洲妇女| 熟女俱乐部一区二区视频在线| 在线国产一区| 国产精品ⅴa在线观看h| 亚洲精品视频91| 国产亚洲综合色| 老子影院午夜伦不卡大全| 精品乱码一区二区三区四区| 日韩经典中文字幕| 久草中文在线视频| 精品中文av资源站在线观看| 欧美亚洲另类久久综合| 久久香蕉一区| 在线91免费看| 久久久国产精品无码| 欧美二区视频| 91麻豆国产精品| 久草在线青青草| 五月婷婷欧美视频| 国产裸体视频网站| 国产高清一区| 国产精品夜色7777狼人| 亚洲av成人无码久久精品老人| 一区二区三区日韩精品视频| 亚洲视频在线不卡| 99精品一区| 国产精品男女猛烈高潮激情| 欧美日韩在线精品一区二区三区激情综| 亚洲图片有声小说| 又大又长粗又爽又黄少妇视频| 国产不卡av一区二区| 91国产美女视频| 高清一区二区三区四区| 亚洲精品乱码久久久久久| 一级日本黄色片| 伊人色**天天综合婷婷| 91视频免费网站| 超碰在线免费公开| 欧美一二区视频| 国产1区2区3区4区| 国产成人免费视| 妺妺窝人体色www看人体| 婷婷视频一区二区三区| 欧美老女人性视频| 亚洲国产精品18久久久久久| 亚洲在线视频一区| 欧美日韩一区二区三区四区五区六区| 国产精品videosex性欧美| 国产一区香蕉久久| 精品视频在线一区二区| 欧美一区三区四区| 亚洲综合网在线| 国产91精品在线观看| 日韩在线观看a| 日韩超碰人人爽人人做人人添| 性欧美xxxx交| 日av在线播放| 欧美三区在线观看| 2019男人天堂| 另类小说欧美激情| 法国空姐在线观看免费| 成人午夜大片| 国产最新精品视频| 日韩亚洲视频在线观看| 欧美日韩日日摸| 国产av 一区二区三区| 高清不卡一区二区| 欧美精品一区二区三区免费播放| 久久久国产精品| 国产精品制服诱惑| 久久久成人av毛片免费观看| 日韩中文在线观看| 欧性猛交ⅹxxx乱大交| 日韩欧美黄色动漫| 日韩在线观看免| 成人黄色av网站在线| 成年人视频网站免费观看| 久久国产中文字幕| 国产精品午夜av在线| 国产成人精品123区免费视频| y97精品国产97久久久久久| 性中国xxx极品hd| 日韩欧美在线观看视频| 一区二区三区影视| 97se狠狠狠综合亚洲狠狠| 国产精品宾馆在线精品酒店| 色999国产精品| 国产精品自拍首页| 香蕉久久久久久| 91chinesevideo永久地址| 色的视频在线免费看| 亚洲电影免费观看高清完整版在线观看 | 天天综合网久久综合网| 中文字幕一区二区三区不卡在线 | 日本10禁啪啪无遮挡免费一区二区 | 国产精品久久久久7777按摩| 中国老熟女重囗味hdxx| 日本强好片久久久久久aaa| 日韩久久久久久久久久久久| 狠狠久久伊人| 成人午夜激情免费视频| 九色porny丨首页入口在线| 久久天天躁狠狠躁夜夜爽蜜月| 色吊丝在线永久观看最新版本| 欧美精品日韩一区| 69成人免费视频| 亚洲综合色噜噜狠狠| 少妇太紧太爽又黄又硬又爽小说 | 欧美熟妇精品一区二区蜜桃视频| 精品一区二区在线免费观看| 毛片av免费在线观看| 激情欧美一区| 黄色影视在线观看| 欧美美女一区| 欧美激情论坛| 国产精品毛片视频| 97伦理在线四区| 91麻豆精品国产综合久久久| 国产精品久久久久999| а√天堂资源官网在线资源| 欧美二区在线播放| 国产三级电影在线| 日韩经典第一页| 少妇高潮一区二区三区69| 在线免费观看不卡av| av资源免费观看| 91黄色激情网站| 中文字幕一区2区3区| 欧美日韩夫妻久久| 国产伦精品一区二区三区四区 | 91大神xh98hx在线播放| 伊是香蕉大人久久| 男女啪啪在线观看| 欧美精品情趣视频| 丰满诱人av在线播放| 欧美亚洲另类视频| av免费在线一区| 成人欧美一区二区三区在线| 亚洲2区在线| 九9re精品视频在线观看re6| 国产一区毛片| 中文字幕中文字幕一区三区| 欧美视频亚洲视频| 免费看国产曰批40分钟| 日韩在线a电影| 亚洲精品第三页| 成人午夜av影视| 久久久久久亚洲中文字幕无码| 国产精品网友自拍| 农村妇女精品一区二区| 五月天精品一区二区三区| 天天射天天干天天| 6080午夜不卡| 瑟瑟在线观看| 久久亚洲电影天堂| 美女91在线看| 国产在线观看91精品一区| 欧美成人精品午夜一区二区| 久久久久久亚洲精品不卡4k岛国| 日韩av在线播放网址| 国产一级爱c视频| 日本aⅴ亚洲精品中文乱码| 91精产国品一二三| 国产日韩欧美高清在线| 2021亚洲天堂| 欧美在线制服丝袜| 亚洲国产中文字幕在线| 亚洲日本欧美日韩高观看| 99视频免费在线观看| 欧洲亚洲免费视频| 一区二区亚洲视频| 午夜午夜精品一区二区三区文| 伊人久久成人| 奇米视频7777| 久久丝袜美腿综合| 欧美高清视频一区二区三区| 日本高清成人免费播放| 亚洲乱码国产乱码精品精软件| 亚洲欧美日韩图片| 福利小视频在线| 成人午夜高潮视频| 欧美手机视频| 逼特逼视频在线| 国产成人综合在线观看| 在线观看日本黄色| 欧美色视频日本版| 成人免费一级视频| 日韩一区二区三区国产| 欧美va视频| 九色91国产| 亚洲国产精品第一区二区| 五月天六月丁香| 国产精品第13页| 波多野结衣视频网址| 日韩av在线直播| 欧美另类tv| 99视频免费观看| 亚洲国产精品91| 在线黄色免费看| 国产精品视频免费看| 久久久国产免费| 国产丝袜一区视频在线观看| 2020国产在线| 国产精品久久精品视| 中文字幕午夜精品一区二区三区| 日韩av.com| 国产精品二区一区二区aⅴ污介绍| 中文在线第一页| 亚洲欧美日韩精品久久| 自拍偷拍亚洲视频| 欧美精品一区在线| 美女精品在线| 国产jjizz一区二区三区视频| 欧美午夜激情视频| 麻豆app在线观看| 日本精品视频在线播放| 蜜臀91精品国产高清在线观看| 亚洲自偷自拍熟女另类| 99国产精品久| 国产精品久久久久久人| 亚洲人成网站免费播放| 视频二区不卡| 亚洲精品一区二区三区四区五区| 免费精品视频最新在线| 日本在线观看网址| 91精品国产综合久久久久久久久久 | 1204国产成人精品视频| 99久久久精品视频| 波多野结衣中文字幕一区二区三区| 黄色片视频网站| 国产视频综合在线| av一区在线| 国产日本欧美在线| 国产一区二区三区久久悠悠色av | 影音先锋亚洲一区| 久久久久亚洲AV成人无码国产| 粉嫩老牛aⅴ一区二区三区| 狠狠狠综合7777久夜色撩人| 国产精品永久在线| 欧美黄色一级视频| 久久久久9999| 欧美在线免费视屏| 日本天堂在线观看| 亚洲综合日韩中文字幕v在线| 激情综合自拍| 国产黄色大片免费看| 正在播放亚洲一区| heyzo高清国产精品| 日本精品视频一区| 国产精品99精品久久免费| 黄色片视频网站| 色yeye香蕉凹凸一区二区av| 久久伦理中文字幕| 男人操女人逼免费视频| 国产精品青草久久| 日本黄色不卡视频| 国产精品男女猛烈高潮激情| 欧美久久综合| 国产午夜福利一区| 欧美变态tickle挠乳网站| 自拍偷自拍亚洲精品被多人伦好爽| 日本丰满少妇黄大片在线观看| 成人av在线看| 亚洲一级在线播放| 91高清在线免费观看| 羞羞色午夜精品一区二区三区| 欧亚乱熟女一区二区在线| 欧美日韩一区高清| 欧美裸体视频| 久久天天东北熟女毛茸茸| 久久久久国产精品厨房| 成人h动漫精品一区二区无码| 国产成人97精品免费看片| 午夜视频一区|