精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama3.1訓(xùn)練平均3小時(shí)故障一次,H100萬卡集群好脆弱,氣溫波動(dòng)都會(huì)影響吞吐量

人工智能
不過,SemiAnalysis一個(gè)月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠(yuǎn)遠(yuǎn)不只是有沒有錢買卡的事。在電力、網(wǎng)絡(luò)設(shè)計(jì)、并行、可靠性等很多方面都面臨局限。

每3個(gè)小時(shí)1次、平均1天8次,Llama 3.1 405B預(yù)訓(xùn)練老出故障,H100是罪魁禍?zhǔn)祝?/p>

最近有人從Meta發(fā)布的92頁超長Llama 3.1論文中發(fā)現(xiàn)了華點(diǎn):

Llama 3.1在為期54天的預(yù)訓(xùn)練期間,經(jīng)歷了共466次任務(wù)中斷。其中只有47次是計(jì)劃內(nèi)的,419次純屬意外,意外中78%已確認(rèn)或懷疑是硬件問題導(dǎo)致。

而且GPU問題最嚴(yán)重,占了58.7%

Llama 3.1 405模型是在一個(gè)含16384塊Nvidia H100 80GB GPU集群上進(jìn)行訓(xùn)練的。雖說針對大規(guī)模系統(tǒng)有句老話:唯一確定的就是會(huì)出故障。

但這一問題還是引起不少網(wǎng)友關(guān)注。

放慢速度,check一下產(chǎn)品吧。

圖片圖片

圖片圖片

老出故障,咋整?

具體來看,在419次意外中斷中,148 次(30.1%)是由各種GPU故障(包括NVLink故障)引起的,72次 (17.2%)可以具體到是由HBM3內(nèi)存故障引起。

鑒于H100的700W高功耗和熱應(yīng)力,出現(xiàn)這樣的結(jié)果也并不意外。

有意思的是,54天內(nèi)只有兩次是CPU出現(xiàn)了故障。

除了GPU外的另一半故障由眾多因素導(dǎo)致,比如軟件Bug、網(wǎng)絡(luò)電纜等等。

圖片圖片

不過最終,Llama 3.1團(tuán)隊(duì)保持了超90%的有效訓(xùn)練時(shí)間。只有三起故障需要人工大幅介入,其余的都自動(dòng)化處理了。

那么他們是如何應(yīng)對的?

為了增加有效訓(xùn)練時(shí)間,Llama 3.1團(tuán)隊(duì)表示減少了任務(wù)啟動(dòng)和checkpointing時(shí)間,并開發(fā)了一些工具來快速診斷和解決問題。

其中廣泛使用了PyTorch的內(nèi)置NCCL flight recorder(Ansel等人2024年開發(fā)),是一個(gè)可以把集體元數(shù)據(jù)和堆棧跟蹤記錄到一個(gè)循環(huán)緩沖區(qū)里的功能,這樣就能快速診斷大規(guī)模卡頓和性能問題,特別是跟NCCLX有關(guān)的問題。

圖片圖片

用這個(gè)工具,團(tuán)隊(duì)能有效記錄每次通信事件和每個(gè)集體操作的持續(xù)時(shí)間,在NCCLX Watchdog或Heartbeat超時(shí)時(shí)還能自動(dòng)導(dǎo)出跟蹤數(shù)據(jù)。

還可以根據(jù)需要,通過在線配置更改(Tang等人2015年提出的方法)來選擇性地啟用一些計(jì)算量更大的跟蹤操作和元數(shù)據(jù)收集,而不需要重新發(fā)布代碼或重啟任務(wù)。

圖片圖片

團(tuán)隊(duì)表示,在大規(guī)模訓(xùn)練中調(diào)試問題很復(fù)雜,因?yàn)榫W(wǎng)絡(luò)同時(shí)使用了NVLink和RoCE。通過NVLink傳輸數(shù)據(jù)通常是通過CUDA內(nèi)核發(fā)出的加載/存儲(chǔ)操作來完成的,如果遠(yuǎn)程GPU或NVLink連接出了問題,往往表現(xiàn)為CUDA內(nèi)核里的加載/存儲(chǔ)操作卡住了,卻不會(huì)返回明確的錯(cuò)誤代碼。

而NCCLX通過與PyTorch緊密配合,提高了故障檢測和定位的速度和準(zhǔn)確性,讓PyTorch能夠訪問NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

雖然無法完全避免NVLink故障導(dǎo)致的卡頓,但系統(tǒng)會(huì)監(jiān)控通信庫狀態(tài),在發(fā)現(xiàn)卡頓時(shí)自動(dòng)超時(shí)。

此外,NCCLX還會(huì)跟蹤每次NCCLX通信的內(nèi)核和網(wǎng)絡(luò)活動(dòng),并在失敗時(shí)提供NCCLX集體操作內(nèi)部狀態(tài)“快照”,包括所有等級之間已完成和待處理的數(shù)據(jù)傳輸。團(tuán)隊(duì)通過分析這些數(shù)據(jù)來調(diào)試NCCLX的擴(kuò)展問題。

有時(shí),硬件問題可能導(dǎo)致某些部分雖然看起來還在運(yùn)行,但速度變慢,這種情況很難被發(fā)現(xiàn)。即使只有一個(gè)部分變慢,也可能拖慢數(shù)千個(gè)其它GPU的速度。

為此團(tuán)隊(duì)開發(fā)了一些工具,可以優(yōu)先處理某些可能有問題的進(jìn)程組的通信。通常只需要調(diào)查幾個(gè)最可疑的對象,就能有效找出那些變慢的部分。

團(tuán)隊(duì)還觀察到了一個(gè)有趣的現(xiàn)象——環(huán)境因素對大規(guī)模訓(xùn)練性能的影響。在訓(xùn)練Llama 3.1 405B時(shí),吞吐量會(huì)根據(jù)一天中時(shí)間的不同而有1-2%的變化。這是因?yàn)橹形鐪囟容^高,影響了GPU動(dòng)態(tài)電壓和頻率調(diào)節(jié)。

在訓(xùn)練過程中,數(shù)萬個(gè)GPU可能會(huì)同時(shí)增加或減少功耗,比如在所有GPU等待checkpointing或集體通信完成時(shí),或者在整個(gè)訓(xùn)練任務(wù)啟動(dòng)/關(guān)閉時(shí)。這種情況發(fā)生,可能導(dǎo)致數(shù)據(jù)中心的瞬時(shí)功耗波動(dòng)達(dá)到數(shù)十兆瓦,對電網(wǎng)來說是個(gè)不小的考驗(yàn)。

團(tuán)隊(duì)最后還表示:

隨著未來更大的Llama模型擴(kuò)展訓(xùn)練規(guī)模,這一挑戰(zhàn)將持續(xù)存在。

圖片圖片

AI集群問題正待破壁

Meta2022年首次分享了其AI研究超級集群(RSC)的詳細(xì)信息,當(dāng)時(shí)擁有16000個(gè)NVIDIA A100 GPU,幫助其構(gòu)建了第一代AI模型,在Llama初代和Llama 2開發(fā)中都發(fā)揮了重要作用。

圖片圖片

△來自Meta

今年三月份,Meta又公開了24576個(gè)NVIDIA H100 GPU的AI集群,支持Llama 3及之后模型。

更是定下了到今年年底增加350000個(gè)NVIDIA H100 GPU的目標(biāo),作為整體算力的一部分(整體算力近600000個(gè)H100 GPU)

圖片圖片

這么大的規(guī)模,emmm可不是個(gè)持續(xù)性的挑戰(zhàn)嘛。當(dāng)然,大規(guī)模AI集群會(huì)給模型訓(xùn)練造成故障是一個(gè)有些“遠(yuǎn)古”的問題,很早之前就有相關(guān)研究。

H100本身什么含金量無需多言。

在去年最新MLPerf訓(xùn)練基準(zhǔn)測試中,英偉達(dá)H100集群,橫掃八項(xiàng)測試,全部創(chuàng)下新紀(jì)錄,并且在大語言模型任務(wù)中表現(xiàn)尤為突出。

圖片圖片

11分鐘內(nèi)訓(xùn)練一遍GPT-3,8秒訓(xùn)完BERT。在大語言模型任務(wù)中,H100集群的加速性能逼近線性增長。即隨著集群處理器數(shù)量增加,加速效果也幾乎同比增加。

意味著在集群內(nèi)GPU之間的通信效率非常高。

圖片圖片

除此之外,H100還完成了推薦算法、CV、醫(yī)學(xué)圖像識別以及語音識別等任務(wù),是唯一一個(gè)參加8項(xiàng)測試的集群。

不過,SemiAnalysis一個(gè)月前的一篇文章指出,構(gòu)建大規(guī)模AI算力集群非常復(fù)雜,遠(yuǎn)遠(yuǎn)不只是有沒有錢買卡的事。

在電力、網(wǎng)絡(luò)設(shè)計(jì)、并行、可靠性等很多方面都面臨局限。

圖片圖片

參考鏈接:
[1]https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

[2]https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
[3]https://www.semianalysis.com/p/100000-h100-clusters-power-network

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-07-29 14:06:57

2024-03-15 09:00:00

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-03-13 13:36:57

Llama-3GPUAI

2024-01-19 12:34:39

2025-05-06 15:39:53

DeepSeek-R英偉達(dá)開源

2019-08-20 00:20:47

TCPHOL吞吐量

2024-03-14 14:49:34

Meta人工智能

2024-02-19 14:06:00

AI數(shù)據(jù)

2024-06-24 08:30:00

2025-05-09 08:55:00

2025-07-08 09:33:08

2024-07-23 13:10:20

2023-12-19 13:32:00

模型數(shù)據(jù)

2024-05-23 16:41:40

2013-04-19 09:45:20

AMPLabHadoopHDFS

2023-08-06 13:01:34

AI開發(fā)

2024-05-29 14:11:00

2023-11-07 15:11:46

Kafka技巧

2023-08-03 14:18:29

Rust阻塞函數(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲一区二区在| 欧美三级韩国三级日本三斤 | 性xxxx搡xxxxx搡欧美| 宅男噜噜噜66一区二区 | 麻豆传媒在线免费| 成人永久aaa| 国产精品r级在线| 欧美wwwwwww| 国产在线拍揄自揄拍视频 | 91精品国产一区二区| 国产 日韩 欧美在线| av色图一区| 成人免费av资源| 国产欧美日韩视频| 久久黄色精品视频| 亚洲五月综合| 亚洲性视频网站| 日韩精品――色哟哟| 日韩一级二级| 五月天国产精品| 四虎永久免费网站| 国产爆初菊在线观看免费视频网站| 国产精一品亚洲二区在线视频| 午夜精品美女自拍福到在线| 5566中文字幕| 国产精品最新| 亚洲国产成人一区| 特种兵之深入敌后| 精品美女一区| 日本精品一区二区三区四区的功能| 国产精品一区二区三区四区五区| 进去里视频在线观看| 亚洲美女黄色| 欧美剧在线观看| 亚洲国产欧美日韩在线| 国产精品4hu.www| 日韩欧美国产成人| 可以在线看的av网站| 亚洲欧美成人影院| 亚洲欧美日韩国产中文在线| 性欧美精品一区二区三区在线播放 | 国产高潮流白浆| 精品久久成人| 日韩精品在线观看一区二区| 深田咏美中文字幕| 亚洲综合影院| 日韩午夜在线观看视频| 亚洲欧美天堂在线| 日韩电影免费观看高清完整版在线观看| 黑人欧美xxxx| 免费黄色日本网站| 亚洲人成午夜免电影费观看| 婷婷开心激情综合| 久久久久免费看黄a片app| 超免费在线视频| 亚洲综合在线免费观看| 国产成人永久免费视频| 69成人在线| 亚洲在线免费播放| 国产精品裸体瑜伽视频| av免费不卡| 婷婷夜色潮精品综合在线| 激情综合在线观看| 日本电影欧美片| 91国产成人在线| 九九热精品在线播放| 台湾天天综合人成在线| 91麻豆精品国产91久久久| 亚洲日本黄色片| 亚洲性视频在线| 亚洲成人中文字幕| 免费观看av网站| 国内精品久久久久久久久电影网 | 日韩中文字幕有码| 视频二区欧美| 精品精品国产高清a毛片牛牛 | 欧美精品在线观看| 国产精品99无码一区二区| 精品久久成人| 久久精品一本久久99精品| 欧美日韩在线视频免费| 伊人久久大香线蕉av超碰演员| 91国语精品自产拍在线观看性色 | 欧美 日韩 成人| 2023国产精品久久久精品双| 欧美激情视频在线| 中文字幕69页| 韩国午夜理伦三级不卡影院| 欧美在线不卡区| 高潮无码精品色欲av午夜福利| 麻豆精品国产91久久久久久| 欧亚精品中文字幕| 国产又粗又猛又黄又爽无遮挡| 国产盗摄女厕一区二区三区| 鲁鲁狠狠狠7777一区二区| 成人精品一区二区| 一区二区三区欧美在线观看| 久草青青在线观看| 精品视频在线观看免费观看| 日韩电影第一页| 亚洲成年人在线观看| 少妇一区二区视频| 欧美精品在线免费观看| 国产无套丰满白嫩对白| 国产在线不卡一区| 免费久久99精品国产自| 中文字幕中文字幕在线十八区| 婷婷久久综合九色综合绿巨人| xxww在线观看| 欧美挤奶吃奶水xxxxx| 日韩性xxxx爱| 国产suv精品一区二区33| 国内精品在线播放| 欧美三级网色| 97久久人人超碰caoprom| 欧美高清视频不卡网| 亚洲国产无码精品| 亚洲精品看片| 亚洲一区二区三区视频| av电影在线观看| 欧美日韩一区二区三区 | 欧美精品影院| 在线视频日本亚洲性| 成人午夜视频精品一区| 一本色道久久综合| 亚洲一区二区三区久久 | 国产三级按摩推拿按摩| 国产亚洲1区2区3区| 日本不卡一二三区| 99re6在线精品视频免费播放| 7777精品伊人久久久大香线蕉的 | 污污视频在线免费| 精品视频亚洲| 日韩美女视频中文字幕| 天天操天天干天天插| 亚洲资源在线观看| 四川一级毛毛片| 亚洲精品午夜av福利久久蜜桃| 国产激情综合五月久久| 男人久久精品| 懂色av影视一区二区三区| 黄色性视频网站| 好看的亚洲午夜视频在线| 91福利入口| a在线免费观看| 午夜一区二区三区视频| 国内外成人激情视频| 欧美黑人做爰爽爽爽| 91国语精品自产拍在线观看性色 | 中文字幕观看在线| 欧美国产成人在线| 亚洲最大成人在线观看| 成人影院天天5g天天爽无毒影院| 国产成人精彩在线视频九色| 好男人免费精品视频| 91成人网在线| 日本一区二区视频在线播放| 日本aⅴ精品一区二区三区| 91免费视频国产| 黄色网址免费在线观看| 欧美一区二区久久久| 青青草原在线免费观看| 高清不卡一区二区在线| 亚洲人成无码网站久久99热国产| 国产精品17p| 上原亚衣av一区二区三区| 亚洲怡红院av| 2022国产精品视频| 精品久久久久久无码国产| 精品视频亚洲| 亚洲xxx自由成熟| 182在线视频观看| 亚洲免费电影一区| 亚洲熟妇无码久久精品| 亚洲欧美韩国综合色| 亚洲av无码专区在线播放中文| 一本色道久久综合一区| 日本一区免费观看| 久久精品xxxxx| 欧美黄色免费网站| 欧美精品久久久久久久久久丰满| 欧美在线视频全部完| 麻豆精品一区二区三区视频| 99re热这里只有精品视频| 亚洲精品影院| 日本99精品| 51精品在线观看| 日本在线免费播放| 亚洲成年人在线| 久久精品99北条麻妃| 一区二区三区四区在线免费观看| 国产三级视频网站| 国内精品伊人久久久久影院对白| 欧美日韩在线一| 99精品在线观看| 国产一区二区精品在线| 欧美高清影院| 欧美一级大片视频| 4438x成人网全国最大| 亚洲老司机av| 国产黄色大片网站| 91精品福利在线| 国产在线成人精品午夜| 中文字幕一区二区三区在线不卡 | 蜜臀久久99精品久久久久久9| 久久久水蜜桃| 国产免费拔擦拔擦8x高清在线人 | 美女久久一区| a级片一区二区| 激情综合婷婷| 国产91在线播放九色快色| 欧美黑人xx片| 日韩美女在线视频 | 成人性生交大片免费看网站| 在线观看视频99| 性感美女福利视频| 欧美一级久久久久久久大片| 少妇久久久久久久| 午夜精品一区二区三区电影天堂 | 日韩在线观看www| 日韩国产激情在线| 午夜老司机福利| 欧美日韩国产天堂| 日韩三级一区二区| 午夜激情综合网| 国产一级片网址| 亚洲免费资源在线播放| 国产麻豆a毛片| 中文字幕欧美区| 久久只有这里有精品| 91丨porny丨国产| 日本一级片在线播放| 男人的天堂亚洲| 成人午夜免费在线| 激情久久久久| 成人精品视频在线播放| 亚洲成人99| 一区二区三区四区| 99re6这里只有精品| 色女孩综合网| www.亚洲成人网| 欧美xxxx网站| 国产精品激情自拍| 蜜桃精品在线| 日韩免费精品视频| 3d性欧美动漫精品xxxx软件| 欧美一性一乱一交一视频| 免费看男女www网站入口在线 | www.毛片com| 亚洲欧洲国产日本综合| 91香蕉一区二区三区在线观看| 国产精品久久久久四虎| 久久精品日韩无码| 亚洲桃色在线一区| 特级片在线观看| 亚洲成人自拍一区| www..com国产| 色婷婷综合久久久久中文一区二区 | 国产精品普通话对白| 亚洲中文字幕无码中文字| 久久男女视频| 亚洲欧美日韩一级| 狠狠色丁香九九婷婷综合五月| 国产大片一区二区三区| 国产91丝袜在线播放九色| 性农村xxxxx小树林| 96av麻豆蜜桃一区二区| 国产色视频一区二区三区qq号| 日本一区二区三区在线不卡| 黑人と日本人の交わりビデオ| 亚洲天堂精品在线观看| 国产香蕉在线视频| 色综合天天综合在线视频| 亚洲图片视频小说| 精品国偷自产国产一区| 男人天堂网在线| 久久久国产成人精品| av影院在线免费观看| 国产精品久久久999| 精品国产三区在线| 精品视频第一区| 色88久久久久高潮综合影院| 日韩欧美视频免费在线观看| 一区二区日本视频| 色片在线免费观看| 成人av免费在线| 国产三级短视频| 一区二区三区国产| 黄色片视频免费| 91精品国产综合久久福利软件| 日本久久一级片| 这里精品视频免费| 草草在线视频| 91精品久久久久久久久中文字幕| 超碰在线成人| 亚洲一区三区电影在线观看| 亚洲国产高清视频| 日本黄色福利视频| 91在线你懂得| 蜜臀久久精品久久久用户群体| 欧美丝袜一区二区| 国产av无码专区亚洲a∨毛片| 国产视频亚洲精品| 狂野欧美性猛交xxxxx视频| 国产成人精品视频在线| 国产欧美啪啪| 自拍偷拍99| 久久成人精品| 不许穿内裤随时挨c调教h苏绵 | 国产一区二区三区在线看麻豆 | 亚洲人成网站精品片在线观看| 国产无遮挡呻吟娇喘视频| 欧美一级欧美三级在线观看| 免费在线观看污视频| 久久免费视频网| 电影一区中文字幕| 亚洲成人网上| 美女国产精品| 精品国产一区在线| 一区二区三区高清| 国产精品高潮呻吟av| 亚洲天堂视频在线观看| 黄色18在线观看| 国产91免费视频| 在线看片不卡| 女人高潮一级片| 欧美高清一级片在线观看| 毛片毛片女人毛片毛片| 亚洲精品一区二区三区影院| 在线中文字幕视频观看| 成人免费淫片aa视频免费| 久久国产影院| www.精品在线| 中文字幕欧美区| 波多野结衣不卡| 亚洲人成电影在线观看天堂色| 婷婷视频在线观看| 欧美黑人巨大精品一区二区| 亚洲1区在线| 人妻互换免费中文字幕| 国产成人8x视频一区二区| 免费网站看av| 日韩美女视频一区二区在线观看| 国产丝袜在线| 91色精品视频在线| 欧美激情1区2区| 亚洲成人福利视频| 亚洲一区欧美一区| 成人毛片一区二区三区| 亚洲精品有码在线| 成人动漫一区| 日韩国产一区久久| 美女一区二区视频| 91n在线视频| 日韩午夜在线影院| av资源中文在线| 精品一区二区三区国产| 亚洲欧美视频| 五月婷婷欧美激情| 777久久久精品| 免费a级人成a大片在线观看| 91久久精品国产91性色| 国产精品国码视频| 国产白嫩美女无套久久| 一本色道久久综合狠狠躁的推荐| 国产资源在线观看| 国产精品视频自在线| 伊人青青综合网| 亚洲啪av永久无码精品放毛片| 天天色图综合网| 成人在线免费观看| 亚洲va久久久噜噜噜| 亚洲小说欧美另类婷婷| 中国美女乱淫免费看视频| 欧美色老头old∨ideo| 黄网站app在线观看| 国产伦精品一区二区三| 日韩中文欧美在线| 日韩一级片大全| 亚洲国产精品成人av| 91亚洲精品| 欧美黄网在线观看| 久久久不卡网国产精品二区 | 亚洲国产精彩中文乱码av在线播放| 男人天堂视频在线观看| 日韩精品一区二区三区外面| 黑人巨大精品欧美一区| 999这里只有精品| 日韩网站免费观看高清| 欧美激情极品| 91精品视频国产| 欧美午夜无遮挡| 中文在线字幕免费观看| 女人一区二区三区| 国产一区91精品张津瑜| 久久久久久少妇| 欧美日韩高清在线观看| 国产一区二区三区日韩精品 | swag国产精品一区二区| 美女网站视频黄色|