精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

華為創造AI算力新紀錄:萬卡集群訓練98%可用度,秒級恢復、分鐘診斷

人工智能 新聞
針對AI算力集群的高可用性,華為團隊創新性提出了“3+3”雙維度技術體系,即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力,以及集群線性度、訓練快恢、推理快恢等三大業務支撐能力。

大模型的落地能力,核心在于性能的穩定輸出,而性能穩定的底層支撐,是強大的算力集群。其中,構建萬卡級算力集群,已成為全球公認的頂尖技術挑戰。

但是,在華為,昇騰萬卡算力集群,已經可以做到近乎“永不罷工”了:

  • 訓練可用度達98%:這就好比你開著一輛車,全年365天里,有358天無論刮風下雨都能一腳油門就出發,從不掉鏈子,有問題可以隨時檢修,幾乎不會耽誤你的任何行程。
  • 線性度超95%:比如用1000臺算力卡干活比用100臺快9.5倍以上,疊加更多算力,訓練速度近似等比提升,不浪費資源。
  • 秒級恢復、分鐘級診斷:不論訓練還是推理,故障后幾秒鐘就可恢復;幾分鐘內定位到具體是哪臺機器、哪個部件出問題。

或許有小伙伴要問了:AI算力需要如此24小時不間斷的運作嗎?

答案是肯定的,需要,且有必要。

因為小到我們用手機導個航,背后都會有幾十個AI模型在發力來分析路況、預測擁堵;再如醫院用AI輔助診斷癌癥,系統得在瞬間處理掉成百上千的CT照片。

這些看似簡單的智能應用,其實都離不開如 “超級大腦” 般的AI算力集群,需要它們全天候不停歇地運轉著。

而要保證有這樣的能力,高訓練可用度、高線性度、快速消除故障,就相當于給AI發動機上了一份強有力的保險。

更嚴格來說,AI推理的可用度甚至還需要達到99.95%的程度。

那么華為又是如何做到這點的?

關于這一切背后的秘密,華為在今天首次把技術給公開了出來。

高可用的核心:三套“智能保險系統”

AI大集群出問題時,定位故障特別麻煩;畢竟系統規模龐大,軟件和硬件組成的技術棧錯綜復雜,而且調用鏈條還很長。

要解決問題,首先得確定故障出在哪個大的領域,接著再在這個領域內部一步步排查,確定具體的故障位置。在整個故障診斷過程中,面臨的挑戰非常大。

以往技術人員進行故障定位時,短則需數小時,長則可能耗時數天。這一過程不僅對技術人員的專業技能要求頗高,且往往難以快速鎖定故障設備及根本原因。

為此,華為團隊針對AI大集群面臨的復雜挑戰,構建了三大基礎能力。

首先是全棧可觀測能力

它像是給集群裝了一套“火眼金睛”監控系統(故障感知),主要包含這幾部分:

  • 集群運行視圖:實時查看集群整體運行狀態,哪里 “卡殼” 一目了然;
  • 告警視圖:哪里出問題了,系統會主動 “打報告”,快速發出警報;
  • 網絡鏈路監控:盯著網絡連接的 “血管”,確保數據傳輸順暢;
  • 告警接入和配置:統一管理各種警報信息,還能根據需求靈活設置提醒規則;
  • 網絡流可觀測能力:追蹤數據在網絡中的 “流動軌跡”,哪里堵了馬上能發現。

同時,華為還拿出了一套 “故障診斷組合拳”,包含四大核心能力:

  1. 全棧故障模式庫:就像一本 “故障字典”,收錄了各種可能的問題模式,方便快速對照排查;
  2. 跨域故障診斷:不管故障藏在哪個 “領域”(軟件、硬件、網絡等),都能跨區域 “聯合破案”;
  3. 計算節點故障診斷:精準定位計算單元(比如服務器)的具體問題,揪出 “罷工” 的節點;
  4. 網絡故障診斷:專門對付網絡里的 “疑難雜癥”,比如斷網、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效,就像給工程師配了 “智能偵探工具”,大大縮短了找問題的時間。

最后,是一套“鋼鐵韌帶”自愈系統(容錯設計)。

想要把超平面網絡的厲害之處完全發揮出來,超節點的規模就得足夠大。不過到現在,還沒有哪個團隊能用光鏈路搭建超節點并成功的。

于是,華為團隊就琢磨出一套超節點光鏈路軟件容錯的好辦法。

這套辦法就像給超節點穿上了好幾層 “防護鎧甲”,用上 “超時代答”“綠色通道” 這些關鍵技術后,超節點基本不會出現大故障。

同時,又通過鏈路級重傳、光模塊動態調整Lane、重新執行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調度等技術,讓超節點對光模塊突然中斷這類故障的承受能力變得超強,能容忍超過99%的光模塊閃斷情況。

哪怕超節點里的光模塊數量一下子增加了10倍還多,依靠軟件提升可靠性的手段,再配合光鏈路壓力測試技術,光模塊閃斷的概率能降低到和傳統電鏈路差不多的水平,穩穩保障超平面網絡不出問題。

而且,華為團隊還打造出Step級重調度能力,以前遇到頻繁的 HBM 多比特 ECC 故障,修復可能要花很長時間,現在1分鐘內就能搞定,用戶因為故障損失的算力也減少了5%,實實在在地省下了不少 “計算力”。

計算卡再多,也不影響效率

線性度指標,簡單來說就是看算力卡數量增加后,訓練任務的速度或效率能提高多少(比如完成時間縮短的比例)。

舉個例子:如果算力卡增加2倍,訓練速度也能接近2倍,說明線性度高;如果速度只提高1.2倍,就說明線性度差,資源沒被充分利用。

為了讓訓練效率隨著算力卡增多而 “更成正比地提升”,華為團隊研發了四項關鍵技術:

  1. TACO(拓撲感知的協同編排技術):就像給算力卡 “排兵布陣”,根據硬件連接結構(比如網絡拓撲)智能分配任務,避免 “通信堵車”。
  2. NSF(網絡級網存算融合技術):把網絡傳輸、數據存儲和計算能力 “打包優化”,讓數據在算力卡之間流動更順暢,減少等待時間。
  3. NB(拓撲感知的層次化集合通信技術):針對大規模集群設計 “分層通信策略”,比如讓同一區域的算力卡先快速協作,再跨區域同步,提升整體通信效率。
  4. AICT(無侵入通信跨層測量與診斷技術):不干擾正常訓練的前提下,實時 “監控” 通信鏈路,快速發現哪里 “卡頓” 并修復,確保數據傳輸穩定。

通過這四項技術,華為讓Pangu大模型的訓練線性度(即效率隨算力卡增加的提升比例)明顯提高。

整體方案的思路大概如下圖所示:

圖片

實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%

訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%

具備秒級恢復的能力

在大規模AI集群運行時,經常會因為各種硬件或軟件故障,導致訓練任務突然中斷。

目前行業里常用的辦法是,在訓練過程中定期保存 “進度存檔”(CKPT),等故障修復后從存檔點繼續訓練。

華為則憑借軟硬件全方面的技術創新,打造了一套 “分層分級” 的訓練任務故障快速恢復系統。

簡單來說,就是針對不同類型、不同程度的故障,制定了對應的 “快速重啟方案”,讓訓練任務能更快 “續上”。

不同層級的故障恢復能力可以參考下面這張圖:

圖片

除此之外,華為采用了一系列提速 “黑科技”:比如優化數據集查找速度、緩存模型編譯結果、加快通信鏈路建立、提升訓練進度保存效率。

這些技術效果顯著:如果是萬卡規模的超大型集群,從故障中恢復訓練,10分鐘內就能搞定;要是用 “進程級重調度恢復” 方法,3分鐘內就能接著訓練;要是用更厲害的 “進程級在線恢復”,30秒就能重新開始訓練。

而且,不管集群規模有多大,模型有多復雜,恢復時間基本不受影響,還能把因為故障導致的訓練進度倒退時間,壓縮到一次訓練循環的時長。

這么一來,AI集群能用的時間大大增加,大模型訓練的效率也快了很多。

在訓練階段后的推理,也有諸多問題亟待解決。

當千億級MoE模型不斷升級,模型部署的網絡結構也跟著變了。以前單機8卡就足夠跑一個推理實例,如今,大EP模型架構下,需要數十乃至上百張卡才能支撐推理運行。

但新架構帶來個麻煩:用的設備越多,出故障的可能性就越大,而且一旦有問題,影響的范圍會特別廣。

只要有一個硬件出故障,整個Decode實例(可以理解成模型運行的一個 “小團隊”)就沒法工作了,直接導致AI推理業務出問題,嚴重的話整個業務都會停擺。

為了解決大EP推理架構容易出故障的難題,華為團隊想出了一個分三步的 “保險計劃”:

  • 第一步是實例間切換,就像給業務準備了 “備用團隊”,一個實例不行了,馬上換另一個頂上;
  • 第二步是實例內重啟恢復,發現實例里有問題,快速重啟內部程序,讓它重新正常工作;
  • 第三步是實例內無損恢復,即使出故障也不丟失數據,在不影響業務的情況下修復問題。

這三步方案需要芯片驅動、框架軟件、平臺系統各個層面緊密配合,組成一套完整的 “防護網”。遇到不同類型的故障,就用最合適的恢復方法,盡可能減少對用戶的影響,讓AI推理業務穩穩運行。

圖片

在實例內重啟恢復技術中,通過構建帶內快速故障感知和重調度機制,搭配參數權重預熱和鏡像預熱技術,能把實例內部的重啟恢復時間壓縮到5分鐘以內。

還有一項很厲害的TOKEN級重試技術,當遇到HBM KV Cache故障時,從故障發生到重新輸出Token的整個恢復過程不到10秒。

對比業界通常需要10分鐘才能恢復實例的情況,這項技術能將故障帶來的影響降低60倍,幾乎讓用戶感覺不到故障發生,極大提升了系統的穩定性和用戶體驗。

總結來看,針對AI算力集群的高可用性,華為團隊創新性提出了“3+3”雙維度技術體系,即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力,以及集群線性度、訓練快恢、推理快恢等三大業務支撐能力。

這六大創新均帶來了非常可觀的收益,比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

技術報告地址:

https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/HighAvailability/ascend-cluster-infra-ha.md

責任編輯:張燕妮 來源: 量子位
相關推薦

2014-07-23 10:58:34

AnySDK

2010-04-07 17:40:04

服務器

2019-01-10 16:38:54

華為

2025-05-26 09:39:15

2022-06-25 21:17:15

人工智能訓練

2025-07-18 11:52:48

2024-11-12 14:00:46

2017-06-12 09:31:37

新華三

2025-09-18 13:59:41

2021-04-01 15:58:11

AI 數據人工智能

2020-05-22 23:33:11

騰訊AI人工智能

2022-12-27 16:31:22

AI繪圖軟件

2023-02-24 15:09:04

安卓

2022-01-06 07:55:28

6G技術5G移動通信

2019-03-21 17:07:36

阿里云神龍異構

2024-06-24 08:30:00

點贊
收藏

51CTO技術棧公眾號

国产麻豆天美果冻无码视频| 精品少妇一区二区三区在线| 精品人妻久久久久一区二区三区| 欧美激情视频一区二区三区免费| 精品久久久久久久久久久久久久久 | 国产午夜精品一区二区三区视频 | 亚洲视频资源| 亚洲国产日韩精品| 日本一区二区三区视频在线观看| 国产精品亚洲lv粉色| 日韩视频一区| 日韩一区视频在线| 国产ts丝袜人妖系列视频| 综合久久伊人| 在线免费av一区| 男人添女荫道口喷水视频| 国产二区视频在线观看| 丁香亚洲综合激情啪啪综合| 国产精品美女www爽爽爽视频| 国产性一乱一性一伧一色| 欧美日韩激情| 亚洲国产欧美一区| 色综合五月婷婷| 偷拍中文亚洲欧美动漫| 精品国产成人av| ijzzijzzij亚洲大全| 国产一二三在线观看| 99久久精品国产毛片| 亚洲va码欧洲m码| 国产精品第六页| 中文日韩欧美| 欧美激情综合亚洲一二区| 网爆门在线观看| 国产精品一区2区3区| 亚洲大胆人体在线| 在线观看欧美一区二区| 亚洲在线资源| 欧美日韩亚洲国产综合| 91视频免费版污| 免费电影日韩网站| 精品福利视频导航| 精品无码一区二区三区在线| 日韩伦理av| 一区二区三区日韩在线观看| 五月天av影院| 麻豆最新免费在线视频| 国产精品国产三级国产普通话99| 深田咏美在线x99av| 精品福利视频导航大全| 91丨porny丨蝌蚪视频| 黄色91av| 日本中文字幕电影在线观看| 久久综合狠狠综合久久综合88 | 一色桃子久久精品亚洲| 亚洲国内在线| 五月天婷婷在线视频| 国产精品毛片a∨一区二区三区| 日韩欧美亚洲在线| youjizz在线播放| 中文一区二区在线观看| 少妇免费毛片久久久久久久久| 国自产拍在线网站网址视频| 国产午夜久久久久| 中文字幕中文字幕在线中一区高清| av免费在线一区二区三区| 中文字幕精品在线不卡| 中文字幕一区综合| 久草在线视频福利| 欧美性猛xxx| 亚洲一二三区av| 久久亚洲人体| 欧美va亚洲va香蕉在线| 久久久老熟女一区二区三区91| 日韩有码一区| 中文字幕日本精品| 青草影院在线观看| 亚洲伦理精品| 国产精品网红直播| 午夜精品在线播放| 久久久久国产精品麻豆ai换脸 | 手机av免费在线| 午夜私人影院久久久久| 亚欧无线一线二线三线区别| 日本美女久久| 精品少妇一区二区三区在线播放| 中文字幕免费在线播放| 成人免费看片39| 欧美精品在线极品| 亚洲欧美精品一区二区三区| 久久激情五月激情| 黄色91av| av片在线观看| 色屁屁一区二区| 91香蕉国产线在线观看| 思热99re视热频这里只精品| 色婷婷综合成人av| 久久久国产精品成人免费| 美女性感视频久久| 国产综合 伊人色| 免费网站免费进入在线| 亚洲国产三级在线| 四季av一区二区三区| 国产伦精品一区二区三区在线播放| 亚洲欧美国产高清va在线播| 日韩欧美综合视频| 视频一区欧美精品| 成人91视频| yw193.com尤物在线| 亚洲成人av中文| 在线观看国产福利| 精品国产精品| 久久男人的天堂| 国产欧美久久久| 久久久久国产成人精品亚洲午夜| 高清欧美精品xxxxx| 成人影院在线免费观看| 亚洲国内精品在线| 欧美人与禽zozzo禽性配| 日本色综合中文字幕| 国产日韩精品推荐| 直接在线观看的三级网址| 在线观看视频91| 黄色在线观看av| 激情久久综合| 91青草视频久久| av在线免费一区| 色婷婷精品大视频在线蜜桃视频| 性xxxxxxxxx| 精品国产成人| 国产精品99免视看9| 天天色综合av| 亚洲r级在线视频| 午夜诱惑痒痒网| 999久久久91| 国产伦精品一区二区三区精品视频| 日本1级在线| 欧美色视频日本版| 老司机午夜免费福利| 在线成人超碰| 亚洲一区二区三区久久 | 久久久久中文字幕2018| 国产视频第二页| 亚洲乱码国产乱码精品精可以看| 国内国产精品天干天干| 手机在线电影一区| 国产色视频一区| 男人天堂手机在线| 欧美三级电影一区| 欧美自拍偷拍网| 美国三级日本三级久久99| 神马影院我不卡| 欧美视频第一| 蜜臀久久99精品久久久久久宅男| 91久久国语露脸精品国产高跟| 国产精品素人一区二区| 成年网站免费在线观看| 婷婷中文字幕一区| 91在线观看免费网站| 成人在线视频亚洲| 欧美成人精品高清在线播放| 久久免费视频播放| 91视视频在线观看入口直接观看www | 欧洲在线/亚洲| www中文在线| 国产精品中文欧美| 水蜜桃色314在线观看| 日本欧美高清| 国产精品丝袜高跟| gogo在线观看| 日韩精品中文字幕有码专区| 男人天堂视频在线| 综合久久久久久| 老司机av网站| 久久只有精品| 中文字幕在线中文字幕日亚韩一区| 亚洲精品影片| 秋霞av国产精品一区| 777电影在线观看| 日韩欧美成人一区二区| 日本在线播放视频| 中文字幕一区二区三| 国产伦理在线观看| 美女爽到呻吟久久久久| 在线视频不卡国产| 国产成人av毛片| 国产精品久久久久久久久男| a级片国产精品自在拍在线播放| 亚洲精品第一页| 一本久道久久综合无码中文| 亚洲国产综合在线| x88av在线| 成人综合婷婷国产精品久久免费| 99久久久无码国产精品6| 久久久久美女| 欧美 日韩 国产在线| www999久久| 日韩美女写真福利在线观看| 色老头在线观看| 中文字幕不卡av| 天堂av手机版| 日韩一级二级三级| 国产精品xxxxxx| 亚洲第一福利一区| 精品国产国产综合精品| 92精品国产成人观看免费| 午夜天堂在线视频| 日本中文字幕不卡| 黄色免费福利视频| 欧美成人69| 亚洲视频精品一区| 欧美1区2区3区4区| 91文字幕巨乱亚洲香蕉| 日本综合视频| 欧美中文字幕在线观看| 懂色av一区| 操日韩av在线电影| 亚洲欧美视频一区二区| 亚洲精选中文字幕| 日本xxxx人| 日韩网站在线看片你懂的| 亚洲天堂中文网| 日韩欧美在线视频| 久久精品视频国产| 亚洲激情第一区| 免费国产羞羞网站美图| 国产精品视频一二三区 | 国产一区二区三区天码| 精品无码久久久久国产| 999久久精品| 成人xxxxx色| 欧美高清一级片| 91久久久久久| 欧美一区=区三区| 国产精品久久久久福利| 奇米777日韩| 国产成人jvid在线播放| 天天综合av| 456亚洲影院| 在线一区av| 国产97在线播放| 欧美片第1页| 日韩av手机在线看| 日韩av一级| 国产精品吴梦梦| 四虎影视国产精品| 成人精品一区二区三区电影免费 | 国产亚洲精品v| www.99热这里只有精品| 99国产一区| 欧美成人xxxxx| 美女精品在线| 色多多视频在线播放| 男人的天堂久久精品| 天堂视频免费看| 国产美女精品一区二区三区| 特级黄色片视频| 国产suv精品一区二区三区| 自拍视频第一页| 99久久99精品久久久久久| 97人妻天天摸天天爽天天| 久久久久久久综合色一本| 少妇无套高潮一二三区| 中文字幕在线免费不卡| 成人免费精品动漫网站| 亚洲一区在线视频观看| 在线观看亚洲欧美| 欧美丝袜丝交足nylons| 国产精品久久无码一三区| 日韩一本二本av| 四虎精品在永久在线观看 | 在线播放国产精品二区一二区四区| 国产av一区二区三区精品| 亚洲成人av在线播放| 免费一级在线观看| 色吧影院999| 好吊日av在线| 国产精品99蜜臀久久不卡二区| 最新亚洲国产| 久久久亚洲综合网站| 成人黄色av| 欧美中日韩在线| 日韩和的一区二区| 被黑人猛躁10次高潮视频| 91麻豆123| 成人免费视频国产免费观看| 精品美女永久免费视频| 中文字幕欧美人妻精品| 亚洲成人a级网| 在线观看免费版| 97人人爽人人喊人人模波多| 欧美xxxx做受欧美护士| 亚洲最大av在线| 国产尤物久久久| 9191国产视频| 可以免费看不卡的av网站| 日韩精品视频网址| 久久美女艺术照精彩视频福利播放| 亚洲一区电影在线观看| 精品国产91久久久久久| 国产夫妻自拍av| 国产一区二区三区18| 欧美性猛片xxxxx免费中国| 国产精品www网站| 动漫av一区| 色中文字幕在线观看| 午夜在线视频观看日韩17c| 乳色吐息在线观看| 国产精品青草综合久久久久99| 国产无人区码熟妇毛片多| 日韩欧美一区二区在线视频| 番号在线播放| 91成人在线播放| 一区二区三区免费在线看| 亚洲欧美日产图| 日日夜夜免费精品| 国产不卡一二三| 亚洲夂夂婷婷色拍ww47| 一区二区三区在线免费观看视频| 亚洲免费av电影| 绿色成人影院| 国产日韩精品推荐| 国产真实久久| 日本少妇一区二区三区| 国产精品久久精品日日| 看黄色一级大片| 亚洲欧美在线看| 天堂а√在线最新版中文在线| 成人自拍网站| 欧美黄色免费| 日本女人性视频| 亚洲欧美日韩国产中文在线| 在线播放亚洲精品| 最近2019中文字幕mv免费看 | 国产小视频你懂的| 欧美中文字幕亚洲一区二区va在线 | 成人精品小蝌蚪| 青青草原在线免费观看视频| 91麻豆精品91久久久久久清纯 | 91日韩精品视频| 一区在线播放视频| 亚洲专区第一页| 中文字幕亚洲一区在线观看| 国产精品第一| 天天成人综合网| 国产一区二区不卡在线| 婷婷激情四射网| 91精品福利在线一区二区三区| 黄色网页网址在线免费| 亚洲一区二区三| 很黄很黄激情成人| 国产一卡二卡三卡四卡| 精品久久久久久亚洲精品| 日韩专区一区二区| 国产精品ⅴa在线观看h| 91日韩视频| 超碰在线超碰在线| 亚洲成人福利片| 精品av中文字幕在线毛片| 国产精品久久久久久久7电影| 精品欧美激情在线观看| 污色网站在线观看| 亚洲视频免费看| 亚洲乱码在线观看| 91高清免费在线观看| 国产欧美日韩| 一区二区三区四区毛片| 亚洲一区中文日韩| 毛片在线播放网址| 成人免费自拍视频| 黄页网站一区| 亚洲性猛交xxxx乱大交| 欧美日韩你懂得| 国产美女一区视频| 欧美日韩综合另类| 狠狠色狠狠色综合系列| 久久综合综合久久| 亚洲天堂色网站| 韩国三级大全久久网站| 日本国产在线播放| 国产精品毛片无遮挡高清| 丰满熟妇乱又伦| 日本高清久久天堂| 中文字幕一区二区三区在线视频 | 日本成人激情视频| 色婷婷综合网| 亚洲熟女一区二区| 欧洲国内综合视频| 成年人视频免费在线播放| 日本精品国语自产拍在线观看| 激情综合网av| 久久国产视频一区| 久久亚洲欧美日韩精品专区| 你懂的在线观看一区二区| 五月花丁香婷婷| 狠狠干狠狠久久| 中文字幕有码在线视频| 亚洲va韩国va欧美va精四季| 成人高清视频在线| 国产又粗又大又黄| 热re99久久精品国产66热|