精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Delta AI 集群的 GPU 故障分析和刻畫

發(fā)布于 2025-8-18 06:41
瀏覽
0收藏


一、背景

我們在之前的文章中已經(jīng)介紹過很多對大規(guī)模 AI 集群建設(shè)和維護相關(guān)相關(guān)的文章,包含 Meta、阿里、IBM、ImbueAI、字節(jié)、上海 AI-lab 等等。今天簡單介紹一篇新的文章,其相對比較簡單,主要關(guān)注 GPU 異常,與我們之前介紹萬卡集群運維中的 Case 高度重合,但也有一些不一樣的地方,就當簡單回顧。

對應(yīng)的論文為: [2503.11901] Characterizing GPU Resilience and Impact on AI/HPC Systems [1]

二、摘要

論文對 NCSA Delta AI 集群(算力超過 600 PFLOPs)的 GPU 故障特征進行了系統(tǒng)性分析。該集群包含多種 GPU 硬件(A40、A100、H100 等)以及部分 CPU 節(jié)點。基于兩年半的 GPU 異常數(shù)據(jù),評估了 GPU 硬件組件的可靠性特征,以確定不同組件的故障脆弱性及其對 GPU/節(jié)點可用性的影響。通過量化分析 GPU 硬件核心、NVLink 與顯存系統(tǒng)的關(guān)鍵錯誤傳播路徑,進而考察了觀測到的 GPU 錯誤對用戶作業(yè)的實際影響。

三、引言

3.1 Delta 集群

如下圖 Figure 2 所示,Delta 集群由 132 個 CPU 節(jié)點和 286 個 GPU 節(jié)點組成,共 1168 個 GPU,專門為運行多樣化的科學研究及 AI/ML 工作負載而設(shè)計。具體包括:

  • 132 個 CPU 節(jié)點。
  • 100 個 4 x A40 節(jié)點,用于通用計算及輕量級 AI/ML 應(yīng)用。
  • 100 個 4 x A100 節(jié)點。
  • 6 個 8 x A100 節(jié)點。
  • 80 個 4 x GH200 節(jié)點。

網(wǎng)絡(luò)層采用 HPE Cray Slingshot 11 互聯(lián)架構(gòu)(Dragonfly 架構(gòu)),節(jié)點間通信帶寬超過 400 Gbps,存儲系統(tǒng)則基于 Lustre 分布式文件系統(tǒng)實現(xiàn)。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

3.2 NVIDIA GPU 錯誤類別

NVIDIA GPU 錯誤會以 XID 錯誤形式上報,本文中作者根據(jù) NVIDIA 開發(fā)手冊(1. Introduction — XID Errors r555 documentation [2])、開發(fā)者論文、博客平臺以及 Delta SRE 的評估,選取了被歸類為高頻且影響嚴重的 XID 錯誤子集,然后將其分為三類:

  • GPU 硬件故障:重點研究核心硬件錯誤,包括:MMU 錯誤、GPU 掉卡、GSP RPC Timeout 及 PMU 通信錯誤等。此類錯誤可導致用戶作業(yè)中斷、GPU 掛起及數(shù)據(jù)損毀等。
  • NVLink 互聯(lián)故障:主要由 GPU 硬件缺陷、連接器故障或系統(tǒng)集成時安裝不當引發(fā),會造成 GPU 不可用及用戶作業(yè)失敗。此類錯誤還會阻礙 GPU 間數(shù)據(jù)傳輸,降低計算吞吐量。消除 NVLink 錯誤必須執(zhí)行 GPU Reset 或節(jié)點重啟操作。
  • GPU 顯存故障。本文主要研究的是 DBE(double-bit error),由于 SBE 可通過 ECC 機制自動校正,故未納入記錄范圍。DBE 會觸發(fā)下游錯誤恢復機制,若恢復機制失效則會導致 GPU/節(jié)點故障,需通過重啟 GPU 或節(jié)點進行恢復。

如下圖所示為作者集群中常見的故障:

  • Category:上述 3 種錯誤類別。
  • Count 出現(xiàn)的次數(shù),越低越好。
  • MTBE(mean time between errors),也就是平均無故障時間,越高越好。
  • Persistence:錯誤持續(xù)的時間,越低越好。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

上述錯誤也與我們之前梳理的常見錯誤類型高度重合,但也有些不一樣:

  • 我們遇到的 XID 94 比較多,而 XID 95 比較少。
  • 我們遇到的 XID 74 很少。
  • GSP 不只是存在 ERROR,在個別時候還會導致奇怪的性能問題,因此我們默認關(guān)閉 GSP。
  • 我們經(jīng)常遇到 48/63/94 一起出現(xiàn)。
  • 很少遇到 XID 122 錯誤。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

3.3 NVIDIA GPU 錯誤管理

NVLink 中提供了 CRC (Cyclic Redundancy Check) 錯誤檢測機制,其核心目的是確保在通過高速 NVLink 互連傳輸數(shù)據(jù)時的數(shù)據(jù)完整性。當檢測到 CRC 校驗和錯誤時,系統(tǒng)將從最后已知的有效數(shù)據(jù)包開始重傳。

如下圖 Figure 3 所示,A40、A100 和 H100 的內(nèi)存錯誤恢復流程如下:

  • Ampere 和 Hopper 架構(gòu) GPU 應(yīng)對 DBE 的主要機制是行重映射技術(shù)(Row Remapping)——通過備用行替換故障存儲行,并記錄行重映射事件(Row Remapping Event,RRE,XID 63)。若對應(yīng)存儲行無可用備用行,則標記行重映射失敗(Row Remapping Fault,RRF,XID 64)。當存儲體所有備用行耗盡導致 RRE 失敗時,系統(tǒng)同樣會記錄 RRF。
  • 虛線框展示了 A100 和 H100 的額外恢復機制。相較于 A40,A100 和 H100 GPU 支持不可糾正內(nèi)存錯誤隔離(uncorrectable memory error containment)及動態(tài)頁面離線(dynamic page offlining)技術(shù)以實現(xiàn)內(nèi)存錯誤緩解。

動態(tài)頁面離線技術(shù)通過將故障內(nèi)存地址標記為不可用狀態(tài),無需 GPU 復位即可維持系統(tǒng)可用性。

錯誤隔離機制會終止使用故障內(nèi)存地址的用戶進程,從而阻止錯誤傳播。抑制成功會報 Contained Memory Error(XID 94),抑制失敗會報 Uncontained Memory Error(XID 95)。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

3.4 數(shù)據(jù)源

作者分析基于 2022 年 1 月至 2024 年 5 月期間共計 855 天從 Delta 集群收集的數(shù)據(jù)。如下圖 Figure 4 所示,數(shù)據(jù)處理流程包含多個階段:

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

四、錯誤傳播 & 關(guān)鍵發(fā)現(xiàn)

4.1 錯誤傳播

4.1.1 GPU 硬件子系統(tǒng)

如下圖 Figure 5 展示了 GPU 硬件組件間的錯誤傳播情況。研究發(fā)現(xiàn)存在三條主要傳播路徑,其源頭分別為:

  • GSP RPC 超時錯誤:99%概率下,GSP 錯誤會導致同類錯誤重復發(fā)生或致使 GPU 進入不可操作狀態(tài)。
  • PMU SPI 通信錯誤:PMU SPI 通信錯誤會以 82% 概率向下游傳播引發(fā) MMU 錯誤,繼而幾乎 100% 導致作業(yè)失敗。盡管從用戶作業(yè)視角看 PMU SPI 通信錯誤屬于高影響錯誤,但 NVIDIA 開發(fā)者手冊未予重點說明。
  • GPU 掉卡(總線脫落):通常是 GPU 與主板連接松動或散熱導致的接觸不良,最終幾乎 100% 導致任務(wù)異常。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

4.1.2 NVLink 互連架構(gòu)

NVLink 是一種節(jié)點內(nèi) GPU 間高速互連技術(shù),用于 GPU 間通信和數(shù)據(jù)交換。NVLink 故障可能影響單個或多個同節(jié)點 GPU。如下圖 Figure 6 所示,作者在 3000 例 NVLink 錯誤中統(tǒng)計發(fā)現(xiàn):

  • 86% 的錯誤未發(fā)生跨 GPU 傳播。
  • 14% 的錯誤擴展到單個節(jié)點內(nèi)的多個 GPU。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

4.1.3 GPU 內(nèi)存容錯機制 

如下圖 Figure 7 展示了 GPU 內(nèi)部不可糾正內(nèi)存錯誤的恢復路徑。由于 SBE 可通過 ECC 自動校正且不被記錄,故未予呈現(xiàn),這里展示的是 DBE 的恢復路徑。數(shù)據(jù)顯示:

  • 43% 的 RRF 能成功實施錯誤隔離,GPU 可維持運行到下次維護窗口。
  • 若 RRF 后未觸發(fā)錯誤隔離(占 46%),GPU 將進入不可操作狀態(tài)需執(zhí)行復位。
  • 內(nèi)存錯誤隔離可能失敗并導致未隔離內(nèi)存錯誤。
  • 總體而言,綜合 RRE 與 RRF 后的錯誤隔離措施,70.6% 的 DBE 事件得到有效緩解且保持 GPU 持續(xù)運行。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

4.2 關(guān)鍵發(fā)現(xiàn)

4.2.1 GPU 內(nèi)存 vs 硬件可靠性

與常見認知相反,GPU 內(nèi)存在 MTBE 方面比 GPU 硬件可靠 30 倍以上。

GPU 硬件和互連的 MTBE 為 800 節(jié)點小時,而 GPU 內(nèi)存相關(guān)錯誤的 MTBE 為 26,093 節(jié)點小時。

4.2.2 GSP 是最脆弱的組件

新引入的 GSP 是最脆弱的 GPU 硬件組件。

超過 99% 的 GSP 錯誤會使 GPU 進入錯誤狀態(tài),導致用戶作業(yè)失敗。

GSP 錯誤需要節(jié)點重啟,恢復時間可達 23 小時。

4.2.3 PMU SPI通 信錯誤的傳播

PMU SPI 通信錯誤有 82% 的概率導致 MMU 錯誤。

MMU 錯誤幾乎必然導致作業(yè)失敗,系統(tǒng)可靠性受到嚴重威脅。

4.2.4 NVLink 錯誤特征

系統(tǒng)范圍內(nèi) NVLink 錯誤的平均故障間隔時間僅為 6.9 小時。

遇到 NVLink 錯誤后,約三分之二的情況會導致作業(yè)失敗。

剩余作業(yè)能成功完成,主要得益于 CRC 檢測和重傳機制的保護。

4.2.5 內(nèi)存錯誤恢復機制

Ampere GPU 引入了創(chuàng)新的內(nèi)存錯誤恢復技術(shù),顯著降低了 DBE 對應(yīng)用的影響,將 DBE 對應(yīng)用的性能損失減少了 70.6%。

4.2.6 GPU 錯誤與作業(yè)故障關(guān)聯(lián)分析

作者針對最可能導致作業(yè)故障的特定 GPU 錯誤,對全部 GPU 故障作業(yè)進行細分統(tǒng)計。如下圖 Table 2 所示,列出了各類 GPU 錯誤引發(fā)用戶作業(yè)故障的概率分布。鑒于任何檢測到的錯誤均可能導致作業(yè)故障,作者將 20 秒時間窗內(nèi)出現(xiàn)的所有 GPU 錯誤均視為故障因素。可以看出,最常見的是 MMU 錯誤(XID 31),這個大部分與用戶的應(yīng)用有關(guān)。

Delta AI 集群的 GPU 故障分析和刻畫-AI.x社區(qū)

五、參考鏈接:

  • [1] https://arxiv.org/abs/2503.11901
  • [2] https://docs.nvidia.com/deploy/xid-errors/



收藏
回復
舉報
回復
相關(guān)推薦
成人免费图片免费观看| 中文字幕日本人妻久久久免费 | 日本久久久久亚洲中字幕| 国内精品久久99人妻无码| 国产精品亚洲一区二区三区在线观看| 欧美国产1区2区| 亚洲综合色av| 麻豆成人免费视频| 中文精品久久| 亚洲摸下面视频| 成人免费播放视频| 美女写真久久影院| 一二三四区精品视频| 日本视频一区二区在线观看| www.黄色小说.com| 日韩高清一区二区| 久久久久亚洲精品国产| 妖精视频在线观看免费| 精品日产乱码久久久久久仙踪林| 欧美日韩一区成人| 成人中文字幕在线播放| 国内精品久久久久国产| 91美女片黄在线观看| 亚洲在线观看视频| 国产天堂第一区| 一本一本久久| 欧美日韩国产成人| 成人性视频免费看| 国产精品午夜一区二区三区| 日韩久久久精品| 一起操在线视频| 亚洲最新无码中文字幕久久| 亚洲一区二区成人在线观看| 中文精品视频一区二区在线观看| 极品白浆推特女神在线观看| 成人h版在线观看| 成人做爰www免费看视频网站| 午夜久久久久久久久久影院| 日韩视频不卡| 久久久久久18| 青青青在线视频| 99久精品视频在线观看视频| 一色桃子一区二区| 精品无码一区二区三区| 欧美男人操女人视频| 91精品国产91热久久久做人人| 欧美激情精品久久久久久小说| av在线私库| 亚洲v中文字幕| a级黄色小视频| 日韩伦理电影网站| 亚洲一区二区三区自拍| 国产日韩亚洲欧美在线| 欧美r级在线| 国产精品网友自拍| 亚洲精品久久久久久一区二区| 国产小视频福利在线| 91色九色蝌蚪| 蜜桃传媒视频第一区入口在线看| 无码精品在线观看| 99视频一区二区三区| 黄色国产精品一区二区三区| 天堂中文在线看| 91影院在线观看| 精选一区二区三区四区五区| 亚洲色大成网站www| 成人av在线影院| 黑人另类av| 欧美视频综合| 日本一区二区在线不卡| 亚洲综合第一| 在线看一级片| 亚洲高清不卡在线| av网站在线观看不卡| 欧美第一视频| 欧美日韩一区在线| 波多野结衣电影免费观看| 草莓视频一区二区三区| 日韩久久精品电影| 大胸美女被爆操| 91精品电影| 国内成人精品视频| 无码人妻丰满熟妇奶水区码| 蜜臀av性久久久久蜜臀aⅴ| 成人网中文字幕| 亚洲国产中文字幕在线| 99精品一区二区三区| 欧美区高清在线| 日本在线视频网| 亚洲在线成人精品| 毛葺葺老太做受视频| 国产麻豆一区二区三区| 日韩成人在线视频| 五月天精品在线| 狠狠色狠狠色综合日日tαg| 26uuu日韩精品一区二区| 国产精品传媒在线观看| 夫妻av一区二区| 日韩av电影免费播放| av超碰免费在线| 一本色道久久综合亚洲精品按摩| 国产无遮挡猛进猛出免费软件| 亚洲经典视频| 国产亚洲精品日韩| 久久一区二区三| 麻豆精品视频在线观看视频| 国产精品视频一区二区三区经| 国产在线黄色| 亚洲国产欧美在线人成| 三上悠亚在线一区二区| 欧美变态挠脚心| 久久深夜福利免费观看| 天天插天天操天天干| 精品一区免费av| 欧美精品二区三区四区免费看视频| 国产三区在线观看| 日本黄色一区二区| 伦理片一区二区| 68国产成人综合久久精品| 日韩美女视频免费看| 日日夜夜精品免费| 亚洲男人的天堂av| 色婷婷成人在线| 欧美极品中文字幕| 88xx成人精品| 亚洲国产精品久久人人爱潘金莲| 国产精品成人一区二区三区夜夜夜 | 欧美日韩亚洲一二三| 永久免费精品视频| 久久精品国产69国产精品亚洲| 潘金莲一级淫片aaaaaa播放| 成人av在线资源网| 激情五月婷婷六月| 日韩一区二区三区精品视频第3页| 在线成人中文字幕| 黄色一级视频免费看| 99精品视频一区二区三区| 成人在线视频一区二区三区| 国产精久久久| 日韩少妇与小伙激情| 这里只有久久精品视频| 久久久精品tv| 密臀av一区二区三区| 在线看成人短视频| 青青青国产精品一区二区| 五月激情六月婷婷| 亚洲不卡在线观看| 亚洲天堂2024| 日韩香蕉视频| 久久综合毛片| 第四色男人最爱上成人网| 亚洲男人av在线| 中文字幕在线欧美| 久久美女高清视频| 97成人在线观看视频| 亚洲精品亚洲人成在线观看| 4438全国成人免费| 毛片在线能看| 欧美日韩情趣电影| 蜜桃av.com| 国产真实乱子伦精品视频| 中文字幕在线观看一区二区三区| 国产资源一区| 美乳少妇欧美精品| 日本wwwxxxx| 精品免费在线视频| 国产91丝袜美女在线播放| 免费观看30秒视频久久| aaa免费在线观看| 精品国产乱码一区二区三区| 久久99精品国产99久久6尤物| 亚洲精品911| 精品久久久久久久久久| 亚洲理论片在线观看| 蜜臀精品久久久久久蜜臀| 91社在线播放| 国产精品xxx在线观看| 欧美一级淫片丝袜脚交| av大片在线观看| 日韩精品一区二区三区中文不卡 | 国产成人精品日本亚洲专区61| 国产一二三区在线| 在线成人免费视频| 日产精品久久久久| 久久久久高清精品| 久久艹这里只有精品| 99国产精品| 一区二区三区av| 国产劲爆久久| 国产成人一区二区三区小说| 国产精品久久麻豆| 亚洲第一精品夜夜躁人人爽| 樱花视频在线免费观看| 一区二区三区四区亚洲| 亚洲AV无码片久久精品| 国产在线精品一区二区夜色| 777777av| 一本精品一区二区三区| 欧美视频1区| 日韩中文字幕视频网| 日本高清不卡的在线| 直接在线观看的三级网址| 亚洲欧美成人一区二区在线电影| 国产精品久久欧美久久一区| 欧美性猛交xxxx乱大交| 少妇久久久久久被弄高潮| 久久精品在这里| 加勒比av中文字幕| 久久性色av| 久久久亚洲国产精品| 成人情趣视频网站| 精品视频高清无人区区二区三区| 亚洲国产91视频| 奇米成人av国产一区二区三区| 欧洲成人综合网| 色哟哟亚洲精品一区二区| 天天干天天摸天天操| 91精品国产综合久久福利软件 | 日韩一级黄色大片| 中日精品一色哟哟| 日韩欧美亚洲国产一区| 国产一级一片免费播放放a| 国产精品久久久久9999吃药| 在线免费观看日韩av| 高清不卡在线观看| 欧洲美女亚洲激情| 蜜臀精品一区二区三区在线观看| 亚洲午夜精品久久久久久人妖| 欧美精品黄色| 三年中国中文在线观看免费播放 | 丁香网亚洲国际| 日韩av加勒比| 激情综合网最新| 狠狠躁狠狠躁视频专区| 日韩福利视频导航| 99精品视频在线看| 久久男女视频| 国产亚洲欧美在线视频| 亚洲麻豆av| 黄色一级片在线看| 亚洲精品看片| www.亚洲视频.com| 黄色在线一区| 男女视频网站在线观看| 亚洲私人影院| 人妻少妇精品久久| 亚洲第一毛片| 日韩av综合在线观看| 在线亚洲激情| 久草青青在线观看| 久久一二三区| 成人性生生活性生交12| 奇米影视一区二区三区| 日本中文字幕精品—区二区| 另类欧美日韩国产在线| 最新天堂在线视频| 激情综合网天天干| 又大又长粗又爽又黄少妇视频| 国产精品911| 一级黄色大片免费看| 成人激情小说网站| 一区二区三区免费在线观看视频| 久久综合九色综合97婷婷| 国产精品成人一区二区三区电影毛片 | 国产精品永久免费视频| 欧洲午夜精品| 5g影院天天爽成人免费下载| 97一区二区国产好的精华液| 国产精品一区二区欧美黑人喷潮水 | 日本少妇xxxxx| 国产精品久久久久久妇女6080| 久久人妻无码aⅴ毛片a片app| 亚洲免费观看在线视频| 国产精品99精品无码视| 欧美日韩性生活视频| а中文在线天堂| 欧美一区二区三区在线电影| 好吊色在线观看| 亚洲日本中文字幕免费在线不卡| 北条麻妃在线| 欧美日韩成人在线观看| 国产精品粉嫩| 91久久嫩草影院一区二区| 国产66精品| 新呦u视频一区二区| 欧美日韩日本国产亚洲在线| 黑人糟蹋人妻hd中文字幕| 久久机这里只有精品| 亚洲麻豆一区二区三区| 国产亚洲精品超碰| 免费中文字幕在线| 色综合久久六月婷婷中文字幕| 97免费观看视频| 日韩电影中文字幕av| 麻豆传媒视频在线观看免费| 午夜精品久久久久久久久久久久 | 免费视频一区| 无人码人妻一区二区三区免费| 91丨九色丨国产丨porny| 亚洲色偷偷综合亚洲av伊人| 欧美午夜精品在线| 精品国产av一区二区| 国产午夜精品全部视频播放| 色av手机在线| 91久久精品国产91性色| 网友自拍一区| 国产欧美日韩小视频| 美女性感视频久久| 99久久久无码国产精品性| 亚洲精品国久久99热| 黄色网址中文字幕| 亚洲精品99久久久久| 成人免费观看视频大全| 国产激情久久久| 另类图片第一页| 欧美少妇一区二区三区| 免费观看成人鲁鲁鲁鲁鲁视频| 噜噜噜在线视频| 亚洲高清免费在线| 午夜精品久久久久久久第一页按摩| 中文字幕日韩有码| 日韩伦理三区| 激情视频在线观看一区二区三区| 欧美激情91| 福利视频999| 国产精品免费视频网站| 国产又粗又猛又黄视频| 日韩国产精品视频| 91美女主播在线视频| av一本久道久久波多野结衣| 五月天久久网站| 日本 片 成人 在线| 国产欧美日韩精品在线| 91精品国产高清一区二区三密臀| 亚洲第一级黄色片| a级大胆欧美人体大胆666| 成人在线视频网址| 欧美色图麻豆| av漫画在线观看| 一区二区三区欧美激情| 亚洲va久久久噜噜噜无码久久| 久热精品视频在线| 精品视频在线播放一区二区三区 | 日韩精品极品视频在线观看免费| 欧美亚洲三级| xxx在线播放| 欧洲国内综合视频| av在线女优影院| 国产人妖伪娘一区91| 婷婷综合社区| 超碰在线免费av| 亚洲综合图片区| 亚洲精品成av人片天堂无码 | 亚洲欧美国产一区二区三区| 成人美女视频| 日韩av高清| 精品亚洲porn| 青青草原在线免费观看视频| 欧美精品一区二区在线播放 | 国产综合精品一区| 黄色网址在线视频| 日本韩国一区二区三区视频| 1024国产在线| 97av影视网在线观看| 亚洲免费观看| 我不卡一区二区| 欧美一区二区三区在线| 丁香花在线电影小说观看| 久久99精品国产一区二区三区| 三级久久三级久久久| 乱老熟女一区二区三区| 欧美一区二区久久| 国产777精品精品热热热一区二区| 久久亚洲高清| 精油按摩中文字幕久久| 在线免费日韩av| 亚洲精品视频中文字幕| 成人一级视频| 国产成人生活片| 久久这里都是精品| 97超碰资源站| 97激碰免费视频| 成人三级视频| 美女扒开腿免费视频| 日本乱码高清不卡字幕| 日本资源在线| 日韩欧美99| 成人精品免费看| 中文字幕欧美在线观看| 久久免费国产视频| 日韩久久精品网| 视频免费在线观看| 欧美日韩成人激情| 成年男女免费视频网站不卡| 亚洲欧洲精品一区| 91在线视频播放地址| 国产精品无码一区二区桃花视频| 88国产精品欧美一区二区三区| 91精品久久久久久久久久不卡| 少妇一级淫片免费放播放|