Delta AI 集群的 GPU 故障分析和刻畫
一、背景
我們在之前的文章中已經(jīng)介紹過很多對大規(guī)模 AI 集群建設(shè)和維護相關(guān)相關(guān)的文章,包含 Meta、阿里、IBM、ImbueAI、字節(jié)、上海 AI-lab 等等。今天簡單介紹一篇新的文章,其相對比較簡單,主要關(guān)注 GPU 異常,與我們之前介紹萬卡集群運維中的 Case 高度重合,但也有一些不一樣的地方,就當簡單回顧。
對應(yīng)的論文為: [2503.11901] Characterizing GPU Resilience and Impact on AI/HPC Systems [1]
二、摘要
論文對 NCSA Delta AI 集群(算力超過 600 PFLOPs)的 GPU 故障特征進行了系統(tǒng)性分析。該集群包含多種 GPU 硬件(A40、A100、H100 等)以及部分 CPU 節(jié)點。基于兩年半的 GPU 異常數(shù)據(jù),評估了 GPU 硬件組件的可靠性特征,以確定不同組件的故障脆弱性及其對 GPU/節(jié)點可用性的影響。通過量化分析 GPU 硬件核心、NVLink 與顯存系統(tǒng)的關(guān)鍵錯誤傳播路徑,進而考察了觀測到的 GPU 錯誤對用戶作業(yè)的實際影響。
三、引言
3.1 Delta 集群
如下圖 Figure 2 所示,Delta 集群由 132 個 CPU 節(jié)點和 286 個 GPU 節(jié)點組成,共 1168 個 GPU,專門為運行多樣化的科學研究及 AI/ML 工作負載而設(shè)計。具體包括:
- 132 個 CPU 節(jié)點。
- 100 個 4 x A40 節(jié)點,用于通用計算及輕量級 AI/ML 應(yīng)用。
- 100 個 4 x A100 節(jié)點。
- 6 個 8 x A100 節(jié)點。
- 80 個 4 x GH200 節(jié)點。
網(wǎng)絡(luò)層采用 HPE Cray Slingshot 11 互聯(lián)架構(gòu)(Dragonfly 架構(gòu)),節(jié)點間通信帶寬超過 400 Gbps,存儲系統(tǒng)則基于 Lustre 分布式文件系統(tǒng)實現(xiàn)。

3.2 NVIDIA GPU 錯誤類別
NVIDIA GPU 錯誤會以 XID 錯誤形式上報,本文中作者根據(jù) NVIDIA 開發(fā)手冊(1. Introduction — XID Errors r555 documentation [2])、開發(fā)者論文、博客平臺以及 Delta SRE 的評估,選取了被歸類為高頻且影響嚴重的 XID 錯誤子集,然后將其分為三類:
- GPU 硬件故障:重點研究核心硬件錯誤,包括:MMU 錯誤、GPU 掉卡、GSP RPC Timeout 及 PMU 通信錯誤等。此類錯誤可導致用戶作業(yè)中斷、GPU 掛起及數(shù)據(jù)損毀等。
- NVLink 互聯(lián)故障:主要由 GPU 硬件缺陷、連接器故障或系統(tǒng)集成時安裝不當引發(fā),會造成 GPU 不可用及用戶作業(yè)失敗。此類錯誤還會阻礙 GPU 間數(shù)據(jù)傳輸,降低計算吞吐量。消除 NVLink 錯誤必須執(zhí)行 GPU Reset 或節(jié)點重啟操作。
- GPU 顯存故障。本文主要研究的是 DBE(double-bit error),由于 SBE 可通過 ECC 機制自動校正,故未納入記錄范圍。DBE 會觸發(fā)下游錯誤恢復機制,若恢復機制失效則會導致 GPU/節(jié)點故障,需通過重啟 GPU 或節(jié)點進行恢復。
如下圖所示為作者集群中常見的故障:
- Category:上述 3 種錯誤類別。
- Count 出現(xiàn)的次數(shù),越低越好。
- MTBE(mean time between errors),也就是平均無故障時間,越高越好。
- Persistence:錯誤持續(xù)的時間,越低越好。

上述錯誤也與我們之前梳理的常見錯誤類型高度重合,但也有些不一樣:
- 我們遇到的 XID 94 比較多,而 XID 95 比較少。
- 我們遇到的 XID 74 很少。
- GSP 不只是存在 ERROR,在個別時候還會導致奇怪的性能問題,因此我們默認關(guān)閉 GSP。
- 我們經(jīng)常遇到 48/63/94 一起出現(xiàn)。
- 很少遇到 XID 122 錯誤。

3.3 NVIDIA GPU 錯誤管理
NVLink 中提供了 CRC (Cyclic Redundancy Check) 錯誤檢測機制,其核心目的是確保在通過高速 NVLink 互連傳輸數(shù)據(jù)時的數(shù)據(jù)完整性。當檢測到 CRC 校驗和錯誤時,系統(tǒng)將從最后已知的有效數(shù)據(jù)包開始重傳。
如下圖 Figure 3 所示,A40、A100 和 H100 的內(nèi)存錯誤恢復流程如下:
- Ampere 和 Hopper 架構(gòu) GPU 應(yīng)對 DBE 的主要機制是行重映射技術(shù)(Row Remapping)——通過備用行替換故障存儲行,并記錄行重映射事件(Row Remapping Event,RRE,XID 63)。若對應(yīng)存儲行無可用備用行,則標記行重映射失敗(Row Remapping Fault,RRF,XID 64)。當存儲體所有備用行耗盡導致 RRE 失敗時,系統(tǒng)同樣會記錄 RRF。
- 虛線框展示了 A100 和 H100 的額外恢復機制。相較于 A40,A100 和 H100 GPU 支持不可糾正內(nèi)存錯誤隔離(uncorrectable memory error containment)及動態(tài)頁面離線(dynamic page offlining)技術(shù)以實現(xiàn)內(nèi)存錯誤緩解。
動態(tài)頁面離線技術(shù)通過將故障內(nèi)存地址標記為不可用狀態(tài),無需 GPU 復位即可維持系統(tǒng)可用性。
錯誤隔離機制會終止使用故障內(nèi)存地址的用戶進程,從而阻止錯誤傳播。抑制成功會報 Contained Memory Error(XID 94),抑制失敗會報 Uncontained Memory Error(XID 95)。

3.4 數(shù)據(jù)源
作者分析基于 2022 年 1 月至 2024 年 5 月期間共計 855 天從 Delta 集群收集的數(shù)據(jù)。如下圖 Figure 4 所示,數(shù)據(jù)處理流程包含多個階段:

四、錯誤傳播 & 關(guān)鍵發(fā)現(xiàn)
4.1 錯誤傳播
4.1.1 GPU 硬件子系統(tǒng)
如下圖 Figure 5 展示了 GPU 硬件組件間的錯誤傳播情況。研究發(fā)現(xiàn)存在三條主要傳播路徑,其源頭分別為:
- GSP RPC 超時錯誤:99%概率下,GSP 錯誤會導致同類錯誤重復發(fā)生或致使 GPU 進入不可操作狀態(tài)。
- PMU SPI 通信錯誤:PMU SPI 通信錯誤會以 82% 概率向下游傳播引發(fā) MMU 錯誤,繼而幾乎 100% 導致作業(yè)失敗。盡管從用戶作業(yè)視角看 PMU SPI 通信錯誤屬于高影響錯誤,但 NVIDIA 開發(fā)者手冊未予重點說明。
- GPU 掉卡(總線脫落):通常是 GPU 與主板連接松動或散熱導致的接觸不良,最終幾乎 100% 導致任務(wù)異常。

4.1.2 NVLink 互連架構(gòu)
NVLink 是一種節(jié)點內(nèi) GPU 間高速互連技術(shù),用于 GPU 間通信和數(shù)據(jù)交換。NVLink 故障可能影響單個或多個同節(jié)點 GPU。如下圖 Figure 6 所示,作者在 3000 例 NVLink 錯誤中統(tǒng)計發(fā)現(xiàn):
- 86% 的錯誤未發(fā)生跨 GPU 傳播。
- 14% 的錯誤擴展到單個節(jié)點內(nèi)的多個 GPU。

4.1.3 GPU 內(nèi)存容錯機制
如下圖 Figure 7 展示了 GPU 內(nèi)部不可糾正內(nèi)存錯誤的恢復路徑。由于 SBE 可通過 ECC 自動校正且不被記錄,故未予呈現(xiàn),這里展示的是 DBE 的恢復路徑。數(shù)據(jù)顯示:
- 43% 的 RRF 能成功實施錯誤隔離,GPU 可維持運行到下次維護窗口。
- 若 RRF 后未觸發(fā)錯誤隔離(占 46%),GPU 將進入不可操作狀態(tài)需執(zhí)行復位。
- 內(nèi)存錯誤隔離可能失敗并導致未隔離內(nèi)存錯誤。
- 總體而言,綜合 RRE 與 RRF 后的錯誤隔離措施,70.6% 的 DBE 事件得到有效緩解且保持 GPU 持續(xù)運行。

4.2 關(guān)鍵發(fā)現(xiàn)
4.2.1 GPU 內(nèi)存 vs 硬件可靠性
與常見認知相反,GPU 內(nèi)存在 MTBE 方面比 GPU 硬件可靠 30 倍以上。
GPU 硬件和互連的 MTBE 為 800 節(jié)點小時,而 GPU 內(nèi)存相關(guān)錯誤的 MTBE 為 26,093 節(jié)點小時。
4.2.2 GSP 是最脆弱的組件
新引入的 GSP 是最脆弱的 GPU 硬件組件。
超過 99% 的 GSP 錯誤會使 GPU 進入錯誤狀態(tài),導致用戶作業(yè)失敗。
GSP 錯誤需要節(jié)點重啟,恢復時間可達 23 小時。
4.2.3 PMU SPI通 信錯誤的傳播
PMU SPI 通信錯誤有 82% 的概率導致 MMU 錯誤。
MMU 錯誤幾乎必然導致作業(yè)失敗,系統(tǒng)可靠性受到嚴重威脅。
4.2.4 NVLink 錯誤特征
系統(tǒng)范圍內(nèi) NVLink 錯誤的平均故障間隔時間僅為 6.9 小時。
遇到 NVLink 錯誤后,約三分之二的情況會導致作業(yè)失敗。
剩余作業(yè)能成功完成,主要得益于 CRC 檢測和重傳機制的保護。
4.2.5 內(nèi)存錯誤恢復機制
Ampere GPU 引入了創(chuàng)新的內(nèi)存錯誤恢復技術(shù),顯著降低了 DBE 對應(yīng)用的影響,將 DBE 對應(yīng)用的性能損失減少了 70.6%。
4.2.6 GPU 錯誤與作業(yè)故障關(guān)聯(lián)分析
作者針對最可能導致作業(yè)故障的特定 GPU 錯誤,對全部 GPU 故障作業(yè)進行細分統(tǒng)計。如下圖 Table 2 所示,列出了各類 GPU 錯誤引發(fā)用戶作業(yè)故障的概率分布。鑒于任何檢測到的錯誤均可能導致作業(yè)故障,作者將 20 秒時間窗內(nèi)出現(xiàn)的所有 GPU 錯誤均視為故障因素。可以看出,最常見的是 MMU 錯誤(XID 31),這個大部分與用戶的應(yīng)用有關(guān)。

五、參考鏈接:
- [1] https://arxiv.org/abs/2503.11901
- [2] https://docs.nvidia.com/deploy/xid-errors/
本文轉(zhuǎn)載自????????AI閑談??????????,作者:AI閑談

















