精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

豆包是如何煉成的?字節放出自研萬卡訓練系統ByteRobust論文

人工智能 新聞
近日,字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust,引發廣泛關注。現在,在訓練基礎設施層面上,我們終于知道字節跳動會如何穩健地訓練豆包了。

大型語言模型(LLM)訓練的核心基礎設施是 GPU?,F如今,其訓練規模已達到數萬塊 GPU,并且仍在持續擴大。同時,訓練大模型的時間也越來越長。例如,一個 405B 參數模型 LLaMA 3 的預訓練,動用了 16,384 塊 NVIDIA H100 GPU,耗時 54 天。字節跳動曾使用 12,288 塊 GPU 訓練了一個 175B 參數的模型。最近,xAI 建立了一個擁有 100,000 塊 GPU 的集群以進一步擴大訓練規模。

資源規模的擴張也帶來了故障的普遍發生(例如 CUDA 錯誤、NaN 值、任務掛起等),這對訓練的穩定性構成了巨大挑戰。Meta 曾報告稱,在 16,000 塊 GPU 上訓練大模型時,硬件故障大約每 2.78 小時發生一次。

對于 LLM 訓練,當前的故障診斷和處理實踐通常依賴于在發生「故障即停止」 (fail-stop) 事件后進行日志分析和退出碼評估,或者獨占整個集群進行壓力測試。一旦確定了根本原因,訓練任務會通過重新調度的資源和并行配置來恢復,并從遠程文件系統重新加載通常由 TB 級數據組成的檢查點 (checkpoints)。這種「故障 - 停止-診斷-恢復」的流程會產生不可忽視的開銷,耗時從幾小時到幾天不等。隨著模型和資源規模的擴大,故障頻率增加,這極大地限制了有效訓練時間比率 (ETTR,即有效訓練時間與任務總運行時長的比值)。

因此,任何大規模 LLM 訓練基礎設施都應致力于實現最小化的訓練中斷、高效的故障診斷和有效的容錯能力,以支持高效率的連續訓練。

近日,字節跳動一篇論文介紹了他們 LLM 訓練基礎設施 ByteRobust,引發廣泛關注。現在,在訓練基礎設施層面上,我們終于知道字節跳動會如何穩健地訓練豆包了。

  • 論文標題:Robust LLM Training Infrastructure at ByteDance
  • 論文地址:https://arxiv.org/abs/2509.16293

值得注意的是,這項研究共有六位共一作者:Borui Wan、 Gaohong Liu、Zuquan Song、Jun Wang、Yun Zhang、Guangming Sheng。

ByteRobust,一個穩健的 LLM 訓練基礎設施

ByteRobust 是字節跳動基于生產環境中的觀察和經驗構建的,力求穩健。

其關鍵目標是:以最小的非生產時間實現高效的事件診斷和處理,即在大規模 LLM 訓練中獲得高 ETTR。ByteRobust 經過精心設計,用于監控和管理 LLM 訓練的全生命周期,以便大規模地自動高效處理訓練事件。

ByteRobust 由兩個核心組件構成:控制平面 (control plane) 和數據平面 (data plane)。

ByteRobust 的架構

控制平面在訓練任務外部運行,負責協調穩健的事件處理策略,包括檢測異常、定位故障并觸發適當的恢復操作。

其中,Robust Controller 負責協調一個自動化的故障緩解框架,利用實時監控和「停止 - 診斷」來處理大多數事件。為了實現可控的快速恢復,當沒有機器被驅逐時,它使用一種「原地熱更新」機制來重啟訓練。當決定驅逐某些機器時,它會請求經過自檢預驗證的「溫備用」機器來恢復任務。

Runtime Analyzer 則通過聚合來自訓練 Pod 的堆棧跟蹤來隔離和(過度)驅逐可疑機器,以解決任務掛起和性能下降問題。

數據平面駐留在每個訓練 Pod 內部,集成了監控、診斷、檢查點管理和堆棧跟蹤捕獲等模塊,提供實時可觀測性、中斷時的即時診斷、快速的檢查點回滾以及按需的聚合分析。

Robust Agent 守護進程在每個訓練 Pod 中運行,處理來自穩健控制器的控制信號,并管理以下四個子模塊:

  • 監控器 (Monitor) 收集多方面數據以檢測異常值,支持實時檢查并在出現異常時觸發聚合分析。
  • 診斷器 (Diagnoser) 在任務暫停后運行特定領域的基準測試和測試套件,從而能夠對復雜故障進行深入診斷。
  • 按需追蹤器 (On-Demand Tracer) 從訓練進程中捕獲堆棧跟蹤(當調用聚合分析時)并將其上傳到運行時分析器。
  • 檢查點管理器 (CKPT manager) 執行異步檢查點設置,并將備份跨并行組存儲到 CPU 內存和本地磁盤,以最小化恢復成本)。

與傳統的 GPU 管理和容錯系統(通常在 Kubernetes Pod 級別運行)不同,ByteRobust 是將 LLM 訓練任務的清單擴展到包含細粒度的進程管理,能夠利用運行時信息進行故障檢測并實現快速恢復。ByteRobust 通過一套全面的技術實現了這一目標,其新穎的系統設計理念總結如下。

優先快速隔離,而非精確定位

ByteRobust 傾向于快速的故障隔離,而不是詳盡的定位。在超大規模的 LLM 訓練中(通常涉及數千塊 GPU),精確定位故障可能會導致大量 GPU 閑置。

為了最大化 ETTR,字節跳動的做法是將輕量級的實時檢測與分層的「停止-診斷」相結合,以最小的開銷快速甄別出故障機器。

當這些方法不足以解決問題時,ByteRobust 會應用一種數據驅動的方法,對運行時的堆棧跟蹤進行聚類分析,以在定義的故障域(即并行組)內隔離可疑機器,寧可「過度驅逐」它們,也不去追查確切的根本原因。

將人為錯誤納入設計考量

與標準的深度學習訓練任務不同,長達數月的 LLM 訓練涉及數據、算法和工程代碼的持續更新,這加劇了系統的脆弱性。

認識到人為錯誤是不可避免的故障來源,字節跳動提出了一個自動化容錯框架。

ByteRobust 的自動化容錯機制

該框架結合了用于即時檢測常見錯誤的實時檢查、用于深入分析復雜故障的「停止-診斷」、用于從瞬時故障中恢復的原地重試、用于從有缺陷的用戶代碼中恢復的代碼回滾,以及用于解決如 SDC 等極端情況的回放測試。

此外,通過一種「延遲更新」的方法,用戶代碼的變更可以與確定性故障的恢復過程合并,從而利用了故障的必然性和高頻率。

在快速恢復期間控制可變性

故障源于硬件缺陷和軟件錯誤,并且機器在長時間運行的任務中可能會性能退化。因此,在代碼升級和恢復過程中確保穩定性至關重要。

對于不改變機器分配的變更,字節跳動使用一種「原地熱更新」機制來保留運行時環境并簡化診斷。

為確保可控且快速的恢復,ByteRobust 利用預先配置的「溫備用」 (warm standbys) 機器,這些機器在交付前會執行自檢,以避免整個任務的重新調度。

最后,字節跳動的檢查點模塊通過將備份分布在不同的并行組中(位于任何單個故障域之外),與故障域緊密結合,消除了對遠程文件系統的依賴,從而實現快速重啟。

ByteRobust 已被實際部署

字節跳動表示,ByteRobust 已經實現并已實際部署超過一年時間,用于支持字節跳動在高性能生產 GPU 集群中的內部 LLM 訓練。字節跳動表示,ByteRobust 可以有效減少事件檢測時間,并通過自動容錯框架和聚合分析解決事件。

在為期三個月的時間里,ByteRobust 通過其自動化容錯訓練框架識別了 38,236 次顯式故障和 5,948 次隱式故障。

字節跳動在三個月期間收集的訓練事故統計數據,涵蓋了 778,135 個 LLM 訓練任務。

字節跳動在 16,384 塊 GPU 上的微基準測試實驗表明,溫備用和熱更新機制在恢復速度上分別實現了高達 10.87 倍和 11.04 倍的提升。

ByteRobust 中高效的檢查點機制實現了「每步檢查點」(every-step checkpointing),其開銷低于 0.9%,從而加速了故障切換。

部署實驗表明,在一個為期三個月、使用 9,600 塊 GPU 的密集模型(類似 Llama,70B+)訓練任務中,ByteRobust 實現了高達 97% 的 ETTR。

Cumulative ETTR 和 sliding-window ETTR 是字節跳動引入的新指標,其中前者是累積的有效訓練時間與任務運行的累積總時長的比率,而后者在一個小時的窗口內計算的 ETTR,能更準確地反映間歇性故障的影響。

另外,他們也進行了一個為期一個月的 MoE 模型(Doubao-1.5-pro,200B+)訓練任務,ByteRobust 的表現同樣非常不錯。

同時,隨著訓練的進行,兩個任務的相對 MFU(Model FLOPs Utilization)持續增長。在訓練期間,字節跳動最初在集群上部署了一個樸素版本的預訓練代碼,然后不斷地調整和優化其學習過程和計算效率。

在上圖中,MFU 曲線的每一次躍升都表明,一個更高效的訓練代碼版本通過 ByteRobust 的熱更新機制部署了,而這對 ETTR 造成的降低微不足道。與初始運行時相比,字節跳動在密集模型和 MoE 任務中分別實現了 1.25 倍和 1.58 倍的 MFU 提升。

字節跳動還觀察到,與密集模型相比,MoE 訓練的 ETTR 相對較低。

密集模型的訓練性能通常已由社區充分優化,而 MoE 訓練則不同,它通常涉及大量自定義優化,如 GPU 內核調優、計算與通信重疊以及負載均衡策略。雖然這些優化對于提高訓練效率是必要的,并表現出更高的 MFU,但它們也引入了額外的復雜性,增加了代碼回滾和手動重啟的可能性。

更多詳情請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-02-25 15:43:43

AI 數據人工智能

2024-08-08 17:48:56

2010-02-06 15:14:36

ibmdw架構師

2010-03-24 15:40:39

網管運維管理摩卡軟件

2013-08-23 08:53:45

Twitter架構服務器

2020-08-03 07:57:43

人工智能無人駕駛技術

2020-08-04 13:20:58

無人駕駛人工智能傳感器

2015-10-23 10:39:21

2014-06-20 10:34:42

開源

2015-09-06 09:09:13

2015-11-10 09:09:23

代碼程序員成長

2011-11-25 09:48:04

天線無線

2013-08-19 16:17:48

CIO

2024-03-28 08:13:51

GPTsOpenAI人工智能

2009-08-26 09:55:47

思科認證CCIE思科認證網絡專家

2021-01-27 11:48:34

高可用系統Review

2016-09-25 14:09:50

bug報告bug故障

2024-07-29 09:20:00

AI模型

2016-03-30 09:54:59

bug報告開發
點贊
收藏

51CTO技術棧公眾號

天堂在线资源视频| 视频一区视频二区视频三区高| 免费在线黄色网| 加勒比色老久久爱综合网| 欧美性xxxxx| 97超碰免费观看| 五十路在线视频| 久久99精品国产91久久来源| 欧美激情伊人电影| 国产一二三四区在线| 欧州一区二区三区| 在线观看日韩国产| 毛片av在线播放| 男生女生差差差的视频在线观看| 另类人妖一区二区av| 久久久久久久久爱| 99在线视频免费| 丁香婷婷成人| 欧美一区二区在线免费播放| 北条麻妃在线观看| 精品国产白色丝袜高跟鞋| 99riav一区二区三区| 亚洲tv在线观看| 日韩在线 中文字幕| 欧美在线免费| 一区二区三区国产视频| 麻豆免费在线观看视频| 成人午夜毛片| 色网综合在线观看| 成人小视频在线观看免费| av在线天堂| 99热这里都是精品| 亚洲aa在线观看| 五月激情丁香网| 99riav国产精品| 九九热在线精品视频| 亚洲色图 激情小说| 亚洲欧洲免费| 亚洲精品国产电影| 性农村xxxxx小树林| 精品国产不卡一区二区| 欧美日本乱大交xxxxx| 精品久久久久久中文字幕2017| 精品三级久久| 亚洲午夜精品在线| 300部国产真实乱| 1区2区在线观看| 亚洲同性同志一二三专区| 亚洲高清视频在线观看| 高清在线观看av| 久久久久久久综合色一本| 精品综合久久| 日本久久一级片| 99免费精品在线观看| av一区二区三区免费| 欧美丰满少妇xxxx| 一二三区视频在线观看| 日韩中文字幕视频网| 欧美一区二区三区四区久久| 一区二区免费av| 91麻豆精品一二三区在线| 欧美久久久一区| 久久久久久久久久毛片| 亚洲伦理一区二区| 884aa四虎影成人精品一区| 欧美伦理片在线观看| 午夜精品一区二区三区在线 | 自拍偷拍一区| 亚洲精品中文字幕有码专区| 蜜桃传媒一区二区亚洲av| 欧美色资源站| 亚洲欧美一区二区激情| 国产熟女一区二区| 偷拍欧美精品| 色综合久久悠悠| 成年免费在线观看| 免费久久99精品国产自在现线| 国产激情久久久久| 在线免费观看一级片| 国产综合色视频| 国产 高清 精品 在线 a| 日本黄色不卡视频| 国产性色一区二区| 女女同性女同一区二区三区按摩| 欧美1234区| 色婷婷久久99综合精品jk白丝| 制服丝袜综合网| 亚洲五码在线| 日韩精品日韩在线观看| 懂色av蜜桃av| 欧美日本久久| 国产成人精品久久亚洲高清不卡| 91福利免费视频| 成人午夜av在线| 日本一区二区在线视频观看| 99在线视频观看| 色综合视频在线观看| 中文字幕资源在线观看| 女一区二区三区| 日韩色av导航| 可以免费看的av毛片| 九色综合狠狠综合久久| 国产精品一区二区三区四区五区 | 91视频福利网| 日韩免费电影在线观看| 俺也去精品视频在线观看| 国产福利久久久| 久久国产精品一区二区| 国产日韩精品推荐| 日本在线免费播放| 欧美午夜影院在线视频| 日本在线视频播放| 成人羞羞网站| 136fldh精品导航福利| 国产欧美久久久| 国产日韩精品久久久| 成年在线观看视频| 色成人免费网站| 精品av综合导航| 91动漫免费网站| 免播放器亚洲| 精品国产一区二区三| 国产三区在线观看| 欧美主播一区二区三区美女| 国产黑丝一区二区| 中文字幕亚洲精品乱码| 国产精品视频一区二区高潮| 欧美人体大胆444www| 亚洲最色的网站| 91香蕉视频污版| 亚洲免费福利一区| 亚州成人av在线| 亚洲精品久久久久久久久久久久久久 | 欧美午夜影院在线视频| 无码人妻精品一区二区三| 一本一道久久a久久精品蜜桃| 国产精品久久视频| 邻家有女韩剧在线观看国语| 红桃视频成人在线观看| 大桥未久恸哭の女教师| 午夜久久美女| 97超碰在线播放| 羞羞网站在线看| 91精品国产综合久久婷婷香蕉 | 亚洲愉拍自拍另类高清精品| 亚洲一二区在线观看| 国产国产精品| 91免费视频网站| 久久99精品久久| 5月丁香婷婷综合| 永久久久久久久| 精品亚洲成av人在线观看| 一区二区三区四区国产| 久久久加勒比| 久久的精品视频| 99热这里只有精品5| 亚洲欧美偷拍卡通变态| 亚欧美一区二区三区| 欧美成人综合| 国产一区二区三区四区五区在线 | 国产精品二区三区| 色呦呦久久久| 精品国产免费一区二区三区香蕉 | 欧美丝袜丝交足nylons| 三区四区在线观看| 久久av中文字幕片| 欧美少妇在线观看| 一区二区三区在线免费看 | 日韩激情欧美| 欧美激情综合色综合啪啪五月| 人妻无码中文字幕免费视频蜜桃| 岛国视频午夜一区免费在线观看| 国产精品815.cc红桃| 日韩和欧美一区二区| 亚洲图片都市激情| 精品一区二区三区亚洲| 777精品视频| 国产黄色片在线播放| 制服丝袜成人动漫| 久久视频免费在线观看| 久久久夜色精品亚洲| 男女男精品视频站| 欧美黄色一级视频| 久久免费99精品久久久久久| 成人在线网站| 欧美大尺度在线观看| 天堂网在线观看视频| 日本精品免费观看高清观看| www.97视频| 99国产精品久久久久久久久久| 玩弄japan白嫩少妇hd| 亚洲成人99| 精品一区二区三区免费毛片| 玖玖精品在线| 亚州欧美日韩中文视频| 四虎久久免费| 精品爽片免费看久久| 91中文字幕在线播放| 亚洲国产精品一区二区www| 一级黄色性视频| 国产精品99久久久久| 日韩有码免费视频| 午夜性色一区二区三区免费视频| 久99久在线| 警花av一区二区三区| 国产成人精品久久亚洲高清不卡| 在线中文免费视频| 在线观看亚洲视频| 亚洲精品国产手机| 欧美妇女性影城| 潘金莲一级淫片aaaaaa播放| 一区二区三区四区乱视频| 青娱乐国产视频| 99国产精品久久久| 无码人妻丰满熟妇区毛片蜜桃精品| 石原莉奈在线亚洲三区| 黄色国产一级视频| 欧美va亚洲va日韩∨a综合色| 日产精品一线二线三线芒果| 久久久久影视| 国产经品一区二区| 国产亚洲高清在线观看| 国产精品亚洲综合天堂夜夜| 日韩电影免费观| 91精品国产91久久久久久最新| 亚洲国产精品精华素| 久久精品99久久久香蕉| www视频在线观看免费| 日韩国产在线播放| 日韩一级片免费观看| 91精品国产品国语在线不卡| 亚洲中文字幕在线观看| 欧美午夜一区二区三区免费大片| 欧美日韩一二三四区| 五月婷婷综合在线| 国产一级特黄a高潮片| 洋洋av久久久久久久一区| 九九热精彩视频| 亚洲欧美日韩一区二区三区在线观看| 精品一区二区三区毛片| 色老板在线视频一区二区| 国产经品一区二区| aaa国产精品| 成人自拍视频网站| 一区二区三区四区高清视频| 成人免费在线看片| 视频二区欧美毛片免费观看| 亚洲最大的成人网| 欧美视频三区| 97se视频在线观看| 亚洲高清999| 国产精品一码二码三码在线| 老司机成人在线| 欧美成人免费在线| 精品精品99| 亚洲一区二区三区精品动漫| 婷婷中文字幕一区| 好吊色视频988gao在线观看| 欧美1区2区视频| 97干在线视频| 国产精品外国| 欧美婷婷精品激情| 国产麻豆一精品一av一免费| 蜜臀aⅴ国产精品久久久国产老师| 成人深夜福利app| 熟女少妇一区二区三区| 日本一区二区三区四区| 久久久久久久久久97| 一区二区三区精品| 日本网站在线免费观看| 一本大道av伊人久久综合| 亚洲视屏在线观看| 91精品免费观看| 婷婷五月综合久久中文字幕| 亚洲午夜精品视频| 欧美三级理伦电影| 欧美激情图片区| 伊人久久综合一区二区| 91精品在线国产| 欧美大胆视频| 亚洲欧美日韩另类精品一区二区三区 | 久久精品波多野结衣| 欧美色播在线播放| 伊人网av在线| 亚洲成人av片在线观看| 992tv免费直播在线观看| 欧美理论片在线观看| 欧美在线极品| 成人免费在线视频网站| 香蕉人人精品| 大桥未久一区二区三区| 亚洲自啪免费| 欧美体内she精高潮| 久久精品亚洲麻豆av一区二区| 日本精品在线免费观看| 欧美午夜影院在线视频| 国产剧情精品在线| 亚洲精品日韩丝袜精品| 神马午夜伦理不卡| 国产精品高潮粉嫩av| 给我免费播放日韩视频| 中文字幕欧美人与畜| 亚洲一区成人| www日本在线观看| 国产精品欧美综合在线| 亚洲天堂视频网站| 日韩一区二区电影| 1024视频在线| 欧美专区国产专区| 视频一区日韩| 一区二区日本| 久久精品伊人| 亚洲の无码国产の无码步美| 亚洲欧美一区二区久久| 特级西西444www大胆免费看| 精品国产1区二区| h片在线免费观看| 国产精品一区二区三| 特黄特色欧美大片| 青青在线视频免费观看| 韩国精品免费视频| 国产一区二区三区四区五区六区| 亚洲成人av在线电影| 国产黄a三级三级三级| 色爱av美腿丝袜综合粉嫩av| 户外露出一区二区三区| 国产一区福利视频| 亚洲午夜久久久久久尤物 | 日韩国产在线不卡视频| 亚洲在线色站| 老汉av免费一区二区三区 | 成人羞羞视频在线看网址| 欧美三级午夜理伦三级| 99久久精品免费| 国产午夜精品一区二区理论影院| 日韩三级电影网址| 成人午夜在线影视| 成人国产在线视频| 欧美顶级大胆免费视频| 色噜噜狠狠永久免费| 国产精品私人影院| 美女黄页在线观看| 日韩在线观看免费网站 | 国产无套精品一区二区| 午夜精品999| 国产在线a视频| 亚洲一区二区三区中文字幕在线| 超碰在线人人干| 欧美日韩成人网| 1313精品午夜理伦电影| 亚洲人成无码网站久久99热国产| 成人毛片视频在线观看| 精品成人免费视频| 日韩精品在线视频观看| sese综合| 新呦u视频一区二区| 精品一区二区三区蜜桃| 九九久久免费视频| 亚洲黄色成人网| 欧美日韩123区| 亚洲欧洲日韩精品| 国产精品一区二区你懂的| 免看一级a毛片一片成人不卡| 欧美tickling挠脚心丨vk| 成人三级小说| 欧美尤物一区| 韩国欧美国产一区| 日本三级午夜理伦三级三| 亚洲欧美三级伦理| 精品176极品一区| 青青在线视频免费观看| 91在线视频免费91| 亚洲午夜在线播放| 欧美老女人性视频| 日本天堂一区| 特黄视频免费观看| 亚洲成人综合在线| 国模精品一区二区| 91精品视频专区| 亚洲综合不卡| 日韩欧美综合视频| 亚洲精品国产精品国自产观看浪潮| 日韩欧美精品一区二区综合视频| 91xxx视频| 91在线视频网址| 国产精品乱码久久久| 亚州欧美日韩中文视频| 93在线视频精品免费观看| 蜜臀av粉嫩av懂色av| 欧美日韩中字一区| h片在线观看视频免费| 小说区图片区图片区另类灬| 成人午夜私人影院| 精品乱码一区内射人妻无码| 欧美精品成人91久久久久久久| 欧美日韩在线二区| 国模无码视频一区| 欧美老女人在线| 美女日韩欧美| 欧美图片激情小说|