精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度揭秘:Meta工程師如何構建超大規模AI訓練網絡?

人工智能 新聞
最近,Meta的多個工程團隊聯合發表了一篇論文,描述了在引入基于GPU的分布式訓練時,他們如何為其「量身定制」專用的數據中心網絡。

前段時間發布的Llama 3.1 405B可謂是LLM界的良心開源。不僅公開了模型權重,而且在發布的論文中詳細介紹了所用的算法和工程方法,比如模型架構、指令微調等等。

圖片

論文地址:https://ai.meta.com/blog/meta-llama-3-1/

此外,論文還難得地披露了訓練基礎設施的各方面細節,比如4D并行、集群通信、故障率和可靠性等等。

圖片

其中,關于集群意外中斷及其歸因統計更是讓我們了解到,即使能用上最先進的H100 GPU,也要面對如此頻繁的硬件故障。

1.6萬塊H100訓Llama 3.1,每3小時故障1次!罪魁禍首竟是GPU和HBM3顯存

但畢竟是1.6萬塊GPU組成的超大集群,工程量可想而知,即使Llama 3.1論文的篇幅有洋洋灑灑92頁,也很難深入、詳細地描述其構建過程。

因此,Meta的工程師們最近又發表了一篇論文,專門介紹如何大規模設計、實施和運營這個龐大的AI訓練網絡。

圖片

論文地址:https://dl.acm.org/doi/10.1145/3651890.3672233

這篇論文集結了Meta多個團隊的智慧結晶,包括AI生產工程(AI Production Engineering)、AI與系統協同設計、AI硬件系統等。

選擇RoCE的原因

分布式網絡中的GPU間通信主要包括兩個階段。首先是在單個訓練節點上的4~8個GPU之間進行「節點內通信」,使用NVLink高速互聯方式。

如果訓練工作需要額外GPU參與,就需要引入「節點間通信」,對此,業界通常有兩種設計方式。

- 標準的TCP/IP網絡或對其中的插件進行修飾,比如fastsocket

- 專有的互連技術,比如InfiniBand、NVSwitch、Elastic Fabric Adaptor、Inter-rack等

由于CPU開銷和延遲的增加,前者容易造成集群性能的下降;后者盡管能提供較好的性能,但由于是專有技術,很難靈活部署。

因此,當Meta引入基于GPU的分布式訓練時,工程師們決定為其量身定制數據中心網絡,最后選擇RoCEv2(RDMA over Converged EtherNet v2)作為主要的節點間通信機制。

RDMA全稱Remote Direct Memory Access,可以在無需CPU參與的情況下實現互連GPU的內存共享。

基于TCP/IP的通信機制中,數據包必須先發送到內核才能拷貝至內存,而RDMA則繞過內核,信息可以直接到達或發送至應用內存。

圖片

RoCEv2則是實施RDMA的一種具體協議,規定使用以太網傳輸,數據包采用UDP格式,讀寫信息的封裝和解封都由RDMA NIC硬件處理。

圖片

之所以選擇RoCE,出于以下三方面的動機:

- RoCE與訓練工作負載常用的RDMA一脈相承,確保已有設施的無縫銜接

- 使用以太網可以保留原數據中心相當比例的組件和工具,并能繼續使用基于Clos的設計

- 整個技術棧都以開放標準為基礎,確保網絡基礎設施的兼容和靈活

圖片

擴展后的RoCE網絡中,每個集群可容納數千甚至數萬個GPU,而且可用于支持生產場景下的各種GPU工作任務,比如排名、內容推薦、內容理解、NLP和GenAI模型訓練等。

拓撲結構

前后端分離

訓練集群主要依靠兩個互相獨立的網絡:前端網絡(Frontend Network, FE)負責數據攝取、檢查點和日志記錄,后端網絡(Backend Network, BE)用于訓練。AI訓練機架分別連接到FE和BE。

圖片

FE的網絡層級中包含機架交換機 (RSW)、結構交換機 (FSW) 以及更高層的存儲倉庫,為GPU提供訓練所需的輸入數據。

BE是一種專用結構,以非阻塞架構連接所有RDMA NIC,在集群中的任意兩個GPU之間,無論物理距離如何,都能提供高帶寬、低延遲的無損傳輸。后端結構使用的協議即為RoCEv2。

FE和BE的分離是部署RoCE的早期做出的一項主要決策,主要是希望兩個網絡能夠獨立進化、互不干擾。此外,將用于AI訓練的網絡分隔出來,也能簡化并加速路由和通信機制的迭代。

BE網絡曾被多次修改。最初的GPU集群使用簡單的星形拓撲,讓一些AI機架連接到中央以太交換機(運行不可路由的RoCEv1協議)。

這種設計在GPU規模和交換機冗余方面有明顯的限制。因此,后來迅速過渡到基于結構(fabric-based)的架構,以實現更好的擴展性和可用性。

AI Zone

AI機架的設計含有兩層Clos拓撲,被稱為AI Zone。

圖片


RTSW:Rack Training Switch,機架訓練交換機

CTSW:Cluster Training Switch,集群訓練交換機 

ATSW:Aggregator Training Switch,聚合訓練交換機


RTSW作為葉交換機,為機架內的 GPU 提供縱向擴展連接。主干層由模塊化的CTSW組成,在集群中的所有機架之間提供橫向擴展連接。

AI Zone旨在以非阻塞方式支持大量GPU互連,然而,Llama這種大型模型需要的GPU規模大于單個AI Zone。為了適應這一點,又加入了額外的ATSW層,用于連接數據中心內的CTSW,將RoCE域擴展到單個AI Zone之外。

跨AI Zone的連接在設計上做到了oversubscription,并使用ECMP平衡網絡流量。

為了緩解跨AI Zone流量的性能瓶頸,調度程序也進行了改進,能學習到GPU服務器在網絡拓撲結構中的位置。將訓練節點劃分到不同的AI Zone時,調度程序可以找到「最小切割」(minimum cut),從而減少流量。

路由

上面討論的計算能力和網絡拓撲的擴展引發了大量訓練流量的路由和負載均衡問題。具體來說,AI訓練的工作負載體現出以下3個具有挑戰性的特征:

- 低熵:與傳統數據中心相比,AI工作負載的流的數量和多樣性要小得多,流的模式通常是重復的和可預測的

- 突發性:在時間維度上,流量通常在毫秒級的時間粒度上出現或結束

- 「大象流」:每次流量爆發時,強度可以與NIC的線路速率相當

ECMP和路徑固定

關于路由機制,最初考慮的是廣泛采用的ECMP機制(Equal-Cost Multi-Path,等成本多路徑),根據五元組的哈希值隨機路由,其中五元組包括源和目標IP、源和目標UDP端口以及協議。

然而,正如預期的那樣,由于低熵特征,ECMP的表現不佳。

另一種方案是在最初部署時設計的「路徑固定」(path-pinning),根據目的地「切片」(即RTSW下行鏈路的索引)將數據包路由到特定路徑。

如果每個機架都分配完全相同的作業且網絡中沒有故障,這種方法就會有不錯的效果,但事實并非如此。

如圖5所示,機架中的兩臺主機中只有一臺使用上行鏈路帶寬,這種不均衡的碎片化工作安排導致了特定RTSW上行鏈路的流量分布不均,使訓練性能下降超過30%。

此外,上行鏈路或CTSW上可能發生故障,導致受影響的流通過ECMP被重新分配到其他CTSW,造成流量不均甚至與現有流的沖突,拉低了整體的訓練效率。

要采用短期的緩解措施,可以將RTSW上行鏈路的帶寬升級2倍,可以減輕性能影響但過于昂貴。

隊列對擴展

接下來,團隊對ECMP機制進行了進一步審視,利用NCCL等庫中的隊列對擴展(Queue Pair Scaling)功能,以實現路由機制的演進。

圖片

此外,將交換機配置為E-ECMP (Enhanced ECMP),使用其UDF功能對RoCE數據包的目標QP字段進行額外哈希處理。

對于QP擴展,論文評估了兩種策略。一是將每條消息拆分為通過單個QP發布而非多個QP(split),這會同時降低消息容量并產生多個ACK;另一種方法則是以循環方式將每條消息發布到不同的隊列(round-robin)。

如圖7所示,在AllReduce基準上,E-ECMP和QP擴展搭配使用時,性能相比基線可提升40%。在兩種QP擴展策略中,round-robin的表現更好。

但值得注意的是,哈希操作的潛在概率性質是該方案的本質缺陷。此外,需要根據具體的工作負載定制QP擴展策略和參數,雖然短期內可行,但長期來看會提升操作復雜性。

擁塞控制

將集群過渡到400G網絡部署時,團隊嘗試調整原有的DCQCN算法以適應新的網絡速度和拓撲結構,然而卻遇到了無法解決的問題,相比200G網絡出現了性能下降。

因此,團隊選擇在沒有DCQCN的情況下繼續進行400G部署,在一年多的時間中僅使用PFC,沒有任何其他傳輸級的擁塞控制機制。結果發現,訓練集群表現穩定,并沒有出現持續擁堵的情況。

接收方驅動的流量準入

為了緩解400G及以上網路的擁塞,論文對集群庫和RoCE傳輸進行協同設計,強制執行接收方驅動的流量準入。

圖14展示了這種GPU到GPU的通信架構,包含兩個階段的拷貝,以及接收方發起的通過NCCL集群庫的通信。

每個GPU的HBM內存維護多個通道,用于并行傳輸消息塊。

首先,發送方的GPU線程將數據從計算緩沖區(compute buffer)拷貝至可用的通道緩沖區(channel buffer)。

對于發送方的CPU代理線程,只有在收到來自接收方的CTS數據包(clear-to-send,包括大小和內存信息)后,才能發出RDMA寫入請求。

之后,接收方的GPU線程將通道緩沖區中的內容復制到目標的計算緩沖區。

最后,雙方的CPU代理線程回收通道緩沖區。通道緩沖區回收完畢并準備就緒后,接收方的CPU代理就會發送另一個CTS數據包,開啟下一輪通信。

圖片

擁塞開始時,這種機制可以有效限制網絡中的in-flight流量。然而,要實現正確的參數配置可能具有挑戰性,比如:

- 由于大量的并發計算爭奪GPU線程資源,通道數量受限

- 由于RoCE更粗粒度的流量控制,以及終端主機可能比較遲緩,設置通道緩沖區大小需要比Infiniband更仔細,在擁塞擴散和帶寬利用率不足之間進行權衡。

擁塞控制一直是RDMA網絡研究的焦點,其中DCQCN一直是以存儲為中心的網絡的黃金標準。然而,Meta團隊所述的經驗為定制擁塞控制算法提供了不同的視角。

總結

除了介紹工程設計方面的考量,論文也描述了使用的集群觀測工具,以及一些故障排除案例。

通過分離FE和BE網絡、采用不同的路由方案并優化集群流量模式,Meta團隊構建了高性能且可靠的網絡基礎設施,強調了深入理解訓練工作負載的重要性,并對相關的網絡組件進行了「量身定制」。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-09-25 09:52:48

機器學習人工智能計算機

2011-12-16 09:54:17

網絡架構網絡架構系統架構系統

2020-02-10 08:00:38

AI 數據人工智能

2016-12-14 11:44:25

阿里Docker大數據

2020-07-23 14:03:09

數據中心數據網絡

2022-02-09 12:44:38

數倉Hologres運維

2025-08-22 12:51:33

2020-12-11 19:52:06

數據中心超大規模數據中心

2023-02-14 11:24:36

2022-12-30 14:14:51

數據中心服務器

2025-02-26 08:30:00

2021-03-16 10:28:41

數據中心IT云計算

2020-10-30 11:09:30

Pandas數據代碼

2015-03-23 16:10:58

一體機解決方案SAP華為

2024-04-30 07:00:00

公共云云策略云計算

2023-01-11 21:11:37

RabbitMQRocketMQ消息中間件

2025-09-10 02:11:00

AI基礎設施AIDC

2021-06-28 12:01:01

預訓練模型

2021-11-16 13:19:04

數字化

2024-10-21 17:40:22

點贊
收藏

51CTO技術棧公眾號

av高清久久久| 久久精品官网| 亚洲精品国产精品自产a区红杏吧| 男人添女人下面高潮视频| 国产日产精品久久久久久婷婷| 国产在线精品国自产拍免费| 欧美亚洲成人xxx| 亚洲天堂一级片| 日本一道高清一区二区三区| 666欧美在线视频| 男人日女人bb视频| 中文字幕在线观看网站| 国产人妖乱国产精品人妖| 91麻豆精品秘密入口| 婷婷激情五月综合| 亚洲黄色免费| 久久亚洲综合国产精品99麻豆精品福利 | 日本福利专区在线观看| 91在线视频播放| 91免费版网站在线观看| 中文字幕精品一区二区精| 亚洲美女一区| 欧美理论片在线观看| 激情高潮到大叫狂喷水| 亚洲丁香日韩| 亚洲福利视频免费观看| 91香蕉国产线在线观看| 久久久免费人体| 日本道免费精品一区二区三区| 免费高清一区二区三区| 成人福利片网站| 国产精品美女久久久久久 | 久久久久久久久99精品大| 亚洲少妇中文在线| 日本高清www| 欧美人成在线观看ccc36| 欧美一二区视频| 午夜一级免费视频| 成人精品国产亚洲| 色美美综合视频| 男人天堂999| 午夜激情在线播放| 五月激情综合婷婷| 国产极品尤物在线| 国产在线看片免费视频在线观看| 一区二区三区在线免费播放| 久久国产精品免费观看| 成人直播在线| 亚洲激情综合网| 国产911在线观看| 婷婷丁香在线| 亚洲最大成人网4388xx| 女同性恋一区二区| 在线视频观看国产| 亚洲高清视频中文字幕| 日韩欧美精品免费| 手机在线观看av| 一本大道久久a久久精二百| 91传媒久久久| 巨茎人妖videos另类| 日韩欧美在线视频日韩欧美在线视频| 欧美激情国产精品日韩| 欧美大片免费观看网址| 精品视频在线看| 久久久九九九热| 亚洲天堂av资源在线观看| 亚洲国产成人精品女人久久久 | 午夜精品视频在线| 男人天堂av在线播放| 日韩av网站在线观看| 91久久精品国产91久久| 高h震动喷水双性1v1| 99视频精品在线| 欧美色欧美亚洲另类七区| 91电影在线播放| 一区二区三区自拍| 中国丰满人妻videoshd| 欧美高清你懂的| 亚洲精品一区在线观看| 欧美熟妇激情一区二区三区| 婷婷综合视频| 2020欧美日韩在线视频| 国产女主播喷水视频在线观看| 精品一区精品二区高清| 国产高清自拍一区| aⅴ在线视频男人的天堂| 尤物av一区二区| 久久综合九色综合88i| a成人v在线| 精品久久久久99| 中文字幕av久久爽一区| 在线观看的日韩av| 国产精品欧美风情| 手机看片1024日韩| 国产精品嫩草影院com| 国产九色porny| 成人在线黄色| 亚洲国产一区二区三区四区| av片在线免费看| 国产亚洲福利| 91文字幕巨乱亚洲香蕉| xxxxx日韩| 午夜成人在线视频| theporn国产精品| 台湾色综合娱乐中文网| 欧美成人在线免费视频| 波多野结衣视频在线看| 99re在线视频这里只有精品| 国产高清免费在线| yiren22亚洲综合| 亚洲精品videossex少妇| 夫妻性生活毛片| 三级成人在线视频| 九九九九精品| 污视频免费在线观看| 欧美伦理视频网站| 国产真实乱人偷精品人妻| 亚洲精品乱码| 99视频在线| 超碰在线免费播放| 欧美日韩精品欧美日韩精品 | 亚洲欧美日韩在线| 三上悠亚av一区二区三区| 亚州综合一区| 午夜精品一区二区三区在线视| 国产高清第一页| 国产精品女主播在线观看| 精品久久久久av| 天堂在线精品| 91精品国产高清久久久久久久久| 亚洲美女性生活| 亚洲美女视频在线观看| 怡红院亚洲色图| 欧美日韩激情在线一区二区三区| 98精品在线视频| 色婷婷综合视频| 亚洲国产另类精品专区| 蜜臀av粉嫩av懂色av| 国产在线日韩| 国产精品国产精品国产专区蜜臀ah | 性色av一区二区三区| 亚洲AV无码精品色毛片浪潮| 亚洲精品一二三区| 无码国产精品久久一区免费| 欧美日韩一区二区三区四区在线观看| 亚洲最大av网站| 4438x成人网全国最大| 欧美一级淫片007| 看片网站在线观看| 国产mv日韩mv欧美| a级免费在线观看| 国产精品调教视频| 91极品视频在线| 日本成人一区| 91高清在线观看| 99热99这里只有精品| 国内精品伊人久久久久av影院 | 国产精品日韩欧美一区二区三区| 美女精品视频| 日韩av在线天堂网| 亚洲图片欧美日韩| 成人欧美一区二区三区视频网页| www.51色.com| 亚洲黑丝一区二区| 欧美污视频久久久| 成人豆花视频| 午夜精品久久久久久久白皮肤 | 午夜影院在线视频| 色婷婷国产精品久久包臀| 久久久视频6r| 国产一区二区三区久久悠悠色av| 大伊香蕉精品视频在线| 九九精品久久| 91在线精品视频| 国内激情视频在线观看| 国产一区二区三区免费视频| 国产免费福利视频| 香蕉加勒比综合久久| 亚洲一级黄色录像| 岛国一区二区三区| 一级在线免费视频| 好看的av在线不卡观看| 日韩av一区二区三区美女毛片| 国产免费av国片精品草莓男男 | 色999韩欧美国产综合俺来也| 欧美高清无遮挡| 毛片在线播放网址| 日韩精品一区二区三区中文不卡| 亚洲免费黄色网址| 有码一区二区三区| 日韩免费成人av| 粉嫩av一区二区三区粉嫩| 欧美精品一区二区三区免费播放| 欧美成人中文| 视频一区视频二区视频三区高| 日韩成人18| 国产va免费精品高清在线| 99在线播放| 一区二区三区在线播放欧美| 欧美一区二区三区激情| 777a∨成人精品桃花网| 精品国产一区二区三区四| 亚洲精选在线视频| 手机看片日韩av| av在线免费不卡| 国产一区二区在线观看免费视频| 久久最新视频| 成人免费在线网| 97精品国产福利一区二区三区| 久久99久久精品国产| 欧美国产中文高清| 国产日韩精品在线| 怡红院成人在线| 欧美性受xxxx白人性爽| 国产精品一区hongkong| 美日韩精品免费视频| 成人高潮成人免费观看| 国产丝袜一区二区三区| 噜噜噜久久,亚洲精品国产品| 7777精品伊人久久久大香线蕉| 91porny九色| 欧美性少妇18aaaa视频| 日韩成人免费在线观看| 一区二区三区精品视频| 国产精品99久久久久久成人| 国产欧美一区二区精品久导航| 黄色工厂在线观看| 波多野结衣亚洲一区| 少妇熟女视频一区二区三区| 国产精品综合av一区二区国产馆| 亚洲一区二区三区观看| 老司机午夜精品| 欧美三级午夜理伦三级富婆| 视频在线观看91| 好男人www社区| 奇米精品一区二区三区在线观看一| 黑森林福利视频导航| 水蜜桃久久夜色精品一区的特点| 亚洲乱码中文字幕久久孕妇黑人| 亚洲欧美视频| 毛片一区二区三区四区| 视频在线观看一区| 欧美日韩中文不卡| 久久国产精品99久久久久久老狼 | av在线亚洲色图| 国产不卡一区二区三区在线观看| 视频在线观看免费影院欧美meiju| 91影视免费在线观看| 永久免费精品视频| wwwxx欧美| 色天天色综合| 日韩高清专区| 久久蜜桃av| 草草草视频在线观看| 国模一区二区三区| 欧美国产激情视频| 久久久久久亚洲精品杨幂换脸| 国产精品少妇在线视频| 久久精品免费看| 男人操女人下面视频| 成人性生交大片免费看视频在线| 国产女人18毛片水真多18| 久久久欧美精品sm网站| 国产第一页精品| 一区二区在线观看视频在线观看| 日产欧产va高清| 日本乱人伦一区| 国产又黄又猛又爽| 精品国产3级a| 狠狠色伊人亚洲综合网站l| 综合网中文字幕| 欧美日韩色网| 日本精品久久久久影院| www.成人在线.com| 精品伦理一区二区三区| 日韩av自拍| 男人天堂av片| 免费观看30秒视频久久| 国产精品偷伦视频免费观看了| 91免费看`日韩一区二区| 99热6这里只有精品| 亚洲影院理伦片| 精品国产青草久久久久96| 精品国内片67194| 国产一级在线观看| 欧美大片在线看| 男人最爱成人网| 亚洲最大的网站| 久久最新网址| 福利在线一区二区| 蜜臀av一区二区在线观看| 天堂www中文在线资源| 国产精品亲子伦对白| 精品无码人妻一区二区三| 欧美日韩国产电影| 手机福利小视频在线播放| 欧美成人网在线| 久久精品 人人爱| 精品一区二区三区日本| 91tv官网精品成人亚洲| 日本成人中文字幕在线| 成人深夜在线观看| 国产jizz18女人高潮| 懂色av一区二区三区| 国产成人精品无码高潮| 一本一本久久a久久精品牛牛影视| 草莓视频丝瓜在线观看丝瓜18| 成人激情春色网| 国产一区二区观看| 色综合久久久久无码专区| 国产传媒日韩欧美成人| 天堂网中文在线观看| 色系网站成人免费| 秋霞av鲁丝片一区二区| 久久大大胆人体| 欧美国产视频| 午夜精品亚洲一区二区三区嫩草 | 麻豆app在线观看| 韩国精品美女www爽爽爽视频| 国产95亚洲| 欧美日韩在线免费观看视频| 日韩av高清在线观看| 四虎影成人精品a片| 午夜伦欧美伦电影理论片| 成人高潮片免费视频| 美日韩丰满少妇在线观看| 亚瑟国产精品| 一区二区在线观看网站| 麻豆精品视频在线观看| 国产毛片欧美毛片久久久| 日本高清免费不卡视频| 国产日本在线视频| 国产成人一区二区三区小说| 久久99久久人婷婷精品综合 | 韩国三级电影一区二区| 中日韩一级黄色片| 欧美日韩精品一区二区在线播放| 91在线不卡| 成人免费福利视频| 一区二区蜜桃| 女人扒开双腿让男人捅| 亚洲精品高清在线观看| 亚洲毛片欧洲毛片国产一品色| 欧美精品久久久久| 国产精品对白久久久久粗| 国产美女主播在线播放| 99视频一区二区| 中文字幕在线播| 国产一区二区三区在线免费观看| 精品成人免费一区二区在线播放| 亚洲欧美日韩国产成人综合一二三区| 蜜臀av亚洲一区中文字幕| 久久国产精品国语对白| 精品国产乱码久久久久久免费 | 在线播放亚洲一区| 二区在线播放| 国产在线一区二| 三级成人在线视频| 成人一级黄色大片| 欧美不卡激情三级在线观看| mm视频在线视频| 久久国产精品亚洲va麻豆| 爽爽淫人综合网网站| 中文字幕伦理片| 欧美一区二区黄| 在线观看v片| 亚洲视频欧美在线| 国产91精品久久久久久久网曝门| 日韩在线视频免费播放| 国产亚洲精品一区二区| 精品一区二区三区免费看| 国产二区视频在线| 欧美韩日一区二区三区| 国产高潮流白浆喷水视频| 69精品小视频| 成人情趣视频| 日韩无码精品一区二区| 欧美综合在线视频| 五月花成人网| 欧洲av一区| 国产精品一区二区男女羞羞无遮挡| www日韩精品| 日韩中文字幕在线播放| 九九热hot精品视频在线播放| 亚洲福利精品视频| 亚洲国产精品久久人人爱蜜臀 | 国产精品成人在线观看| 色wwwwww| 91av免费看| 青青国产91久久久久久| 精品无码av在线| 日韩一区二区欧美| 校园春色另类视频| 人妻巨大乳一二三区| 91久久国产综合久久| 国产极品人妖在线观看| 一区二区不卡在线观看| 91麻豆精品一区二区三区| 精品人妻一区二区三区换脸明星 | 国产精品欧美久久久久无广告|