精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái) 精華

發(fā)布于 2025-2-12 13:17
瀏覽
0收藏

1. 深度學(xué)習(xí)的算力饑渴與 HPC 的成本困境

深度學(xué)習(xí)的浪潮,正以勢(shì)不可擋的姿態(tài)席卷而來。從圖像識(shí)別領(lǐng)域的 AlexNet 和 ResNet,到自然語言處理領(lǐng)域的 Transformer,再到如今參數(shù)規(guī)模動(dòng)輒千億、萬億的大型語言模型 (LLM),如 GPT-3 和 PaLM,以及混合專家模型 (MoE) 和多模態(tài)模型,深度學(xué)習(xí)模型的能力在不斷突破,但其背后對(duì)計(jì)算資源的需求也呈現(xiàn)出爆炸式的增長。

高性能計(jì)算 (HPC) 集群,作為支撐深度學(xué)習(xí)訓(xùn)練的基石,其重要性日益凸顯。然而,傳統(tǒng)的 HPC 集群,往往面向雙精度科學(xué)計(jì)算,對(duì)深度學(xué)習(xí)訓(xùn)練的支持并不完美。基于 GPU 的 HPC 集群雖然能夠較好地支持深度學(xué)習(xí)訓(xùn)練,但隨著模型規(guī)模的不斷擴(kuò)大,建設(shè)成本也急劇攀升。更快的計(jì)算芯片和互連技術(shù)固然性能強(qiáng)勁,但其高昂的價(jià)格卻讓許多研究機(jī)構(gòu)和企業(yè)望而卻步。此外,大規(guī)模集群的能耗問題也日益突出,不僅增加了運(yùn)營成本,也對(duì)環(huán)境可持續(xù)性構(gòu)成了挑戰(zhàn)。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

如何在滿足深度學(xué)習(xí)日益增長的算力需求的同時(shí),控制 HPC 集群的建設(shè)成本和能耗,成為了一個(gè)擺在整個(gè)行業(yè)面前的難題。這不僅僅是一個(gè)技術(shù)問題,更是一個(gè)關(guān)乎深度學(xué)習(xí)未來發(fā)展方向的關(guān)鍵問題。

2. Fire-Flyer AI-HPC:軟硬件協(xié)同設(shè)計(jì)的破局之道

DeepSeek-AI 的研究團(tuán)隊(duì)敏銳地捕捉到了這一挑戰(zhàn),依托于實(shí)踐提出了 Fire-Flyer AI-HPC 這一創(chuàng)新性的軟硬件協(xié)同設(shè)計(jì)架構(gòu)。Fire-Flyer AI-HPC 的核心理念,并非簡單地追求硬件性能的堆砌,而是通過對(duì)硬件和軟件的深度融合與精細(xì)優(yōu)化,打造一個(gè)高性價(jià)比、高可擴(kuò)展性、高穩(wěn)定性的深度學(xué)習(xí)計(jì)算平臺(tái)。

Fire-Flyer AI-HPC 架構(gòu)的精妙之處,在于它并非孤立地看待計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等各個(gè)環(huán)節(jié),而是將它們作為一個(gè)整體進(jìn)行系統(tǒng)性的設(shè)計(jì)和優(yōu)化。從計(jì)算節(jié)點(diǎn)的硬件配置,到網(wǎng)絡(luò)拓?fù)涞倪x擇,再到通信庫、訓(xùn)練框架、存儲(chǔ)系統(tǒng)以及資源管理平臺(tái)的開發(fā),每一個(gè)環(huán)節(jié)都經(jīng)過了精心的考量和定制,以實(shí)現(xiàn)最佳的整體性能和成本效益。

3. Fire-Flyer 2:以 PCIe A100 為核心的務(wù)實(shí)選擇

Fire-Flyer 2 是 Fire-Flyer AI-HPC 架構(gòu)的第一個(gè)具體實(shí)現(xiàn),它選擇了一條務(wù)實(shí)而高效的道路——以 PCIe A100 GPU 為核心,構(gòu)建一個(gè)面向深度學(xué)習(xí)和早期 LLM 訓(xùn)練的高性能計(jì)算集群。

每個(gè) Fire-Flyer 2 計(jì)算節(jié)點(diǎn)的配置都體現(xiàn)了對(duì)性能、成本和能耗的精妙平衡。8 個(gè) NVIDIA A100 PCIe GPU 提供了強(qiáng)大的計(jì)算能力,足以應(yīng)對(duì)當(dāng)前大多數(shù)深度學(xué)習(xí)模型的訓(xùn)練需求。選擇 PCIe 版本的 A100,而非 SXM 版本,是在性能和成本之間做出的權(quán)衡。雖然 SXM 版本的 A100 具有更高的 NVLink 帶寬,但其價(jià)格也更為昂貴。對(duì)于 Fire-Flyer 2 的目標(biāo)應(yīng)用場(chǎng)景而言,PCIe A100 的性能已經(jīng)足夠,而其更低的成本則能夠顯著降低整個(gè)集群的建設(shè)成本。

1 個(gè) Mellanox CX6 200Gbps IB 網(wǎng)卡為計(jì)算節(jié)點(diǎn)提供了高速的網(wǎng)絡(luò)連接,確保節(jié)點(diǎn)間的數(shù)據(jù)傳輸不會(huì)成為瓶頸。2 顆 AMD 32 核 EPYC Rome/Milan CPU 則承擔(dān)了數(shù)據(jù)預(yù)處理、通信調(diào)度等輔助任務(wù),與 GPU 形成互補(bǔ),共同完成深度學(xué)習(xí)訓(xùn)練的各項(xiàng)任務(wù)。512GB 16 通道 DDR4-3200MHz 內(nèi)存則為大規(guī)模數(shù)據(jù)的存儲(chǔ)和訪問提供了充足的容量和帶寬。

Fire-Flyer 2 的計(jì)算節(jié)點(diǎn)采用了 GPU 和網(wǎng)卡直連 CPU 的設(shè)計(jì),省去了 PCIe 交換機(jī)。這樣做的好處是最大程度地利用了 PCIe 帶寬,減少了數(shù)據(jù)傳輸?shù)难舆t和開銷。因?yàn)閿?shù)據(jù)不需要經(jīng)過 PCIe 交換機(jī)的轉(zhuǎn)發(fā),直接在 GPU、網(wǎng)卡和 CPU 之間傳輸,從而提高了整體的通信效率。此外,F(xiàn)ire-Flyer 2 還預(yù)留了 NVLink 橋接的空間,為未來的擴(kuò)展留下了余地。如果將來需要更高的 GPU 間通信帶寬,可以通過安裝 NVLink 橋接器來實(shí)現(xiàn)。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

與 NVIDIA 的 DGX-A100 系統(tǒng)相比,F(xiàn)ire-Flyer 2 在成本和能耗方面具有顯著優(yōu)勢(shì)。其節(jié)點(diǎn)成本約為 DGX-A100 的 60%,能耗也約為 DGX-A100 的 60%。雖然 PCIe A100 在某些性能測(cè)試中略低于 DGX-A100,但考慮到其顯著的成本優(yōu)勢(shì),F(xiàn)ire-Flyer 2 無疑具有更高的性價(jià)比。

*上面術(shù)語太多,做個(gè)注釋:

SXM版本的A100,更準(zhǔn)確地說是A100 SXM4,是NVIDIA A100 Tensor Core GPU為了極致高性能計(jì)算和數(shù)據(jù)中心應(yīng)用而采用SXM4封裝和連接方式的特殊版本,它相比PCIe版本擁有更高的性能潛力、更優(yōu)的NVLink連接及更高的GPU密度,堪比F1賽車專為賽道馳騁。

而NVIDIA DGX A100系統(tǒng)正是為了充分發(fā)揮SXM版本A100的極致性能而設(shè)計(jì)的高度集成平臺(tái),DGX A100必須且只能使用SXM接口的A100 GPU模塊,因?yàn)镾XM接口是實(shí)現(xiàn)DGX A100系統(tǒng)內(nèi)8個(gè)A100 GPU通過NVLink高速互聯(lián)、達(dá)到極致AI訓(xùn)練和推理性能的關(guān)鍵,正如高鐵列車必須搭載專門設(shè)計(jì)的高功率發(fā)動(dòng)機(jī)才能高速運(yùn)行,DGX A100系統(tǒng)和SXM A100 GPU是為追求極致性能而生的完美組合,PCIe版本的A100則無法滿足DGX A100對(duì)GPU互連速度和整體系統(tǒng)性能的苛刻需求。*

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

4. Fat-Tree 網(wǎng)絡(luò):高帶寬與精細(xì)調(diào)優(yōu)的結(jié)合

網(wǎng)絡(luò)架構(gòu)對(duì)于 HPC 集群的性能至關(guān)重要。Fire-Flyer 2 采用了雙層 Fat-Tree 網(wǎng)絡(luò)拓?fù)洌⒋鎯?chǔ)和計(jì)算網(wǎng)絡(luò)整合在一起。Fat-Tree 拓?fù)湟云涓叨确謳挼奶匦远Q,能夠確保集群中任意兩個(gè)節(jié)點(diǎn)之間都能以較高的帶寬進(jìn)行通信,避免了網(wǎng)絡(luò)擁塞的發(fā)生。這種拓?fù)浣Y(jié)構(gòu)非常適合 AI-HPC 和高吞吐量存儲(chǔ)環(huán)境對(duì)網(wǎng)絡(luò)帶寬的嚴(yán)苛要求。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer 2 的集群被劃分為兩個(gè)區(qū)域,每個(gè)區(qū)域構(gòu)成一個(gè) 800 端口的 Fat-Tree 網(wǎng)絡(luò),連接大約 600 個(gè) GPU 計(jì)算節(jié)點(diǎn)。這種分區(qū)設(shè)計(jì)不僅降低了網(wǎng)絡(luò)成本,還支持跨區(qū)域任務(wù)的執(zhí)行,提高了集群的靈活性和利用率。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

為了防止網(wǎng)絡(luò)擁塞,F(xiàn)ire-Flyer 2 團(tuán)隊(duì)采取了一系列精細(xì)的網(wǎng)絡(luò)調(diào)優(yōu)策略。首先,利用 InfiniBand 的服務(wù)級(jí)別 (SL) 技術(shù),將不同類型的流量(如控制流量、數(shù)據(jù)流量、存儲(chǔ)流量)分配到不同的虛擬通道 (VL) 中。這就像在高速公路上為不同類型的車輛劃分不同的車道,避免了相互干擾,保證了關(guān)鍵流量的優(yōu)先級(jí)。其次,采用靜態(tài)路由策略,避免了自適應(yīng)路由 (AR) 可能導(dǎo)致的網(wǎng)絡(luò)擁塞擴(kuò)散問題。自適應(yīng)路由雖然在某些情況下能夠提高網(wǎng)絡(luò)利用率,但在大規(guī)模集群中,其動(dòng)態(tài)調(diào)整路由的行為可能會(huì)導(dǎo)致?lián)砣目焖俾樱炊档驼w性能。靜態(tài)路由則像預(yù)先規(guī)劃好的路線,雖然可能不是在所有情況下都是最優(yōu)的,但它能夠保證網(wǎng)絡(luò)的穩(wěn)定性和可預(yù)測(cè)性。再次,將存儲(chǔ)節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)和管理節(jié)點(diǎn)均勻地分布在網(wǎng)絡(luò)中,使得存儲(chǔ)流量能夠均勻地分散到各個(gè)鏈路,避免了局部熱點(diǎn)的產(chǎn)生。最后,針對(duì) NCCL (NVIDIA Collective Communications Library) 進(jìn)行了深度優(yōu)化,調(diào)整 NCCL 拓?fù)洌蛊鋬?yōu)先在同一 NUMA 節(jié)點(diǎn)的 IB 網(wǎng)卡和 GPU 之間進(jìn)行通信,減少跨 NUMA 節(jié)點(diǎn)通信帶來的 PCIe 擁塞;同時(shí),啟用了 PCIe Relaxed Ordering,進(jìn)一步降低擁塞,提高帶寬利用率。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

5. HFReduce:通信庫的創(chuàng)新,突破 allreduce 瓶頸

在大規(guī)模深度學(xué)習(xí)訓(xùn)練中,allreduce 操作是一個(gè)非常頻繁且耗時(shí)的操作。它負(fù)責(zé)將所有 GPU 上計(jì)算得到的梯度進(jìn)行匯總,然后更新模型的參數(shù)。傳統(tǒng)的 allreduce 實(shí)現(xiàn),如 NCCL,雖然已經(jīng)經(jīng)過了高度優(yōu)化,但在 PCIe 架構(gòu)下,仍然存在一定的性能瓶頸。

為了解決這個(gè)問題,F(xiàn)ire-Flyer 2 團(tuán)隊(duì)自主研發(fā)了 HFReduce 通信庫,專門針對(duì) allreduce 操作進(jìn)行了深度優(yōu)化。HFReduce 的核心思想是“先局部 reduce,再全局 allreduce”。它巧妙地利用了 CPU 和 GPU 各自的優(yōu)勢(shì)。首先,在每個(gè)節(jié)點(diǎn)內(nèi)部,利用 CPU 的向量指令(如 AVX512)對(duì)節(jié)點(diǎn)內(nèi)所有 GPU 的數(shù)據(jù)進(jìn)行快速 reduce 操作。由于 CPU 擅長執(zhí)行向量化計(jì)算,這一步能夠非常高效地完成。然后,將每個(gè)節(jié)點(diǎn) reduce 后的結(jié)果,利用雙二叉樹算法和 RDMA 傳輸,進(jìn)行節(jié)點(diǎn)間的 allreduce 操作。雙二叉樹算法能夠有效地減少通信的跳數(shù),降低通信延遲;RDMA 傳輸則能夠直接在節(jié)點(diǎn)間進(jìn)行數(shù)據(jù)傳輸,避免了 CPU 的參與,進(jìn)一步降低了開銷。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

這種分而治之的策略,使得 HFReduce 相比于 NCCL 具有顯著的優(yōu)勢(shì)。首先,它大幅降低了 PCIe 帶寬的消耗。由于節(jié)點(diǎn)內(nèi)部的 reduce 操作已經(jīng)在 CPU 上完成,節(jié)點(diǎn)間只需要傳輸 reduce 后的結(jié)果,數(shù)據(jù)量大大減少,從而降低了對(duì) PCIe 帶寬的壓力。尤其是在大規(guī)模集群中,這一優(yōu)勢(shì)更加明顯。其次,它消除了 GPU 內(nèi)核的開銷。HFReduce 的 reduce 操作完全在 CPU 上進(jìn)行,不占用寶貴的 GPU 計(jì)算資源,避免了 NCCL 的 GPU 內(nèi)核啟動(dòng)開銷,使得 GPU 能夠更專注于深度學(xué)習(xí)模型的計(jì)算。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

為了進(jìn)一步提升性能,HFReduce 還支持 NVLink 加速。通過在 PCIe A100 GPU 之間安裝 NVLink 橋接器,可以利用 NVLink 的高帶寬進(jìn)行 GPU 之間的預(yù) reduce 操作,進(jìn)一步減少 PCIe 帶寬的壓力,然后再將結(jié)果傳輸?shù)?CPU 進(jìn)行最終的 allreduce。

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

HFReduce 的實(shí)現(xiàn)細(xì)節(jié)也體現(xiàn)了精益求精的工匠精神。對(duì)于小數(shù)據(jù)量的傳輸,利用 GDRCopy (GPU Direct RDMA) 技術(shù),直接在 GPU 之間進(jìn)行數(shù)據(jù)拷貝,避免了 CPU 的參與,降低了延遲;利用 CPU 的 SIMD (Single Instruction, Multiple Data) 指令,如 AVX512,對(duì) reduce 操作進(jìn)行向量化加速,充分發(fā)揮 CPU 的計(jì)算能力;優(yōu)化內(nèi)存訪問模式,減少跨 NUMA 節(jié)點(diǎn)訪問內(nèi)存帶來的延遲;利用 RDMA (Remote Direct Memory Access) 技術(shù),實(shí)現(xiàn)高效的節(jié)點(diǎn)間數(shù)據(jù)傳輸,避免額外的 CPU 開銷。

6. HaiScale:為深度學(xué)習(xí)量身打造的訓(xùn)練框架

HaiScale 是 Fire-Flyer 2 AI-HPC 的深度學(xué)習(xí)訓(xùn)練框架,它不僅僅是一個(gè)簡單的訓(xùn)練工具,而是針對(duì) PCIe 架構(gòu)進(jìn)行了全方位的優(yōu)化,旨在最大程度地發(fā)揮硬件性能,為深度學(xué)習(xí)訓(xùn)練提供強(qiáng)大的支持。

HaiScale 實(shí)現(xiàn)了一個(gè)增強(qiáng)版的分布式數(shù)據(jù)并行 (DDP) 算法。通過異步 allreduce 和反向傳播計(jì)算的重疊,HaiScale 進(jìn)一步提高了訓(xùn)練效率。傳統(tǒng)的 DDP 算法在進(jìn)行 allreduce 操作時(shí),需要等待所有 GPU 完成梯度計(jì)算,然后才能進(jìn)行參數(shù)更新。HaiScale 則將 allreduce 操作和反向傳播計(jì)算進(jìn)行重疊,即在 GPU 計(jì)算梯度的同時(shí),就開始進(jìn)行部分 allreduce 操作,從而隱藏了通信延遲,提高了整體的訓(xùn)練效率。

針對(duì) LLM 訓(xùn)練,HaiScale 提供了多種并行化策略的支持,包括張量并行 (TP)、流水線并行 (PP) 和全分片數(shù)據(jù)并行 (FSDP)。對(duì)于需要高帶寬的張量并行操作,HaiScale 支持利用 NVLink 橋接,實(shí)現(xiàn) PCIe GPU 之間的張量并行,提升 TP 效率。對(duì)于流水線并行,HaiScale 通過精細(xì)的數(shù)據(jù)并行 rank 配置,錯(cuò)開不同流水線階段的執(zhí)行時(shí)間,減少網(wǎng)絡(luò)競(jìng)爭,提升流水線并行的效率。對(duì)于全分片數(shù)據(jù)并行 (FSDP),HaiScale 針對(duì) PCIe 架構(gòu)進(jìn)行了深度優(yōu)化,包括高效的內(nèi)存管理,減少內(nèi)存碎片,提升內(nèi)存利用率;以及通信與計(jì)算重疊,將參數(shù)的通信和計(jì)算過程進(jìn)行重疊,隱藏通信延遲。

除了上述策略外,HaiScale 還支持 ZeRO (Zero Redundancy Optimizer) 等其他并行化策略。用戶可以根據(jù)不同的模型和訓(xùn)練需求,靈活選擇合適的策略,實(shí)現(xiàn)最佳的訓(xùn)練效率。HaiScale 的這種靈活性和可擴(kuò)展性,使得它能夠適應(yīng)各種不同的深度學(xué)習(xí)訓(xùn)練場(chǎng)景。

7. 存儲(chǔ)、資源管理與穩(wěn)定性:全方位的保障

Fire-Flyer 2 采用了計(jì)算-存儲(chǔ)一體化網(wǎng)絡(luò)設(shè)計(jì),將計(jì)算流量和存儲(chǔ)流量融合在同一網(wǎng)絡(luò)中,簡化了網(wǎng)絡(luò)架構(gòu),降低了成本。為了避免網(wǎng)絡(luò)擁塞,F(xiàn)ire-Flyer 2 采取了前面提到的多種網(wǎng)絡(luò)調(diào)優(yōu)策略。

在存儲(chǔ)方面,F(xiàn)ire-Flyer 2 采用了自主研發(fā)的 3FS 分布式文件系統(tǒng)。3FS 針對(duì) NVMe SSD 和 RDMA 網(wǎng)絡(luò)進(jìn)行了專門的優(yōu)化,實(shí)現(xiàn)了高吞吐量和低延遲,滿足了深度學(xué)習(xí)訓(xùn)練對(duì)存儲(chǔ)系統(tǒng)的高要求。3FS 存儲(chǔ)節(jié)點(diǎn)的配置包括:1 顆 AMD 64 核 EPYC 7742 CPU,512GB 8 通道 DDR4-3200MHz 內(nèi)存,2 個(gè) Mellanox CX6 200Gbps IB 網(wǎng)卡,以及 16 個(gè) 15.36TB PCIe 4.0x4 NVMe SSD。

3FS 的核心技術(shù)之一是采用了 Chain Replication with Apportioned Queries (CRAQ) 協(xié)議。CRAQ 實(shí)現(xiàn)了強(qiáng)一致性和高性能。它將讀寫操作分離,寫操作在鏈?zhǔn)綇?fù)制的尾節(jié)點(diǎn)執(zhí)行,讀操作可以在任意節(jié)點(diǎn)執(zhí)行,從而提高了讀性能。此外,3FS 還通過精細(xì)的請(qǐng)求發(fā)送控制機(jī)制,有效地緩解了網(wǎng)絡(luò)擁塞,實(shí)現(xiàn)了可持續(xù)的高吞吐量。

為了進(jìn)一步提升 LLM 服務(wù)的效率和經(jīng)濟(jì)性,F(xiàn)ire-Flyer 2 還開發(fā)了 3FS-KV 分布式數(shù)據(jù)處理系統(tǒng),支持 KV 存儲(chǔ)、消息隊(duì)列和對(duì)象存儲(chǔ)等多種模式,并支持 DeepSeek 的 KV Context Caching on Disk 技術(shù),可以將 LLM 服務(wù)的成本降低一個(gè)數(shù)量級(jí)。

在任務(wù)調(diào)度和資源管理方面,F(xiàn)ire-Flyer 2 采用了 HAI 平臺(tái)。HAI 平臺(tái)采用分時(shí)調(diào)度策略,根據(jù)資源需求和集群負(fù)載情況進(jìn)行任務(wù)調(diào)度,并鼓勵(lì)用戶進(jìn)行多 GPU 并行訓(xùn)練,提高資源利用率。

為了保證集群的穩(wěn)定可靠運(yùn)行,F(xiàn)ire-Flyer 2 實(shí)現(xiàn)了多種機(jī)制,包括檢查點(diǎn)管理器 (Checkpoint Manager) 和驗(yàn)證器 (Validator)。檢查點(diǎn)管理器能夠?qū)⒛P蛥?shù)和優(yōu)化器狀態(tài)分塊寫入 3FS,實(shí)現(xiàn)快速保存和加載,并采用周期性異步保存策略,減少硬件故障帶來的損失。驗(yàn)證器則定期檢查硬件的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)潛在問題。

8. 總結(jié)與展望:Fire-Flyer AI-HPC 的深遠(yuǎn)意義

Fire-Flyer 2 AI-HPC 不僅僅是一個(gè)高性能計(jì)算集群,更是一個(gè)深度學(xué)習(xí)軟硬件協(xié)同設(shè)計(jì)的典范。它通過對(duì)計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)架構(gòu)、通信庫、訓(xùn)練框架、存儲(chǔ)系統(tǒng)以及資源管理平臺(tái)的全面優(yōu)化,實(shí)現(xiàn)了深度學(xué)習(xí)訓(xùn)練的高性能、低成本和可持續(xù)性。Fire-Flyer 2 的成功,證明了軟硬件協(xié)同設(shè)計(jì)在構(gòu)建高性價(jià)比 AI 基礎(chǔ)設(shè)施方面的巨大潛力。

Fire-Flyer AI-HPC 的研究成果和實(shí)踐經(jīng)驗(yàn),為 AI-HPC 集群的建設(shè)和發(fā)展提供了寶貴的參考,也為深度學(xué)習(xí)的未來發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。隨著深度學(xué)習(xí)技術(shù)的不斷演進(jìn),F(xiàn)ire-Flyer AI-HPC 也將持續(xù)創(chuàng)新,不斷探索 AI-HPC 架構(gòu)的未來,為人工智能的發(fā)展貢獻(xiàn)力量。

附錄

對(duì)于NVlink,DeepSeek的研究人員是邊用邊罵:

B. Discussion about NVLink Technology Choices

Initially, we did not use NVLink to avoid extra costs and maintain stability, as HFReduce was sufficient for training requirements at that time. However, as the demand for LLMs increased, we added NVLink specifically for LLM training purposes. The decision to install NVLink should be based on actual needs due to its potential drawbacks。

還在附錄里列出了關(guān)鍵的典型錯(cuò)誤:

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

IB網(wǎng)絡(luò)也被吐槽的體無完膚,這也許是之前英偉達(dá)股票狂跌的原因之一吧

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)圖片

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

Fire-Flyer(火烈鳥) AI-HPC:面向深度學(xué)習(xí)的軟硬件協(xié)同設(shè)計(jì),打造高性價(jià)比計(jì)算平臺(tái)-AI.x社區(qū)

而且仔細(xì)想一想,結(jié)合后面DeepSeek V3的論文中專門強(qiáng)調(diào)了對(duì)于內(nèi)存讀寫和網(wǎng)絡(luò)框架及驅(qū)動(dòng)的優(yōu)化內(nèi)容(甚至用了PTX),并且被誤解為要取代CUDA。就知道他們是在踩坑的同時(shí)填坑,填完了坑才有了這種軟硬件一體化設(shè)計(jì)的論文公開。

參考論文: arXiv:2408.14158v2 [cs.DC] 31 Aug 2024

本文轉(zhuǎn)載自??上堵吟??,作者:  ??上堵吟??


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品拍拍拍| 国产精品电影网站| 久久国产精品无码一级毛片| 午夜无码国产理论在线| 亚洲欧美日韩国产另类专区| 久久精品成人一区二区三区蜜臀| 中国女人真人一级毛片| 欧美日本中文| 永久免费毛片在线播放不卡| 麻豆av免费看| 成人国产一区| 精品久久久国产| 免费成人进口网站| 免费在线观看一级毛片| 国产精品一二三在| 国产精品免费网站| 久热这里只有精品6| 91久久高清国语自产拍| 亚洲区中文字幕| 国产51自产区| 99亚洲男女激情在线观看| 欧美性xxxx极品hd欧美风情| 伊人色综合久久天天| 欧美激情综合亚洲一二区| 人人妻人人澡人人爽| 国产精品qvod| 日韩视频免费直播| 亚洲xxx在线观看| 色婷婷综合久久久中字幕精品久久| 亚洲卡通欧美制服中文| 一区二区视频在线播放| 二区在线视频| 久久九九影视网| 好吊色欧美一区二区三区四区 | 九色视频网站在线观看| 丁香激情综合国产| 97se视频在线观看| 99国产在线播放| 蜜桃精品视频在线观看| 国产97色在线| 狠狠人妻久久久久久综合| av成人激情| 97国产suv精品一区二区62| 久草免费在线观看视频| 欧美在线三区| 欧美成年人视频网站欧美| 亚洲人做受高潮| 国产精品99一区二区三| 日韩色av导航| 性生交大片免费全黄| 91九色精品| 久久手机精品视频| 国产真实乱在线更新| 亚洲综合小说| 久久99久久99精品中文字幕 | 天堂www中文在线资源| 欧洲亚洲一区| 国产精品自偷自拍| 国产精品一区在线观看你懂的| 国产欧美日韩中文| 国产精品久久久久久在线| 国内欧美视频一区二区| 91精品国产综合久久久久久丝袜| wwwav网站| 成人av电影免费在线播放| 久久精品国产精品国产精品污 | 中文字幕乱码人妻无码久久| 老司机精品视频一区二区三区| 成人精品久久av网站| av一区二区三| 懂色av一区二区三区蜜臀| 国内精品国语自产拍在线观看| 日韩精品视频无播放器在线看 | 台湾成人av| 精品欧美色视频网站在线观看| 亚洲精品伦理在线| 精品这里只有精品| 成人全视频免费观看在线看| 日韩欧美中文字幕制服| 在线观看av中文字幕| 欧美精品一区二区三区精品| 久久综合伊人77777尤物| 日韩成人免费在线观看| 老色鬼久久亚洲一区二区| 国产一区二区在线免费视频| 亚洲av无码国产综合专区| 91美女在线观看| 一本大道久久加勒比香蕉| 91精品国产高清久久久久久91| 欧美爱爱小视频| 国产精品久久国产愉拍| 国产一区二区在线免费| 神马午夜电影一区二区三区在线观看| 国产婷婷一区二区| 日本三级中文字幕在线观看| 国产免费不卡| 日韩视频免费观看高清完整版在线观看| 国产精品入口麻豆| 日韩免费在线| 1769国产精品| 超碰在线播放97| 久久精品亚洲乱码伦伦中文| 国产精品一区在线免费观看| 深夜成人福利| 亚洲国产精品va| 少妇视频一区二区| 欧美亚洲在线| 成人h在线播放| 天堂资源在线中文| 欧美午夜丰满在线18影院| 五月天开心婷婷| 国产欧美日韩精品一区二区免费| 欧美高跟鞋交xxxxxhd| 中文字幕在线播放av| 99久久精品久久久久久清纯| av电影一区二区三区| 亚洲精品在线影院| 日韩精品免费综合视频在线播放 | 日韩亚洲一区在线| 57pao成人国产永久免费| 国产99久一区二区三区a片| 久久人人爽爽爽人久久久| 日本一本中文字幕| **精品中文字幕一区二区三区| 亚洲欧美日韩中文在线制服| 国产精品第108页| 国产美女视频91| 亚洲一区三区视频在线观看 | 欧美撒尿777hd撒尿| 大黑人交xxx极品hd| 国产午夜无码视频在线观看| 韩国av一区| 亚洲综合国产精品| 蜜桃视频在线观看www社区 | 国产精品爱久久久久久久| 五月激情婷婷综合| 午夜精品123| 污污免费在线观看| 亚洲高清电影| 国产精品对白一区二区三区| 人交獸av完整版在线观看| 日韩视频免费观看高清完整版在线观看 | 亚洲成人原创| 国内精品**久久毛片app| 嗯啊主人调教在线播放视频| 精品国产91洋老外米糕| 国产精品18p| 成人av在线一区二区| 黄页网站大全在线观看| 精品视频在线你懂得| 97免费中文视频在线观看| 网站黄在线观看| 亚洲成人99| 欧美日韩精品一区二区三区四区 | 成人性爱视频在线观看| 在线看日韩精品电影| 成人在线一级片| 美腿丝袜亚洲一区| japanese在线视频| 涩爱av色老久久精品偷偷鲁| 久久久久久成人精品| 欧美自拍第一页| 欧美视频在线看| 熟女少妇内射日韩亚洲| 久久国产精品第一页| 亚洲黄色网址在线观看| 伊人久久影院| 热久久99这里有精品| av网站在线免费观看| 337p亚洲精品色噜噜噜| 国产福利久久久| 久久女同精品一区二区| 久热精品在线观看视频| 欧美国产三级| 久久伦理网站| 24小时成人在线视频| 久久久久久国产精品美女| 欧美日本韩国一区二区| 欧美色综合久久| 免费在线观看av网址| 久久亚区不卡日本| 天天影视色综合| 丁香婷婷在线观看| 久久66热re国产| www.日本在线视频| av中文一区| 超碰97在线人人| 亚洲成人激情社区| 欧美国产视频一区二区| 国产精品99999| 日韩久久久精品| 天天干天天插天天射| 夜夜夜精品看看| 欧美一区二区三区粗大| 粉嫩欧美一区二区三区高清影视| 成人久久久久久久久| 中文字幕亚洲精品乱码| 清纯唯美一区二区三区| 亚洲成人影音| 国产一区红桃视频| 最新欧美色图| 欧美激情免费看| 97在线观看免费观看高清 | 欧美做受喷浆在线观看| 久久97超碰色| 欧美日韩亚洲第一| 欧美精选一区| 一区二区三区国产福利| 夜夜春成人影院| 国产精品久久久对白| 四虎影视国产精品| 国产成人精品电影久久久| gogo高清午夜人体在线| 播播国产欧美激情| 蜜桃视频在线入口www| 亚洲国产精品成人精品| 国产黄色高清视频| 欧美日韩国产a| 国产精品美女主播| www.国产com| 亚洲大片一区二区三区| 天天看片中文字幕| 中文字幕一区二区三区四区不卡| 人妻体内射精一区二区| 成人av综合在线| 91亚洲一线产区二线产区| 精品一区二区三区免费播放| www.99在线| 免费在线亚洲| 春日野结衣av| 亚洲一区国产| 国产视频一视频二| 国产精品久久久免费| 国产精品12345| 在线日韩中文| 一本久道高清无码视频| 国内自拍一区| 免费拍拍拍网站| 在线成人亚洲| 国产午夜福利100集发布| 激情综合亚洲| 国产原创popny丨九色| 99视频精品| wwwxxx黄色片| 日韩黄色免费电影| 一本岛在线视频| 精品在线你懂的| 99国产精品免费视频| 国产一区二区三区在线观看免费| 国产永久免费网站| 国产精品一区专区| 无码成人精品区在线观看| 成年人午夜久久久| 成年人网站免费在线观看| 久久夜色精品国产欧美乱极品| 在线精品91av| 在线观看中文字幕2021| 在线电影院国产精品| a在线观看免费| 精品va天堂亚洲国产| 香蕉视频成人在线| 国产亚洲精品久久久久久777| av国产在线观看| 久热精品视频在线| 岛国av在线网站| 国产精品成人免费电影| 伊人久久大香线蕉综合影院首页| 91久久精品一区| 成人香蕉社区| 日韩精品久久一区| 香蕉国产精品| 日本a视频在线观看| 日韩不卡手机在线v区| 三区视频在线观看| aaa欧美日韩| youjizz亚洲女人| 亚洲在线成人精品| 69亚洲精品久久久蜜桃小说| 欧美一区午夜视频在线观看| 熟妇人妻av无码一区二区三区 | 黄色免费在线观看| 欧美极品少妇xxxxⅹ免费视频 | 亚洲电影av| 9l视频白拍9色9l视频| 国产精品一区在线观看乱码 | 天堂中文资源在线观看| 在线播放日韩精品| 欧美xxx黑人xxx水蜜桃| 国产精品户外野外| 1313精品午夜理伦电影| 日韩电影免费观看高清完整| 亚洲视频一区| 婷婷激情四射五月天| 成人av网站在线| 中文字幕乱码av| 欧美视频专区一二在线观看| 国产男男gay体育生白袜| 亚洲人成电影在线播放| 亚洲91av| 国产精品专区h在线观看| 欧美aaaaaaaa牛牛影院| 经典三级在线视频| 久久成人亚洲| 亚洲一级Av无码毛片久久精品| 国产精品美女久久久久aⅴ| 亚洲黄色小说图片| 欧美成人精品二区三区99精品| 福利小视频在线观看| 国产电影一区二区三区| 欧美成人一区二区在线| 全球成人免费直播| av免费观看网| 国产精品系列在线播放| 欧美性生给视频| 色嗨嗨av一区二区三区| 亚洲区小说区图片区| 久久久久国产精品www| 欧美电影院免费观看| 亚洲精品成人自拍| 天堂在线一区二区| 欧美 变态 另类 人妖| 午夜免费久久看| 午夜精品久久久久久久91蜜桃| 日韩一区二区三区在线播放| av激情成人网| 青青草成人网| 日韩成人精品视频| 五月天综合视频| 91国产免费看| 国产视频福利在线| 日本精品一区二区三区在线播放视频| 乱亲女h秽乱长久久久| 加勒比成人在线| 成人国产一区二区三区精品| 青青草手机视频在线观看| 91精品欧美久久久久久动漫 | 久久久女人电视剧免费播放下载| av国产精品| 性做爰过程免费播放| 国产精品一品视频| 精品肉丝脚一区二区三区| 日韩一区二区影院| 婷婷色在线资源| 国产精品久久久久久久小唯西川 | 亚洲va欧美va国产综合久久| 91亚洲国产成人久久精品| www欧美激情| 中文字幕一区二区三区四区| 国产人妻精品一区二区三| 久久精品中文字幕一区| 麻豆视频久久| 岛国大片在线播放| 91视频观看视频| 中文字幕xxxx| 俺去了亚洲欧美日韩| 视频一区在线| 波多野结衣av一区二区全免费观看| 成人中文字幕电影| 91玉足脚交嫩脚丫在线播放| 一区二区三区精品99久久| 欧洲亚洲精品久久久久| 中文字幕超清在线免费观看| 国产成人久久精品77777最新版本| 亚洲一区二区91| 亚洲午夜国产成人av电影男同| 国产91在线播放精品| 男人的天堂视频在线| 91网站在线观看视频| 中文字幕久久久久| 中文字幕一区二区三区久久网站 | 成人网站免费观看入口| 93久久精品日日躁夜夜躁欧美| 亚洲成人第一网站| 日韩视频免费观看| 韩国女主播一区二区三区| 女人另类性混交zo| 亚洲精品成人在线| 男生女生差差差的视频在线观看| 国产精品三级美女白浆呻吟| 午夜久久一区| 亚洲a v网站| 日韩欧美中文字幕一区| 亚洲天堂一区二区| 日韩精品久久一区二区| 久久久久久电影| 国产成人精品免费看视频| 日av在线播放中文不卡| 一区二区免费不卡在线| 久久人人爽人人爽人人片| 91精品国产综合久久精品性色| 在线人成日本视频| 国产精品99久久久久久大便| 久久色.com| 亚洲黄色精品视频| 国产精品夜色7777狼人| 亚洲黄色在线| 日本中文在线视频| 亚洲摸下面视频| www.豆豆成人网.com| 中文字幕亚洲欧洲|