超大規模 AI 基礎設施建設實踐,極致釋放算力效能
大家下午好,今天我將基于百度智能云在基礎設施等方面的技術能力,以混合云的業務實踐為案例,向大家描述我們在建設諸如 3.2 萬卡全國產智算集群這樣的超大規模集群時,都面臨了哪些挑戰,以及在此期間我們做了怎樣的探索,去解決這些問題。
在過去幾年,隨著國家大力推進智算中心高質量發展,我國的智能算力實現跨越式增長,從百卡、千卡,向萬卡、十萬卡規模擴展。在這個進程中要具備兩方面能力:
一方面如何把大規模算力建好,另一方面在建好的同時如何使這些算力得到有效使用、極致發揮。
百度智能云混合云深度參與了這個進程,也成功打造并且運營了多個大規模實踐案例。剛才提到的 3.2 萬卡超大規模智算集群正是綜合應用了我們積累的各項技術能力,主要有以下特點:
- 首先是硬核底座,采用國產算力昆侖芯,實現核心技術的自主創新;
- 其次,整個集群提供了超萬 P 算力,并實現了萬卡有效訓練率 98%;
- 在能效方面,整個集群的 PUE 做到了 1.199;
- 最后是建成后的運行情況,我們拿到了唯一的萬卡規模智算集群服務穩定性的五星級認證。
圖片
接下來我將基于這個實際案例做一些具體的分享。
在去年,為了應對大規模智算集群建設的趨勢,我們推出了「智算原生混合云」的產品方案,把智算的核心技術與混合云的彈性、安全與擴展能力進行了融合,通過軟硬協同、一體化交付的方式構建智算基礎設施。主要包含四層核心產品:
- 底層的高效智算中心 AIDC;
- 基于 AIDC 的高性能智算云底座 ABC Stack;
- 基于云底座之上的百度百舸 AI 計算平臺;
- 以及多集群之間的算力運營平臺 BHCMP。
基于整套方案,我們目前已成功落地多個超大規模集群。在這個過程中,由于算力規模攀升所帶來的挑戰主要在于兩個方面:
其一,是算力規模本身帶來的基礎設施難題。特別是在電力和散熱方面的瓶頸、網絡互聯和通信的效率,訓推過程當中的并行計算以及使用性能。
其二是在集群建成之后,如何實現高質量使用同樣關鍵,包括智能運維與安全保障、算力協同與高效運營。

首先,在 IDC 基礎設施方面,相較于中小型的智算中心,超大規模集群在基礎設施的部署與算能協同方面,面臨更為嚴峻的挑戰。具體包括幾點:
- 電力保障:隨著單芯片、單服務器的功耗飆升,算力規模提升,顯存容量、通信帶寬增長,模型訓練以及模型集群化推理業務,相較于傳統互聯網業務而言,對整個集群的電力容量需求大幅提升;
- 散熱壓力:風冷散熱能力接近極限,傳統散熱方式無法滿足新一代芯片要求;
- 空間布局:GPU 并行計算帶來的低延時數據傳輸要求,需要從配套電力到空間布局等全套的動態靈活調整機制來實現良好的配比。
針對以上挑戰,在產品層面我們推出了更高算力密度和更高運行效率的昆侖芯超節點產品,并且基于昆侖芯超節點及傳統 8 卡服務器的風冷、液冷形態,構建了大規模 AIDC 的技術方案。
- 供電體系上,我們引入「一體化 + 儲能」架構,應用 750V 高壓直流、源網荷儲及綠電直供等技術,提升系統供電效率、可靠性與靈活性。
- 制冷系統上,采用「度冰川」+「度靈溪」的分布式架構,結合超節點 2.0 整機柜,實現冷源池化與風液兼容。在異構算力場景中,依托風液同源和復合式冷源架構,更有效地提供了散熱能力支撐。
- 空間布局上,為進一步應對單棟建筑體量限制,我們推動更高功率密度與多建筑協同布局策略。在萬卡甚至更大規模的場景中,必須將所有的算力節點到網絡核心節點的通信延遲,控制在一個穩定的波動范圍之內。對此,我們從傳統并行布局改成以網絡為核心的向心布局——從同一樓層的平面向心,到單棟建筑多層環境下的空間向心,以及跨樓宇的園區向心。

通過 AIDC 解決園區基礎設施資源容量問題之后,算力集群對組網方案、路由策略以及網絡的負載均衡也提出了極高的要求。
受電力與物理空間限制,超萬卡的機柜一般需要多機房協同承載,為此我們推出了跨園區 RDMA 長傳方案。這個方案包括硬件和軟件兩部分:
- 硬件層面,通過百度智能云自研的高性能大緩存交換機和優化的 RDMA 協議實現跨園區的高效互聯互通,保障了長距離 RDMA 無損傳輸;
- 軟件層面,通過百舸 5.0 高效調度算法,對模型并行策略進行優化。比如把對延時敏感度高,數據通信密度相對更高的專家并行、張量并行放在單一集群里面,而對延時敏感度相對較低,通信頻率要求較低的數據并行,放在跨園區多集群之間進行通信。通信軟件硬件配合方式,把長距離 RDMA 通信帶來的性能影響降到最低。

同時在超大規模集群中,傳統的組網方案面臨路由爆炸、擴展性受限、可靠性差等問題。
我們通過路由聚合技術將大規模智算集群的 POD 內路由數量壓縮到了 4000 多條,有效地緩解了交換機路由表項的壓力。
同時我們將主機側的 AR 自適應路由技術和端側多平面組網架構進行了深度的結合:一方面通過端側多平面組網提供更大的橫向拓展能力,將二層組網規模從傳統單 POD 8000 卡基礎之上拓展到最大規??蛇_ 13 萬卡,且延時比三層組網更低。二是通過自適應路由實現了逐包哈希:對大象流產生的網絡擁塞問題,我們會把流分拆成包,按單包分配到端側不同網卡,再基于交換機協議在另一側實現包重組,形成從包到流的重新匯聚,通過這種方式吞吐性能較傳統的逐流哈希提升了20%;三是通過端側多平面提供了更多的冗余鏈路,配合自適應路由技術,能夠實現秒級的鏈路故障切換,從而極大提高網絡可靠性。
整體上看,通過這些 HPN 關鍵技術,我們為大規模智算集群打造了一套高性能、高可靠、高擴展的組網架構。

說完組網,整個集群上線運營之后,我們將面臨一個最核心的問題——建完之后如何把算力更有效地發揮出來?
在這個過程當中,我們從基礎設施層、資源管理層、AI 任務層入手,解決整個資源利用率使用問題。
- 基礎設施層中,在產品層面我們通過把原來在單機 8 卡內使用的 NVLink 傳輸能力進一步 Scale-up 到超節點內 32 卡乃至 64 卡(基于 XPU Link),去提升超節點內卡間通信效率。同時,利用高性能網絡和存儲,做機間網絡擴展,使萬卡網絡帶寬有效性大于 90%,單數據節點讀吞吐大于 15 GiB/s;
- 資源管理層中,通過在控制面定向優化,我們可以支持單集群管理達到 12,500 節點的規模,并且實現了高并發場景下,查詢變更等操作的響應時間在毫秒級;提交上百任務時,調度周期在分鐘級。
最后是面向模型特點,尤其是最近火熱的 MoE 架構,為整個訓練推理過程帶來了大量的 Alltoall 通信開銷。針對這種場景,除了從網絡拓撲層面減少 Alltoall 通信的交換機跳數,以及降低多對一通信的時延外,我們對 Alltoall 算子也進行了優化,相比開源方案,大幅提升 Prefill 和 Decode 的 Alltoall 通信性能。從效果上看,針對 batch size 級別的動態冗余專家編排,我們可以將專家均衡度優化至 1.08,確保集群中所有加速卡的通信時間大致相同。同時通過最大程度的計算和通信 overlap,整體吞吐提升 20% 以上。

我們具體看一下在訓練、推理兩個場景中算力效率的提升實踐。
訓練方面,得益于過往在 GPU 上對模型加速經驗的大量積累,我們快速在國產芯上建立了全套優化體系,并面向 MoE 場景進行了新的優化,包括任務調度的易用性、并行策略、計算、顯存、通信等不同維度的優化方向,貫穿產品、框架、編譯器、算子、系統軟件層面的整個 AI Infra 軟件棧。具體手段上,我們在自動并行策略搜索、Alltoall 通信算子優化、計算通信 overlap 等基礎上,還有算子融合、混合精度、顯存 offload、通信壓縮、優化 CPU 調用等細粒度的優化手段,從而能夠在國產萬卡集群 MFU 達到 50% 以上。
推理方面,我們將 PD 分離落地到國產芯生產環境中,通過采用推拉共存模式,可以同時兼顧小流量高性能、大流量高并發場景。我們還針對大模型注意力緩存機制的特點,實現了分布式 KV Cache 存儲引擎(即 Attention Store)。該引擎可利用 SSD 和內存的超大容量,作為顯存容量的補充,實現 KVCache 從顯存到內存,再到 SSD 的多級緩存。在此之上,我們通過 PD 調度器實現了一種新的調度策略:通過對各層能力的緩存感知(即 Cache Aware),將 KV Cache 訪問進行優化調度,提升推理性能。
通過這一系列的手段,最終可以提升整個 Prefix Cache 命中率,從原始狀態提升 30%~50%。在萬卡集群典型推理場景下,TTFT 可以降低 37%。

AI 基礎設施進入運營狀態后,就面臨如何將算力穩定、高效、安全地轉化為服務的挑戰。這其中的關鍵在于,此時運維的核心從傳統的「保障單節點和單模塊穩定」轉向「保障算力使用效率」,在實踐當中,我們聚焦在算力與 AI 任務的協同上,圍繞 AI 任務構建了全棧運維體系:
首先在基礎設施上,我們在所有的設備部署前,會采用全面的軟硬件質檢與壓力測試,提前排除隱患;在訓推任務過程中,會采用百度自研硬件感知平臺,從算力到網絡及安全設備,進行全鏈路監控;運行后也會進行定期的軟硬件巡檢?;诨A設施全閉環的運維鏈條保障交付健康度 100% 以及系統運行的穩定性。目前,我們的硬件感知平臺已經可以識別 280 多種 GPU 卡故障,并根據模式匹配到對應的故障類型,給出相對應的自動化容錯方案。通過這種方式,基礎故障召回率可以達到 98%。
第二在基礎設施監控指標基礎之上,我們提供了針對訓練任務的全生命周期運維管理:通過在統一監控層實時采集日志、事件等相關信息,而后在訓練保障層(如圖所示綠色部分),對多維指標進行聚合分析,來判斷當前任務執行的效率,這樣可以預先識別集群中的潛在「軟故障」,并提前進行相關的自動化容錯處理,保障任務能夠有效運行;最終通過全局可視化平臺對底層基礎指標以及任務粒度的運行狀態進行全面且清晰的呈現。
最后在安全風險方面,通過加強基礎設施、數據及模型的安全合規管理,保障敏感數據得到有效的管控;其次是搭建適應算力集群的安全運營體系,閉環安全風險事件。

除了面向單一集群建設和使用外,隨著更多算力集群的上線使用,多集群之間的算力協同調度也成為一個核心問題,主要體現在三個方面:
- 第一,地域上,我們東西部算力資源不均衡,東部需求密集,而西部資源充裕;
- 第二,行業上,頭部企業算力充裕而中小企業接入困難;
- 第三,場景上,高帶寬、低延遲等多元需求難以被單一策略適配。
為此,我們構建了一套高效靈活的算力運營平臺,能夠對異構資源,異網資源、異地資源進行統一調度,推動算力資源向普惠方向發展。這套算力運營平臺包括兩個方面:
一是算力接入層,通過算力的一鍵接入機制,在 3 分鐘內就可以完成一個新的智算池接入到算力體系中,大幅降低跨地域的資源整合門檻。同時針對異構資源,通過自研的資源標準化管理接口,屏蔽底層硬件、協議的差異,實現即插即用,打破資源孤島。
二是算力感知和資源調度環節,我們通過實時采集集群負載、時延等核心指標,構建「全局算力資源畫像」,實現從需求到策略、再到資源的精準綁定。
舉個例子,當一個實時應答的推理任務,需要在峰值時段對外提供服務時,我們會按照低時延優先、低負載優先的策略命中最優資源池跑這個任務,并把結果反饋出去。
當前,我們已經建成了覆蓋全國五大地域的算力網絡,為全域用戶提供高質量的算力服務,并將持續聯手算力供應伙伴,借助算力運營平臺進一步打造出覆蓋面更廣、資源供給更充足、可支撐更復雜任務的新型算力資源池。

我們常說技術賦能產品,產品成就方案,而方案的價值,最終必須交由實踐檢驗。百度混合云具備從 AIDC 建設到底層芯片算力、平臺軟件,全棧的產品能力和技術。我們不但在實踐中總結出了從建設、管理、使用到運維運營的全流程方案,也通過在廠內廠外多個項目中實踐、迭代,已經形成了非常成熟的方案和建設體系。
我們的 3.2 萬卡智算集群,是全國首個成功點亮的自研萬 P 算力集群,這個集群匯集了我們所有的技術能力,也在建設和運行方面創下了多個紀錄:90 天內完成動環施工,1 個月內完成萬卡點亮,4 個月完成 3 萬卡的投產運營,集群 MFU 超過 50%。

百度智能云混合云,愿意成為大家在國產化智算新基建路上的同行者,共同探索 AI 創新,共同為我國數字經濟的發展,貢獻力量。




























