GPU 網絡通信基礎,Part 3(LLM 訓練過程的網絡通信;InfiniBand 真的是“封閉”技術嗎?)
本文將解析低延遲與低抖動如何主導分布式訓練的迭代效率,指出現有傳統以太網技術的局限性,并闡釋 InfiniBand 為何能成為高性能計算鎖步工作負載的默認網絡架構。
我們還將厘清一些常見的認知誤區(別擔心,我在撰寫本文前也曾存在這些誤解!)。例如:Mellanox 并非 InfiniBand 技術的發明者,InfiniBand 也并非私有協議,而是由行業聯盟制定的開放標準。從 Mellanox 到 Nvidia,長期通過 RoCE 及其演進技術支持以太網橫向擴展。文中還將明確定義網絡技術中“開放”的真實含義。當然,精彩內容不止于此!
AI 通信網絡的特殊性
那么 AI 工作負載對通信網絡究竟有何需求?
注:本文討論的 AI 訓練特指推動生成式 AI 熱潮的大語言模型及其變體的訓練。
本質上,大語言模型的訓練是一個分布式計算任務 —— 成千上萬臺機器協同解決單一問題。
分布式計算并非新概念。還記得曾利用志愿者電腦運行蛋白質模擬的 Folding@Home 嗎?
Vijay Pande:早在 2000 年我們就萌生了借助海量計算機解決問題的構想 —— 與其用一臺電腦耗時百萬天,不如用十萬臺電腦在十天內完成。但當時面臨一個關鍵的抉擇:是止步于理論探討,還是付諸實踐?于是我們決定創建 Folding@Home,將理論轉化為現實。2000 年夏天我們編寫了軟件的初始版本,于同年 10 月正式發布。幸運的是當時吸引了大量關注者 —— 所謂“大量”指的是約五千至一萬人。八年后,該項目已發展到擁有近 25 萬個活躍處理器,累計參與設備超 200 萬臺。
如今的 AI 算力集群同樣規模驚人。訓練尖端模型可能需要數十萬個 GPU 協同工作:每個 GPU 處理部分計算任務后,需與同伴交換結果。正是這種結果共享環節,讓網絡性能成為關鍵支撐……或瓶頸所在!
作為習慣看圖理解知識內容的人,我將通過示意圖展示 LLM 訓練過程中驚人的網絡通信量。為控制篇幅(畢竟沒法花太多時間繪圖),僅以簡易圖示說明,但您可由此推想數十萬臺設備互聯的場景。
梯度下降與網絡通信
假設我們在四個 GPU 上訓練一個大語言模型,每個 GPU 都在內存中保存著完整的模型權重。這一假設雖然經過簡化,但仍有教學意義。
宏觀來看,AI 的訓練過程本質就是幾個步驟的重復循環。
前向傳播 – 每個 GPU 處理一部分訓練樣本,根據上文預測下一個詞元。比如“Four score ___”可能會預測出“and”。
反向傳播 – 每個 GPU 計算梯度,這些信號指示了應該如何調整權重來減少誤差。例如剛才預測“and”是正確的,那這部分就不需要調整。
梯度聚合(全規約) – 在每個 GPU 計算出自己的調整量(梯度)之后,它們會互相比較并取平均值,確保所有 GPU 獲得統一的模型更新指令。這一過程需要 GPU 之間進行大量的雙向通信!
權重更新 – 所有 GPU 應用相同的更新指令調整權重,保持模型的一致性。如果沒有這種同步,每個 GPU 都會自行其是,最終訓練出不同的模型。
若想深入了解,3Blue1Brown 有一個出色的梯度下降講解視頻[1]。
這是我制作的一個示意圖,讓大家先有個直觀感受。全規約是分布式訓練的核心。每個 GPU 都必須完成計算、貢獻自己的梯度,然后等待聚合結果,之后才能繼續前進。
每條線代表兩個 GPU/XPU 之間的某種網絡通信
如果有某一個 GPU 產生延遲了,其他所有 GPU 都必須停下來等待。
想象一下步驟 1 中所有黃色的 GPU 在不同時間點收到各自的輸入,它們將不得不空轉,直到每個輸入都接收完畢。
這就是為什么在 AI 通信網絡中延遲和抖動如此讓人重視。
延遲是數據包在網絡中傳輸的單向時間,包括傳輸、交換和排隊延遲。在這個只有四個 GPU 的例子中,很難想象會有延遲……但在大規模場景下,當數千個 GPU 通過一兩層交換機連接時,擁堵就會發生,延遲也會累積。AI 訓練需要盡可能低的延遲。
抖動是指延遲的波動性。可以把它想象成上面 GPU 的接收結果的到達時間分布。即使平均延遲非常低,這種波動性也會導致結果到達時間的不確定性。AI 訓練需要非常低的抖動。
假設一個包含 10,000 個 GPU 的集群完成一次全規約操作需要 40-45 微秒,但唯獨有一個掉隊者花了 60 微秒。這可不妙!每個 GPU 都不得不額外等待那 20 微秒。9999 個 GPU 各自多等 20 微秒,加起來就是 0.2 秒的 GPU 時間!對于如此龐大的集群來說,由于網絡性能不佳導致 GPU 空轉損耗,這可能意味著真金白銀的損失。??
因此,確定性的、低抖動的通信對于保持 GPU 快速且步調一致地前進至關重要。
那么,傳統的網絡技術能否滿足要求,為 AI 訓練提供確定性的、低抖動的通信呢?
答案當然是不能 ?? 所以就有了 InfiniBand,所以就有了為 AI 重新設計以太網的事情,比如 Spectrum-X……我下面會解釋。
我猜想讀到這里的大部分讀者并非網絡通信專家,所以我們快速梳理一下常見的網絡應用場景,看看為什么傳統以太網不是為這種需求設計的。
2.1 通用的企業網絡場景
我們從最簡單的場景說起。
閱讀以下這個演示樣例時,請始終思考一個問題:這種網絡技術能否以低延遲和低抖動支持大規模的 AI 訓練?
大多數傳統網絡系統誕生時,分布式 AI 訓練尚未興起,其設計理念源于截然不同的應用場景。將企業交換機直接用于 AI 數據中心并非易事。
首先來看企業網絡場景。
企業網絡中有多臺服務器,每臺服務器運行多個虛擬機處理不同的工作負載
企業網絡需同時運行多種業務應用:如郵件服務器、數據庫、ERP、CRM、分析工具等。這些工作負載通常運行在搭載多個虛擬機的高性能多核服務器上,每個虛擬機隔離執行獨立任務。
這些工作負載常在數據中心內部相互通信,產生東西向流量,例如分析工具從數據庫拉取數據。
分析工具與數據庫間的“東西向”通信
此類場景默認采用以太網作為基礎架構。
整個系統圍繞企業需求設計。因此交換機側重于提供安全功能(如隔離人力資源系統與開發環境)和流量管理(如在大型文件傳輸時保障視頻通話流暢)。
這類網絡多采用博通的 Trident 系列芯片。例如相關視頻[2]展示了基于 Trident 4 芯片的交換機的監控功能,雖視頻稍舊,但仍具參考價值。
企業網絡能否滿足 AI 訓練的需求?答案是否定的。其設計目標本就不包含超低延遲與抖動!
企業級交換機強調功能性與靈活性,而非確定性。普通業務場景可接受一定的延遲與抖動,因為工作負載相互獨立。數據庫查詢或郵件傳輸中的數據包延遲不會阻塞其他應用。
這些網絡生來就不是為大規模 AI 訓練所需的鎖步式、低抖動通信而構建的。
2.2 超大規模云網絡
更接近了一些……
超大規模數據中心專為將單一服務擴展至數百萬乃至數十億用戶而構建,例如 Gmail、YouTube、Netflix 或亞馬遜電商。成千上萬臺服務器各司其職,共同構成一個龐大的分布式系統。
image.png
以太網仍是默認的基礎架構。
在此規模下,成本與能效是需要首要考量的因素。交換機的設計追求高端口密度和高帶寬,以極低功耗傳輸海量數據。
博通 Tomahawk 系列便是典型代表。相關視頻[3]介紹了上一代 Tomahawk 4 芯片,并將其與 Trident、Jericho 系列進行對比(建議觀看 1:50 至 2:50 部分)。
這類網絡能否勝任 AI 訓練?
超大規模云網絡以保持服務響應速度為目標,注重降低平均延遲,但無需保證確定性。
網絡波動(抖動)在可接受范圍內。慢查詢可重試,數據副本確保了系統韌性。
就此而言,超大規模網絡架構因已具備協調大型分布式系統的能力,相比企業網絡更接近 AI 訓練需求。但它們仍無法滿足 LLM 訓練的要求 —— 后者需要成千上萬的 GPU 在每次迭代中保持嚴格同步。
2.3 超級計算機(高性能計算)
近期“超級計算機”一詞熱度攀升,諸如“丹麥的 AI 超算”或“桌面級 AI 超算”的報道頻現。
當然,超級計算機或高性能計算集群的概念早已有之。每每提到“超級計算機”,我總會想到克雷公司的傳奇設備。
組裝完成的克雷超級計算機外觀(紅色圓柱體)。Source[4]
拆除面板后的內部結構如下:
印刷電路板間密布的連接線纜...這正是某種形式的網絡!
這張照片讓我聯想到現代 AI 超級計算機的結構:
埃隆公布的 Colossus 2 機房照片。Source[5]
順帶一提,埃隆的這張照片揭示了為大規模 AI 訓練和推理設計的網絡基礎設施為何如此熱門。
紫色線纜代表 CRDO。你可以想象連接數十萬 GPU 需要多少 Credo 有源電纜[6]!
Colossus 還搭載大量 Nvidia Spectrum-X 交換機和 Nvidia SuperNIC[7]。這正是英偉達網絡業務版圖擴張的縮影。
回歸正題。
超級計算機由大量處理器構成,每個處理器能同步處理海量數據(單指令多數據[8]),適用于核科學模擬與氣象預報等科學計算。維基百科“TOP 500[9]”超級計算機榜單收錄了豐富的發展史料。
與企業級網絡環境或超大規模網絡環境不同,高性能計算(HPC)任務是橫跨數千服務器的單一工作負載。一個模擬任務可能調度數萬 CPU 或 GPU 節點,每個節點承擔部分計算任務。
是否似曾相識?這完全契合 AI 訓練的運行模式!
與 AI 工作負載類似,HPC 需要節點間持續通信來保持全局同步。因此,HPC 網絡專為超低延遲和近乎零抖動而設計。任一節點產生延遲將導致整個模擬任務停滯 —— 這與 LLM 訓練過程面臨的挑戰完全一致!
事實上......InfiniBand 這類技術正是為 HPC 環境量身定制的。
面向 AI 工作負載的 InfiniBand
自誕生之初,InfiniBand 就瞄準了需要數千處理器鎖步運行的分布式計算場景。
其設計特性堪稱 AI 網絡的理想清單(本文暫不深入技術細節,后續另文探討,此處概述要點):
- 遠程直接內存訪問(RDMA):允許 GPU(與 CPU)直接讀寫對方內存,繞過 CPU 與系統內存,消除了緩沖區之間復制數據與上下文切換的性能開銷。
- 無損轉發:InfiniBand 采用基于信用的流量控制機制避免數據包丟棄,從設計上保障零丟包,從而消除抖動與代價高昂的重傳。
- 直通交換(Cut-through switching):InfiniBand 交換機在收到數據包頭時立即開始轉發,無需等待完整幀到達,最大限度降低每跳延遲。
- OS bypass 與 Transport Offload:InfiniBand 網卡將傳輸功能(如可靠傳輸、擁塞控制)從 CPU 卸載,應用程序可繞過操作系統內核直接向網卡提交任務。這大大減少了軟件開銷與延遲。
正因如此,InfiniBand 非常適合 AI 訓練。它本就是為低延遲、低抖動的分布式計算工作負載而生。
但眾所周知,英偉達并非 InfiniBand 的發明者。
啊不錯!若您聽過《Acquired》播客的英偉達專題便知,沒錯,Mellanox 堪稱史上最成功的收購案例之一。
但您是否知道... Mellanox 也非 InfiniBand 的發明者!
是的!說實話我曾以為 Mellanox 創造了 InfiniBand。畢竟現在 InfiniBand 是私有技術。
但我最近才了解到... InfiniBand 并非私有協議。
但如今只能從英偉達購買 InfiniBand 交換機和線纜了,對吧?這不算私有嗎?
好吧,這里需要厘清很多概念。單一的供應商并不意味著技術私有化。我們稍后會詳解。
在本文的調研過程中,我對 InfiniBand 有了全新認知。若您也曾存在類似誤解,實屬正常 —— 畢竟我們曾站在同樣的信息盲區。
3.1 開放與封閉
在 2001 年 IEEE 國際集群計算會議的特邀論文《Aspects of the InfiniBand Architecture》[10]中,IBM 的 Gregory F. Pfister 寫道:
“InfiniBand 架構(IBA)是一種用于服務器 I/O 和服務器間通信的新行業標準架構。它由 InfiniBand 貿易協會(IBTA)制定,旨在為當前及未來的服務器系統提供所需的可靠性、可用性、性能與擴展性保障 —— 這些特性遠非面向總線的 I/O 結構所能企及。”
行業標準?由行業協會制定?
看來 Mellanox 確實不是 InfiniBand 的發明者!
繼續往下看。
“IBTA 由 180 余家企業在 1999 年 8 月聯合創立,目的是共同開發 IBA。該協會也向高校、研究實驗室等機構開放。指導委員會成員來自戴爾、康柏、惠普、IBM、英特爾、微軟和太陽微系統,由 IBM 與英特爾共同擔任主席。贊助企業包括 3Com、思科系統、富士通-西門子、日立、Adaptec、朗訊科技、NEC 和北電網絡。”
原來有這么多企業參與其中!
“來自 IBTA 成員企業的約 100 名專家歷時 14 個月共同定義和描述了 IBA......它應當為技術創新與廠商差異化提供充分的空間。”
顯然,InfiniBand 的起源與“私有”毫不相干。它誕生于 90 年代末計算與網絡巨頭組成的開放標準委員會。
這個行業協會是如何起步的?根據 2006 年《NetworkWorld》中的一篇文章[11]:
“有些讀者可能還記得 90 年代康柏、惠普和 IBM 共同推動的 Future I/O 高速串行連接技術。或許也有人對英特爾、微軟和太陽微系統聯合推出的一項競爭技術【Next Generation I/O (NGIO)】留有印象。”
“最終兩大陣營合并力量,共同開發被普遍視為下一代服務器與存儲連接技術的 InfiniBand。”
“最初這項合作成果被稱為 System I/O,但這個名字未能持續多久。如今我們稱其為 InfiniBand。”
兩個相互競爭的開放標準計劃合并為一個,也就是我們現在所知的 InfiniBand。
事實上,InfiniBand 這種協作、開放的基礎,與當下超以太網聯盟(UEC)[12]的發展如出一轍。UEC 在 2023 年成立時宣稱[13]:
“今日宣布成立的超以太網聯盟正在匯聚行業領軍企業,共同構建一個完整的基于以太網的高性能網絡通信棧架構。人工智能(AI)與高性能計算(HPC)工作負載正在迅速發展,它們既需要頂尖的功能性、互操作性、性能表現及較低的總體擁有成本,同時又不能犧牲開發者友好性與終端用戶體驗。超以太網解決方案將利用以太網的普遍性與靈活性來處理各種工作負載,同時兼具可擴展性和成本效益。”
“超以太網聯盟由在高性能解決方案領域擁有深厚積淀的企業共同創立。各成員正以平等的方式為更廣泛的高性能生態系統做出重要貢獻。創始成員包括 AMD、Arista、博通、思科、Eviden(Atos 旗下業務)、HPE、英特爾、Meta 和微軟,這些企業在網絡、人工智能、云與大規模高性能計算部署領域擁有數十年經驗。”
兩者何其相似!都是主要計算與網絡廠商聯合為分布式工作負載設計高性能架構。
因此將 InfiniBand 定性為“封閉”,而將 UEC 定性為“開放”并不準確。二者最初都是由行業聯盟起草的開放規范,任何人都可參照實施。
理論上,任何企業都可以基于 InfiniBand 規范開發 IB 交換機和網卡與英偉達競爭。
技術規范是公開可用的。這已經是最大程度的開放了。
誠然,創辦一家 InfiniBand 初創公司可能不是最佳商業決策,但這完全是可能做到的。
我認為困惑源于此:雖然英偉達是目前唯一大規模供應 IB 設備的廠商,但這是市場選擇的結果,而非規范限制。
準確來說,AI 網絡領域的“開放”,指的是規范制定過程的可參與性和可實現性,而非現有供應商的數量。
那么什么是封閉的規范?
如果某公司編寫僅供內部使用的保密產品需求文檔,這屬于封閉。若員工離職攜帶該文檔至競爭對手,即使新設計存在差異,也構成商業秘密侵權。這才是封閉。
顯然超以太網擁有開放的規范。UEC 1.0 規范可免費查閱[14]。任何企業都可參照該產品需求文檔(PRD)開發解決方案。Astera Labs 正在這樣做[15]。
但你猜怎么著!InfiniBand 同樣擁有開放的規范。雖然需要支付 5000 至 10000 美元成為 IBTA 會員才能查閱(并非免費),但這不意味著“封閉”。
實際上,威斯康星大學圖書館館藏有 InfiniBand 1.0 規范的兩卷本書籍,讀者可通過館際互借借閱。我剛查詢發現愛荷華州立大學圖書館的書架上就有一本。
可見,獲取其規范或許需要借書證或協會會費,但該規范本身并非封閉。它不屬于任何單一企業的私有財產。
我先前認為 InfiniBand “封閉”的認知是錯誤的!
3.2 InfiniBand 的淵源
最初的 InfiniBand 聯盟引入了許多對當今 AI 訓練工作負載來說非常重要的技術。
那么,它最終是如何與 Mellanox 聯系起來的呢?
Ted Kim 博士 2004 年的一篇博客文章[16]提供了第一手的資料。Ted[17] 在太陽微電子任職期間,曾參與了 InfiniBand 1.0 規范的撰寫。
Ted 回憶道,互聯網泡沫破滅和英特爾轉向 PCI Express,引發了 InfiniBand 的衰落:
有一段時間,InfiniBand 非常熱門。關注度不斷上升,涌現出大量初創公司,人人都在宣傳自己的 IB 路線圖。隨后泡沫破裂了。這不僅僅是 IB 的問題 —— 而是整個互聯網泡沫的破滅、股市調整、企業 IT 支出趨于謹慎、經濟衰退、9·11 事件等等共同作用的結果。最終,沒人愿意采納或投資這樣一項影響深遠的技術變革。于是,新一輪的懷疑情緒開始蔓延。
然后另一個打擊接踵而至。英特爾決定停止 IB 芯片開發,盡管他們仍在推廣這項技術。他們為什么要這么做?我只能在此猜測。他們最初的開發基于 1x 鏈路(譯者注:指的是單通道鏈路,即由一個信號通道組成的物理連接。),但這一選擇似乎偏離了市場(4x 成為了最受歡迎的規格)。英特爾也難以擺脫研發上的財政壓力,因此需要將資源轉向 PCI Express 的開發。此外,他們可能也對 IB 市場接受度不佳的狀況做出了反應。無論如何,英特爾的退出讓許多人認為 IB 市場規模有限。這也導致一大批供應商延遲擴張或收縮了他們的 IB 路線圖。微軟離開了 IBTA,轉而投向 RDMAC。初創公司或合并或失敗。殘酷的現實擺在眼前。在 SIGCOMM 2003 會議上有人問我:"InfiniBand 是不是已經死了?"
看來 InfiniBand 當時幾乎夭折!Ted 繼續寫道。
時至今日。在經歷漫長的低落和絕望之后,IB 似乎正在特定市場卷土重來……
Mellanox 是那些堅持下來的初創公司之一,即使在互聯網泡沫破裂后的黑暗時期,也持續為 HPC 領域開發 InfiniBand。
順帶一提,如果您正在尋覓網絡專家,Ted 似乎最近結束了在 SambaNova 的工作,根據其 LinkedIn 信息[17],他正在尋找工作機會。
在過去的十年里,InfiniBand 已成為 HPC 工作負載的黃金標準,這一點可從世界大多數頂級超級計算機(位列 TOP500 超級計算機榜單[18]中的那些)都采用它得到印證。
面向 HPC/AI 的以太網
正如你所料,直到最近,都鮮有超級計算機在 HPC 網絡采用以太網。
然而,由于 Ethernet 的無處不在,從 InfiniBand 誕生之初,就一直有人在問:“為什么不能直接用以太網?”
那篇 2001 年的 IBM 論文中寫道:
“人們經常問及 InfiniBand 架構的一個問題是:‘我們為何需要另一種網絡架構?為何不使用以太網和 IP?’”
正如我們之前討論過的,以太網最初并非為高性能分布式計算工作負載設計。
直到 RoCE(RDMA over Converged Ethernet)問世才改變這一局面。妙極了,一個縮寫詞(RDMA)嵌套在另一個縮寫詞(RoCE)里,哈哈。
RoCE 成功將 InfiniBand 的“verbs”引入以太網世界。這些“verbs”是軟件可調用的 RDMA 基本操作,包括 read(直接從對端內存拉取數據)、write(直接向對端內存寫入數據)以及 send/receive(消息式通信)。它們允許 GPU 在彼此內存之間傳輸數據,而無需 CPU 介入。
而且,請注意下面這句話:
Mellanox 協助編寫了 RoCE 規范,且 InfiniBand 貿易協會還在大力推廣它!
等等,我原以為故事是這樣的:
- Mellanox 被 Nvidia 收購了
- Nvidia 只關心“私有”的 InfiniBand/NVLink
- Nvidia 通過捆綁銷售強迫客戶購買 InfiniBand/NVLink
事實恰恰相反,Nvidia 內部那些出身 Mellanox 的網絡團隊,長期以來一直是以太網用于分布式計算的堅定支持者。
2009 年《HPCWire》一篇題為《An Ethernet Protocol for InfiniBand》[19]的文章指出:
“無損以太網進入數據中心是大勢所趨...但由于其技術原理趨近 InfiniBand,Voltaire 和 Mellanox 等廠商正借此進軍以太網領域。‘我們不會天真地認為全世界都將轉向 InfiniBand,’Mellanox 營銷副總裁 John Monson 表示...”
‘我們堅信業界已有經過驗證且廣泛應用的 RDMA 傳輸機制,’Monson 斷言,‘它就是 InfiniBand。’
他指出,如若你的目標是實現 10Gb 的無損以太網,完全可以在以太網框架內植入類似功能。Mellanox 將其 RDMAoE 原型稱為低延遲以太網,但實質上就是運行在以太網上的 InfiniBand...
這些 InfiniBand 先驅將他們的經驗應用于以太網,展示了這些經驗如何讓以太網更適合 HPC(以及 AI)。
“如今你能在 10Gb 以太網上實現接近 InfiniBand 的延遲,”IBTA 市場工作組聯合主席、Mellanox 市場傳播總監 Brian Sparks 表示,“且不必面對 InfiniBand 的技術門檻和隨之而來的陡峭的學習曲線。”
但 RoCE 的性能仍略遜于 InfiniBand:QDR IB 可實現 32 Gb 帶寬與亞微秒級延遲,而 RoCE 當時僅限于 10Gb 帶寬及微秒級延遲。不過對大多數應用而言,10Gb 帶寬已綽綽有余...
對于偏好以太網的客戶來說,借助 RoCE,他們能獲得更接近 InfiniBand 的特性與性能,雖仍存在一定差距但方向是對的。
有人可能會疑惑 IBTA 及 InfiniBand 的擁護者為何要推動一種以太網協議。若 RoCE 成功,勢必會蠶食 InfiniBand 市場。但此觀點有失偏頗:首先,嚴格意義上的純 InfiniBand 廠商已不復存在 —— Mellanox、Voltaire 與 QLogic 均以某種形式提供以太網產品。市場早已判定 InfiniBand 技術的普及存在天然上限,RoCE 為這些廠商提供了觸達此前無法吸引的客戶的新途徑。他們判斷,RoCE 與 InfiniBand 之間仍有足夠大的性能差距,足以支撐兩種技術共存。
這句話至今依然成立:“RoCE 是這些廠商觸達此前無法吸引的客戶的又一途徑。” 即使在 15 年后的今天,在 LLM 訓練與推理時代,我依然堅信這一點。頭部客戶將性能置于一切之上;其他客戶則尋求性能與成本的平衡;還有一些企業更愿意沿用他們熟悉的技術。
而且有證據表明,IBTA 十多年來一直在為偏好以太網的用戶推動以太網在 HPC/AI 領域的應用。根據 IBTA 在 2015 年的一篇文章[20]:
“IBTA 今日宣布啟動 RoCE 計劃,以進一步推動 RDMA over Converged Ethernet(RoCE)技術的發展,并提升 RoCE 的行業認知度……該計劃將幫助我們向需要最高性能以太網絡的群體提供解決方案信息和資源...RoCE 倡議匯集了 IBTA 中致力于展示該技術的性能與效率優勢、以及多廠商競爭生態價值的成員。”
早在十年前,他們就已構想出一個多廠商生態系統……如今,這一愿景正隨著 Nvidia 之外的廠商推動以太網用于 AI 網絡而逐步實現。
這一生態系統的基石,正是 RoCE 的第二代版本——RoCEv2,它為 HPC/AI 工作負載增加了更多功能。
如今新興的 AI 專用以太網協議棧,例如 Nvidia 的 Spectrum-X 和 Ultra Ethernet Consortium 的 UEC 1.0 規范,都直接構建于 RoCEv2 之上,在保留 RDMA 語義的同時,也著力解決其原有缺陷。我們將在后續文章中詳細解析這些創新。
英偉達的 AI 以太網方案
所以今天的 InfiniBand 是一個開放標準規范,卻只有單一供應商提供產品。
但你猜怎么著?英偉達同樣推出了名為 Spectrum-X 的 AI/HPC 以太網解決方案。這步棋下得漂亮。
這里有一段短視頻[21],現在你應該能看懂其中一些內容了!
如視頻所示,英偉達的 Spectrum-X 將其交換機和 DPU/SuperNIC 協同搭配,構成面向 GPU 集群的“全棧式網絡架構”
英偉達芯片戰略的優勢
在探究橫向擴展技術時,我意外發現了英偉達芯片戰略中一個被低估的優勢。
英偉達共設計了七種不同類型的芯片。
其一是 GPU,其二是基于 Arm 的CPU,另外五款全是網絡芯片。
你瞧瞧!
來自英偉達演示 PPT 的截圖
這種在網絡領域的深耕非常重要。這也是為什么博通(Broadcom)能夠為超大規模云廠商定制 AI ASIC —— 因為它早已具備將加速器互聯所需的網絡技術專長。
而 Nvidia 用于反駁的觀點自然是:那些定制 ASIC 廠商能否既跟上 AI 加速器飛快的迭代節奏,還能同步應對同樣高速演進的網絡需求?博通(Broadcom)加上云廠商內部的芯片團隊,真的能跟得上嗎?
image.png
Courtesy Nvidia.
相較之下,AMD 雖然擁有 GPU 和 CPU 產品,但在橫向擴展(scale-out)和縱向擴展(scale-up)的競爭力上,仍依賴更廣泛的生態系統 —— 即 UEC 和 UALink。他們的賭注是:網絡領域的專業廠商能否足夠快速地創新,并與 AMD 步調一致,最終在系統層面實現同步發展。
文中鏈接
[1]https://www.youtube.com/watch?v=IHZwWFHWa-w
[2]https://youtu.be/PvA4LvPJg0I
[3]https://youtu.be/B-COGMbaUg4
[4]https://www.computerhistory.org/revolution/supercomputers/10/7/68?positinotallow=0
[5]https://x.com/elonmusk/status/1947715674429919279
[6]https://credosemi.com/products/hiwire-aec/
[7]https://nvidianews.nvidia.com/news/spectrum-x-ethernet-networking-xai-colossus
[8]https://en.wikipedia.org/wiki/Single_instruction,_multiple_data
[9]https://en.wikipedia.org/wiki/TOP500
[10]https://ieeexplore.ieee.org/document/960002
[11]https://www.networkworld.com/article/845980/servers-infiniband-back-to-the-beginning.html
[12]https://ultraethernet.org/
[13]https://ultraethernet.org/leading-cloud-service-semiconductor-and-system-providers-unite-to-form-ultra-ethernet-consortium/























