華為王輝:超大規模集群訓推和網絡自動駕駛,是AI在網絡中深度應用的發展方向 | MEET 2025
Network for AI,AI訓練對于算力要求越來越高,從萬卡集群到十萬卡集群,再到百萬卡集群,如何整合遠距離分散的算力資源,實現規模算力躍升。
AI for Network,當前工業領域面臨“如何讓自己的產品變得更加智能”的問題,如何用AI改變網絡,讓網絡更智能、更安全、更可靠,實現網絡的“自動駕駛”。
在MEET2025智能未來大會上,華為NCE數據通信領域總裁王輝,為我們分享了他的看法。

為了完整體現王輝的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。
MEET 2025智能未來大會是由量子位主辦的行業峰會,20余位產業代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點
- 網絡與AI的關系,可以總結為Network For AI和AI For Network。我們用網絡加速AI訓練推理,通過AI手段讓網絡變得更加安全可靠。
- 在大模型訓練方面,無阻塞網絡提升大規模訓練的效率。
- 跨遠距離的算力協同,通過構建高速網絡互聯,把分散的算力整合成大規模算力。
- 在垂直行業應用AI和大模型時,面臨決策實時性、推理嚴謹性和場景泛化性等挑戰,解決問題的關鍵是大模型推理能力,與領域機理模型和工具的深度結合。
(以下為王輝演講全文)
AI和網絡的關系,就是“Network For AI和AI For Network”
大家上午好!今天大會的主題是智變千行,惠及百業,很多嘉賓從產品和廠商的視角,講解了AI如何改變千行百業。
接下來,我會從工業領域視角,談一談在To B行業中,AI大模型與其背后的通信網絡的內在聯系。
這個話題非常重要,我在全球見過的超過100個行業客戶,都面臨著一個共同的問題,那就是在AI大模型時代到來之際如何武裝自己,使得自己的產品、產業更智能。
我們看到以OpenAI為代表的AI大模型一路高歌猛進,但反觀工業領域,大模型在垂直行業落地時遇到了很多實際的困難,甚至可以說是步履維艱。所以今天我想從垂直行業,從網絡行業的視角來看我們一些思考。
因此,我想從垂直行業的視角來談關于AI的一些思考。
講到網絡,大家比較熟悉的概念是我們現在用的5G、Wifi,但網絡跟AI有什么關系?
總結成兩句話,非常清晰,一個叫Network For AI,一個叫AI For Network。

Network for AI是指用網絡加速現在的AI訓練推理,AI For NetWork則是通過AI手段讓網絡變得更加智能和可靠。
大模型訓練不中斷,需要保持網絡均衡
Network for AI,業界有很多不同的路線。
英偉達全力推廣NVLink體系, AMD也在主推自己Infinity Link,國內華為也在推HCCS,在開放標準方面,還有UALink、超級以太等等;
這么多路線背后反映的邏輯是什么?

在集群節點內,Scale up的模式追求極致的通訊效率,進行AI訓練時,采用計算和網絡強耦合的方式,旨在大幅提升計算性能,廠商大部分都是相對封閉的技術路線。
在集群節點外部,Scale out的模式追求計算資源的互聯互通,網絡技術逐步朝著以太路線統一發展。
大規模集群訓練當前普遍面臨的挑戰是如何長時間的穩定訓練,正如開場時李開復老師所提到的,OpenAI也曾遭遇訓練中斷的問題。
據統計數據顯示,現今的大模型訓練平均不到兩天就會中斷一次,而這些中斷的原因,除了顯卡故障外,光模塊和鏈路故障也占了相當比例。

從萬卡集群到十萬卡集群,甚至明年的百萬卡集群,有兩個關鍵的挑戰:
- 如何確保大模型訓練在長時間內保持穩定?
- 如何把多個跨上千公里的小規模訓練資源連接起來,變成一個超大規模訓練集群?
第一個問題的關鍵是借助先進的算法來維持整個網絡的負載均衡,進而加速AI訓練進程。
在這方面,我們已做到了業界最好的水平,通過NLSB算法能夠將整體訓練效率提升10%以上;
與此同時,通過故障預測算法讓潛在故障在開始訓練之前能夠被發現、被提前排除,這樣保持整個訓練不中斷,大幅度提升訓練的效率。
第二個問題的關鍵是跨遠距離的異構計算,這個會成為下一階段的重要趨勢,同時也是業界難題。
我們通過AI DC內網絡與DC間網絡的算法協同,以及業界首個跨上千公里的無損網絡,實現遠距離數據中心協同訓練。
AI For Network
不僅是網絡領域,每個垂直行業都在思考如何讓AI落地的問題,小到做咖啡的機器人,大到鋼鐵行業的巡檢機器人,都面臨著類似的問題。
我們在網絡領域對AI的探索早在2017年就開始了,當時是圍繞“網絡自動駕駛”這一解決方案展開的
經過這些年的實踐,我們發現了一些在各個垂直行業應用 AI 和大模型時都會面臨的共同挑戰。
第一個,是決策實時性問題。工業領域和To C領域不一樣的地方在于,工業領域很多決策必須在毫秒級的時間內完成;
如果不能實時獲取本系統的數據, 決策的實時性也就無從談起。
第二個,是推理嚴謹性問題。像做視頻和圖片,即使效果不太好,也不會引發嚴重后果。
但在工業領域,一個小小的網絡配置下發錯誤,就可能釀成重大事故。一個核心網絡,承載著幾億人上網的使命,一旦出現故障,影響極大,必須要做到推理的嚴謹性。
第三個,是場景泛化性問題。通信大模型不能只用于單一任務,而是要能夠適應不同客戶、不同場景的需求。

這三個挑戰,是AI在垂直領域落地普遍遇到的問題。怎么解決這些問題呢?
這些挑戰需要一個系統的解決方案,一個AI Native的智能網絡系統,包括三個部分:我們稱之為“一網一圖一腦”,分別對應著智能網元,網絡數字地圖以及通信大模型。

智能網元
首先要解決的是硬件自身的智能化問題。
網絡數據主要由設備網元產生,如果網絡設備單純只是生成日志以及告警,這些數據在大部分時間也很難恢復成網絡的數字孿生,需要將傳統設備網元升級成智能網元。

一方面,智能網元要提供數據。
數據是核心要素,這里的數據不求數量多,而是要用最少的數據來支撐精準決策。另
一方面,精準控制問題。類似無人駕駛新發布的車底盤,在下雨天能夠實現精準控制,提前剎車。
這是因為系統能夠檢測輪胎與道路的摩擦力,當摩擦力變化時就能提前預判,快速做出動作,相比人的反應時間(超過500毫秒),智能系統僅需200毫秒。
網絡數字地圖
接著是網絡自身的數字孿生問題,類似物理世界的谷歌地圖,我們打造了業界首個網絡數字地圖,用于構建網絡世界的數字孿生。
它可以實現數字世界的精準導航、仿真以及多維可視,并且為通訊大模型提供了精準的上下文信息。

智慧大腦
最后是作為智慧大腦的通信大模型,大模型一定會改變每個行業,讓每個行業走向“自動駕駛”,但現階段在工業領域的實際落地很難。
怎么解決這個難題?我認為有3個關鍵點:

首先,當前對系統影響最大的其實不是大模型,而是領域的專有模型。
比如專門處理安全策略的模型、專門負責路徑調優的模型,這些模型大幅度提升執行任務的精度,決定了系統的能力上限;
其次,類o1的強推理能力,它決定了系統的泛化能力和決策的準確性;
最后是高質量的領域知識治理,我們的通信大模型融合了500億通信語料以及1萬多名網絡運維專家的經驗,從而成為通信領域的專家。
總結來說,我們需要底層的智能網元、系統的數字化建模、領域知識、API治理以及大模型的強推理能力等結合起來,才能讓網絡走向L4級“自動駕駛”。
謝謝!





























