華為版CUDA,全面開源了
華為版本CUDA,全面開源開放!
最新消息,華為宣布為其昇騰AI GPU開源其CANN軟件工具包。

華為輪值董事長徐直軍在主題演講中強調:華為AI戰略的核心是算力,并堅持昇騰硬件變現。
基于這一背景下,徐直軍在會上宣布華為昇騰硬件使能CANN全面開源開放,Mind系列應用使能套件及工具鏈全面開源,支持用戶自主的深度挖潛和自定義開發,加速廣大開發者的創新步伐,讓昇騰更好用、更易用。
CANN,神經網絡計算架構,提供多層編程接口,幫助用戶構建針對華為昇騰的AI應用程序。
它是一個由多種技能棧和算子加速庫等組成的軟件生態系統,換句話說,它就像是華為版本的CUDA,為GPU提供相同的接口。
巧合的是,同一天,一傳奇GPU大佬創業公司終于浮出水面,他們不搞消費級GPU,而是做CUDA類似軟件生態系統。

看來,想要挑戰英偉達的玩家可真不少。
華為版CUDA全面開源
過去,開發者苦于CUDA封閉生態系統久矣。
除了英偉達自身硬件,CUDA幾乎不支持其他第三方,因此開發者如果想用CUDA來構建軟件,就只能使用英偉達的GPU。這其實也構成了英偉達的核心壁壘。
因為一旦開發者想要遷移到其他產品。那么就需要重寫代碼,使用生態相對不成熟的替代庫,同時也會失去英偉達圍繞CUDA建立起來的龐大技術社區的支持。
之前有項目嘗試將CUDA功能(通過轉換層)引入其他 GPU供應商,但由于英偉達阻攔,這些項目大多未能成功。2024年CUDA 11.6版開始,就禁止使用轉換層。
如今,在昇騰計算產業發展峰會上,華為宣布開源CANN架構,以及Mind系列應用使能套件及工具鏈也跟著開源,那么開發者可以自主深度挖掘昇騰GPU的潛力。
目前CANN已經升級到8.0版本,它主要提供兩個版本:社區版,提供新功能的早期體驗;商業版,提供專為企業用戶量身定制的穩定版本。兩個版本都更新到了8.2.RC1版本,新增適配12款操作系統。
與CANN配套的,還有華為自研深度學習框架MindSpore,其作用類似于PyTorch,這些工具共同構成了華為原生的AI軟硬件方案。

截至目前,CANN已支持包括PyTorch、MindSpore、TensorFlow、飛槳、ONNX、計圖、OpenCV和OpenMMLab等深度學習框架與第三方庫。

在會上,與會代表和華為還共同發起了《CANN開源開放生態共建倡議》。
看來在構建開源開放的昇騰生態這件事兒上,華為已經開始大力出手了。
傳奇GPU架構師創業,對標英偉達CUDA
而挑戰英偉達CUDA生態的,業內還有不少玩家。
比如就有一位傳奇GPU架構師Raja Koduri,宣布創立了一家GPU初創公司Oxmiq Labs。

他曾效力于AMD、蘋果、英特爾等,曾在英特爾擔任加速計算系統和圖形(AXG)業務執行副總裁。加入英特爾之前,他曾擔任AMD的圖形部門Radeon Technologies Group的高級副總裁兼首席架構師。
而現在創立的這家公司專注于開發GPU硬件和軟件IP,并將其授權給各方。他將這家公司定位為硅谷25年以來第一家GPU初創公司。

不過他們不打造消費級GPU,也不開發GPU所需的所有IP模塊,他們提供一個垂直集成平臺,該平臺將GPU硬件IP與功能齊全的軟件堆棧相結合,旨在滿足AI、圖形和多模態工作負載的需求,在這些工作負載中,顯式并行處理至關重要。

在硬件方面,Oxmiq提供了一個基于RISC-V指令集架構(ISA)的GPU IP核OxCore,該核將標量、矢量和張量計算引擎集成在一個模塊化架構中,并支持近內存和內存計算功能。
Oxmiq還提供基于芯片集(chiplet)的系統級芯片(SoC)構建器OxQuilt,使客戶能夠根據特定工作負載需求,快速且經濟高效地創建集成計算集群橋接器(CCB,可能集成OxCores)、內存集群橋接器(MCB)和互連集群橋接器(ICB)模塊的SoC。

例如,用于邊緣應用的推理AI加速器可以封裝一個或兩個CCB和一個ICB,推理SoC則需要更多CCB、MCB和ICB,而用于AI訓練的大規模SoC則可能封裝數十個芯片集。
Oxmiq尚未透露其OxQuilt是僅支持構建多芯片集系統級封裝(SiP),還是也可用于組裝單片處理器。
不過他們的軟件業務似乎更為核心和關鍵。他們提供的軟件包可以兼容第三方的硬件,支持在各種硬件平臺上部署AI和圖形工作負載。

該軟件堆棧的核心是OXCapsule,這是一個統一的運行時和調度層,用于管理工作負載分配、資源平衡和硬件抽象。
該堆棧的一個突出組件是OXPython,它是一個兼容層,將以CUDA為中心的工作負載轉換為Oxmiq的運行時,并允許基于Python的CUDA應用程序在非英偉達硬件上無需修改即可運行,無需重新編譯。
OXPython最初不會在Oxmiq的IP上發布,而是在Tenstorrent的Wormhole和Blackhole AI加速器上發布。
事實上,Oxmiq的軟件堆棧從根本上設計為獨立于Oxmiq硬件,這是其戰略的核心部分。
不管最后結果如何,但競爭的號角已經吹響,最終受益的究竟還是開發者。
























