NVIDIA SC25:超算“三體”時代——模擬、AI與量子計算的終極融合 精華
核心觀點:NVIDIA SC25宣告了超算不再是單純的數值模擬,而是依靠自研CPU(Vera)、光互連技術和預訓練物理模型(Apollo),構建了一個融合模擬、AI 和量子計算的“三位一體”科學發現引擎。
NVIDIA在SC25上明確了超級計算的未來不再僅僅是更大規模的FLOPS堆疊,而是模擬(Simulation)、人工智能(AI)與量子計算(Quantum)三種計算范式的深度融合。硬件層面上,NVIDIA通過自研CPU核心Vera和共封裝光學器件(CPO)突破能效墻;軟件層面上,Apollo等預訓練物理模型的發布,標志著“AI for Science”從探索走向工業化落地。
一、科學計算的新范式:三大支柱
傳統的超級計算主要服務于科學模擬,即通過數值計算還原物理現象。新的超算定義,它必須同時精通三大支柱:
- 科學模擬:傳統的數值計算,不僅未被拋棄,反而通過AI獲得了加速。
- 人工智能:從生成式AI到AI for Science,AI已成為處理海量科學數據的核心工具。
- 量子計算:雖然尚處于“CS 101 課程還沒寫好”的早期階段,但“量子-經典異構計算”已是確定性的未來方向。
二、“AI for Science” 的工業化突圍
如果說前幾年AI for Science還在實驗室驗證階段,展示的案例表明它已進入大規模應用階段。AI 不再只是輔助,而是直接改變了求解物理問題的方式。
- 氣候模擬(Earth-2 & JUPITER):在JUPITER超算上,利用20,000塊Grace Hopper超級芯片,實現了1公里精度的全球氣候模擬。速度達到每天模擬146天的氣候變化,比之前的世界紀錄快兩倍。
- 流體力學(CFD)的顛覆:Northrop Grumman與Luminary Cloud合作,利用2000個CFD案例訓練AI 模型(Physics-NeMo框架),將原本需要數小時的航天器噴嘴模擬縮短至5秒以內,誤差控制在5%以內。
- 核聚變數字孿生:General Atomics利用Omniverse 構建了DIII-D 托卡馬克反應堆的實時交互數字孿生,利用AI代理模型在毫秒級預測等離子體行為。
- 地震與海嘯預測:德州大學奧斯汀分校利用15年的地震數據訓練了10億參數的代理模型,可實時預測地震引發海嘯的概率。
關鍵技術發布:Project Apollo
NVIDIA發布了Apollo,這是一套專為AI物理學設計的預訓練模型家族(包括CFD、結構力學等)。這標志著工程仿真從“從零解算”轉向了“模型微調(Fine-tuning)”的新時代。
三、硬件架構的演進:打破摩爾定律的邊界
為了支撐上述計算范式,NVIDIA在硬件底層架構上進行了激進的革新:
1. 自研CPU架構:Vera與Olympus 核心
繼Grace之后,NVIDIA推出了下一代CPU Vera。
- 核心變革:摒棄了現成的Arm Neoverse核心,轉而采用NVIDIA全自研的Olympus Arm核心。
- 性能指標:性能是Grace的兩倍。
- 內存革新:采用LPDDR5X內存(源自移動端技術,針對數據中心進行了ECC和可靠性增強),實現了高帶寬與低功耗的完美平衡。
2. 互連技術的“光”速躍遷:共封裝光學器件(CPO)
面對百萬級 GPU 集群的互連挑戰,電互連的功耗和熱量已成瓶頸。
- 技術突破:NVIDIA宣布進軍Co-packaged Optics(CPO),將光收發器(激光器)直接封裝在交換機芯片旁。
- 價值:極大降低了驅動激光所需的功耗(原本每個端口20W的激光器在大規模集群中是巨大的熱源),并提高了可靠性(采用外部恒定光源)。
3. NVLink 的統治力
Blackwell帶來的10倍推理性能提升,并非僅靠FP4精度,更歸功于NVLink將多達576個GPU連接成一個共享內存的巨型加速器。對于大模型推理,互連帶寬即是生產力。
四、量子計算:混合計算的未來
NVIDIA 在量子領域的策略非常務實:不造量子計算機,但定義量子計算的接口與模擬平臺。
- 混合架構:提出QPU(量子處理器)將作為GPU的協處理器存在。
- CUDA-Q與Q-Link:發布了連接量子計算機與GPU超算的參考架構Q-Link,旨在解決極度嘈雜的量子信號處理問題。
- 模擬即驗證:利用GPU集群(如 Perlmutter 上的 6724 塊 GPU)模擬全量子芯片(QPU)的行為,這是設計下一代量子芯片的必經之路。
五、行業洞察與挑戰
在爐邊談話的圓桌環節,來自Argonne、RIKEN(Fugaku)、Jülich和TACC的超算領袖們指出了當前的痛點:
- 能源墻(Power Wall):超級計算機的能耗正在指數級增長,冷卻和供電成為比算力更嚴峻的物理限制。
- 數據引力(Data Centricity):計算重心正從“算力中心”轉向“數據中心”。科學數據的清洗、管理和管護(Curation)成為了AI for Science的最大瓶頸:正如 Jenny Rummer 所言:“可用數據的比例微乎其微”。
- 軟件棧的復雜性:傳統的科學計算代碼(Fortran/C++)需要通過Warp(Python 框架)等工具實現可微編程,以便與現代 AI 框架(PyTorch/JAX)無縫對接。
結語:從SC25來看,NVIDIA正在構建一個極其龐大且封閉的閉環生態:從底層的Vera CPU、Blackwell GPU,到中間的NVLink光互連,再到上層的Apollo物理模型和Earth-2平臺。他們不再僅僅是芯片供應商,而是成為了科學發現的基礎設施構建者。對于科研人員而言,未來的挑戰在于如何利用這些工具,將“數據垃圾”轉化為“科學智能”。

超算“三體”時代——模擬、AI與量子計算的終極融合
Ian Buck(VP & GM, Hyperscale and HPC, NVIDIA):
我感到非常幸運能來到SC25。我得說,2006年NVIDIA第一次參加超級計算大會的時候,會場比現在小得多,那是一次小型會議,我們第一次公開展示了CUDA,那也是我第一次做CUDA演講。從那以后,除了疫情那幾年,我每年都來參加超級計算大會,我從中學習了很多,也一直很享受和在座的每一位用戶、客戶、開發者交流。

超級計算在挑戰我們,它挑戰我個人,也挑戰我們的技術路線圖。這里是我們試圖用計算機——不是普通計算機,而是超級計算機——去解決世界上最復雜、最困難問題的地方。它們是時間機器。我們能否造出世界上從未出現過的儀器,去模擬、去觀察任何顯微鏡、自然現象或濕實驗都無法看到的現象。
同時,它也在挑戰我們的技術。今天你們聽到的許多成就ChatGPT、并在德州實現商業化AI規模的關鍵技術,其實最早都源于超級計算領域。2010年與TSUBAME合作的全球第一臺浸沒式液冷GPU超級計算機。TSUBAME也是第一臺讓我們意識到必須改變GPU物理形態的超級計算機——當時GPU還是縱插的PCIe卡,就像游戲顯卡和圖形卡一樣。我們第一次意識到,如果把GPU側轉過來,就能把整個側面而不是只用這一小塊區域用來做I/O和多GPU互連。這件事其實就發生在超級計算大會。
我們所有的HBM產品從一開始就完全面向計算和超級計算領域。事實上,我們最早的HBM超級計算機之一就是Piz Daint。2016年,我們學會了如何把CPU和GPU以超出PCIe的方式連接起來,而是真正構建自定義的NVLink互連,那是我們與IBM在OpenPower系統上合作,用于Summit和Sierra系統——這件事也發生在超級計算領域。
構建超級計算機,讓NVIDIA的第一款CPU與GPU緊密連接——Grace Hopper系統,是在2022年與Venado系統一起首次公布的,那時候ChatGPT還沒出現。洛斯阿拉莫斯國家實驗室的同事們當時就決定,這種新架構不僅適用于模擬,也非常適合機器學習,甚至當時就提到了AI。現在看看它發展成了什么樣子。
當然,這也直接導致了OpenAI最早使用的超級計算機之一——1萬張Volta GPU。有張照片在那兒——那是進入OpenAI第一臺超級計算機的HGX節點之一,由OpenAI與微軟合作建成。

超級計算領域是你們把我們往前拉,也是把整個行業往前拉,去構建下一代技術、推進路線圖的地方。
我們共同開啟了加速計算時代。我們第一臺上Top500的超級計算機其實是2008年,用的是Tesla S1070或K20 GPU。今天Top500前100名里有88臺已經實現了加速,比6月份的82臺又提高了——占比90%。在座的每個人早就看到了未來,看到了為什么我們必須加速計算,才能解決這些問題。

今天的這些第一代超級計算機當然是為模擬而建——構建一種科學儀器,能夠模擬自然現象中無法觀測到的東西,無論是在時間尺度上,還是宏觀層面、微觀層面,只有計算機才能幫助我們理解、可視化并重現這些現象。
但隨著AI的出現,AI被大規模應用于科學問題的浪潮爆發了。2016年,在海量數據、新算法以及當然還有GPU的推動下,AI研究界起飛了——不僅僅是在消費領域、構建新模型、發明與計算機對話的新方式,也包括將其應用于科學。當然,現在從2019年開始,用同樣的計算機來模擬量子計算的未來,我們已經從超級計算只有一個主要支柱,發展到三個支柱。
在這次演講中,我想稍微談談我們在推進模擬、推進用于科學發現的AI,以及在理解最終將量子計算整合進QPU、GPU、CPU世界方面的最新進展。今天超級計算機必須在這三個方面都表現出色。

目前正在進行的研究和工作令人驚嘆。平臺上加速的應用數量正在爆炸式增長。我們已經追蹤到超過6000個CUDA加速的應用,覆蓋從生命科學到材料科學、核能、物理、量子、地球科學、計算流體力學、自主系統等所有學科。應用數量——有些名字大家很熟悉,它們從我們20年前第一次來超級計算大會時就存在了——今天每天都有新應用涌現,使用新方法、新應用的AI方法或新編程環境,也把新的AI和量子算法插入到現有算法中。
這是我工作中最開心的事之一——我能和所有這些開發者、這個生態系統一起工作,弄清楚如何推進他們的研究、他們的科學,然后在這些超級計算機上讓它活起來。每臺NVIDIA超級計算機都能運行所有這些應用,只要中心維護得好,它就能一直作為科學儀器存在。
我們的貢獻是我們的庫和生態系統。我們稱之為CUDA-X。一開始只有兩個庫——如果把math.h算上的話是三個。第一個當然是cuBLAS,第二個是cuFFT。從那以后我們把庫的數量爆炸式擴展了。我們的角色是提供一個骨干庫的集合,人們可以用它來做通用數學和求解器,也可以用專門的庫,比如專門為電路開發和計算光刻設計的cuLith,專門為路徑規劃和路由、解決決策優化問題設計的cuP,用于量子計算的cuQuantum,用于Earth-2、MONAI、Parabricks。
我們現在所有CUDA-X庫的總下載量已經超過6億次,追蹤到大約700萬開發者,以及大約1000個SDK和可以在CUDA-X生態中使用的AI模型。這些能力帶來了非常酷的驚人發現。

今年的Gordon Bell獎提名之一就是在JUPITER超級計算機上完成的,我今年早些時候有幸訪問了那里。這是馬克斯·普朗克氣象研究所Daniel Clarke團隊的工作。他們把整個地球氣候模擬一直做到全球1公里分辨率,在JUPITER超級計算機上用了超過2萬顆Grace Hopper超芯片運行。他們真的能夠模擬地球及其碳、水、熱循環——地球以每天146個模擬日的速度“呼吸”。他們每天能模擬地球大約半年的呼吸。這會需要幾十年的過程——現在幾周就能模擬完成。而且其實比之前的世界模擬紀錄快兩倍。

還有很多激動人心的AI物理和加速應用,從模擬噴氣發動機到下一代太空飛行熱防護罩。有兩個特別令人興奮的,我會多說一點。
有一個叫Luminary Cloud的初創公司,由前斯坦福教授、NASA前主任Juan Alonso領導。其實他是我在斯坦福時最早用GPU做CFD模擬的用戶之一。他的公司幫助諾斯羅普·格魯曼公司為航天器控制噴管建立AI模型。他們在多臺GPU上跑了大約2000個CFD案例,改變不同的噴管幾何形狀和流動條件,然后用NVIDIA的AI物理包Physics-NeMo框架在所有這些數據上訓練AI模型。訓練完成后,他們現在有了一個AI模型,可以實時運行,5秒以內完成以前需要幾小時的模擬,誤差在5%以內。這樣諾斯羅普·格魯曼就能用AI代理模型探索火箭噴管的空間,把所有可能的幾何形狀篩減下來,然后再深入跑完整的CFD模擬。
另一個是NASCAR。他們顯然在做賽車的CFD。這是一個1.8億網格的模擬,用OpenFOAM在190個雙核上跑大概需要11小時。但用STAR-CCM+在單個GB200節點上,用混合精度(FP32和FP64仿真)其實能在大約48分鐘跑完這個模型,產生賽車表面的湍流。

現代加速計算真正加速了發現之路。我們在軟件層面幫助實現這一點的一種方式,就是推出更多庫和更多編程環境,讓這一切更容易。我們在超級計算大會上重點談的其中一個就是NVIDIA Warp。NVIDIA Warp其實是一個Python包。它包含了我們所有的數學庫、所有模擬庫,讓你用Python寫物理,當然現在很多開發者除了C++和Fortran之外也在用Python。有趣的是,Warp這個庫和編程環境設計成自動可微的。這意味著你可以用它描述一個球在地面上彈跳的物理、它的彈性屬性、墻的位置以及它應該如何響應,然后運行模擬。但因為它是自動可微的,你可以立即把它接入PyTorch或JAX,然后運行求解器,因為你已經用一種程序已知可微的方式表達了計算。這樣你就能自動模擬并求解出球的初始速度和方向,以便擊中黑盒。這一切都是自動完成的。這是把AI的一個想法應用到物理上,并提供一個非常簡單友好的環境。我強烈建議在座的所有開發者去試試Warp。他們在展臺有演示,但它也是免費的,完全可以從我們網站下載,也很有趣。

當然,AI也在改變科學的方式。我們追蹤并參與了很多項目。多到這張幻燈片都放不下——從阿貢國家實驗室為ICF天體物理構建代理,到地震學——我們馬上會講,那是個很棒的例子——藥物發現、天氣建模、構建開源科學模型。它正被應用到太多領域。
具體來說,德克薩斯大學奧斯汀分校的地震學例子——那張圖是Cascadia俯沖帶。西雅圖外太平洋西北地區也有一個很大的斷層。那里一旦斷裂,最大的風險就是海嘯,會非常靠近溫哥華、西雅圖和周邊地區。德克薩斯大學奧斯汀分校與勞倫斯利弗莫爾國家實驗室和加州大學圣迭戈分校的同事們一起,構建了一個數字孿生,來做實時概率海嘯預報。他們構建了一個10億參數的代理模型,用Neptune海底光纜地震觀測站15年的地震和海嘯數據進行訓練。基本上把15年所有測量數據拿來訓練模型,結果他們現在能把這個模型實時應用到這個特定斷層上發生的所有地震事件。100英里其實不算長。現在用AI,他們真的能預測一次地震會不會產生海嘯、海嘯會有多大,并立即判斷是真警報還是假警報,迅速讓人們到安全地帶。
讓我再給大家展示一個。通用原子公司(General Atomics)正在開發他們聚變反應堆的數字孿生。這其實是一個實時交互的聚變能源數字孿生。從來沒有人構建過這么大規模的反應堆交互數字孿生。我們有一段視頻,很樂意給大家看。
視頻旁白:
幾十年來,聚變能源——驅動太陽的那個過程——一直是科學最大的機遇之一。攻克它將給我們帶來安全、清潔、幾乎無限的能源。控制比太陽核心還熱的等離子體,意味著要解決極其復雜的物理問題,即使是最快的超級計算機也很難模擬。在這項工作的最前沿,通用原子公司的研究人員和DIII-D國家聚變設施的國際合作伙伴們正在用AI把聚變研究推向前進。該團隊正在NVIDIA Omniverse中構建DIII-D托卡馬克的完全交互數字孿生。它融合了傳感器數據、物理模擬、工程和AI模型,創造了一個虛擬反應堆,可以快速指導決策。在數字孿生中可以探索關鍵控制參數,在真實實驗前優化科學。這些在幾十年真實世界數據集上訓練、在NVIDIA GPU上運行的代理模型,以前所未有的速度提供準確預測。這是一個優化反應堆設計、加速商業聚變、讓太陽的能量變得可編程的平臺。
Ian Buck:
AI把原本需要幾天、幾小時甚至無法想象的計算時間的東西帶到實時——不是取代它們,而是讓科學家們能夠實時進行那種探索,在搜索空間里實時發現——這種模式我們一次又一次看到。它讓人們能夠實時發現和處理以前根本無法實時處理的數據。

我們的目標之一是提供平臺、軟件和能力,通過構建不僅僅是庫,而是框架,來加速這些發現。其中一個就是NVIDIA HoloScan。這是MeerKAT陣列。它是南非的64面射電望遠鏡陣列,是很多人知道的平方公里陣列(SKA)的前身。它每秒持續產生大約2.1Tbps的觀測數據——數據來得太快,根本不可能實時處理。但HoloScan是一個軟件包,讓我們能夠把數據通過InfiniBand或專用FPGA以太網互連直接流式傳輸到GB200 NVL72機架,然后立即運行AI預過濾,檢測和識別有趣的信號,把2.1Tbps數據縮減到值得進一步處理用于射電天文學發現的那部分。
我們的另一個包是NVIDIA Alchemy。NVIDIA Alchemy專為化學和材料科學設計。構建AI模型,幫助科學家在搜索所有可能材料的空間時預測可能的新材料及其屬性。搜索空間巨大。用NVIDIA Alchemy(它帶有一系列材料科學預訓練模型),我們其實可以用它們搜索所有可能的化學物質,用于特定工作負載。其中與ENEOS的合作其實是在尋找下一代浸沒式冷卻液。用Alchemy,他們能預處理海量潛在候選物,通過AI模型篩選,把原本幾萬種可能的化學物質縮減到幾百種,然后再去深入研究。
除了軟件包,當然還有模型,現在世界上有很多開源模型。Hugging Face有成千上萬的模型。我們現在也看到NVIDIA在努力構建模型來推進不同行業領域。我們已經公布了用于機器人的Grok、用于物理AI的Cosmos、我們自己的大型語言模型NeMo用于生成式AI和聊天,以及用于生物醫學的Clara。

在今天的超級計算大會上,我們正在公布另一個模型家族,我們稱之為Apollo。Apollo是一組專為基于AI的物理設計的專用模型。這些是預訓練模型,還附帶參考工作流,教你如何微調它們、如何運行推理,讓你為自己的特定物理用例訓練自己的模型。我們首先關注對我們大家都很常見的領域,如CFD、空氣動力學和制造等,但也在關注結構FEA程序如碰撞代碼、消費電子、天氣和半導體用例。

我們其實已經訓練了一個模型,我可以給大家展示——這是我們為Apollo專門構建的第一個模型,專注于飛機機翼的高升力、低速設計。用斯坦福Parviz Moin開發的、現在屬于Cadence的Charles CFD代碼,我們與他們合作,在32張GB200 GPU上跑了8小時,對3億網格用例進行模擬,然后修改幾何形狀再跑8小時,生成這個飛機機翼特定用例的采樣數據集。我們跑了近2000次模擬,生成了40TB數據,創建了Apollo的訓練集。然后我們用GB200訓練模型,把原本8小時的模擬縮短到在RTX GPU上只需5秒。
這個Apollo模型現在是交互式的,預訓練模型將公開開放,連同運行它的所有軟件、說明和參考工作流,一起教你如何為自己的特定氣流用例微調模型。我們當然會為Apollo添加更多模型,特別是汽車碰撞、EDA和其他CFD領域。這是一個驚人的演示,我鼓勵大家去實際體驗。這是實時在NVIDIA GPU上運行模型,設計師可以實時改變俯仰、氣流、攻角。我們其實也可以改變幾何形狀——不僅僅是固定幾何,我們可以實時改變襟翼角度、機翼角度或襟翼的實際形狀。這讓飛機工程師、設計師能夠實時探索整個空間,觀察某些不同的現象,標記它們以便進一步深入模擬研究。
我們談了模擬,也談了AI。現在正在發生的第三個當然是量子。目前每臺GPU超級計算機都在為計算機科學的下一個篇章——量子計算——發揮作用。我們甚至還沒寫完CS 101。我們有Shor算法,但我們還沒有數據結構,所有不同的應用和求解方式都完全不同。我們真的從一張白紙開始。為了做到這一點,我們必須給研究人員工具,讓他們弄清楚如何把自旋變成求解器——這是一個極其困難的問題。

量子領域有一些驚人的工作。其中一個紀錄就是在JUPITER上用那2萬顆Grace Hopper系統完成的。他們創下了Shor算法最大模擬的紀錄——50量子比特。此前是48。這是數量級級別的提升。
除了打破紀錄、弄清楚如何擴展、構建新算法,我們也在學習如何制造這些芯片。如何構建量子處理器?沒有用于量子芯片的Synopsys,也沒有Cadence,它們完全不像傳統硅。這項工作其實是在Perlmutter超級計算機上完成的。那是世界上第一次在6724張GPU上用NVIDIA cuQuantum和cuDensityMat運行完整QPU芯片的全芯片模擬。
最后,我們開始獲得邏輯量子比特,這讓我們能夠探索超級計算的未來會是什么樣子。當然,其中一個挑戰是如何把量子處理器與GPU超級計算機連接起來?量子處理器不會運行所有工作負載,但它們將是完成我們部分計算的關鍵工具。為此,我們在GTC上公布了NVIDIA Q-Link,這基本上是一個參考架構,教你如何處理量子處理器發出的極其噪聲的信號。

在本次超級計算大會上,我們正式宣布已與全球23個不同的超級計算中心合作,開始超級計算的下一個篇章,其中現在包括量子計算。
回過頭來看,我們現在所處的世界變化太快了。超級計算曾經是一年一個篇章。現在幾乎每天都有新的突破,無論是OpenAI的下一個世界模型,還是射電天文學的新發現,都會公布新的超級計算機。
計算機數量也在爆炸式增長。這是全球累計AI exaFLOPS的圖表。我們剛剛公布了Vision、Mission、Equinox和Solstice系統。今年在日本,我也有幸參與公布Fugaku Next將采用NVIDIA GPU與富士通以及NVLink構建,以打造日本的下一代超級計算機。因此,我們現在公布的AI算力已經超過4.5zettaFLOPS,GPU超過30萬顆,而且還在增長。
它們越來越大。這是幾周前剛剛公布的阿貢國家實驗室Solstice系統。它將有10萬張Blackwell GPU——這其實比今天整個Top500的AI算力還要多1.6倍,將成為整個DOE最大的AI超級計算機。
當然,我們也在RIKEN公布了期待已久的Fugaku Next系統。其中兩個系統其實是為Fugaku Next做準備的。一個專注于科學AI和為地震學、機器人、制造開發AI。另一個系統專用于量子HPC和開發下一代混合計算算法。兩個都基于GB200 NVL4架構。
接下來我們談New Horizon。New Horizon其實是TACC的超級計算機,我們用GB200構建,還專門有一個9000顆Vera CPU分區的NVIDIA Vera CPU集群。讓我們放一下Horizon的視頻。
視頻旁白:
科學面臨著難以置信的規模挑戰。無論是理解我們的宇宙,還是破譯人類基因組以開發新藥。為了應對這些挑戰,Horizon正在德克薩斯州Round Rock建造——這是美國最大的學術超級計算機,也是NSF新領導級計算設施的一部分。Horizon將由NVIDIA技術提供支持——Grace Blackwell超芯片、Vera CPU和Quantum X800 InfiniBand,以推進科學AI和模擬。其基礎將是Dell集成機架級系統,采用Dell PowerEdge服務器。比Frontera超級計算機高100倍的AI性能,Horizon將為科學提供前所未有的能力。其核心是NSF的特征科學應用計劃——大型科學項目從頭到尾塑造Horizon。生物化學家如Rommie Amaro將用Horizon模擬病毒感染。天體物理學家如Tom Quinn將追蹤星系演化,地球物理學家如Yei Su將推進地震建模以改進地震災害圖。Horizon超級計算機將每年支持多達1.5萬名全球研究人員開展NSF資助項目,加速最具創新性、高影響力的舉措,促成原本不可能的發現。
Ian Buck:
真的很興奮看到Horizon逐漸成形。這是一個我們與TACC的Dan合作了很久的項目,他稍后會加入我們。構建的不只是基礎設施、硬件、大腦都與AI和模擬相同的超級計算機,也是我們第一次大規模Vera CPU超級計算機,用于CPU工作負載。

我們的總體目標是構建一個每年創新的平臺,不只是硬件,而是復合的、乘數效應的,從浮點能力到原始計算、架構,再加上內存,用NVLink把它們全部連接起來,用網絡大規模連接,當然還有激活這一切的軟件。
我們現在是每年一次的節奏。從一開始真正讓我們成名的那些系統,到現在的Blackwell、Rubin和下一代Feynman。每一次創新空間都是我們制造硅片的地方,用來把所有超級計算機連接起來,提供最好的平臺,無論用于消費AI、HPC還是超級計算,每一個都可以根據客戶、環境定制和設計成合適的機架形式因子。

今天我們還有幾個額外公布。把這一切連接起來的關鍵其實是NVLink。當我們從Pascal到Volta到Ampere到Hopper時,讓一切成為可能的正是我們如何把所有這些處理器連接起來。一個大的飛躍其實是構建NVLink全互連開關,讓每顆芯片以1.8TB/s的I/O運行,能通過NVLink開關與任何其他芯片對話。它其實不是真正的開關——它是一個共享內存結構。NVLink其實是完全不同的硅片、不同的架構,專為最快速度、最低延遲、最高吞吐量的消息傳遞而設計,用來構建一個巨型共享GPU。

這是SemiAnalysis的一個基準圖,叫做Inference Max。他們下載了最新的DeepSeek R1模型,用最新的開源SGLang框架,測量交互速率、從token速率運行模型的速度,然后測量每GPU的總吞吐量。從Hopper到這里有10倍性能提升——不是因為Blackwell浮點多了10倍,其實只有大約3倍,而是因為我們能夠在每GPU基礎上用NVLink把所有GPU連接起來。這不是相同數量的GPU——獲得了10倍性能提升,把每美元經濟性提升10倍,每瓦特提升10倍,吞吐量提升10倍,對于實際靠這些token賺錢的商業客戶來說,其實是為他們的AI工廠多產生了10倍收入。
NVLink對我們來說是一個巨大的游戲規則改變者。我們持續投資NVLink。我們持續探索能走多遠——72只是開始。其實我們已經公布,在Rubin Ultra世代我們將實現576顆芯片全部用NVLink連接。我們也在轉向共封裝光學。

共封裝光學讓我們把收發器、每個端口的小激光直接放到開關芯片旁邊。那20瓦的激光,用一些非常厲害的物理其實把功耗降到幾乎為零,因為它就在芯片旁邊。那20瓦聽起來不多,但在一個現代10萬張GPU數據中心里有數百萬個這樣的激光同時在工作,會產生大量熱量。它還顯著提高可靠性。共封裝光學用的是外部激光——是一個恒定的光源,不再閃爍,而是直接在芯片上調制。我們明年開始推向市場,先從InfiniBand開始,首批客戶CoreWeave、Lambda和德克薩斯TACC,Dan將與我們一起構建一個帶有NVIDIA Quantum-X光子InfiniBand開關的原型集群。

我們還通過NVLink Fusion進一步擴展NVLink生態。NVLink Fusion既是一個IP包,讓我們能夠讓第三方CPU或第三方加速器連接并接入我們的NVLink生態。在超級計算大會上我們有多個合作伙伴。我們宣布Arm現在加入了NVLink生態。除了其他CPU供應商如富士通、Intel和Qualcomm——順便說一句,富士通也是Fugaku Next系統的合作伙伴,他們的CPU將與NVIDIA GPU一起使用——Arm現在也加入了。這意味著構建自己的Arm CPU或使用Arm IP的人,其實可以訪問NVLink Fusion,把那個Arm CPU連接到NVIDIA GPU或NVLink生態的其余部分。

正如我提到的,我們也在推出Vera。Vera我們這邊有——是NVIDIA的下一代CPU。是Grace之后的下一代。有趣的是,這次完全是NVIDIA自己設計的內核。我們稱之為Olympus。之前的Grace用的是Arm的Neoverse內核。這是我們自己的設計。我們把Grace中連接所有Arm內核的fabric拿來,加強了,然后實現了我們自己的Arm內核。它其實有Grace兩倍的性能。因此它支持1.2–2TB/s的LPDDR內存。那是你們看到的圍繞芯片的所有內存,用的是LPDDR5X,本來是為手機設計的內存。它設計成非常低功耗。X版本加了所有數據中心特性、糾錯等,基本上提供低能耗但高帶寬內存吞吐量,讓Vera如此強大。它還支持芯片到芯片——Vera與自身和其他GPU之間有1.5TB/s的NVLink芯片到芯片帶寬,已基準測試在CFD代碼上能效提升1.8倍,在一些天氣代碼上提升1.7倍。

好了,我想就此結束。總的來說,今天全球超級計算生態運行三種工作負載:模擬、AI和量子。無論系統最初為什么而建、最初的使命是什么,我們今天享受的每一臺GPU超級計算機,都能依靠NVIDIA生態持續推進這三個領域,有超過1萬個SDK和模型供所有科學家運行,以及他們能運行的規模。
我們在本次大會上的新公布當然包括構建新模型、整個生態的新開源模型,從Apollo到構建并連接儀器到這些超級計算機,就像我們用HoloScan那樣,用下一代共封裝光學光子InfiniBand連接,用NVQ-Link連接來構建下一代量子GPU CPU超級計算機。
這正在驅動海嘯般的新系統浪潮——當天Top500公布了80臺新系統,總計超過30萬張GPU、超過2zettaFLOPS的計算就在今年大會新增。非常興奮看到這些。
===
好了,我結束演講,但我想請幾位嘉賓上臺。我們今天有四位嘉賓加入我,很多都是我職業生涯中合作很久的伙伴:
- Jülich超級計算中心的主任Thomas Lippert,
- 阿貢國家實驗室的Jenny Rummer(將托管Solstice超級計算機),
- Dan Stanzione是德克薩斯高級計算中心的執行主任(托管Horizon)
- 理研計算科學中心的團隊負責人Muhammad Wahib(也將構建Fugaku Next)。
Ian Buck:
很高興見到你,Thomas。Dan也來了。
在這個小組討論中,我想觸及一些正在發生的話題,真正聽聽模擬、量子、AI如何影響或改變超級計算。
我想從Muhammad開始。理研無疑處于把AI應用于模擬的最前沿。也許你可以詳細談談你如何看待科學正在被改變。你在這個領域已經很長時間了。現在它如何改變?
Muhammad Wahib:
關于轉變的問題,它發生得很快,正如你剛才解釋的,在不久的將來,你會想象AI將成為科學的一個不可或缺的工具,我說科學時指的是廣義的科學,這很重要,因為有很多來自不同科學領域的新人突然感興趣,這些領域歷史上并沒有使用超級計算機HPC,但那是很多科學領域,所以這是我們看到的一個很大轉變。
你可以把它分解成幾點。其中之一是,你開始看到傳統上從建模模擬設計轉向更多混合工作流,AI和HPC耦合,這可以有不同的形式。可以是HPC占主導,用AI做代理或任何預測建模或生成式AI,也可以反過來,AI占主導,然后HPC建模以AI-ant形式使用。它可能會在不同領域以不同形式擴展,也會以不同程度影響不同領域。
第二點我想是,HPC歷史上更多是計算中心的視角,而不是數據中心的視角。HPC內的一些細分領域關心數據,但總體上非常計算中心。隨著我們前進,AI變得更加整合,當你有HPC和AI的這種混合和耦合時,它將更多關于數據處理、數據管理、圍繞它的生態系統本身。所以我們從計算中心視角過渡到數據中心視角,這需要在傳統HPC棧和生態之外付出很多努力。
最后一點我想是,歷史上我們使用超級計算機的方式,或者說直到現在的方式,就是寫一個批處理作業,提交,然后結果回來。我想這是我們看待超級計算機方式的遺產——它們基本上被設計和看待成像望遠鏡一樣的科學儀器——獲得一段時間片,提交作業,拿回結果。但如果你假設AI-HPC有耦合工作流,那么你會想象有一個更交互的系統——不僅僅是因為AI讓它更快,而是因為這種工作流的性質。所以我們會從批處理系統過渡到交互式系統。HPC長期以來一直在這個想法上徘徊,有些系統甚至提供一些交互節點等等,但一直僅限于調試和測試,我想這是未來的方向。
Ian Buck:
整個作業調度生態就是一回事。我們說Slurm,但還有Slurm-GCP等各種方式,抓取節點并將其視為交互曾經是例外。現在的問題是,在這個新世界里如何管理超級計算機。
Dan,我想給你機會談談,你在TACC已經很長時間了。工作負載和應用于這些問題的庫正在擴展。也許你可以談談你看到的一些棧和用于這些問題的庫類型。
Dan Stanzione:
你的幻燈片里有一分鐘前展示了NVIDIA參與的數百個應用,我們看到科學領域有數千個,說任何一個人都能自己掌握所有這些有點狂妄,盡管每個研究生都想從頭開始寫每一行代碼。但理解量子力學和你想表達的物理與理解在現代CUDA內核或張量內核中做4D變換的最佳方式、填充緩沖區做all-to-all通信的最佳方式之間有巨大差別。
我最近在一篇Spectrum文章里讀到,有人分析了一個智能家居車庫門開門器,有1700萬行代碼鏈接到它,這對很多原因來說都很可怕。但這就是現代應用的情況,而那只是一個非常簡單的問題。而在這些科學問題中,我們有極其多樣的問題,它們是世界上最復雜的物理問題之一。
能夠——庫至少在理論上一直是封裝我們專業知識、在不同抽象層次之間共享知識的方式。部分原因是,你無法再從那個層次構建了。如何把AI融入編碼場所?基本上告訴他們不要寫單元測試——讓AI來做。但所有這一切都建立在找到最佳庫、在上面構建并調優,而不是試圖從最低層往上構建,你永遠不會成功。復雜度太高了。
所以我們已經從擁有真正好的基礎數學操作庫——矩陣乘法、線性代數、傅里葉變換——過渡到這些更領域特定的庫,給我們減法是把混合精度算法或代理模型或其他我們需要的抽象插入而不重構整個代碼的完美方式。所以數量驚人,非常感謝NVIDIA目前啟用的很多,但沒有它們就無法以同樣的速度取得進展。
Ian Buck:
我每天都學到一個新庫。前幾天學了ThunderKittens。這些互動就是這樣發生的——這邊有一個研究者,那邊有一個特定領域的專家,還有一個科學問題的科學家。它從協作開始,現在其實完全在開源中發生。這就是AI的一點——它在GitHub開源革命期間活起來了。這些庫不只是——它們是每個人見面、聚集并可以應用的地方。所以我絕對聽從你的建議給大家——外面可能已經有人寫了一個庫,你只需要去找,就能用來解決這些問題。
Jenny,阿貢已經存在很長時間了——DOE最早的實驗室之一。我記得我第一次訪問阿貢,研究Blue Gene超級計算機,到現在的Solstice。也許可以從阿貢豐富而漫長的歷史角度談談超級計算機如何變化,以及鑒于阿貢的歷史,它們將走向何方。
Jenny Rummer:
正如你指出的,阿貢在超級計算方面有很長很豐富的歷史,有很多前輩做了難以置信的工作,我們自己也有一系列未來的挑戰要面對。但在某種意義上,搭建這些巨型超級計算機的挑戰與以前非常相似——電力和冷卻,以及NVIDIA等供應商的發展方向,能效成為在我們可以搭建這些巨型機器之前必須解決的最關鍵問題。
然后是經典問題——我在阿貢做很多參觀導覽,所以我跟各種人打交道,但有一點你必須從外行進來阿貢時開始講,就是什么讓超級計算機“超級”,為什么這些叫超級計算機而不是一堆機器。顯然網絡在這些巨型機器中扮演巨大角色,特別是當我們談到我們想運行這些機器的規模、我們的用戶社區想在這些系統上運行的規模時。這些是我們ALCF團隊正在為未來機器研究的挑戰。所以肯定是電力和冷卻作為基礎設施基礎的需求,鑒于目前整個市場的電力趨勢——它們正在直線上升。這將是我們必須解決的最大挑戰之一。
Ian Buck:
全世界都在爭奪電力,但現在全世界都在努力上線更多電力、更多基礎設施、更多機房,公私合作伙伴關系是利用這種增長的一種方式,特別是在阿貢。
Thomas,AI顯然是把計算應用于科學發現的新方式,但有很多不同的模型和工具,有些教科書其實還在寫或還在摸索或教學。所以在Jülich,你們以及你們與研究人員和行業的互動,如何決定用什么工具、什么模型、如何微調——你們如何理解最新的東西?
Thomas Lippert:
首先感謝邀請。當然Jülich幾年前就開始做AI,我們有一些模型和基礎模型的經驗。我們有帶4張A100 GPU的JUWELS機器。這讓我們處于能做點事情的位置。我可以說,現在我們大約有25個科學項目,我特別高興你今天這么強調科學——在科學領域,人們對創建這樣的模型很感興趣。只是舉幾個例子——比如材料科學,所有這些都通過德國亥姆霍茲協會,在我們的機器上運行,我們當然希望未來的JUPITER能給我們這方面的性能飛躍。
舉幾個例子,比如材料科學、氣象學或氣候學,特別是生物學,事情正在前進。一個突出的基礎甚至前沿模型將是人腦的前沿模型。我們有最精細的人腦解剖數據,可以作為這種前沿模型的基礎,你在上面放所有模態。你會看到區別。你問我們如何選擇不同標準。這種模型自成一體。它們是三生成式的,因為你有足夠的數據——你有PB級的人腦數據和PB級的數據放在你創建的結構上。這將對理解大腦的未知非常關鍵,這樣你就能在那里插值。這只是一個非常重要的應用,其他的則是根據遷移能力選擇,也許開源模型或語言模型,用科學數據精煉后是否能幫助。我們目前大約有14或15個這樣的項目在我們的機器上運行。
Ian Buck:
我當然記得人類大腦計劃,那是Jülich booster的一個推動力之一,有多少科學研究或探索或工作在超級計算機上生成了所有這些數據。現在是一個機會,讓那個卑微的研究生把它們撣掉灰塵,也許你第一次為世界構建了一個模型,來模擬或重構大腦的神經科學。只要有數據,就有博士論文等著發生。
Jenny,很好再詳細談談,我經常被問到這個公私合作伙伴關系的新方向。我們剛才談到的讓一些超級計算機成為可能的,正是用一種新方式把它們組合起來,利用云的一些技術。你能詳細談談Solstice總體情況嗎?它如何運作?
Jenny Rummer:
顯然GTC的公布是10,000 GPU(我們叫Equinox)和100,000 GPU(我們叫Solstice)計劃的大揭曉。現在我們正在努力弄清楚所有底層細節。所以我們顯然仍在與NVIDIA和Oracle合作這些系統,我們希望能把我們從DOE生態帶來的專業知識結合起來。正如你指出的,我們有很長的超級計算歷史。所以我們在搭建這些巨型系統時學到了一兩件事,以及我們必須處理的不同事情。
所以把其中一些專業知識帶進來,加上我剛才談到的基礎設施限制——電力、冷卻、空間以及如何在國家實驗室托管這些機器的所有東西。這是我們希望帶到合作伙伴關系的部分。當然Oracle和NVIDIA在過去20-30年也積累了巨大知識,以及他們在自己那邊做的巨大工作。
所以我非常興奮看到Equinox和Solstice將走向何方——非常有挑戰性但也非常激動人心。興奮和挑戰每天都在互相爭斗。但公私合作伙伴關系的想法真的很好,把不同專業知識的人聚集起來,試圖最大化我們每個人能從中獲得的東西。
Ian Buck:
如果不難就不是超級計算機了。我們應該——超級計算機之所以超級,不只是技術,而是總體——這不是給膽小的人準備的,組合那種系統。
我個人對此很興奮,因為超級計算和HPC社區一直對利用云能提供的東西感興趣,其實我們有一些云超級計算機——Eagle是微軟建的Top 5超級計算機,在榜單上——但真正激動人心的是,這里從來沒有真正突破的時刻,而現在我們有了,我們可以把Oracle那種在德州為OpenAI構建Stargate、知道如何在超級計算規模部署超級計算機的專業知識帶進來,然后把組裝制造和運營的專業知識帶到科學辦公室,為美國科學計算領導力服務。
同樣Thomas,在歐洲有很多關于未來AI工廠和歐洲下一波大規模計算增長使命的興奮。你能類似地詳細談談你在歐洲看到的情況嗎?
Thomas Lippert:
歐洲在AI工廠方面的努力當然可以追溯到馮德萊恩主席的宣布,我想歐洲對創建圍繞其超級計算機的環境反應非常快,最初也從科學方面開始,但包括商業和經濟。現在AI工廠——我們大約有20個正在啟動——這些只是歐洲超級計算機周圍的環境,但很多已經配備了GPU,能在這方面做很多事。JUPITER就是其中一個例子,帶JUPITER AI工廠。
但除此之外,我們現在將在歐洲看到一種前所未有的運動,走向四到五個所謂巨型工廠,也是公私合作伙伴關系,就像我們剛才聽到的。這非常相似,這些巨型工廠規模也在10萬張GPU左右——參考不知道是Blackwell還是什么,但數量級是10萬張GPU,所以我們也將看到歐洲國家的大努力。我們有76個不同組織來自歐洲各地的興趣表達,要構建這種基礎設施并向前推進,其中有很多非常突出和強大的歐洲公司。所以我們會看到一些東西,我希望這對歐洲AI景觀的發展也有成果。
Ian Buck:
我當然很享受觀看并參加了Jülich發布會,有德國總理和歐盟委員會在場——你能看到計算、超級計算和AI對整個大陸來說是國家重要的事,能夠把一個國家的數據應用于他們的人民、經濟、制造,作為領導地位。超級計算現在提升到了國家重要性的新層次。
實際上把超級計算應用于國家問題的最多例子我想其實是日本。我當然記得ABCI超級計算機,是為幫助日本產業應用模擬和科學解決重要問題而建的。事實上Fugaku本身——日本從地球模擬器到Fugaku一直領先,解決對國家真正重要的問題,在COVID期間有理解COVID如何在人類互動中傳播的開創性模擬,能夠模擬它。
Muhammad,你能詳細談談從Fugaku應用中學到的關鍵經驗,以及你們對正在到來的Fugaku Next的期待嗎?
Muhammad Wahib:
事實上,把所有這些系統連接起來的共同主線,從地球模擬器到K、Fugaku、ABCI,再到期待的未來,一直是非常務實的立場,即最終重要的是真實性能——你在真實世界問題上獲得的實際性能,或者換句話說,你想從系統里榨取最多的科學產出。
為此,我們在開發這些系統時一直關注的關鍵點——顯然是硬件與供應商的深度共設計,必須從想法開始就緊密合作——那是硬件,是理所當然的。
往前看,我認為有點改變的是軟件——軟件的成熟度和穩定性很重要。這些是大系統,你部署它們,它們要運行很多年。又一次,如果你想從中獲得最多,軟硬件協同設計——軟件穩定性和成熟度很重要,特別是當我們前面提到AI與硬件越來越耦合——AI與HPC越來越耦合時,軟件棧會變得更高,而不只是更寬。當我們說軟件棧時,不再只是編譯器、庫、調試器、性能分析器的棧——我們說的是科學家想用來降低所有科學家進入門檻的更高層。
這里的一個好例子其實就是NVIDIA在開放庫方面的努力,比如BioNeMo、Physics-NeMo等等。這就是我們認為會很有幫助的軟件水平——坐在其他棧之上,其實我們非常欣賞,也期待甚至為此貢獻。
往前看,我想這是我們需要推動的一個支柱,即更多推進軟件棧——堆得更高,我們降低進入門檻,當然還有硬件設計,讓它全部可靠擴展——努力讓10萬到100萬張GPU的計算機可靠工作。
Ian Buck:
這不是英雄單機環境——這些是工作的、活的科學儀器,在極其重要的問題上工作。超級計算機的第一大bug不是硬件——是很久以前敲進去的無數軟件bug,我們必須去找并探索。其實AI在這里也能幫忙。謝天謝地AI至少是個統計問題。所以只要我們在這些框架中構建設計和彈性,你提到的和其他的,就有希望我們能繼續使用它們,并在平均律會發生事情的規模上保持彈性。
另一個方面是必須公開發生。這里的每一臺計算機、整個空間都是實時發明的。所以我很興奮這些框架是開源的——NVIDIA也在貢獻的其他框架。我們有團隊直接與之合作——我們把它們當作自己的。我們把PyTorch當作Meta的,但我們有自己的團隊在做,或者JAX或其他基礎庫。我們關注的是確保平臺在整個生態中高效。
Dan,NSF現在正在構建一個非常了不起和激動人心的超級計算機——期待已久。我很興奮看到NSF與DOE以及各國一起投資。也許你可以提供——NSF的章程與DOE略有不同。我一直很享受NSF跨領域的多樣工作負載。你能詳細談談你期待什么,以及一些你希望在上面成形的旗艦項目嗎?
Dan Stanzione:
我們真的很接近Horizon了,其實你和我第一次談這個已經差不多五年前了。所以花了一段時間。很高興看到我們終于開始把機架放到地板上這些年,很接近了。
你其實展示了我以前沒看過的視頻,關于特色科學應用,這真的是我們為了讓這個機器面向未來設計而推出的程序。我們上次真正的大機器是六年前上線的——那意味著我們八年前2017年就定下了規格,競爭基于2006年的基準。我們其實開始拆解那些基準。我們意識到至少有一個基準的代碼十年沒人動過。我們用不到一個機架就跑完了半個問題,因為它們不再擴展了。
關于真實世界問題——所以我們想做的是,而不是向后看基準,我們想關注我們的用戶想做什么。我們真的想看整個問題,原因有很多。其中之一是它允許創新——不是跑20年前的同一段代碼,而是跑同一個問題或至少可以比較的問題,但允許一些實現靈活性。
當我們2020年開始設計這臺機器時,基準里沒有機會融入AI。而顯然這已經變得非常重要。如果我們有一臺機器又一次只關注問題的一小部分,也許跑一個小時但數據進來要一個月數據出去要一個月——那么沒人真的關心是跑一個小時還是八小時,如果總共還是兩個月才能轉一圈。所以我們想端到端看整個工作流。我們想允許一些創造性,把所有精力而不是調優20年前的基準,而是調優人們想跑的問題。
這導致了你提到的特色科學應用計劃。我們一開始有大約150個問題,人們提議他們想在這臺機器上做。我們現在已經縮小到11個,我們真的重點關注,將是春天第一批跑的問題。你在視頻里提到了三個,我之前沒看到,所以很興奮。
是的——比如地震多斷裂地震,做預報——我們有很多天體物理,很多分子動力學,比如Rommie用NAMD做的工作,但那是NAMD加DeepDrive藥物發現流水線加——所以有AI組件和模擬組件。我們試圖覆蓋廣泛的科學,但我們已經能夠——從舊系統開始,用中間的Vista或Grace Hopper系統——所有調優都集中在我們能用這些問題做什么,即使我們正在改變代碼。有些在我們在談的時間框架內從CPU轉到了GPU。所以不是跑同一組代碼然后希望能轉化為我們構建的機器——而是為我們想解決的問題工作并構建機器來做那個。
我們對第一批問題真的很興奮。我們可能會把第二波用戶帶回來,一些你提到的Gordon Bell問題,但一些早期候選沒進入最終輪但我們合作了幾年的。我們不僅有很好的基準集——它給了我們用戶準備好使用這些機器解決他們問題的先機,而不是哦這是新機器我現在做什么。我們從11個團隊開始——我們已經合作四年了。大約三個月后就滿四年了。他們都準備好了,這真的很激動人心,我們認為我們會看到15到20倍的科學吞吐量,一上線,在問題他們的實驗室周轉數量上,比舊機器高15到20倍。
Ian Buck:
一切發生得太快了。正如提到的,不只是計算,不只是flops。很好——我覺得我們正在以JUPITER這樣的方式華麗地結束E級計算時代,我很高興我們上了榜單,但就像你說的,采購新系統正在從這里是多少計算的新系統隨便用,變成真正思考工作負載,而工作負載當然需要計算,但如你所說也會產生大量數據。所以數據策略是什么?他們能生成數據嗎?能消費數據嗎?我們有數據來操作嗎?然后最后AI是一種算法——在如何解決問題上更靈活,而不是對跑問題所需的flops量規定。如你所見,這在AI中也是一樣的。你可以放一個有很多flops的芯片,但你必須讓它們全部通信。你必須應用能給你最好系統的最新算法,為你能做的科學。而我們無法預測一、三、四年后會是什么,但至少如果你設定一條路徑,讓算法給你完整的畫布來部署算法,我真的很欣賞。
但當然不僅僅是AI和模擬——還有量子。我在德國時看到了你們2D wave系統以及其他量子,Jülich可能是量子計算與HPC如何結合的先驅。所以Thomas,鑒于不僅僅是模擬工作,還有體驗和接觸這些系統,你能給觀眾一點視角,你如何看待這個量子HPC結合世界的展開——Thomas的視角。
Thomas Lippert:
我相信——我10年前研究所有這些時就相信——量子計算機只有深度整合進HPC系統才有成果。反正它們需要前端系統來操作。所以它們需要數字組件。但真正的問題是用戶如何能寫一個程序,當需要時量子設備或很多量子設備甚至未來量子設備協同行動。所以這是我們相信的,我們已經有幾個例子看到巨大進展。
我應該區分不同類別。有量子模擬器或量子仿真器,像我們有的——我們剛剛在數字機器上實現了巨大進展,觸及50量子比特。這是用于驗證和構建新算法。
也有不同種類的量子計算機,比如退火器——它們也叫量子模擬器,像法國的Pascal機器。這里我看到短期內會有巨大進展。我們可能很快會看到很多真實問題用退火器解決。
但當然我們更相信所有這些也會收斂,包括退火技術到更多門基機器——不僅僅是我們今天有的噪聲機器,而是擁有邏輯量子比特的機器。這里我們相信在四、五、六年規模內會有進展,有幾個或更多邏輯量子比特——那里你必須最終看到它們是否足夠好。你必須最終看到解決經典計算機無法做的問題,但這些問題是我們在經典計算機上做事情時需要做的部分問題。這里我們看到兩種技術的收斂,它們會以連貫方式一起使用在經典-量子應用上。
Ian Buck:
據我所知,我們今天有一個邏輯量子比特。所以像你說的,快速達到多個邏輯量子比特將很快展示一個真正的混合超級計算機。
最后,我想給每位小組成員一個機會,談談現在AI和HPC的關鍵需求是什么。你們有觀眾,都是超級計算領域的領導者,肯定不缺要寫的博士生。你們認為社區現在應該關注哪里——無論是庫、算法、超級計算機,還是更廣泛地對幫助資助并有勇氣構建它們的機構。現在HPC AI和量子的關鍵需求是什么——Thomas你先,然后依次往下。
Thomas Lippert:
也許你們會叫我保守,但我相信我們未來最大的問題將是維護、整理維護并推進數值庫、plus等。所以我們需要巨大的社區努力,讓這些東西不要變老,能適應即將到來的新技術,這里我相信有很多事要做,因為這些是我們在超級計算機上做的任何活動的基礎。
Jenny Rummer:
我想稍微擴展一下Thomas說的,但有幾點讓我想到。一是整理維護和維護我們從各種科學應用將看到的數據洪流——無論是DOE的實驗設施還是其他,無論是基于模擬還是什么——對于任何AI系統能用它,可用數據與我們在地板上的數據百分比只是微乎其微,這將是我們面臨的一個大挑戰。
當然,科學應用歷史上如此專注于HPC類型系統。在系統世界變化時如何帶上這些科學應用,將是我們必須處理的最大挑戰之一。
Dan Stanzione:
兩個都很棒的回答,但我想說現在我們看到這種前所未有的規模投資在AI,所有你們為我們構建的硬件真的圍繞商業AI應用優化,圍繞他們的需求。
在科學計算世界,即使我們構建了巨型系統,它們永遠不夠大,解決我們想解決的問題。所以我們一直生活在資源受限的世界。我們需要把資源受限的概念應用到混合精度算法、仿真和所有需要的東西,來最有效利用你們構建的這種驚人硬件獲取性能。這不僅對AI至關重要——這將是我們隨著硬件繼續演進繼續推動科學計算的方式。
Muhammad Wahib:
有很多挑戰,都覆蓋了,但我想補充一點,雖然HPC社區有很多一致性,我們可以務實,在商業AI空間看到的工具、算法、模型上構建——也要承認,在科學中有點不同,很多情況下你需要把AI的能力擴展到商業空間之外。這回到數據本身的性質——如何收集它、測量噪聲、高維度、非結構、偏斜、非IID等等。所以最終數據代表一些物理定律,而物理定律不在乎模型想要什么。你不是從互聯網收集數據。所以這意味著需要很多努力,社區努力,正如Thomas說的,把AI帶到科學空間——構建存在的,用它很好,務實,不存在的你必須構建,我認為那里會有很多山要爬。
Ian Buck:
所有都很棒的回答,作為一個既享受我們NVIDIA似乎一直在構建或發明的技術堆,也享受生態創造的庫,以及問題永遠沒有完全解決的人——超級計算如果有一件事擅長,就是永遠不是完全解決的問題。我們總是在推向下一步、下一步、下一步。
我唯一的請求是你們繼續挑戰,繼續把我們的公司和這里每個人都慶祝到這個領域工作很興奮,我們越能識別這些機會,就越能拉——超級計算可以是創造這些挑戰、把整個行業往前拉的大會。你們應該完全尊重這個社區為今天的AI革命、加速計算革命以及所有創新做出了多少貢獻。它不會停止。所以繼續挑戰,繼續推動。一直都很鼓舞人心,我期待在這個領域繼續職業工作,只要我還能。
謝謝大家,謝謝大家今天來聽主旨和小組討論。真的很有趣。
來源:https://www.youtube.com/watch?v=QaO2ZewKsQM
本文轉載自???Andy730???,作者:常華

















