數(shù)據(jù)驅(qū)動的科學:AI如何革新HPC領(lǐng)域
對許多從事高性能計算(HPC)的人而言,工作流程大致如此:科學首先用微分方程刻畫世界;只要解出或近似這些方程,就能追蹤模型隨時間的演化——天氣預(yù)報便是典型例子。而在量子力學里,積分微積分則被用來預(yù)測原子與分子的能級。
所有這些方法的核心都是基于理論或第一性原理(基本物理規(guī)則)的模型,這些模型反映了自然界的行為方式。最終的仲裁者當然是自然,而模型根據(jù)各種因素提供不同程度的準確性。有些模型表現(xiàn)出色,通常需要大量的計算時間來遍歷所有數(shù)學運算。

經(jīng)典粒子(質(zhì)量為m)的運動學量:位置r、速度v、加速度a。
高性能計算(HPC)自誕生以來便以這種方式發(fā)展。隨著可移植FORTRAN編程標準的引入,開發(fā)者可以專注于開發(fā)和改進其計算模型,而無需針對各種機器的細微差別和差異進行編程。這些模型統(tǒng)稱為“模態(tài)仿真(Modsim)”(模型與仿真),并持續(xù)推動HPC市場向更大、更快的機器發(fā)展。
各種超級計算設(shè)計已被開發(fā)用于運行模態(tài)仿真(Modsim)代碼。從最初的向量處理器到并行集群和大規(guī)模并行GPU,HPC以利用任何可用硬件或軟件來增加模型規(guī)模和/或性能而聞名。
大規(guī)模人工智能(AI)建模的出現(xiàn)改變了這種久經(jīng)考驗的HPC計算公式。大型AI模型可以在模態(tài)仿真(Modsim)數(shù)據(jù)上進行訓練,生成“數(shù)據(jù)模型”,這些模型能夠以更少的時間準確求解傳統(tǒng)數(shù)學模型,而無需求解底層的物理原理。
這個出人意料的結(jié)論在傳統(tǒng)HPC從業(yè)者眼中既引人注目,又在某種程度上是“褻瀆神靈”的。受物理定律約束的過程,如何能“僅僅通過數(shù)據(jù)”進行建模?
物理學的結(jié)構(gòu)
暫且不提對通用人工智能(AGI, Artificial General Intelligence)的追求,我們來思考當前生成式AI大型語言模型(LLM, Large Language Model)的運作方式。通過對大量文本數(shù)據(jù)進行采樣,它們學習了英語中Token(單詞)之間的統(tǒng)計關(guān)系。(這種分析也適用于其他語言,并且大多數(shù)模型都是基于從互聯(lián)網(wǎng)上抓取的英語內(nèi)容。)眾所周知,LLM利用這些關(guān)系,根據(jù)用戶提示來補全句子、段落乃至書籍。例如,一個LLM可能會生成以下句子:
帶把傘,因為明天會
根據(jù)所學習的模型,下一個詞有很高的概率是“下雨”、“細雨”、“暴風雨”,或與“下雨”相關(guān)的其他詞或短語。選擇取決于LLM的溫度(Temperature)設(shè)置;低溫度意味著選擇最可能的詞,高溫度意味著隨機選擇一個候選詞。低溫度也意味著對相同提示的回答幾乎相同,而高溫度將提供不同的響應(yīng)。如果設(shè)置過高,則會導(dǎo)致完全隨機的響應(yīng)。溫度設(shè)置會影響LLM中的幻覺(即錯誤的詞或短語)。
LLM的有效性在于它們能夠識別英語中的關(guān)系結(jié)構(gòu)。語言存在一定的結(jié)構(gòu)或規(guī)則,沒有它,語言將無法存在。語言的結(jié)構(gòu)是靈活的,提供了多種表達相同事物的方式組合,這就是為什么LLM中的溫度是使響應(yīng)聽起來更像人類的有效方式。(例如,我們甚至可以理解《星球大戰(zhàn)》中的尤達大師。)
語言中有一個結(jié)構(gòu)更為受限的領(lǐng)域,那就是計算機軟件。編程語言具有非常具體的結(jié)構(gòu),并且僅限于一組基本詞匯或操作。像自然語言一樣,它們?nèi)匀辉试S許多不同的路徑通向相同的結(jié)果,但與典型的LLM提示的響應(yīng)不同,計算機程序可以自動檢查其準確性,并且可以輕松過濾掉錯誤的結(jié)果。
科學,包括物理學、化學和生物學,也具有一種結(jié)構(gòu)或規(guī)則,這種結(jié)構(gòu)或規(guī)則最終由科學定律決定,例如牛頓運動定律或量子力學中的薛定諤方程。科學模型所依據(jù)的數(shù)學所施加的結(jié)構(gòu)通常比人類語言的結(jié)構(gòu)更嚴格。
即使是混沌(例如流體流動)的研究也具有與之相關(guān)的結(jié)構(gòu)或規(guī)則。混沌系統(tǒng)曾被認為是難以處理的,其特征是無序的隨機狀態(tài)。然而,在混沌行為中,存在著潛在的模式、相互連接、持續(xù)的反饋循環(huán)、重復(fù)、自相似性、分形和自組織。
對物理定律的遵循為物理系統(tǒng)中的關(guān)系提供了結(jié)構(gòu)。通過AI訓練,這種結(jié)構(gòu)塑造了物理系統(tǒng)各個方面之間的關(guān)系,所有這些都可以被模型學習。由于這些模型是數(shù)字而非文本,它們通常被稱為大型定量模型(LQM, Large Quantitative Model)。這種學習類似于LLM如何通過一個詞與文本語料庫中其他詞的關(guān)系來定義它。
計算中的驗證
迄今為止,最大的成功或許是Alphabet(谷歌)DeepMind的AlphaFold所取得的成果,它利用AI根據(jù)初始肽鏈(由細胞DNA序列定義)來確定蛋白質(zhì)如何折疊。使用傳統(tǒng)模態(tài)仿真(Modsim)方法計算可能的蛋白質(zhì)構(gòu)型被認為(并且仍然是)一個計算上困難的問題,因為可能的組合(折疊類型)數(shù)量極其龐大。AlphaFold在現(xiàn)有蛋白質(zhì)數(shù)據(jù)上進行訓練,并通過消除不太可能的結(jié)構(gòu)來限制搜索;它已成為確定蛋白質(zhì)結(jié)構(gòu)(或至少消除不太可能的結(jié)構(gòu))的事實方法。AlphaFold的作者,谷歌DeepMind的Demis Hassabis和John Jumper,分享了2024年諾貝爾化學獎的一半,該獎項是“為了蛋白質(zhì)結(jié)構(gòu)預(yù)測”而頒發(fā)的。一個類似的開源工具OpenFold也向科學界開放,它使用相同的AI增強方法來加速模態(tài)仿真(Modsim)計算。
除了蛋白質(zhì)折疊之外,AI增強型HPC還有許多其他例子。正如HPCwire文章所描述的,Aurora AI驅(qū)動的大氣模型比傳統(tǒng)系統(tǒng)快5000倍,據(jù)Aurora模型的開發(fā)者微軟(不要與Argonne的Aurora超級計算機混淆)稱,該模型在以前的天氣數(shù)據(jù)(計算和測量)上進行訓練,其預(yù)測速度比數(shù)值集成預(yù)報系統(tǒng)快約5000倍。Aurora數(shù)據(jù)模型的準確性(與模態(tài)仿真Modsim結(jié)果和實際天氣相比)與傳統(tǒng)數(shù)值模型相同或更優(yōu)。它可以通過增加數(shù)據(jù)集多樣性和模型大小進行“調(diào)優(yōu)”。
最近,伯克利實驗室與Meta合作,發(fā)布了Open Molecules 25 (OMol25)和Universal Model for Atoms (UMA)供公眾使用。Open Molecules是一個包含超過1億個3D分子快照的集合,其性質(zhì)已使用密度泛函理論(DFT, Density Functional Theory)計算。DFT是一種極其強大(且計算開銷大)的工具,用于建模原子相互作用的精確細節(jié),使科學家能夠預(yù)測每個原子上的力和系統(tǒng)的能量,這反過來又決定了分子運動和化學反應(yīng),從而決定了更大尺度的性質(zhì),例如電解質(zhì)在電池中如何反應(yīng)或藥物如何與受體結(jié)合以預(yù)防疾病。使用傳統(tǒng)分子動力學模擬(DFT)結(jié)果來訓練機器學習模型可以提供相同水平的分子預(yù)測,但比傳統(tǒng)DFT分子動力學模擬數(shù)值方法快10,000倍。

我們?nèi)绾沃来鸢甘钦_的?
對AI持懷疑態(tài)度是合理的。請記住,“AI”一詞涵蓋了廣泛的方法論,本身并沒有嚴格的定義。AI方法的不同形式可能利用能夠使計算機模擬人類學習、理解、問題解決、決策、創(chuàng)造力和自主性的技術(shù)。AI應(yīng)用范圍從基本的統(tǒng)計監(jiān)督學習模型到由OpenAI、Google、Meta等公司提供的大型LLM。
更大的模型和通用人工智能(AGI)的主張正受到持續(xù)的審視。無論是由于缺乏“世界觀”而下棋(表現(xiàn)不佳),還是無法解決超越記憶解決方案的經(jīng)典AI難題“漢諾塔”,最新、最強大的LLM仍然存在一些不足之處。此外,LLM的幻覺并非沒有后果,正如作為法庭文件一部分提交的虛構(gòu)法律幻覺的增長所表明的那樣(有人沒有檢查他們的工作)。
這些擔憂對于任何形式的AI都是有效的,包括數(shù)據(jù)過擬合或欠擬合、特征生成、數(shù)據(jù)溯源等問題。LLM和科學模型之間的關(guān)鍵區(qū)別在于對物理結(jié)構(gòu)與語言結(jié)構(gòu)的依賴。作為優(yōu)秀的科學家,計算結(jié)果總是需要與現(xiàn)實世界進行驗證。
衡量任何計算值準確性的唯一方法是將其與物理系統(tǒng)進行比較。例如,許多原子和化學性質(zhì)可以通過模態(tài)仿真(Modsim)程序計算。解決方案的一部分可能是幾何和/或能級,可以通過與現(xiàn)有(或測量)光譜信息進行比較來驗證。現(xiàn)實永遠是最終的檢驗標準。
在上述DFT示例中,結(jié)果的驗證至關(guān)重要。數(shù)據(jù)模型帶來的運行時間縮短無疑將導(dǎo)致基于DFT的方法使用量增加。最近一篇題為《如何通過可復(fù)現(xiàn)和通用工作流驗證密度泛函理論實現(xiàn)的精度》(How to verify the precision of density-functional-theory implementations via reproducible and universal workflows)的論文,由四十五位作者共同撰寫,表明了對模態(tài)仿真(Modsim)和AI增強型HPC方法驗證的重視。
AI用于科學有所不同
關(guān)于AI的一個常見誤解是它將取代現(xiàn)有流程和系統(tǒng)。雖然這個目標在其他領(lǐng)域可能成立,并且歷史上計算機通常也是如此,但HPC數(shù)值模態(tài)仿真(Modsim)方法是正在開發(fā)的新AI數(shù)據(jù)模型不可或缺的一部分。事實上,為了訓練HPC-AI模型,準確的數(shù)據(jù)是必需的。HPC領(lǐng)域比企業(yè)領(lǐng)域具有顯著優(yōu)勢,因為它可以使用既定的數(shù)值建模和仿真(Modsim)方法創(chuàng)建自己的模型數(shù)據(jù)。此外,這些數(shù)據(jù)可以根據(jù)所需的特定模型訓練類型進行微調(diào)。例如,如果需要特定類別的分子,可以生成示例并用于訓練針對此特定情況的模型。
此外,科學以及HPC具有企業(yè)領(lǐng)域所不具備的要求,包括可復(fù)現(xiàn)性、開放性、協(xié)作和文檔(如研究論文所示)。在科學領(lǐng)域,信息的創(chuàng)建和數(shù)據(jù)流非常不同。
需要明確的是,AI增強型HPC所提供的加速不一定是“免費午餐”。訓練模型所需的計算資源可能會抵消數(shù)據(jù)模型的速度增益;然而,這取決于模型的訓練是多么具體或通用。
未來將如何發(fā)展?
傳統(tǒng)模態(tài)仿真(Modsim)結(jié)果與基于數(shù)據(jù)的AI模型之間的協(xié)同性質(zhì),以及必要的大數(shù)據(jù)管理方法,已經(jīng)創(chuàng)造了一個數(shù)據(jù)發(fā)現(xiàn)的良性循環(huán),這將加速科學發(fā)現(xiàn)。如下圖所示,一個循環(huán)可以建立在每一個過去的發(fā)現(xiàn)循環(huán)之上。考慮圖中的每個步驟:
- 科學研究與HPC: 重大挑戰(zhàn)性科學需要HPC能力,并有能力生成大量模態(tài)仿真(Modsim)數(shù)據(jù)。
- 數(shù)據(jù)饋送AI模型: 數(shù)據(jù)管理至關(guān)重要。大量數(shù)據(jù)必須進行管理、清洗、整理、歸檔、溯源和存儲。
- “數(shù)據(jù)”模型改進研究: 借助數(shù)據(jù)洞察,AI模型/LLM/LQM分析模式,從示例中學習,并進行預(yù)測。HPC系統(tǒng)是用于訓練、推理和預(yù)測步驟1的新數(shù)據(jù)所必需的。
- 持續(xù)迭代

AI增強型科學的機會并未被忽視。萬億參數(shù)聯(lián)盟(TPC, Trillion Parameter Consortium)的成立旨在解決AI和科學的獨特需求。正如已經(jīng)概述的那樣,科學發(fā)現(xiàn)的需求與企業(yè)組織的需求截然不同。特別是,對開放數(shù)據(jù)和流程的要求對于科學進步至關(guān)重要。TPC是一個開放社區(qū),基于并向所有有興趣利用AI方法進行HPC和科學的科學家和工程師開放,包括編程、代理系統(tǒng)、AI增強型模型和報告。
----------
參考資料:Eadline, D. (2025, July 10). The unlikely reasonableness of AI-augmented HPC. HPCwire. https://www.hpcwire.com/2025/07/10/the-unlikely-reasonableness-of-ai-augmented-hpc/
本文轉(zhuǎn)載自????????Andy730????????,作者:常華?

















