多模態(tài)模型加速新材料與工業(yè)應用匹配,無需完整晶體結構即可預測材料性質 原創(chuàng)
橘生淮南則為橘,橘生淮北則為枳。同一顆種子落在不同的土壤和氣候中收獲的果實也大相徑庭,這一自然界的成長規(guī)律在材料化學領域同樣凸顯——新材料面向不同的應用場景所激發(fā)的性能也不盡相同。有研究表明,科學家每年都會創(chuàng)建出數(shù)十萬種新材料,它們就像無數(shù)顆潛力巨大的「種子」,需要植根于與之匹配的環(huán)境中才能茁壯成長。
盡管目前的新材料設計往往是針對特定應用而合成的,但是其在不同領域往往也有潛在用途,而如何快速確定新材料的應用場景仍是一項頗具挑戰(zhàn)的任務。以應用廣泛的晶體材料金屬有機框架(MOFs)為例,其最顯著的用途是氫氣、甲烷等氣體的儲存介質,并在膜、薄膜器件、催化和生物醫(yī)學成像等領域展現(xiàn)出優(yōu)異的性能潛質。而確定 MOFs 最優(yōu)應用的傳統(tǒng)途徑均需依賴材料特性作為中介判斷依據(jù),但測試成本高(時間、設備、專業(yè)知識等)。此外,對于計算篩選與機器學習方法而言,則需要基于完整晶體結構來預測特性,但晶體結構解析耗時且在 MOFs 合成后無法即時獲取。
針對于此,加拿大多倫多大學化學工程與應用化學系的研究團隊提出了一種基于多模態(tài)機器學習模型的新方法,利用 MOFs 合成后即可獲得的信息來預測其潛在性能和用途,例如其粉末 X 射線衍射圖譜(PXRD)以及所使用的合成化學物質。研究團隊為模型添加了應用推薦系統(tǒng),能在 MOFs 合成后的第一時間給出應用建議,該研究加速了金屬有機框架(MOFs)的合成與應用場景的連接。
相關研究以「Connecting metal-organic framework synthesis to applications using multimodal machine learning」為題,發(fā)表于 Nature Communications 。
研究亮點:
* 該方法僅使用合成后即可獲得的信息來預測 MOFs 的潛在性質和用途,在 MOFs 合成后的第一時間進行應用推薦,大幅縮短材料從合成到應用的周期;
* 模型預測性能與需要精確晶體結構輸入的先進模型(如 CGCNN 、 MOFormer)相當,且在部分條件下表現(xiàn)更優(yōu),在面對實驗噪聲、晶體結構缺陷等情況下依舊穩(wěn)定可靠,具有良好的魯棒性;
* 該研究結合可視化應用推薦系統(tǒng)構建了一個合成-預測-應用閉環(huán)系統(tǒng);

論文地址:
??https://www.nature.com/articles/s41467-025-60796-0??
關注公眾號,后臺回復「MOFs」獲取完整 PDF
更多 AI 前沿論文: ??https://hyper.ai/papers??
「數(shù)據(jù)即合成現(xiàn)場」:面向應用預測的 MOFs 數(shù)據(jù)構建策略
在本次研究中共使用了 6 個金屬有機框架(MOFs)數(shù)據(jù)庫進行模型訓練與評估:CoRE-2019 、 BW20K 、 ARABG 、 QMOF 、 hMOF 、 CSD 子集。其中:
* hMOF 提供超大規(guī)模的假想結構庫,有助于提高模型泛化能力。
* BW20K 和 ARABG 用于增強多樣性和支持小樣本任務。
* CSD 子集用于測試模型在含有實驗偏差下的魯棒性。
研究團隊利用 CoRE 2019 、 BW20K 、 ARABG 、 QMOF 、 hMOF 數(shù)據(jù)庫中提供的晶體結構,通過 pymatgen 的 XRD 模塊計算生成 0 到 90 度的模擬 PXRD 圖譜,以模擬實際實驗中合成后即能獲得的結構表征信息。化學前驅體信息則由金屬節(jié)點與有機連接體組成,構建格式為:[金屬類型].[有機連接體],以此輸入到模型的 Transformer 通道并進行 分詞處理。
自監(jiān)督預訓練驅動的多模態(tài)學習框架
研究團隊提出了一種自監(jiān)督預訓練驅動的多模態(tài)學習框架,旨在擺脫對完整晶體結構的依賴,僅利用合成后即可獲得的信息來預測 MOF 的性質與應用潛力。
這一自監(jiān)督多模態(tài)模型的工作流程如下圖所示,以前驅體字符串和粉末 X 射線衍射(PXRD)譜作為輸入,分別通過 Transformer 和卷積神經(jīng)網(wǎng)絡(CNN)進行嵌入,并傳遞給回歸頭(regression head)進行微調。其中前驅體提供了有關材料化學性質的信息,而 PXRD 圖譜則補充了有關整體幾何結構的信息。
通過 Transformer 編碼的化學前驅體字符串,以及 CNN 處理的 PXRD 光譜,經(jīng)特征拼接與投影構建成統(tǒng)一的表征空間。為了彌補「前驅體+PXRD」無法直接表征局部化學環(huán)境的不足,研究團隊引入了自監(jiān)督預訓練機制,將模型輸出與晶體圖卷積神經(jīng)網(wǎng)絡(CGCNN)的嵌入進行對齊,并通過 Barlow Twins 損失約束互相關矩陣接近單位矩陣,從而引導模型習得局部化學環(huán)境的表達能力。
在此基礎上,經(jīng)過大規(guī)模無標簽數(shù)據(jù)的自監(jiān)督訓練,模型能夠在有限標注樣本下快速收斂,并實現(xiàn)對孔隙結構、化學依賴特性以及量子化學性質的高精度預測。

自監(jiān)督多模態(tài)模型的工作流程
具體而言,基于從 MOFs 數(shù)據(jù)庫中獲取的晶體結構,即使在數(shù)據(jù)量較小的情況下,該方法也能準確預測各種特性,包括孔隙結構、化學依賴特性和量子化學特性。
在自監(jiān)督與訓練的環(huán)節(jié)通過構建自監(jiān)督學習(SSL)管道,在晶體圖卷積神經(jīng)網(wǎng)絡(CGCNN)和模型之間進行表征學習,避免模型無法從輸入中理解 MOF 局部環(huán)境的局限性。模型的權重得以初始化,使其能夠快速收斂到解決方案。針對 CGCNN 嵌入進行自監(jiān)督學習,從 CGCNN 和模型的投影器中提取每個大小為 512 的嵌入,構建一個形狀為(512,512)的互相關矩陣,使用巴洛雙胞胎損失函數(shù)(Barlow-Twin loss)來最小化差異,使互相關矩陣接近單位矩陣,從而實現(xiàn)表征學習。
多模態(tài)模型的各項評估
為了證明模型可以有效預測各種 MOFs 特性,為 MOFs 合成與應用相結合奠定基礎,研究團隊對模型的準確性進行了評估,用斯皮爾曼等級相關系數(shù)(SRCC)和平均絕對誤差(MAE),評估模型在幾何依賴性能、化學依賴性能和量子化學性能上的預測精度,并與 CGCNN 、 MOFormer 和基于描述符的機器學習模型進行基準對比。
結果顯示,該模型的模型精度與依賴完整晶體結構的模型相當,甚至在幾何性能上優(yōu)于 CGCNN 和 MOFormer,從而驗證了僅用合成信息即可實現(xiàn)高準確率的性質預測,為 MOFs 合成到應用的快速匹配奠定實驗基礎。

模型在各種屬性預測任務中的表現(xiàn)
除此之外團隊進行了消融實驗,將僅依賴化學前驅體的模型以及僅依賴 PXRD 的模型,與本研究的多模態(tài)模型進行比較。結果表明,僅接受化學前體作為輸入的模型無法有效捕捉 MOF 的整體結構,在幾何相關和純幾何性質方面得分較低;而僅接受 PXRD 的模型雖能很好地捕捉 MOF 的整體結構,但無法反映局部環(huán)境,在化學相關和量子化學性質(如低壓下的 CO? 吸附和帶隙)方面得分較低,二者均存在一定的短板。結果表明只有將 PXRD(提供幾何信息)與前體字符串(提供化學信息)結合,多模態(tài)模型才能在三類性質預測中全面準確,單獨使用任一模態(tài)則表現(xiàn)明顯不足。
模型穩(wěn)定性驗證:應對結構誤差與實驗噪聲的魯棒性評估
穩(wěn)定性是評估機器學習模型能否在實際場景中可靠應用的重要指標。為此,研究團隊系統(tǒng)性地評估了所提出的多模態(tài)模型在非理想條件下的魯棒性。首先,研究人員利用從劍橋結構數(shù)據(jù)庫(CSD)提取的實驗晶體結構,計算出相應的 PXRD 圖譜,用以模擬真實實驗中常見的結構偏差,例如缺失氫原子、存在結合或未結合的溶劑等,將評估聚焦于一個幾何相關屬性:用于甲烷儲存應用的高壓下甲烷吸附能力預測。
結果表明,模型在上述變異條件下依然能夠保持良好的預測能力,對 CH? 高壓吸附性能的排序具有較強的一致性,相對誤差控制在 13% 以下,展現(xiàn)出較高的魯棒性。
在此基礎上,團隊進一步引入實際測量的 PXRD 圖譜進行測試,驗證模型在面對儀器噪聲、溫度波動等實際測量誤差時的穩(wěn)定性。盡管部分樣本中模擬與實驗圖譜存在顯著差異,模型在大多數(shù)情況下依然給出了與模擬圖譜相近的推薦結果,僅在噪聲顯著或峰位錯位明顯的個別案例中出現(xiàn)差異。結合以上實驗表明,該多模態(tài)模型不僅在理想結構輸入條件下具有高度預測準確性,而且在實驗結構不完善或 PXRD 存在噪聲的情況下,仍保持穩(wěn)健性能,驗證了其在實際材料研究和應用中的廣泛適用性。
下圖展示了模型推薦結果,比較了模擬 PXRD 圖譜和實驗 PXRD 圖譜的差異:

模擬 PXRD 圖譜和實驗 PXRD 圖譜比較
合成-應用一體化推薦系統(tǒng)
基于模型的出色表現(xiàn),研究人員構建了一個可視化的潛在應用推薦系統(tǒng),能夠根據(jù)預測的材料性能將新合成的 MOFs 與潛在應用(如氣體儲存、碳捕獲等)進行匹配。其使用 t-SNE 技術獲取模態(tài)模型潛在空間的投影,用顏色表示金屬有機骨架 (MOFs) 的推薦應用。下圖展示了將合成信息映射至應用場景:

為了驗證模型對未來材料應用的預測能力,研究者們進行了一項時間回溯實驗(time-travel experiment)。使用 2017 年之前存儲在 CSD 數(shù)據(jù)庫中的 CoRE-2019 條目訓練模型,并使用 2017 年之后存儲的條目作為測試集,以此模擬對未來材料的預測。實驗的目標是預測這些 MOFs 在二氧化碳吸附這一特定應用中的表現(xiàn),結果顯示,模型成功地識別出了 18 種有潛力用于碳捕獲的 MOF,這 18 種 MOF 中,有 15 種原本是為其他應用而設計的。

其中一些 MOFs 及其基于相應的預期合成應用
機器學習助力材料科學領域革命
本文介紹了一種無需晶體結構即可準確預測 MOFs 多種性質并匹配應用的多模態(tài)機器學習方法,而這種由數(shù)據(jù)驅動的浪潮,正在不同時空朝著更廣泛的材料體系蔓延。例如,北京科技大學謝建新&宿彥京團隊針對可解釋機器學習在材料科學中的應用進行了探討。指出了通過將材料知識與機器學習相結合,可以顯著提高模型的泛化能力和預測精度,為材料科學領域的發(fā)展打開新視角。相關研究以「Interpretable Machine Learning Applications: A Promising Prospect of AI for Materials」為題,發(fā)表于 Advanced Functional Materials 。
論文地址:
??https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202507734??
來自美國阿貢國家實驗室的研究團隊,提出了一種生成式 AI 框架 GHP-MOFsassemble,該框架能夠隨機生成并組裝新的 MOFs 結構,通過分子動力學模擬篩選高穩(wěn)定性的 MOFs 結構,并用晶體圖神經(jīng)網(wǎng)絡 (Crystal Graph Convolutional Neural Network, CGCNN) 和 Grand Canonical Monte Carlo simulations 來測試 MOFs 對二氧化碳的吸附能力。相關研究以「A generative artificial intelligence framework based on a molecular diffusion model for the design of metal-organic frameworks for carbon capture」為題,發(fā)表于 Communications Chemistry 。
論文地址:
??https://www.nature.com/articles/s42004-023-01090-2??
來自牛津大學的課題組曾發(fā)表題目為「The amorphous state as a frontier in computational materials design」的研究,強調了機器學習在打破材料設計傳統(tǒng)限制中的關鍵作用。展示了計算建模和人工智能的最新進展如何彌補非晶態(tài)固體原子尺度結構、微觀性質和宏觀功能之間此前缺失的聯(lián)系。
論文地址:
??https://www.nature.com/articles/s41578-024-00754-2??
這一系列研究共同勾勒出一幅清晰的圖景:材料科學正在進入智能化新時代,我們正處在一場由機器學習引領的材料研究轉型之中,更重要的是,智能已經(jīng)從新材料設計、合成,逐步蔓延至應用場景環(huán)節(jié),勢必將進一步推動新材料落地。
參考資料:
1.??https://pubs.acs.org/doi/10.1021/cr300014x??
一鍵獲取 2023—2024 年 AI4S 領域高質量論文及深度解讀文章 ??


















