重大技術突破!微軟發布BioEmu模型,蛋白質模擬從數年壓縮至幾小時
今天凌晨,微軟首席執行官SatyaNadella分享了,微軟最新突破性成果蛋白質模擬模型BioEmu。
BioEmu可以將蛋白質動態模擬從數年壓縮至幾小時,極大加速了醫藥、生物研究的效率,為個性化醫療帶來革命性產品。
目前,微軟這項重要研究已經在全球頂刊《自然》上發表。

有網友表示,祝賀你們在AI領域取得了突破性技術成就。希望在不久的將來,在你充滿活力的領導下,能看到更多這樣的成果。

這是一個重大技術突破。但許多關鍵的蛋白質功能依賴于非平衡動力學和構象轉變。對于人工智能而言,捕捉這些過程仍是一項艱巨的挑戰。

BioEmu能在數小時而非數年內快速追蹤蛋白質運動分析,這必將給生物學和藥物研發領域帶來革命性變革。讓我們來看看它對現實世界的應用案例產生了怎樣的影響。

BioEmu的發布標志著生物學研究領域的一次變革性飛躍,有望通過以前所未有的速度和精度解析蛋白質動態來重新定義藥物研發,這會給醫療健康領域帶來革命性變化。

這是一項令人難以置信的突破!將原本需要數年時間的工作縮短至數小時,這確實可能改變藥物研發和生物技術領域的格局。這是科學和醫療健康領域的一大步!

BioEmu簡單介紹
傳統的蛋白質結構解析方法如X射線晶體學和核磁共振技術雖然能夠提供高精度的結構信息,但這些方法往往耗時長、成本高,并且對于一些難以結晶或復雜的蛋白質系統效果不佳。
雖然谷歌DeepMind發布的AlphaFold2模型在單個蛋白質結構預測方面取得了巨大成功,但在模擬蛋白質動態平衡構象集合方面仍存在不足。而微軟的BioEmu可有效解決這些難題。
BioEmu的核心設計是將蛋白質的序列信息轉化為其三維結構的多種可能構象。首先,BioEmu采用了蛋白質序列編碼器,這一部分是基于預訓練的AlphaFold2模型構建的。AlphaFold2是一個在蛋白質結構預測領域取得重大突破的模型,它通過多序列比對和注意力機制,能夠生成高質量的蛋白質序列嵌入。
這些嵌入包含了豐富的進化信息和結構特征,為后續的構象生成提供了堅實的基礎。在BioEmu中,序列編碼器的作用是將輸入的蛋白質序列轉化為單個氨基酸和氨基酸對的表示,這些表示將作為后續模塊的輸入,用于指導蛋白質構象的生成。
接下來是粗粒化蛋白質結構表示模塊。為了高效地處理蛋白質的三維結構,BioEmu采用了粗粒化的方法,僅保留蛋白質主鏈的重原子,即Cα、C、N和O。這種簡化不僅減少了計算復雜度,還保留了蛋白質結構的關鍵信息。

模型通過Gram-Schmidt正交化方法,將每個殘基的Cα原子坐標轉換為局部坐標系,從而生成蛋白質的主鏈框架表示。這種表示方式使得模型能夠更高效地處理復雜的蛋白質結構,同時保持了對蛋白質動態行為的捕捉能力。
然后是擴散條件生成模型,這是BioEmu的核心部分。擴散模型從一個簡單的噪聲分布開始,逐步去除噪聲,最終生成與目標分布接近的蛋白質構象。這一過程通過分數匹配技術實現,即學習數據的概率分布的梯度,從而指導去噪過程。擴散模型的一個重要特點是它能夠生成多樣化的構象,這對于捕捉蛋白質的動態行為至關重要。
最后是得分模型,它在BioEmu的架構里扮演著關鍵角色,主要接收蛋白質序列的單體和對表示、損壞的幀、相對序列位置以及擴散時間步等多方面信息,并據此預測得分。
其結構類似于AlphaFold2和Distributional Graphormer模型的結構模塊。值得一提的是,得分模型所生成的平移和旋轉得分是在每個殘基的局部坐標系中進行定義的,這使得其對整個結構的旋轉或平移保持不變。
如此一來,在去噪過程中,骨架原子位置的更新對于整個結構的旋轉和平移具備等變性,有力地保障了模型預測的準確性和穩定性。
訓練方法
在訓練方法上,BioEmu整合了多種異構數據源,其中包括超過200毫秒的分子動力學模擬數據以及實驗測量的蛋白質穩定性數據等。在數據處理時,針對不同來源的數據進行了細致的篩選和聚類操作。
以對AFDB數據處理為例,先是使用mmseqs對所有序列在80%序列一致性和70%覆蓋率的條件下進行聚類,得到超過9300萬個聚類;接著以30%序列一致性對這些聚類的中心點再次聚類,僅保留包含每個30%序列一致性聚類中心點的80%序列一致性聚類;
然后剔除成員少于10個的序列聚類,剩余約140萬個序列聚類;之后在每個序列聚類內進行基于結構的聚類,僅保留每個結構聚類的代表成員,同時剔除只有一個結構代表或所有結構代表都是無序結構的序列聚類。
對于分子動力學數據,研究團隊廣泛收集了公開可用的和內部生成的MD軌跡,模擬時間總計超過200毫秒,涉及24,219條獨立鏈。

此外,BioEmu采用了多階段訓練策略以增強模型的穩定性。在預訓練階段,借助處理后的AFDB數據,通過隨機選擇序列聚類內的結構,促使模型學習蛋白質構象的多樣性;
在微調階段,基于預訓練模型,運用95%的MD模擬數據和蛋白質折疊自由能測量數據,并混合5%的AFDB結構來進行微調。為有效解決MD數據中的采樣問題,研究團隊運用馬爾可夫狀態模型、實驗數據進行重新加權,以此更好地呈現平衡態分布。
為了高效利用實驗測量的蛋白質穩定性數據,BioEmu還開發了一種名為屬性預測微調的新穎方法,該方法通過使用差分可訓練的目標函數、交叉目標匹配損失項、與常規得分匹配聯合訓練、梯度累積、使用高階采樣器減少積分時間步、外推以及部分反向傳播等一系列技術手段,成功減輕了因過度優化屬性預測損失函數而導致的模式崩潰問題,同時大幅降低了計算成本,使得直接反向傳播切實可行。


































