MIT研究人員將Transformer與圖神經網絡結合,用于設計全新蛋白質
憑借其復雜的排列和動態功能,蛋白質通過采用簡單構建塊的獨特排列(其中幾何形狀是關鍵)來執行大量的生物任務。將這個幾乎無限的排列庫轉化為各自的功能,可以方便研究人員設計用于特定用途的定制蛋白質。
麻省理工學院(MIT)的 Markus Buehler 提出了一種靈活的基于語言模型的深度學習策略,將 Transformer 與圖神經網絡結合起來,以更好地理解和設計蛋白質。
「通過這種新方法,我們可以通過對基本原理進行建模,利用大自然發明的一切作為知識基礎。」Buehler 說,「該模型重新組合了這些自然構建塊,以實現新功能并解決這些類型的任務?!?/span>
該模型用于預測二級結構含量(每個殘基水平和總體含量)、蛋白質溶解度和測序任務。在逆向任務上進一步訓練,該模型能夠設計具有這些特性作為目標特征的蛋白質。模型被制定為一個通用框架,完全基于提示,并且可以適應各種下游任務。
該研究以「Generative pretrained autoregressive transformer graph neural network applied to the analysis and discovery of novel proteins 」為題,于 2023 年 8 月 29 日發布在《Journal of Applied Physics》。

多尺度建模為分層生物材料的分析和設計提供了強大的基礎。特別關注構成眾多生物和生物衍生材料基礎的蛋白質材料。在該分析領域,使用機器學習和相關方法的數據驅動建模已成為一種強大的策略,其中包括分析任務(例如從序列預測屬性)和逆向設計任務(設計蛋白質或其他生物材料以滿足一組目標特性)。
具體來說,生成生物材料科學是材料發現的新興前沿,已應用于蛋白質、有機分子、無機物(包括藥物設計)、生物活性材料和建筑材料等;最近,由于語言模型的使用,促進了生物蛋白質材料多尺度建模的發展。

圖示:開發了一種深度語言模型,可以解決正向和逆向蛋白質建模問題。(來源:論文)
麻省理工學院的研究人員開發了一種靈活的基于語言模型的深度學習策略,應用于解決蛋白質建模中的復雜正向和逆向問題;基于注意力神經網絡,將 Transformer 和圖卷積架構集成到因果多頭圖機制中,從而實現生成預訓練模型 MaterioFormer。該模型能夠在端到端序列到特性預測的范圍內分析蛋白質序列,并生成分子蛋白質結構以滿足各種目標特性,所有這些都在一個模型中完成。
該團隊證明,生成語言方法為蛋白質材料的發現和設計提供了一個靈活的平臺。研究人員可以輕松地將這些模型整合到廣泛的應用程序中并解決多個復雜的任務。

圖示:MaterioFormer 模型概述,這是一種基于文本提示輸入構建的自回歸變換圖卷積模型,適用于各種任務。(來源:論文)
雖然該模型總體上很好地解決了多個任務,但使用一次專注于一項任務的專用模型仍然有一定的優勢(例如,序列到屬性的預測或使用擴散模型的生成任務)。例如,在創建滿足特定每個殘基二級結構的蛋白質序列的設計任務中,MaterioFormer 有時無法準確反映預測中所需的長度。當從輸入蛋白質序列進行二級結構預測時,會看到類似的情況。
相比之下,僅針對一項生成任務訓練的擴散模型在序列長度方面可以更準確地解決該問題。值得關注的是,已有的從整體二級結構內容生成序列的模型,很難識別新的蛋白質設計,而 MaterioFormer 可以非常好地解決這項任務,具有非常高程度的新穎蛋白質序列設計。
MaterioFormer 模型的一個吸引人的方面是靈活的迭代工作流程,可以集成人類智能和人工智能。人們可以輸入提示,設計蛋白質,并檢查它是否適合設計標準(如果不適合,則重新采樣或調整設計參數),然后在輔助任務中使用輸出。這種迭代過程還可以輕松地與自主實驗相結合,為數據生成、收集和進一步訓練模型提供額外的來源。

圖示:根據給定的二級結構內容比例生成新蛋白質的示例。(來源:論文)
從更理論的角度來看,這里解決的問題是一個復雜的積木組裝問題——積木不僅是氨基酸殘基、二級結構,而且是組合這些眾多組合空間的數字和各種任務。值得注意的是,這里使用的策略學習了基礎和可轉移的見解。這產生了大量的條件蛋白質設計以及正向和反向任務解決方案。通過更多的數據,預計可以捕獲高度復雜的現象。
雖然二級結構預測通常很好,尤其是總體二級結構比率,但與專用溶解度模型相比,溶解度預測的準確性仍然相對較低。然而,對于 <64 個殘基的短序列,準確率達到 0.77。這項任務僅在一小部分~4,000個序列溶解度對(蛋白質長度<128)上進行訓練(相對于整個序列數據集中的 40?000 個序列,所有長度高達~1700)。通過更深的模型和更多的預訓練,對于長達 512 個氨基酸的序列,溶解度準確度高達 78%,顯示出這里開發的方法在擴展可用性、準確性和通用性方面的巨大潛力。未來的工作可以擴展模型的訓練任務,從而考慮更長序列的任務和預測。
這里使用的訓練策略由基于文本的提示組成,非常靈活,可以輕松適應各種任務。此外,由于該團隊訓練和預測編碼為文本的數字,因此研究人員不必專門對數值進行專門編碼。這對于任務和預測開發都有幫助,并且可以允許在架構中封裝高維數據。還有機會引入交叉注意力機制,從而對注意力層和圖層中處理的信息進行更復雜的合并。
未來的探索可以在正向和反向方向上納入額外的預測任務,并擴展訓練集以納入更多序列(例如,在預訓練階段)。探索與不同生物分子(例如 mRNA 或 DNA)的相互作用也很有趣,由于靈活的字節級分詞器,這些分子可以添加到任務訓練中。
此類訓練任務還可能具有多尺度問題,例如不僅編碼構成蛋白質或生物分子,還編碼其他特征,例如相對濃度、pH 或鹽濃度等。這最終可能用于構建多模態多尺度模型,該模型可以將從不同的模擬和實驗范式中開發的知識融入到從預訓練到任務的所有訓練階段。
該研究中使用的多尺度方案捕獲了物質的基本構建塊與所得屬性之間的復雜新關系。因此,它提供了一種協同學習能力,可以表達嵌入基礎知識中的一組潛力,用于訓練利用未知或鮮為人知的交叉關系的模型。從機制上講,使用一組以復雜分層模式排列的通用構建塊來創建緊急功能的方法的基本設計促進了這一點。
「一個很大的驚喜是,盡管該模型是為了能夠解決多個任務而開發的,但它的表現卻異常出色。這可能是因為該模型通過考慮不同的任務學到了更多東西?!顾f,「這一變化意味著,研究人員現在可以廣泛地思考多任務和多模式模型,而不是為特定任務創建專門的模型?!?/span>
「雖然我們目前的重點是蛋白質,但這種方法在材料科學中具有巨大的潛力?!笲uehler 說,「我們特別熱衷于探索材料失效行為,旨在設計具有特定失效模式的材料。」
論文鏈接:https://pubs.aip.org/aip/jap/article/134/8/084902/2908328/Generative-pretrained-autoregressive-transformer



































