MolGen: 化學反饋引導的預訓練分子生成
引言
藥物發(fā)現(xiàn)的核心環(huán)節(jié)之一是合成和設計具有理想化學特性的分子。隨著語言模型展現(xiàn)出在解析復雜分子分布方面的潛力,研究人員開始嘗試將分子的SMILES描述符與預訓練語言模型相結(jié)合。然而,SMILES描述符的語法特質(zhì)并不總能保障所生成化學結(jié)構的有效性,經(jīng)常導致生成化學上無意義的字符串。除此之外,雖然分子語言模型在預訓練過程中學習了大量的分子結(jié)構信息,它們?nèi)噪y以準確捕捉到現(xiàn)實世界中化學與生物特性的復雜關系。這使得它們常常陷入“分子幻覺”,生成在結(jié)構上看似正確,但缺乏理想化學屬性的分子。為了應對上述挑戰(zhàn),本文提出了新的分子生成框架MolGen。MolGen通過雙階段預訓練深入學習分子的結(jié)構與語法特征,并采用化學反饋機制優(yōu)化分子生成過程,使其產(chǎn)生的分子既化學有效又具備預期屬性。

MolGen的訓練框架
MolGen的預訓練包含兩個關鍵階段:
- 首先,基于Seq2seq的模型架構,MolGen在超過一億的分子序列上執(zhí)行掩碼操作,通過重構原始序列深度挖掘分子的結(jié)構本質(zhì),同時采用SELFIES作為分子描述符,確保生成的分子序列的100%有效性。
- 其次,引入一種通用的分子前綴策略,提升模型跨不同領域的適用性和靈活性。
在預訓練階段之后,盡管模型已經(jīng)掌握了分子的基本語法規(guī)則,但它還需要學習如何根據(jù)實際化學需求優(yōu)化分子結(jié)構。因此,MolGen引入了一種化學反饋機制,引導模型優(yōu)先考慮那些更優(yōu)候選分子,進而學習評估并糾正自己的生成過程,以實現(xiàn)與優(yōu)化目標的一致性。這種方法確保了MolGen不僅能生成化學上有效的分子,而且這些分子具備所需的預期特性,適應實際的應用場景。

實驗分析
本文通過一系列實驗分析驗證了MolGen模型的有效性和實用性。實驗結(jié)果表明,MolGen能夠生成反映現(xiàn)實世界分子分布的多樣化且真實的分子,適用于構建虛擬分子庫。

通過優(yōu)化實驗,MolGen證明了其能夠有效地生成與特定目標蛋白質(zhì)高度親和的分子。結(jié)合親和力量化了分子與目標蛋白質(zhì)之間的相互作用力。如圖(a)所示,MolGen專門針對初始結(jié)合親和力較低的1000個分子進行優(yōu)化,成功提升了這些分子的親和力。其中親和力通過解離常數(shù)(K_D)來體現(xiàn),K_D值越低表示親和力越強。圖(b)則進一步展示了在兩種不同目標蛋白質(zhì)上,通過MolGen優(yōu)化后分子結(jié)合親和力的顯著提高,從而突顯了MolGen在藥物設計和分子優(yōu)化領域的應用潛力。

此外,MolGen也能夠優(yōu)化相對簡單的化學性質(zhì),如p-logP和QED值。在天然產(chǎn)物與合成分子兩種設定下,不同配置的模型生成的分子化學性質(zhì)發(fā)生了明顯的變化。在未應用化學反饋機制的情況下,預訓練模型傾向于生成與輸入分子化學性質(zhì)相似的分子。然而,當引入化學反饋后,化學性質(zhì)得分顯著提升,這表明通過化學反饋機制,模型能夠?qū)⑵渖蛇^程與化學上的實際偏好相對齊,從而有效地評估并調(diào)整其生成的分子,確保這些分子具備應用中所需的化學特性。

本文將MolGen得到的分子表示空間與基于深度圖生成的模型、基于變分自編碼器的模型以及基于SMILES的語言模型進行比較。總體而言,預訓練語言模型,尤其是MolGen,在維持生成分子多樣性的同時,成功捕獲了訓練集中分子的化學特性和結(jié)構特征,展現(xiàn)了其在精確模擬分子化學空間方面的優(yōu)勢。

進一步地,本文還探討了使用不同分子語言(SMILES和SELFIES)進行預訓練的模型在感知分子結(jié)構方面的能力。下圖可視化了模型最后一個自注意力層的注意力權重。基于SMILES的預訓練模型可能會將注意力分配給缺乏內(nèi)在化學意義的符號或數(shù)字,相比之下,MolGen在識別和理解具有化學意義的子結(jié)構方面表現(xiàn)出更高的有效性。

總結(jié)
本文介紹了一種新的分子生成框架MolGen。實驗分析表明,MolGen能夠有效生成符合化學偏好的分子,規(guī)避了“分子幻覺”問題。未來的研究方向包括將MolGen應用于逆合成、化學反應預測等生成任務,探索多模態(tài)預訓練技術,或融合更廣泛的知識資源。此外,為了進一步滿足從頭分子設計的需求,作者推出了最新的MolGen-7B版本。該版本基于LLaMA架構,無需依賴現(xiàn)有分子結(jié)構即可設計出多樣化的新分子,開拓了更為廣闊的化學探索空間。
本文轉(zhuǎn)載自:??ZJUKG??
作者:方尹

















