AlphaFold 2再發(fā)蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果,解鎖98.5%人類蛋白質(zhì)組
上周在科學(xué)界發(fā)生了十分有戲劇性的一幕:兩大科學(xué)頂刊Science和nature同時發(fā)文,兩支研究團(tuán)隊都表示可以通過AI模型預(yù)測蛋白質(zhì)和一些分子復(fù)合物的精確3D原子結(jié)構(gòu)。
來自華盛頓大學(xué)的科研團(tuán)隊在Science上公布了RoseTTAFold,宣稱這個模型的性能與AlphaFold 2相當(dāng)。
并且其端到端版本在RTX2080上生成少于400個殘基的蛋白質(zhì)的骨干坐標(biāo)僅需10分鐘。

RoseTTAFold蛋白質(zhì)預(yù)測工具的論文
這顯然讓谷歌DeepMind團(tuán)隊有些措手不及,匆匆忙忙選擇在nature上開源了AlphaFold 2的技術(shù)細(xì)節(jié)。
不過今天故事似乎要反轉(zhuǎn):DeepMind團(tuán)隊在nature上再接再厲,公布了他們已經(jīng)使用AlphaFold工具預(yù)測的來自人類和20種其他生物共350000種蛋白質(zhì)的結(jié)構(gòu),例如大腸桿菌、酵母菌和果蠅等等。

論文鏈接:https://www.nature.com/articles/s41586-021-03828-1
目前他們已經(jīng)復(fù)現(xiàn)了44%的人類蛋白質(zhì)結(jié)構(gòu),覆蓋了人類基因組編碼的所有氨基酸結(jié)構(gòu)位置的近60%。
不僅如此,這個團(tuán)隊將在未來的幾個月里,通過計算預(yù)測目前UniRef目錄中所有科學(xué)界已知的,經(jīng)過測序的1億個蛋白質(zhì)分子結(jié)構(gòu)。
而AlphaFold與EMBL-EBI(歐洲分子生物學(xué)實驗室)合作推出了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(鏈接:
https://alphafold.ebi.ac.uk/),科研人員只要輸入蛋白質(zhì)名稱或編號,就可以迅速獲得蛋白質(zhì)的3D結(jié)構(gòu)圖像。
模型好不好,還得看療效。看來AlphaFold這一次靠「鈔能力」贏了。
AlphaFold新進(jìn)展
昨日,DeepMind在nature上刊登的文章,描述了AlphaFold對人類蛋白質(zhì)組的結(jié)構(gòu)預(yù)測,覆蓋了98.5%的所有人類蛋白質(zhì)組,還對20種其它生物蛋白質(zhì)的結(jié)構(gòu)進(jìn)行了預(yù)測。
這20種其它生物包括大腸桿菌、酵母菌、果蠅等,它們都是生物研究的重點。
果蠅蛋白質(zhì)3D結(jié)構(gòu)示意圖
在論文中,作者表示,AlphaFold能夠?qū)θ祟惖鞍踪|(zhì)組35.7%氨基酸結(jié)構(gòu)位置進(jìn)行預(yù)測,且有很高的置信度,是實驗方法覆蓋的結(jié)構(gòu)數(shù)量的兩倍。
在單個蛋白質(zhì)水平上,AlphaFold能夠?qū)?3.8%的蛋白中,至少四分之三的氨基酸序列給出了可信預(yù)測。

在單個蛋白質(zhì)的介紹中,數(shù)據(jù)庫列出了蛋白質(zhì)的基本信息,包括蛋白質(zhì)名稱、基因、來源生物、生物功能等。

以T細(xì)胞免疫調(diào)節(jié)蛋白同源物為例,這個蛋白質(zhì)可以通過免疫調(diào)節(jié)保護(hù)寄生蟲免受宿主免疫系統(tǒng)的攻擊。
惡性瘧原蟲T細(xì)胞免疫調(diào)節(jié)蛋白同源物結(jié)構(gòu)圖
如上圖所示,DeepMind在數(shù)據(jù)庫公布的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型中,不同的顏色表示不同的預(yù)測可信度。
殘基置信度分?jǐn)?shù)(pLDDT)范圍在0-100,數(shù)值大于90指信度非常高,表示為藍(lán)色;數(shù)值為70-90表示為淺藍(lán)色;數(shù)值為50-70表示為黃色;橙色部分表示信度非常低,數(shù)值小于50,有可能是孤立的非結(jié)構(gòu)化區(qū)域。

除了公布蛋白質(zhì)基本信息及模型結(jié)構(gòu)外,網(wǎng)站還公布了蛋白質(zhì)結(jié)構(gòu)的預(yù)測對齊誤差,后續(xù)還會推出蛋白質(zhì)序列特征功能。

蛋白質(zhì)結(jié)構(gòu)模型的預(yù)測對齊誤差
AlphaFold 2預(yù)測出了約20000種人類基因組蛋白質(zhì),加上20種其它生物的蛋白質(zhì)組的結(jié)構(gòu)預(yù)測,總計公布了超過350000種蛋白質(zhì)結(jié)構(gòu)預(yù)測模型。
「AlphaFold確定了覆蓋幾乎整個人類蛋白質(zhì)組(98.5%的所有人類蛋白,即Uniprot里所有2700aa以下的蛋白)的蛋白質(zhì)的結(jié)構(gòu)。」
DeepMind表示,接下來的幾個月將計劃擴大蛋白質(zhì)模型列表,以涵蓋所有編目的蛋白質(zhì),共計大約1億個分子。
AlphaFold為近44%的人類蛋白質(zhì)預(yù)測了結(jié)構(gòu),涵蓋了人類基因組中60%的氨基酸結(jié)構(gòu)位置預(yù)測。
AlphaFold確定了許多其他人類蛋白質(zhì)是「無序的」,也就是說,蛋白質(zhì)的形狀不采用單一結(jié)構(gòu)。
當(dāng)這種無序的蛋白質(zhì)與另一蛋白質(zhì)結(jié)合時,最終可能會確定出一種結(jié)構(gòu)。
當(dāng)然,這些蛋白質(zhì)也可能會有多種結(jié)構(gòu)。

蛋白質(zhì)結(jié)構(gòu)預(yù)測:50年的難題
蛋白質(zhì)的 3D 結(jié)構(gòu)在很大程度上決定了它的功能,通過研究蛋白質(zhì)的3D結(jié)構(gòu),生物學(xué)家不僅可以更加快速地研發(fā)出針對各類疾病的藥物,甚至能夠揭開生命之謎。
弄清楚蛋白質(zhì)折疊成什么形狀被稱為“蛋白質(zhì)折疊問題”,在過去的50年里一直是生物學(xué)的一個巨大挑戰(zhàn)。
通過結(jié)構(gòu)測定是一個有效但非常費力的方法,它比基因組測定難度大得多。
按照傳統(tǒng)的實驗步驟,從基因序列到相應(yīng)的蛋白質(zhì)結(jié)構(gòu)測定之間還要經(jīng)過基因表達(dá)、蛋白質(zhì)的提取和純化、結(jié)晶、X射線衍射分析等步驟。由于蛋白質(zhì)結(jié)構(gòu)和性質(zhì)的多樣性,這些步驟大多沒有固定的規(guī)律可循。
并且試驗需要反復(fù)進(jìn)行多次,每個結(jié)構(gòu)的測定可能都需要數(shù)年的工作,并且動用價值數(shù)百萬元的設(shè)備。
在1972年諾貝爾化學(xué)獎的獲獎感言中,克里斯蒂安·安芬森( Christian Anfinsen ) 提出了一個著名假設(shè):理論上,蛋白質(zhì)的氨基酸序列應(yīng)該完全決定其結(jié)構(gòu)。

但是從理論上分析,蛋白質(zhì)在形成之前,可以折疊出天文數(shù)字的3D結(jié)構(gòu)。

1969年,賽勒斯·萊文塔爾 (Cyrus Levinthal) 指出,通過蠻力計算列舉出典型蛋白質(zhì)的所有可能構(gòu)型所需的時間比已知宇宙的年齡還要長。
他預(yù)測,一個典型的蛋白質(zhì)可能有10的300次方種折疊形式。
如今DeepMind的團(tuán)隊用AI解開了這道世紀(jì)難題。
經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)可以根據(jù)蛋白質(zhì)的基因序列預(yù)測蛋白質(zhì)的特性。主要判斷依據(jù)是氨基酸對之間的距離和連接這些氨基酸的化學(xué)鍵之間的角度。
通過已知信息,可以推斷出蛋白質(zhì)折疊之后的角度和距離信息,從而推斷出整個蛋白質(zhì)的結(jié)構(gòu)。

AlphaFold數(shù)據(jù)庫的建立,把生物科學(xué)家們從研究蛋白質(zhì)時最費時費力的結(jié)構(gòu)測定工作中解脫了出來,從而可以專心轉(zhuǎn)向研究的核心部分。
「我們原來花費數(shù)個月甚至數(shù)年時間才完成的事情,AlphaFold在一個周末就能完成」,樸茨茅斯大學(xué)結(jié)構(gòu)生物學(xué)教授兼酶創(chuàng)新中心 (CEI) 中心主任感慨道。
在AlphaFold的幫助下,樸茨茅斯大學(xué)酶創(chuàng)新中心正在設(shè)計一種酶,來加速降解一次性塑料。
科羅拉多大學(xué)博爾德分校的一個團(tuán)隊在使用AlphaFold來預(yù)測研究抗生素耐藥性的前景。
更多的可能性還在不斷被發(fā)掘。
業(yè)內(nèi)不只有AlphaFold
除了AlphaFold和RoseTTAFold兩大工具以外,商業(yè)上也有與蛋白質(zhì)預(yù)測相關(guān)的消息。
成立于2011年,專注于在大腸桿菌中制造蛋白質(zhì)的公司Absci在周四上市。
今年1月,Absci收購了Denovium,一家使用深度學(xué)習(xí)人工智能對蛋白質(zhì)進(jìn)行分類和預(yù)測的公司,目前已經(jīng)接受了1億種蛋白質(zhì)的訓(xùn)練。
Absci在6月還收購了Totient,一家分析免疫系統(tǒng)對某些疾病的反應(yīng)的生物技術(shù)公司。
這樣一來,Absci就具備了蛋白質(zhì)制造、評估和篩選能力,完善了從蛋白質(zhì)制造和測試到人工智能支持的藥物開發(fā)。
隨著人工智能的不斷發(fā)展,人工智能有可能徹底改變21世紀(jì)的科學(xué)工作方式。
人工智能對蛋白質(zhì)大規(guī)模的準(zhǔn)確結(jié)構(gòu)預(yù)測,將成為推動生物醫(yī)學(xué)界發(fā)展的重要工具,從蛋白質(zhì)的結(jié)構(gòu)解決新的科學(xué)問題。
熱切期待AlphaFold繼續(xù)幫助科學(xué)界解鎖下一步的發(fā)現(xiàn)。


































