AI在遠(yuǎn)古細(xì)菌中發(fā)現(xiàn)殺滅“超級(jí)細(xì)菌”的新抗生素 | 了解LLM就能看懂
大家可能聽(tīng)說(shuō)過(guò)(希望沒(méi)有感受過(guò))“超級(jí)細(xì)菌”感染的可怕。幾年前,我的一個(gè)同事講述其父親在一個(gè)有淤泥的池塘里不小心劃傷了腿,最終演變成了對(duì)多種抗生素都耐藥的“超級(jí)細(xì)菌”感染。老人因此被送進(jìn)ICU,與死神搏斗了數(shù)周,經(jīng)歷了巨大的煎熬,最終吉人天相。但那段經(jīng)歷的兇險(xiǎn),應(yīng)該會(huì)讓身邊的人至今心有余悸。
這個(gè)故事,正是我們這個(gè)時(shí)代正面臨的一場(chǎng)危機(jī)的縮影:抗生素耐藥性。曾被視為醫(yī)學(xué)奇跡的抗生素(如青霉素),正逐漸失效。尋找新武器的腳步從未停止,但傳統(tǒng)上從細(xì)菌和真菌中尋找抗生素的“寶庫(kù)”似乎已被反復(fù)挖掘,新發(fā)現(xiàn)越來(lái)越少。8月12日發(fā)表在頂級(jí)期刊《自然-微生物學(xué)》上的一篇論文《Deep learning reveals antibiotics in the archaeal proteome》,可能打開(kāi)了一扇全新的大門(mén),而打開(kāi)這扇門(mén)的鑰匙,正是人工智能(AI)。

圖:利用深度學(xué)習(xí)從古菌中發(fā)現(xiàn)抗生素。通過(guò)經(jīng)公開(kāi)及內(nèi)部肽數(shù)據(jù)集訓(xùn)練的多任務(wù)深度學(xué)習(xí)模型,對(duì)古菌蛋白質(zhì)中8-50個(gè)氨基酸殘基的肽序列進(jìn)行了抗菌活性預(yù)測(cè)。根據(jù)預(yù)測(cè)抗菌潛力排名前列的肽段經(jīng)化學(xué)合成后,在體外實(shí)驗(yàn)和動(dòng)物模型中對(duì)臨床相關(guān)病原體進(jìn)行了全面評(píng)估。
科學(xué)家發(fā)現(xiàn)了一個(gè)全新的抗生素家族
科學(xué)家們將目光投向了一個(gè)長(zhǎng)期被忽視的生命領(lǐng)域:古菌(Archaea)。古菌是地球上最古老的生命形式之一,常常生活在火山、深海熱泉、鹽湖等極端環(huán)境中。它們獨(dú)特的生存方式,讓科學(xué)家們猜想,其體內(nèi)是否也隱藏著獨(dú)特的防御武器?
這項(xiàng)研究給出了肯定的答案。通過(guò)一種強(qiáng)大的AI工具,研究團(tuán)隊(duì)從數(shù)百種古菌的蛋白質(zhì)中,識(shí)別并驗(yàn)證了一類(lèi)全新的抗菌分子。他們將這類(lèi)分子命名為 “Archaeasins”(古菌素)。
這些新發(fā)現(xiàn)的“古菌素”令人無(wú)比興奮。實(shí)驗(yàn)室測(cè)試表明,它們對(duì)多種當(dāng)前臨床上最棘手的耐藥菌都表現(xiàn)出強(qiáng)大的殺菌活性,比如耐甲氧西林金黃色葡萄球菌(MRSA)、銅綠假單胞菌和鮑曼不動(dòng)桿菌。更重要的是,在小鼠感染模型中,其中一種名為 Archaeasin-73 的分子,展現(xiàn)出了與現(xiàn)有強(qiáng)效抗生素(如多粘菌素B)相媲美的治療效果,同時(shí)對(duì)人體細(xì)胞的毒性卻很低。這意味著,“古菌素”不僅強(qiáng)效,還可能比現(xiàn)有的一些藥物更安全,極具成為新一代抗生素的潛力。
這項(xiàng)發(fā)現(xiàn)的意義
我認(rèn)為這項(xiàng)工作的意義很大。它不僅發(fā)現(xiàn)了幾種新的候選藥物,更開(kāi)辟了一個(gè)前所未有的藥物發(fā)現(xiàn)新大陸。古菌作為一個(gè)龐大的生命王國(guó),過(guò)去幾乎從未被系統(tǒng)性地探索用于抗生素開(kāi)發(fā)。這項(xiàng)研究證明,這里是一座巨大的、有待開(kāi)采的金礦。
此外,研究還發(fā)現(xiàn),將不同的“古菌素”組合使用時(shí),它們的殺菌效果會(huì)變得更強(qiáng)。這種“協(xié)同效應(yīng)”策略,有望成為對(duì)抗細(xì)菌耐藥性發(fā)展的一種有效手段。我們不僅找到了新“子彈”,還找到了讓“子彈”威力倍增的方法。
AI 如何完成這項(xiàng)任務(wù)的
那么,這篇論文是如何從古菌浩如煙海的蛋白質(zhì)信息中,如此精準(zhǔn)地找到這些“寶藏分子”的呢?答案就是深度學(xué)習(xí),而其工作原理,對(duì)于熟悉大語(yǔ)言模型(LLM)的讀者來(lái)說(shuō)會(huì)非常容易理解。
我們可以將這項(xiàng)任務(wù)與LLM的工作方式進(jìn)行類(lèi)比。一個(gè)像Qwen3/DeepSeek這樣的LLM,是通過(guò)學(xué)習(xí)海量的文本數(shù)據(jù),來(lái)掌握人類(lèi)語(yǔ)言的語(yǔ)法、結(jié)構(gòu)和內(nèi)在邏輯,從而能夠生成連貫、有意義的句子。它學(xué)會(huì)的不是死記硬背,而是語(yǔ)言里蘊(yùn)含的“概念體系和內(nèi)在邏輯”。

圖:一種蛋白質(zhì)的空間結(jié)構(gòu)和氨基酸序列
"MAVWLQAGALLVLLVVSSVSTNPGTPQHLCGSHLVDALYLVCGPTGFFYNPKRDVEPLLGFLPPKSAQETEVADFAFKDHAELIRKRGIVEQCCHKPCSIFELQNYCN"
研究團(tuán)隊(duì)開(kāi)發(fā)的 APEX 1.1 模型,就可以被看作是一個(gè)專(zhuān)攻“生物化學(xué)語(yǔ)言”的LLM。它的任務(wù)不是理解英語(yǔ)或中文,而是理解決定一個(gè)蛋白質(zhì)片段(多肽)是否具有抗菌活性的“內(nèi)在邏輯”。
- 學(xué)習(xí)與訓(xùn)練:首先,研究人員用數(shù)萬(wàn)個(gè)已知的、具有抗菌活性的多肽序列(就是氨基酸序列,如上面動(dòng)圖展示的胰島素氨基酸序列) 來(lái)訓(xùn)練這個(gè)AI模型。這些序列由不同的氨基酸(可以看作是幾十個(gè)不同的“字母”)組成。APEX 1.1通過(guò)分析這些正樣本(有效的抗菌肽)和負(fù)樣本(無(wú)效的肽),學(xué)習(xí)這種“生化語(yǔ)言”的語(yǔ)法:哪些“字母”(氨基酸)的組合是強(qiáng)效的“單詞”?這些“單詞”如何排列成具有殺菌功能的“句子”(多肽序列)?什么樣的“句子結(jié)構(gòu)”(三維空間構(gòu)象)能最有效地摧毀細(xì)菌的細(xì)胞膜?
- 挖掘與預(yù)測(cè):在掌握了這套復(fù)雜的“內(nèi)在邏輯”后,研究人員將233種古菌的全部蛋白質(zhì)數(shù)據(jù)“輸入”給APEX 1.1。AI高速地掃描了這些對(duì)人類(lèi)來(lái)說(shuō)無(wú)比龐大的數(shù)據(jù)集,并從中精準(zhǔn)地預(yù)測(cè)出了 12,623個(gè) 它認(rèn)為“文法正確”且“語(yǔ)義強(qiáng)大”(即具有高抗菌潛力)的候選“句子”。
- 實(shí)驗(yàn)驗(yàn)證(最震撼的部分):AI的預(yù)測(cè)到底準(zhǔn)不準(zhǔn)?研究團(tuán)隊(duì)從這上萬(wàn)個(gè)候選中,挑選并合成了80個(gè)“古菌素”分子進(jìn)行實(shí)驗(yàn)室測(cè)試。結(jié)果令人震驚:在這80個(gè)分子中,高達(dá)93%(即74個(gè))都顯示出了不同程度的抗菌活性!
這是一個(gè)驚人的命中率。在傳統(tǒng)的藥物發(fā)現(xiàn)流程中,篩選的命中率通常遠(yuǎn)低于1%。如此高的準(zhǔn)確性,強(qiáng)有力地證明了AI不僅僅是在進(jìn)行模式匹配,而是真正“理解”了抗菌分子的底層生物學(xué)邏輯。
附錄
- 論文名稱(chēng)和URL:“Deep learning reveals antibiotics in the archaeal proteome”,?https://www.nature.com/articles/s41564-025-02061-0
本文轉(zhuǎn)載自????后向傳播????,作者: 張發(fā)恩


















