支持蛋白質生成/折疊/逆折疊,湖大/中科大/字節提出APM模型,實現全原子設計與功能優化 原創
蛋白質作為生命活動的主要執行者,其功能往往通過多鏈復合物的形式實現。從抗體-抗原識別到酶-底物結合,多鏈蛋白質間的精確相互作用是理解生命機制的核心。然而,當前 AI 驅動的蛋白質建模領域呈現出顯著的「單鏈偏向性」,雖然 AlphaFold 、 ESM 系列等模型已在單鏈蛋白質的折疊與設計中取得突破性進展,但多鏈復合物的建模仍處于起步階段。
現有方法處理多鏈蛋白質普遍采用「偽序列連接」策略,將多鏈強制視為單鏈處理。這種方法嚴重限制了鏈間相互作用的自然表達——真實生物復合物中,鏈間空間位置與結合界面的原子級相互作用(如氫鍵、疏水作用)無法通過線性連接準確建模。此外,全原子結構的生成面臨雙重挑戰:氨基酸側鏈的復雜構象與序列-結構的強依賴性,使得多鏈復合物的從頭設計成為領域難題。
為了填補這一研究空白,湖南大學聯合中國科學院大學、字節跳動 Seed 團隊提出 APM(All-Atom Protein Generative Model),一款專為多鏈蛋白質復合物設計的全原子蛋白質生成模型。 APM 不僅能直接生成具有全原子結構的多鏈復合物,還支持折疊、逆折疊等基礎任務,并在抗體、肽等功能蛋白設計中展現出卓越性能。
研究成果以「An All-Atom Generative Model for Designing Protein Complexes」為題,入選 ICML 2025 。
研究亮點:
* 多鏈原生建模:摒棄偽序列連接,直接學習多鏈獨立空間分布與結合界面的原子級相互作用;
* 全原子表示優化:平衡計算效率與結構細節,通過氨基酸類型、 backbone 框架與側鏈扭轉角的聯合表示,實現原子級結構生成;
* 序列-結構依賴強化:通過解耦噪聲過程與雙向任務訓練(折疊/逆折疊),維持序列與結構的深層關聯。

論文地址:
關注公眾號,后臺回復「APM」獲取完整 PDFAPM 蛋白質生成數據集:
更多 AI 前沿論文:
數據集:從單鏈到多鏈的豐富樣本
APM 的訓練基于精心構建的多源蛋白質數據集,整合了單鏈與多鏈蛋白質的結構與序列信息,為模型提供了豐富的學習素材。
單鏈數據集通過多源融合與質量過濾為鏈內建模提供豐富基礎,共包含 187,494 個樣本,覆蓋了廣泛的蛋白質類型與功能類別其中,其數據主要來自 3 個權威數據庫:
* PDB 數據庫:經過 MultiFlow 數據處理流程,篩選得到 18,684 個樣本;
* Swiss-Prot 數據庫:選取 pLDDT>85 的高質量結構,獲得 140,769 個樣本;
* AFDB 數據庫:采用更嚴格的篩選標準,保留 pLDDT>95 的樣本,共計 28,041 個樣本。
多鏈蛋白質數據集共包含 11,620 個樣本,涵蓋 2-6 條鏈的蛋白質復合物,為多鏈建模提供了關鍵數據支撐。多鏈蛋白質數據源自 PDB 生物組裝數據(Biological Assemblies),為避免下游任務的信息泄露,研究團隊排除了 3 類樣本:在 SAbDab 抗體數據庫中存在的樣本;包含長度小于 30 的鏈(視為肽段)的樣本;長度超過 2,048 或缺乏聚類 ID 的樣本。
為提升模型的泛化能力,研究人員在訓練過程中對多鏈樣本進行了隨機裁剪處理:對于殘基數超過 384 的樣本,以鏈間結合界面的殘基對為中心,保留最近的 384 個氨基酸。這種裁剪策略確保模型能夠聚焦于關鍵結合區域,同時避免內存溢出問題。此外,研究人員還將單鏈與多鏈數據按比例混合,利用單鏈數據的豐富性提升鏈內建模能力。每個采樣位置都附加了豐富的元數據,包括地理位置(鏈間相互作用位點)、結構屬性(如二級結構類型)、序列特征(氨基酸類型與保守性)。這些信息為模型學習序列-結構-功能的映射關系提供了多維度線索。
APM 蛋白質生成數據集:
模型架構:三模塊協同的全原子生成框架
APM 的核心架構由序列與 backbone 生成模塊(Seq&BB Module)、側鏈生成模塊(Sidechain Module)和全原子優化模塊(Refine Module)3 個功能明確的模塊協同組成,通過創新的設計實現了從序列到全原子結構的端到端生成,同時支持多鏈蛋白質的各種設計任務。

APM 核心架構圖
Seq&BB Module
該模塊是 APM 的基礎,采用流匹配(Flow Matching)方法,實現序列與蛋白質 backbone 的聯合生成,能夠處理殘基級別的序列-結構協同建模任務。通過解耦序列和結構的噪聲過程,減少對序列-結構依賴關系的破壞,同時以 50% 概率執行折疊/逆折疊任務,強化雙向依賴學習。模塊的核心創新在于:
* 解耦噪聲過程:將序列與結構的噪聲過程分離,避免傳統方法中模態間依賴關系的破壞。噪聲序列與噪聲 backbone 的時間步獨立采樣,確保模型能夠學習雙向的序列-結構依賴關系。
* SE(3) 流匹配:針對蛋白質 backbone 的空間變換特性,引入三維特殊歐幾里得群(SE(3))流匹配,分別處理平移與旋轉部分
* 多任務學習:同時支持無條件生成、條件生成、折疊和逆折疊任務,通過混合任務訓練提升模型的泛化能力。損失函數包含流匹配損失和一致性損失,確保生成軌跡的平滑性。

Seq&BB Module 架構圖
Sidechain Module
為實現全原子結構生成,Sidechain Module 基于 Seq&BB 生成的序列與 backbone,預測氨基酸側鏈的構象。

Sidechain Module 架構圖
模塊采用以下策略:
* torsion angle 表示:通過側鏈扭轉角(最多 4 個可旋轉鍵)參數化側鏈結構,平衡計算效率與原子級細節,避免直接建模全原子坐標帶來的復雜度。
* 兩階段訓練:第一階段專注于側鏈 packing 任務,學習真實側鏈構象的分布;第二階段切換為從預測結構重建真實側鏈,確保模型在生成場景下的適用性。

APM 訓練過程 2 個階段
* 輕量級設計:相比 Seq&BB Module,Sidechain Module 采用更少的結構塊和更小的隱藏維度。
Refine Module
Refine Module 作為 APM 的最后一環,整合 Seq&BB 和 Sidechain Module 的輸出,通過校正損失優化序列與 backbone,減少原子沖突并提升結構合理性。利用全原子信息優化序列和主鏈結構,解決結構沖突,使生成結果更接近天然蛋白質。該模塊僅在生成后期(t≥0.8)激活,確保輸入質量足以支撐優化。

Refine Module
實驗結論:多維度驗證 APM 的突破性性能
APM 的實驗驗證覆蓋單鏈基礎任務、多鏈核心任務與下游功能設計,結果均表現優異。
單鏈蛋白質任務:可媲美專業模型的基礎能力
折疊任務中,在 PDB 數據集上,APM 的 RMSD 為 4.83/2.64,TM-score 達 0.86/0.91,與 ESM3 、 MultiFlow 等模型性能相當;逆折疊任務中,氨基酸回收率(AAR)達 50.44%,超越 ProteinMPNN 的 46.58% 。

蛋白質折疊(藍色高亮)和逆折疊任務(粉色高亮)的性能比較
此外,如下圖所示,在無條件生成的長度為 100-300 的殘基蛋白中,APM 的 scTM 達 0.96(Length 100),scRMSD 低至 1.80,顯著優于 ESM3(1.4B)、 ProtPardelle 等全原子設計模型。

不同方法對不同蛋白質長度的性能比較
多鏈蛋白質任務:原生建模的核心優勢
折疊與逆折疊的實驗中,在 2-6 鏈復合物上,APM 的折疊性能為 12.6/13.67,雖低于 Boltz-1,但在無 MSA 條件下顯著超越 Boltz-1;逆折疊的 scTM 達 0.85/0.95,接近帶 MSA 的 Boltz-1,證明序列-結構關聯的有效性。實驗結果如下圖所示。

多鏈蛋白質折疊(藍色突出顯示)和逆折疊任務(粉色突出顯示)的性能比較
其次,生成的多鏈復合物具有強結合親和力,以 50-100 鏈長為例,全原子松弛后的結合能 ΔG_RAA 達 -112.65/-116.98,顯著優于 Chroma(-83.96/-86.66)和僅用主鏈的 APM_BB(-114.94/-114.45),證明全原子信息對鏈間作用建模的必要性。

生成的復合物之間的鏈間結合親和力
下游功能設計:抗體與肽段的應用突破
抗體 CDR-H3 設計:在 RAbD 基準測試中,APM 的 AAR 達 41.20%,RMSD 為 2.08,結合能 ΔG 為 91.64,全面超越 dyMEAN 、 DiffAb 等方法;零樣本生成的抗體雖序列與天然差異大,但結合能更優(ΔG 81.12),證明其通用結合能力。

抗體設計方法在 RAbD 基準上的性能比較
肽段設計:在 PepBench 和 LNR 數據集上,研究人員從功能性、可折疊性和準確性三個關鍵方面對肽設計方法進行全面評估。如下圖所示,APM(SFT)的結合能 ΔG 達 -19.90,69.34% 樣本 ΔG<0,DockQ≥0.8 的比例達 11.29%,遠超 PPFlow 、 PepGLAD 等方法,且折疊穩定性(pLDDT 60.36,ipTM 0.66)優異。

對肽設計方法的全面評估
產研協同驅動全原子蛋白質生成技術革新突破
在全原子蛋白質生成這一生物前沿領域,學術界與企業界對其探索從未停歇,一系列突破性成果持續引發關注。
學術界方面,DeepMind 團隊推出的 AlphaFold3 在全原子蛋白質生成領域展現出強大能力,其通過融合多尺度結構信息與進化序列數據,實現了對復雜蛋白質折疊模式的精準建模,尤其在包含輔因子、金屬離子的全原子復合體生成任務中,較傳統方法在結構精度與能量合理性上均實現顯著提升。斯坦福大學研究團隊開發的 ESM-IF1 則另辟蹊徑,基于巨量進化序列數據訓練的隱式折疊模型,能直接生成具有天然構象特征的全原子蛋白質結構,在酶活性中心的精準構建上表現突出。
企業界同樣在該領域積極布局,以技術創新推動產業應用。北京百奧幾何生物科技有限公司發布了全球首個全場景原子級蛋白質大模型——GeoFlow V2,構建了端到端的擴散生成框架,可實現對蛋白質原子級別的精準調控,在抗體 CDR 區全原子設計中,能同時優化親和力與穩定性,顯著提升藥物開發效率。美國生物科技公司英矽智能研發了一款蛋白質生成系統,聚焦藥物靶點蛋白設計,其采用的多約束條件生成策略,可在保證全原子結構合理性的前提下,定向優化蛋白質與小分子藥物的結合位點,為候選藥物的高效篩選提供堅實基礎。
這些學術界的理論突破與企業界的應用創新,共同推動全原子蛋白質生成技術從實驗室走向產業實踐,為精準藥物研發、新型生物催化劑設計及合成生物學領域的突破提供了核心支撐,未來有望在疾病治療與生物制造領域創造巨大價值。
參考鏈接:
1.??https://mp.weixin.qq.com/s/a0bl9ek90t_-y8wy69Yu6Q???
2.??https://mp.weixin.qq.com/s/P-5o-R1qZY52Pq1yK5j6cQ??

















