Google新模型可以理解細胞語言了
Google Research 最近公布了一項研究進展:他們的開源模型 Gemma 家族新成員 Cell2Sentence-Scale(C2S-Scale)27B,在與耶魯大學和 Google DeepMind 的合作中,發現了一種新的癌癥治療途徑,并已在活細胞實驗中驗證。
這個 27B 參數模型的核心創新在于將單細胞基因表達數據轉換成語言模型可理解的"細胞句子"。耶魯大學 David van Dijk 實驗室通過標記化處理,把每個細胞的基因表達模式以及數千個基因的活躍程度及相互關系編碼成類似自然語言的序列格式。每個"細胞句子"描述了細胞在特定時刻的完整狀態:哪些基因活躍,哪些沉默,以及它們之間的相互關系。
這項工作建立在今年早期的研究基礎上,當時團隊證明了生物模型遵循明確的擴展定律:就像自然語言一樣,更大的模型在生物學任務上表現更好。這引出了一個關鍵問題:更大的模型是僅僅在現有任務上做得更好,還是能獲得全新的能力?
研究團隊面對的是癌癥免疫療法中的一個關鍵挑戰:許多腫瘤呈現"冷"狀態,對免疫系統不可見。為使這些腫瘤變"熱",需要通過抗原呈遞過程讓它們展示免疫觸發信號。
研究人員給模型設定了一個精確任務:尋找一種條件性放大器藥物,僅在存在低水平干擾素(關鍵免疫信號蛋白)的"免疫環境陽性"條件下增強免疫信號,而這些干擾素本身不足以誘導抗原呈遞。
為此,他們設計了雙重環境虛擬篩選實驗:
- 免疫環境陽性:使用包含完整腫瘤-免疫相互作用和低水平干擾素信號的真實患者樣本
- 免疫環境中性:使用沒有免疫環境的分離細胞系數據
模型需要預測哪些藥物僅在第一種環境中增強抗原呈遞,以偏向患者相關的設置。在模型突出的許多候選藥物中,10-30% 是已知藥物,其余是與篩選目標沒有已知聯系的"驚喜發現"。
C2S-Scale 27B 從 4000 多種藥物中識別出 silmitasertib(CX-4945)的顯著"環境分裂"效應。模型預測該藥物在"免疫環境陽性"條件下會強烈增加抗原呈遞,但在"免疫環境中性"條件下幾乎沒有效果。盡管 CK2 作為免疫系統調節因子參與多種細胞功能,但通過 silmitasertib 抑制 CK2 來明確增強 MHC-I 表達或抗原呈遞此前從未被報道。
實驗室驗證在人類神經內分泌細胞模型中進行,這是模型訓練時完全未見過的細胞類型。結果顯示:
- 單獨使用 silmitasertib:對抗原呈遞(MHC-I)無影響
- 單獨使用低劑量干擾素:效果適度
- 聯合使用:產生顯著的協同放大效應,抗原呈遞增加約 50%
這種協同效應使腫瘤對免疫系統更可見。模型的計算機預測在體外實驗中得到多次確認,成功識別出一種新型干擾素條件放大器,揭示了使"冷"腫瘤變"熱"的潛在新途徑。
值得注意的是,這種條件推理能力是模型規模擴展至 27B 時的智能涌現。就像語言模型在達到一定規模后突然有“思維能力”一樣,生物模型也在規模擴大后獲得了"創造性思考"的能力。
"生物技術變得像軟件一樣可編程"。生物醫學與AI相結合,是目前認為最有想象力的場景之一。而這項研究正展示了 AI 輔助藥物發現的新范式:通過大規模虛擬篩選生成可驗證的生物學假設,而非僅僅重復已知事實。
論文:https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2
github:https://github.com/vandijklab/cell2sentence
huggingface: https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B
本文轉載自??AI工程化??,作者:ully

















