精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!

發布于 2024-5-30 10:33
瀏覽
0收藏

把169861個生物物種數據裝進大模型,大模型竟get到了生物中心法則的奧秘——

不僅能識別DNA、RNA與相應蛋白質之間的內在聯系,在基因分類、蛋白質相互作用預測、熱穩定性預測等7種不同類型任務中也能比肩SOTA模型。


模型名為LucaOne,由阿里云飛天實驗室生物智能計算團隊打造。


相比AlphaFold 3因未開源遭到650多名學者聯名批評,LucaOne訓練推理代碼及相關數據目前均已開源。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

LucaOne是目前首個全生物系統的核酸語言+蛋白語言的融合基座模型。換句話說,LucaOne由核酸(DNA、RNA)和蛋白質序列聯合訓練而來。


通過一系列實驗,研究人員發現它能廣泛適用各種下游任務。


在含13個物種、關系對總數量為24000的核酸序列和其對應蛋白的正負樣本數據集中,LucaOne提供表征的模型達到0.85的預測準確率。


遠高于目前業內最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也顯著高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


其他任務如針對流感H3N2病毒疫苗有效性(免疫逃逸風險)的預測,LucaOne準確率可達100%。?

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

量子位也聯系到了論文一作,聊了聊LucaOne的實現細節,以及AI for Science在生物科學領域的發展。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

核酸和蛋白質序列聯合訓練

總的來說,LucaOne圍繞中心法則的數據進行構建,能夠學習到中心法則背后的原理和邏輯,可提取基因轉錄和蛋白質翻譯過程中固有的復雜模式和關系,在使用層面相當于提供了一個對DNA、 RNA、蛋白質的無差別表征。


PS:


分子生物學的中心法則即遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質的過程,這一過程包括DNA的復制、RNA的轉錄和蛋白質的翻譯。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

展開來看,LucaOne整個工作流是這樣嬸兒的:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

從技術上講,構建LucaOne的難點首先是數據集的構建。


在生命科學領域,真實存在的只是分子數據。


例如,核酸的表示方式是4種堿基。DNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T);RNA是腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)、尿嘧啶(U)。蛋白質由氨基酸組成,自然界存在的氨基酸大約有20-22種,每種氨基酸也用一個字母表示。


而人類為理解這些分子的性質與作用,通常需要添加很多注釋信息,包括一些圖片的注釋。注釋信息屬于人類語言,自然界本身不存在,從而就形成了一種生命科學領域的從“自然界”語言到“人類文化”語言的跨模態。


因此,LucaOne的預訓練數據不僅包含DNA、RNA、蛋白質這三類分子的序列(核苷酸序列或者氨基酸序列)數據,同時還使用了這些分子的注釋信息


總共涵蓋了169861個物種的核酸和蛋白質序列和注釋信息,分為兩部分:

核酸數據集來自RefSeq,包括核酸序列及注釋;蛋白質數據集來自InterPro、UniProt、ColabFold、RCSB-PDB、AlphaFold2,包括蛋白質序列、注釋和三維結構。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

據介紹,在數據集的收集處理方面,阿里云飛天實驗室與中山大學、浙江大學等多個團隊進行了合作。


另一大難點是生物分子序列的預測和大語言模型預測下一個token不同,在模型訓練階段還需要一些專門的設計。


LucaOne采用了Transformer-Encoder架構,由20個編碼器塊組成,嵌入維度為2560,總參數量1.8B。


研究人員在此基礎上進行了一些優化:

  • 使用Pre-Layer歸一化代替Post-Layer歸一化,以便更好地訓練深層網絡;
  • 使用旋轉位置嵌入(RoPE)代替傳統絕對位置編碼,以推理更長序列。


此外,在數據處理和模型訓練過程中,核苷酸和氨基酸用統一的方式進行表征或編碼。通過token-type embeddings實現核酸和蛋白質序列的混合訓練,區分核苷酸(0)和氨基酸(1)。


在兩個自監督掩碼任務的基礎上,研究人員還增加了八個半監督預訓練任務,通過序列注釋增強模型對數據的理解。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

已能理解基因和蛋白對應關系

為驗證核酸和蛋白質數據混合訓練的優勢,研究人員分別使用核酸和蛋白質數據單獨訓練了兩個額外的模型——LucaOne-Gene和LucaOne-Prot,并使用相同的5.6M checkpoint在分子生物學中心法則任務中進行了比較。


使用t-SNE可視化說明,與其他模型相比,LucaOne的嵌入在兩個數據集上呈現出更緊密的聚類,可能包含了更多上下文信息。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

為驗證LucaOne通過廣泛學習基因及蛋白語言,已具備對生物學中心法則里的基因和蛋白對應關系的理解能力,研究人員設計了一個數據集及評測任務。


選取13個物種的核酸序列和其對應蛋白的正負樣本數據集,關系對總數量為24000,其中正負樣本比例1:2?;蛐蛄袛祿瞧湓诨蚪M的原始數據,包括了大量的非編碼區(內含子,調控元件,及“垃圾片段”等)。


采用訓練:驗證:測試比例為:4:3:25;即僅3200組數據作為訓練,18750組數據作為測試集來預測其核酸序列是否可以翻譯成數據組里的蛋白序列。


結果LucaOne提供表征的模型達到0.85的預測準確率,不僅遠高于目前業內最好的預訓練模型組合ESM-3B+DNAbert2(0.73)及其他建模方式,也明顯高于LucaOne的單核酸訓練版本+單蛋白訓練版本。


這表明這兩種大分子數據聯合訓練可以顯著增強模型的學習效果。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

有意思的是,研究人員發現在模型細分表現里,LucaOne海鞘這種生物里的預測表現比較差(其他模型也類似),進一步分析海鞘的特性表明,因為進化適應性等各種原因,海鞘利用中心法則的具體規則-密碼子偏好性,和其他生物明顯不同。


他們猜測LucaOne可能用的是另一種中心法則語法“方言”,而這種“方言”在訓練數據集里僅有100條,因此模型沒有很好的學習到這種規則。


在其他下游任務中,LucaOne對不同類型輸入的下游任務也廣泛適用。


具體來說,研究人員評估了7個不同類型的下游生物計算任務,包括:

  • 單序列任務:GenusTax(屬分類)、ncRNAFam(ncRNA家族分類)、ProtLoc(蛋白質亞細胞定位)、ProtStab(蛋白質熱穩定性預測)
  • 同源序列對任務:InfA(流感血凝素分析)、PPI(蛋白質相互作用預測)。
  • 異源序列對任務:ncRPI(ncRNA-蛋白質相互作用預測)。


為簡化下游任務,研究人員使用了三種對應不同輸入形式的簡單網絡架構:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

結果表明,GenusTax、ProtStab、ncRNAFam、InfA、PPI任務上,LucaOne顯著優于其他模型;ProtLoc任務上,LucaOne與ESM2-3B相當,優于SOTA;ncRPI任務上,LucaOne優于DNABert2+ESM2-3B的組合:

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

值得一提的是,在流感H3N2病毒的免疫逃逸風險預測中,研究人員采用了1968年至2010年間分離的大規模H3N2病毒HA序列數據進行了基于流感毒株抗原關系的預測模型。


通過病毒HA抗原序列來預測其是否會誘導HIA實驗的血凝現象,進而預測其是否在特定人群中會發生免疫逃逸。

AlphaFold 3不開源,統一生物語言大模型阿里云先開了!-AI.x社區

要知道,目前預防與控制流感最有效的方法是接種流感疫苗,但是由于流感病毒極快的變異速度,導致不能及時與準確地推薦與流行病毒相匹配的流感疫苗株。根據WHO和CDC的監測,流感疫苗的有效性在40%-60%之間。因此準確預測流行毒株,判斷免疫逃逸風險是一個重要且困難的命題。


研究人員使用基于LucaOne+一層感知機的模型達到了100%的準確率。


這也說明LucaOne學習的大量核酸序列信息,包括大量其他病毒序列,為計算特定任務提供了很好的信息補充。


更多細節,感興趣的家人們可查看原論文。

“Science for AI”

如前文所述,LucaOne背后開發團隊來自阿里云飛天實驗室LucaTeam,LucaTeam也與多個團隊展開了深度合作。


中山大學醫學院施莽教授及其團隊參與了LucaOne模型的數據設計與驗證。施莽教授認為:

LucaOne是一項極為重要的嘗試。最讓我驚訝的是,在沒有任何先驗知識的前提下,LucaOne確實能夠更有效地學習中心法則中核酸與蛋白質之間的對應關系。


中國醫學科學院北京協和醫學院病原生物學研究所所長、美國微生物科學院會士舒躍龍教授及其團隊參與了LucaOne在流感病毒方面的分析與驗證工作。舒躍龍教授表示:

將前沿的AI技術與病原生物學相結合具有重大的科學意義和社會價值。通過這種緊密的跨學科協作,我們能探索更多病原生物起源進化、跨種傳播以及感染致病等方面的規律,為傳染病防控和生物安全做出更大的貢獻。


此外,論文一作賀勇是阿里云飛天實驗室生物計算高級算法專家,我們也就LucaOne與其展開聊了聊AI for Science在生物科學領域的發展。


在他看來,AI for Science在生物科學領域正處于剛起步的階段,考慮到AI可解釋性的問題,基本上現在他們還只是把AI當做一個工具,但同時現在是發展AI for Science的一個很好的時間節點。

因為現在測序技術發展非常迅速,測序成本下降很多,分子序列數據很容易就能獲得。有了數據大量的積累,就可以數據驅動的AI for Science相關工作。


不過,目前的局限在于測序得到還是分子的序列數據,而真實世界每個分子的存在是一個空間結構,這可能就需要更復雜的模型來處理。


而不同學科間的研究方法不同、探索微觀世界也受限于目前的設備技術,賀勇認為人類對生物科學這個領域的認識目前也只是冰山一角,還無法從全局角度構建一個全面通用的系統。


最后他還補充道:

目前大家對AI for Science越來越重視,相當于用AI去解決具體的問題。我想接下來還應該回過頭來看Science能為AI帶來什么?解決具體問題是第一步,最后通過問題反哺技術本身其實可能也是應該考慮的。


論文鏈接:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1
GitHub鏈接:https://github.com/LucaOne


本文轉自量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/6EUwsy5k3j1v8wdjz7RHjA??

收藏
回復
舉報
回復
相關推薦
www国产精品内射老熟女| 97超级碰碰碰| 亚洲a级黄色片| 91麻豆一二三四在线| 国产一区二区三区在线观看免费视频 | 中文字幕不卡在线视频极品| 日本一区二区三区在线免费观看| 国产探花视频在线观看| 欧美极品少妇xxxxⅹ高跟鞋| 亚洲sss综合天堂久久| 五月天综合激情网| 女人香蕉久久**毛片精品| 亚洲精品乱码久久久久久金桔影视| 无需播放器的av| 漫画在线观看av| 亚洲欧美日韩在线| 色一情一乱一伦一区二区三欧美 | 亚洲影院在线播放| 亚洲成人三区| 国产亚洲精品va在线观看| www.四虎精品| www.欧美| 欧美午夜电影在线播放| 久久成人免费观看| 麻豆av在线播放| 亚洲欧洲性图库| 日本日本精品二区免费| 国模无码一区二区三区| 麻豆成人在线观看| 国产成人啪精品视频免费网| 国产亚洲欧美精品久久久久久| 久久性感美女视频| 亚洲人成在线观| 欧美 变态 另类 人妖| 日韩中文字幕| 欧美一级午夜免费电影| 岛国av免费在线| 日本久久免费| 日韩欧美国产中文字幕| 9色视频在线观看| 国内外激情在线| 国产精品理伦片| 日本精品一区二区三区高清 久久| 无码精品人妻一区二区| 成人黄色大片在线观看| 99视频日韩| 亚洲伦理在线观看| 成人涩涩免费视频| 国产精品国色综合久久| 亚洲精品中文字幕成人片 | 午夜一区二区三区免费| 日韩av系列| 日韩国产欧美精品一区二区三区| 国产草草浮力影院| 久久九九热re6这里有精品 | 97碰碰视频| 精品人妻伦一二三区久久| 国产精品一区二区久激情瑜伽 | 香蕉视频一区| 亚洲乱码一区二区| 日本高清www| 菠萝蜜一区二区| 日韩专区在线观看| 免费看一级大片| 日韩片欧美片| 欧美成人中文字幕| 久久高清无码视频| 亚洲激情黄色| 4438全国成人免费| 欧美一级做a爰片免费视频| 日本大胆欧美人术艺术动态| 国产日韩欧美夫妻视频在线观看| 国产三级视频在线播放| 成人一区二区在线观看| 国产乱码精品一区二区三区不卡| 午夜视频免费在线| 国产精品婷婷午夜在线观看| 性做爰过程免费播放| 国产盗摄一区二区| 色婷婷综合久久久中文字幕| 色婷婷.com| 999久久精品| 亚洲国产精品久久久| 国产手机在线观看| 亚欧美无遮挡hd高清在线视频| 色综合天天狠天天透天天伊人| 国产成人自拍视频在线| 男女性色大片免费观看一区二区| 51精品国产人成在线观看| 天天舔天天干天天操| 国产精品视频线看| 男人添女荫道口喷水视频| 美女18一级毛片一品久道久久综合| 欧美日韩国产在线播放网站| 中文字幕99页| 成人一级毛片| 97国产精品久久| 亚洲综合免费视频| 97se狠狠狠综合亚洲狠狠| 亚洲欧洲精品一区| 美女露胸视频在线观看| 91精品欧美久久久久久动漫 | 成人影院在线| 久久人人爽人人爽人人片av高请 | 成人午夜视频福利| 日韩一区免费观看| 高潮在线视频| 欧美一区日本一区韩国一区| 国精品无码人妻一区二区三区| 综合激情一区| 国产精品十八以下禁看| 四虎永久在线精品免费网址| 亚洲视频一二三| 欧美一级黄色影院| 欧美人与动xxxxz0oz| 久久精品视频va| 成人午夜精品视频| 久久这里只有精品首页| 高清无码视频直接看| 日韩综合av| 日韩电影免费观看中文字幕| 欧美久久久久久久久久久久| 另类中文字幕网| 欧美一区二区综合| 草草视频在线观看| 精品国产成人在线影院 | www.成人av.com| 蜜芽在线免费观看| 在线观看91视频| 亚洲一级中文字幕| 午夜一级久久| 精品日韩欧美| 2021天堂中文幕一二区在线观| 日韩一区二区在线观看视频| 看黄色录像一级片| 久久电影网电视剧免费观看| 水蜜桃亚洲精品| 日韩av免费| 国产一区二区三区18| chinese国产精品| 久久众筹精品私拍模特| avav在线看| 蜜桃国内精品久久久久软件9| 97视频在线观看播放| 少妇人妻偷人精品一区二区| 亚洲乱码国产乱码精品精的特点| 日本网站在线看| 一区二区日韩欧美| 99视频免费观看| 99热99re6国产在线播放| 精品国产免费视频| 99热国产在线观看| 26uuu久久天堂性欧美| 看av免费毛片手机播放| 欧美男gay| 国产精品入口福利| 国产精品扒开做爽爽爽的视频| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 日韩人妻无码精品综合区| 日韩影院在线观看| 伊人久久大香线蕉成人综合网| 欧美91在线|欧美| 不卡av日日日| 黄频网站在线观看| 色呦呦国产精品| 农村老熟妇乱子伦视频| 韩日av一区二区| 日韩国产成人无码av毛片| 久久超级碰碰| 国产精品精品久久久久久| 求av网址在线观看| 日韩久久久精品| 亚洲第一在线播放| 国产精品视频麻豆| 18禁一区二区三区| 香蕉久久国产| 波多野结衣三级在线| 88久久精品| 日本在线观看天堂男亚洲| 91社区在线观看| 日韩精品专区在线影院观看| 二区视频在线观看| 国产精品欧美一区二区三区| 不卡的一区二区| 久久精品首页| 午夜啪啪福利视频| 日韩大片在线免费观看| 国产日韩精品入口| 阿v视频在线| 久久亚洲精品视频| 青青草在线免费视频| 91精品国产综合久久久久久久久久 | 精品视频亚洲| www日韩av| 日本黄色一区| 97精品在线视频| 日本激情视频在线观看| 日韩成人网免费视频| 国产免费一区二区三区最新不卡| 午夜欧美在线一二页| 波多野结衣喷潮| 久久先锋影音av鲁色资源网| 中文字幕在线视频一区二区| 久久久久久黄| 成人性生活视频免费看| 欧美xxxxx视频| 狼狼综合久久久久综合网| 动漫一区二区三区| 国产精品 欧美在线| а√在线天堂官网| 欧美日韩第一视频| 麻豆视频在线观看免费| 亚洲丝袜在线视频| 午夜视频免费在线| 精品久久国产字幕高潮| 91九色蝌蚪91por成人| 91久久线看在观草草青青| 日本一二三区不卡| 亚洲欧美日韩国产一区二区三区| 谁有免费的黄色网址| 99久久精品99国产精品| 少妇搡bbbb搡bbb搡打电话| 久久福利视频一区二区| 欧美婷婷精品激情| 日韩电影免费一区| 亚洲熟女乱色一区二区三区| 亚洲电影av| 亚洲色欲久久久综合网东京热| 亚洲女同另类| 中文字幕一区二区中文字幕| av中字幕久久| 日本免费高清不卡| 精品国产99| 日本不卡二区高清三区| 亚洲电影男人天堂| 久久99久久精品国产| 六月丁香久久丫| 好吊色欧美一区二区三区| 9l亚洲国产成人精品一区二三| 91在线在线观看| 9999久久久久| 国内精品一区二区| 日韩高清三区| 蜜桃视频在线观看成人| 亚洲自拍电影| 欧美日韩免费精品| 国产91久久精品一区二区| 日本视频一区二区在线观看| 国产精品美女久久久久久不卡 | 99成人免费视频| 精品国产一二三四区| 国产日韩视频| 一本色道无码道dvd在线观看| 亚洲永久视频| 成人中文字幕av| 蜜桃久久av一区| 在线观看av免费观看| 国产精品一区二区久久精品爱涩| 逼特逼视频在线观看| av午夜一区麻豆| 51妺嘿嘿午夜福利| 国产精品久久久久影院| 成人免费毛片东京热| 亚洲午夜日本在线观看| 国产无人区码熟妇毛片多| 色哟哟国产精品| 国产香蕉精品视频一区二区三区| 国产免费一区二区三区最新不卡 | 污污的网站免费| 国产一区二区三区黄视频| 亚洲性图第一页| 91蜜桃在线观看| www.日本高清视频| 亚洲麻豆国产自偷在线| 日韩xxxxxxxxx| 色视频欧美一区二区三区| 中文字幕精品一区二| 日韩久久精品一区| 欧美69xxxxx| 久久精品视频在线| 欧美13videosex性极品| 国产精品久久一区主播| 亚洲精品福利| 牛人盗摄一区二区三区视频| 国产精品97| av在线播放亚洲| 喷白浆一区二区| 在线播放av网址| 国产欧美日韩中文久久| 美女福利视频在线观看| 色婷婷综合久久久中文一区二区 | 亚洲欧美国产制服动漫| 免费在线观看黄色| 97人人模人人爽人人喊中文字| 日本肉肉一区| 精品国产乱码一区二区三区四区 | 国产精品久久久久久久久久久久久久久久久久 | 91麻豆产精品久久久久久| 欧美a级片免费看| 欧美日韩在线免费| 国产黄色美女视频| 国产小视频国产精品| 成年人黄色大片在线| 成人免费自拍视频| 视频一区欧美| 欧美 日韩 国产在线观看| 国产一区二区日韩精品| caopeng视频| 午夜激情久久久| 精品人妻一区二区三区浪潮在线| 亚洲性夜色噜噜噜7777| 成人影院在线视频| 99久久自偷自偷国产精品不卡| 日韩精品中文字幕第1页| 18岁网站在线观看| 国产成人激情av| 视频国产一区二区| 在线免费不卡视频| 亚洲日本中文字幕在线| 欧美极品第一页| 精品一区二区三区视频在线播放| 日韩av一级大片| 羞羞答答国产精品www一本| 亚洲婷婷在线观看| 亚洲狠狠丁香婷婷综合久久久| 一区二区视频免费| 国产一区二区三区直播精品电影| 免费h在线看| 国产一级二级三级精品| 欧美区亚洲区| 中文字幕第六页| 亚洲免费三区一区二区| 97人妻人人澡人人爽人人精品| 在线观看欧美视频| 久久久人成影片一区二区三区在哪下载| 久久精品国产第一区二区三区最新章节 | www亚洲成人| 日本一区二区综合亚洲| 国产99免费视频| 亚洲午夜色婷婷在线| 美女日韩欧美| 欧美日本韩国国产| 老鸭窝毛片一区二区三区| 人妻熟女aⅴ一区二区三区汇编| 午夜电影网一区| 日色在线视频| 国产成人aa精品一区在线播放| 久久91精品| youjizzxxxx18| 国产精品三级久久久久三级| 亚洲一区二区视频在线播放| 久久韩剧网电视剧| 国产免费av国片精品草莓男男| 三级在线免费观看| 成人免费黄色大片| 国产精品suv一区二区三区| 国产偷亚洲偷欧美偷精品| 88xx成人免费观看视频库 | 久久久久久婷| 国产1区2区在线观看| 欧美日韩国产高清一区二区| 黄色网页在线播放| 不卡一区二区三区视频| 99精品欧美| 黄色片网站免费| 3751色影院一区二区三区| 欧美性video| 欧美动漫一区二区| 麻豆成人免费电影| 国产网站在线看| 亚洲欧洲午夜一线一品| **日韩最新| 成人黄色大片网站| 国产日韩欧美制服另类| 国产精品久久久久久久一区二区| 久久69精品久久久久久久电影好| 全球av集中精品导航福利| 中文字幕 91| 亚洲狠狠爱一区二区三区| 黄色av网址在线免费观看| 91欧美精品成人综合在线观看| 一区二区自拍| 美国黄色特级片| 精品少妇一区二区三区免费观看| 理论片午夜视频在线观看| 亚洲人成人77777线观看| 成人久久18免费网站麻豆 | 都市激情亚洲一区| 波多野结衣激情| 91免费观看视频在线| 国产精品亚洲lv粉色| 97色在线播放视频| 亚洲不卡av不卡一区二区| 免费看黄色aaaaaa 片| 欧美日韩不卡在线| 中国色在线日|韩| 91麻豆天美传媒在线| 国产婷婷色一区二区三区| www.黄色小说.com| 国产精品爽爽爽爽爽爽在线观看|