人工智能驅(qū)動(dòng)的科學(xué)研究創(chuàng)新,邁向AI協(xié)同科學(xué)家
在現(xiàn)代科學(xué)研究過(guò)程中,科學(xué)家們面臨著許多挑戰(zhàn),假設(shè)生成和實(shí)驗(yàn)驗(yàn)證的復(fù)雜性使得研究進(jìn)程變得相當(dāng)緩慢,科學(xué)發(fā)現(xiàn)依賴于科學(xué)家提出新穎的假設(shè),并通過(guò)嚴(yán)格的實(shí)驗(yàn)驗(yàn)證這些假設(shè)。但是生成具有原創(chuàng)性且可驗(yàn)證的研究假設(shè)往往需要耗費(fèi)大量的時(shí)間和資源。隨著科學(xué)領(lǐng)域的不斷擴(kuò)展,科學(xué)家們需要在更廣泛的知識(shí)背景下進(jìn)行研究,這進(jìn)一步增加了難度。
同時(shí),科學(xué)研究中多學(xué)科交叉和大規(guī)模數(shù)據(jù)的處理也帶來(lái)了新的挑戰(zhàn)。現(xiàn)代科學(xué)問(wèn)題往往涉及多個(gè)學(xué)科的知識(shí),如生物醫(yī)學(xué)、物理學(xué)、化學(xué)等領(lǐng)域的交叉。這要求研究人員不僅需要在自己領(lǐng)域內(nèi)具備深厚的知識(shí),還需理解相關(guān)領(lǐng)域的基本概念。此外,科學(xué)文獻(xiàn)的數(shù)量呈指數(shù)級(jí)增長(zhǎng),如何從海量數(shù)據(jù)中提取有用信息也是一大難題。科學(xué)家們需要花費(fèi)大量時(shí)間閱讀、整理和分析文獻(xiàn),以確保他們的研究假設(shè)是基于最新的科學(xué)進(jìn)展。
隨著人工智能(AI)技術(shù)的快速發(fā)展,AI在科學(xué)研究中的應(yīng)用前景廣闊。從最初的“深度研究”工具,到如今的協(xié)同智能體,AI在不斷革新科學(xué)研究的方法。AI系統(tǒng)不僅可以幫助科學(xué)家高效地進(jìn)行文獻(xiàn)綜述和數(shù)據(jù)分析,還可以輔助生成研究假設(shè),甚至設(shè)計(jì)實(shí)驗(yàn)方案。這些創(chuàng)新有助于加速科學(xué)發(fā)現(xiàn)的過(guò)程,提升研究效率。
前沿大語(yǔ)言模型(LLM)與多智能體系統(tǒng)的協(xié)同,是AI在科學(xué)研究中的一個(gè)重要突破。LLM通過(guò)海量數(shù)據(jù)的訓(xùn)練,具備了強(qiáng)大的語(yǔ)言理解和生成能力,可以自動(dòng)化地處理和分析科學(xué)文獻(xiàn)。而多智能體系統(tǒng)則通過(guò)分工合作,模擬科學(xué)家的思維過(guò)程,生成和評(píng)估研究假設(shè)。這種協(xié)同不僅提高了AI系統(tǒng)的智能化水平,還增強(qiáng)了其在復(fù)雜科學(xué)問(wèn)題上的處理能力。
2 月 28 日,多個(gè)頂尖機(jī)構(gòu)的研究人員組成龐大的聯(lián)合研究團(tuán)隊(duì)提出一種構(gòu)建AI協(xié)同科學(xué)家系統(tǒng)的創(chuàng)新方法,旨在通過(guò)AI技術(shù)輔助科學(xué)家加速科學(xué)發(fā)現(xiàn)的過(guò)程。他們聯(lián)合發(fā)表的論文《Towards an AI co-scientist》介紹了AI共科學(xué)家的設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn),展示了如何通過(guò)多智能體系統(tǒng)生成、評(píng)估和優(yōu)化研究假設(shè)。這一系統(tǒng)的核心在于將科學(xué)方法論融入AI技術(shù),使其能夠與科學(xué)家合作,生成具有原創(chuàng)性和可驗(yàn)證性的研究假設(shè)。
AI共科學(xué)家的設(shè)計(jì)不僅僅是為了提高科學(xué)研究的效率,更重要的是引導(dǎo)領(lǐng)域?qū)<遗cAI進(jìn)行合作。通過(guò)與科學(xué)家的緊密互動(dòng),AI系統(tǒng)能夠不斷學(xué)習(xí)和改進(jìn),從而生成更高質(zhì)量的研究假設(shè)。這種合作不僅提升了科學(xué)發(fā)現(xiàn)的速度,還拓展了科學(xué)家的研究視野,激發(fā)了新的科研靈感。
參與本文研究的團(tuán)隊(duì)由多個(gè)頂尖機(jī)構(gòu)的研究人員組成,他們?cè)贏I和生物醫(yī)學(xué)領(lǐng)域有著豐富的經(jīng)驗(yàn)。主要研究機(jī)構(gòu)包括Google Cloud AI Research、Google Research、Google DeepMind、Houston Methodist、Sequome、Fleming Initiative和Imperial College London,以及Stanford University School of Medicine。
研究機(jī)構(gòu):
- Google Cloud AI Research: 致力于通過(guò)云計(jì)算和AI技術(shù)推動(dòng)科學(xué)研究和創(chuàng)新。
- Google Research: Google的研究部門(mén),專注于AI和機(jī)器學(xué)習(xí)的創(chuàng)新。
- Google DeepMind: 知名的AI研究實(shí)驗(yàn)室,以其在深度學(xué)習(xí)和AI領(lǐng)域的突破性研究而聞名。
- Houston Methodist: 主要從事醫(yī)學(xué)研究,特別是通過(guò)AI推動(dòng)醫(yī)療創(chuàng)新。
- Sequome: 專注于數(shù)據(jù)分析和AI應(yīng)用的研究公司。
- Fleming Initiative and Imperial College London: 融合了科學(xué)研究和教育,致力于推動(dòng)前沿醫(yī)學(xué)研究。
- Stanford University School of Medicine: 斯坦福大學(xué)醫(yī)學(xué)院,以其在醫(yī)學(xué)研究和教育方面的卓越成就而著稱。
這些研究人員在各自領(lǐng)域內(nèi)都有著卓越的成就,如Juraj Gottweis、Wei-Hung Weng、Alexander Daryin、Tao Tu等,他們?cè)贏I研究和生物醫(yī)學(xué)應(yīng)用方面貢獻(xiàn)卓著。團(tuán)隊(duì)中的關(guān)鍵成員,如Alan Karthikesalingam、Vivek Natarajan、Pushmeet Kohli和Nenad Tomasev,在AI前沿研究和醫(yī)學(xué)AI應(yīng)用方面有著深厚的研究背景。
研究團(tuán)隊(duì)的多樣性和跨學(xué)科背景,為AI共科學(xué)家的設(shè)計(jì)和實(shí)現(xiàn)提供了堅(jiān)實(shí)的基礎(chǔ)。這些研究機(jī)構(gòu)結(jié)合了AI和生物醫(yī)學(xué)領(lǐng)域的前沿知識(shí)和技術(shù),致力于通過(guò)AI推動(dòng)科學(xué)發(fā)現(xiàn)。團(tuán)隊(duì)成員之間的緊密合作和共享資源,使得這一項(xiàng)目得以順利開(kāi)展,并取得了顯著的研究成果。
理論基礎(chǔ)與研究綜述
科學(xué)方法與AI推理
科學(xué)發(fā)現(xiàn)的核心在于假設(shè)生成、實(shí)驗(yàn)驗(yàn)證和理論辯論。傳統(tǒng)科學(xué)方法通常包括提出假設(shè)、設(shè)計(jì)實(shí)驗(yàn)以驗(yàn)證假設(shè)的正確性,并通過(guò)同行評(píng)審的形式進(jìn)行理論辯論。這一過(guò)程不僅要求科學(xué)家具備深厚的專業(yè)知識(shí),還需要他們具備批判性思維和邏輯推理能力。然而隨著科學(xué)領(lǐng)域的不斷擴(kuò)展和跨學(xué)科研究的興起,這一過(guò)程變得愈加復(fù)雜和耗時(shí)。
在這種背景下,AI技術(shù)的引入為科學(xué)研究帶來(lái)了新的可能性。通過(guò)結(jié)合前沿大語(yǔ)言模型(LLM)和多智能體系統(tǒng),AI能夠模擬科學(xué)家的思維過(guò)程,輔助科學(xué)發(fā)現(xiàn)。具體來(lái)說(shuō),“生成、辯論、進(jìn)化”框架在AI共科學(xué)家的設(shè)計(jì)中發(fā)揮了重要作用。首先,生成智能體通過(guò)文獻(xiàn)搜索和模擬科學(xué)辯論生成初始假設(shè)。這一過(guò)程利用LLM的語(yǔ)言理解和生成能力,迅速?gòu)暮A课墨I(xiàn)中提取關(guān)鍵信息,提出新穎的研究假設(shè)。隨后,反思智能體對(duì)生成的假設(shè)進(jìn)行評(píng)審和驗(yàn)證,結(jié)合現(xiàn)有的實(shí)驗(yàn)數(shù)據(jù)和理論進(jìn)行批判性分析,確保假設(shè)的合理性和新穎性。排名智能體通過(guò)Elo錦標(biāo)賽的方式對(duì)假設(shè)進(jìn)行排序和優(yōu)先級(jí)評(píng)估,確保優(yōu)質(zhì)假設(shè)能夠得到進(jìn)一步驗(yàn)證和優(yōu)化。最終,進(jìn)化智能體通過(guò)迭代改進(jìn)和合并不同的假設(shè),生成更為完善和合理的研究方案。這一系列過(guò)程不僅提高了假設(shè)生成的效率,還增強(qiáng)了假設(shè)的科學(xué)性和可驗(yàn)證性。
現(xiàn)有工作回顧與局限
在文獻(xiàn)中,已經(jīng)有許多關(guān)于LLM輔助科學(xué)研究和自動(dòng)化文獻(xiàn)綜述的探討。傳統(tǒng)的自動(dòng)化文獻(xiàn)綜述工具,如PaperQA2,能夠從海量文獻(xiàn)中提取關(guān)鍵信息,為研究人員提供有價(jià)值的參考。然而,這些工具往往僅限于信息提取和綜合,缺乏科學(xué)推理和假設(shè)生成的能力。而AI共科學(xué)家通過(guò)多智能體系統(tǒng)的協(xié)作,不僅能夠進(jìn)行文獻(xiàn)綜述,還能生成、評(píng)估和優(yōu)化研究假設(shè),填補(bǔ)了傳統(tǒng)工具的空白。
此外,還有一些相關(guān)系統(tǒng),如HypoGeniC和Coscientist,也嘗試?yán)肁I技術(shù)進(jìn)行科學(xué)研究輔助。HypoGeniC通過(guò)多臂賭博機(jī)方法迭代生成假設(shè),然而其評(píng)估主要依賴于回顧性數(shù)據(jù),難以驗(yàn)證假設(shè)的真正新穎性。Coscientist則專注于化學(xué)實(shí)驗(yàn)的自主執(zhí)行,雖然在化學(xué)研究中表現(xiàn)出色,但其應(yīng)用范圍較窄,且缺乏自我改進(jìn)和迭代優(yōu)化的能力。相比之下,AI共科學(xué)家不僅具備廣泛的適用性,還通過(guò)“生成、辯論、進(jìn)化”框架實(shí)現(xiàn)了自我改進(jìn),不斷提升假設(shè)生成的質(zhì)量。
AI共科學(xué)家在科學(xué)研究輔助方面展現(xiàn)出了巨大的潛力,通過(guò)多智能體系統(tǒng)的協(xié)作和前沿LLM的應(yīng)用,實(shí)現(xiàn)了科學(xué)方法的模擬和創(chuàng)新。盡管現(xiàn)有工作中仍存在一些局限,但AI共科學(xué)家通過(guò)不斷優(yōu)化和改進(jìn),正在逐步克服這些挑戰(zhàn),推動(dòng)科學(xué)發(fā)現(xiàn)的進(jìn)程。
系統(tǒng)架構(gòu)與設(shè)計(jì)原理
架構(gòu)總覽
AI共科學(xué)家的系統(tǒng)架構(gòu)設(shè)計(jì)旨在模擬科學(xué)家的思維過(guò)程,通過(guò)多智能體系統(tǒng)實(shí)現(xiàn)高效的假設(shè)生成、評(píng)估和優(yōu)化。這個(gè)系統(tǒng)由多個(gè)專用智能體構(gòu)成,包括生成智能體、反思智能體、排名智能體、接近智能體、進(jìn)化智能體和元審查智能體等。每個(gè)智能體負(fù)責(zé)特定的任務(wù),并通過(guò)異步任務(wù)執(zhí)行框架進(jìn)行協(xié)調(diào)。

圖1|AI聯(lián)合科學(xué)家系統(tǒng)設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證總結(jié)。(a) 在這里,我們說(shuō)明了人工智能聯(lián)合科學(xué)家多智能體系統(tǒng)的不同組成部分,以及它和科學(xué)家的交互范式。給定自然語(yǔ)言的研究目標(biāo),共同科學(xué)家會(huì)提出新的研究假設(shè)和建議。該系統(tǒng)采用專業(yè)代理——生成、反思、排名、進(jìn)化、鄰近性(評(píng)估相關(guān)性)、元審查(提供高級(jí)分析)——在錦標(biāo)賽框架內(nèi)不斷生成、辯論和發(fā)展研究假設(shè)。錦標(biāo)賽的反饋能夠?qū)崿F(xiàn)迭代改進(jìn),創(chuàng)造一個(gè)自我改進(jìn)的循環(huán),實(shí)現(xiàn)新穎和高質(zhì)量的輸出。聯(lián)合科學(xué)家利用網(wǎng)絡(luò)搜索和專門(mén)的人工智能模型等工具來(lái)提高生成的研究假設(shè)的基礎(chǔ)和質(zhì)量。科學(xué)家可以通過(guò)指定的用戶界面與聯(lián)合科學(xué)家進(jìn)行自然語(yǔ)言對(duì)話,以指定研究目標(biāo)、納入約束、提供反饋并提出新的探索方向。(b) 我們對(duì)三個(gè)具有不同復(fù)雜性的生物醫(yī)學(xué)重要主題中的共同科學(xué)家生成的假設(shè)進(jìn)行端到端驗(yàn)證--提出針對(duì)急性髓系白血病(AML)的新藥物再利用候選物(上圖),發(fā)現(xiàn)治療肝纖維化的新表觀遺傳靶點(diǎn)(中圖),并概括發(fā)現(xiàn)對(duì)抗微生物耐藥性至關(guān)重要的細(xì)菌基因轉(zhuǎn)移進(jìn)化的新機(jī)制(下圖)。聯(lián)合科學(xué)家對(duì)這三種情況的假設(shè)是外部的,通過(guò)體外實(shí)驗(yàn)室實(shí)驗(yàn)獨(dú)立驗(yàn)證,并在與這項(xiàng)工作同時(shí)進(jìn)行的單獨(dú)預(yù)印本中詳細(xì)說(shuō)明。在圖中,藍(lán)色表示專家科學(xué)家的輸入,紅色表示聯(lián)合科學(xué)家的代理或輸出。
異步任務(wù)執(zhí)行框架允許多個(gè)任務(wù)同時(shí)進(jìn)行,提高了系統(tǒng)的處理效率。上下文記憶機(jī)制則使系統(tǒng)能夠在長(zhǎng)時(shí)間范圍內(nèi)保持對(duì)任務(wù)狀態(tài)的記憶,從而實(shí)現(xiàn)迭代計(jì)算和科學(xué)推理。自然語(yǔ)言交互界面使科學(xué)家可以通過(guò)自然語(yǔ)言與系統(tǒng)互動(dòng),定義研究目標(biāo)并提供反饋。
研究目標(biāo)到研究計(jì)劃轉(zhuǎn)換流程
AI共科學(xué)家系統(tǒng)能夠?qū)⒖茖W(xué)家用自然語(yǔ)言描述的研究目標(biāo)解析為結(jié)構(gòu)化的研究計(jì)劃配置。首先,科學(xué)家通過(guò)自然語(yǔ)言界面輸入研究目標(biāo),系統(tǒng)利用其多模態(tài)和長(zhǎng)上下文處理能力解析目標(biāo),將其轉(zhuǎn)換為研究計(jì)劃配置文件。這一配置文件包括研究假設(shè)生成的偏好、屬性和約束條件。

圖2|AI聯(lián)合科學(xué)家多智能體架構(gòu)設(shè)計(jì)。聯(lián)合科學(xué)家接受用戶的自然語(yǔ)言研究目標(biāo),并將其解析為研究計(jì)劃配置。然后將此計(jì)劃分派給Supervisor代理,Supervisor代理評(píng)估此計(jì)劃,為每個(gè)專用代理分配權(quán)重和資源,并隨后根據(jù)這些權(quán)重將它們作為工作進(jìn)程排隊(duì)到任務(wù)隊(duì)列中。工作進(jìn)程執(zhí)行代理動(dòng)作隊(duì)列,系統(tǒng)最終聚合所有信息,為科學(xué)家制定詳細(xì)的假設(shè)和建議的研究概述。“人工智能聯(lián)合科學(xué)家專業(yè)代理”部分的紅色框表示各個(gè)代理,每個(gè)代理都有自己獨(dú)特的邏輯和角色。
藍(lán)色框表示循環(huán)中的科學(xué)家輸入和反饋。深灰色箭頭表示通過(guò)協(xié)同科學(xué)家系統(tǒng)的信息流,而紅色箭頭表示專業(yè)代理之間的信息反饋回路。
接下來(lái),監(jiān)督智能體根據(jù)配置文件創(chuàng)建任務(wù)隊(duì)列,并分配專用智能體執(zhí)行特定任務(wù)。任務(wù)隊(duì)列的構(gòu)建基于研究目標(biāo)的復(fù)雜性和優(yōu)先級(jí),由監(jiān)督智能體持續(xù)監(jiān)控和調(diào)整資源分配,確保任務(wù)高效完成。這一流程使得系統(tǒng)能夠靈活應(yīng)對(duì)不同的研究需求,生成高質(zhì)量的研究假設(shè)和方案。
專用智能體的詳細(xì)功能
生成智能體是研究過(guò)程的起點(diǎn),負(fù)責(zé)生成初始假設(shè)。它通過(guò)文獻(xiàn)搜索、模擬科學(xué)辯論和迭代假設(shè)生成等方法,提出新穎的研究方向。文獻(xiàn)搜索使智能體能夠從大量文獻(xiàn)中提取關(guān)鍵信息,生成新的研究假設(shè)。模擬科學(xué)辯論則利用自我批評(píng)和自我對(duì)弈技術(shù),通過(guò)多輪對(duì)話精煉假設(shè)。迭代假設(shè)生成通過(guò)識(shí)別可測(cè)試的中間假設(shè),逐步構(gòu)建完整的研究假設(shè)。
反思智能體在初步和深度評(píng)審階段發(fā)揮關(guān)鍵作用。初步評(píng)審快速篩選出錯(cuò)誤或不合適的假設(shè),深度評(píng)審?fù)ㄟ^(guò)檢索相關(guān)文獻(xiàn),驗(yàn)證假設(shè)的正確性、質(zhì)量和新穎性。模擬審查通過(guò)分解假設(shè)為基本假設(shè),并獨(dú)立驗(yàn)證每個(gè)假設(shè)的正確性,確保假設(shè)的科學(xué)性和合理性。
排名智能體通過(guò)基于Elo指標(biāo)的錦標(biāo)賽評(píng)比機(jī)制,對(duì)生成的假設(shè)進(jìn)行排序。通過(guò)模擬科學(xué)辯論進(jìn)行成對(duì)比較,排名智能體能夠消除排序偏差,優(yōu)先處理新穎且質(zhì)量高的假設(shè)。錦標(biāo)賽機(jī)制使得系統(tǒng)能夠不斷優(yōu)化假設(shè)生成的質(zhì)量。
接近智能體負(fù)責(zé)計(jì)算研究假設(shè)和提案之間的相似性,構(gòu)建接近圖表。通過(guò)聚類相似假設(shè)和去重,接近智能體支持排名智能體組織錦標(biāo)賽配對(duì),展示多樣化的研究方向。
進(jìn)化智能體通過(guò)多種方法不斷改進(jìn)現(xiàn)有假設(shè)。它通過(guò)基礎(chǔ)改進(jìn)識(shí)別假設(shè)弱點(diǎn),生成搜索查詢,檢索文獻(xiàn)并提出改進(jìn)建議。通過(guò)綜合現(xiàn)有假設(shè)、創(chuàng)建新假設(shè)和直接組合頂級(jí)假設(shè)的最佳方面,進(jìn)化智能體生成更為合理和完善的假設(shè)。
元審查智能體在反饋循環(huán)中發(fā)揮重要作用。它通過(guò)綜合所有審查見(jiàn)解,識(shí)別審查和辯論中的重復(fù)問(wèn)題和改進(jìn)機(jī)會(huì),優(yōu)化其他智能體的性能。元審查智能體還定期將頂級(jí)假設(shè)綜合成研究概述,提供未來(lái)研究路線圖,支持科學(xué)家進(jìn)一步探索新的研究方向。
實(shí)驗(yàn)設(shè)計(jì)與驗(yàn)證
自動(dòng)評(píng)估指標(biāo)與Elo評(píng)分機(jī)制
在評(píng)估AI共科學(xué)家的效果時(shí),GPQA(Generalized Programmatic Question Answering)基準(zhǔn)測(cè)試和Elo評(píng)分機(jī)制發(fā)揮了關(guān)鍵作用。GPQA數(shù)據(jù)集是由生物學(xué)、物理學(xué)和化學(xué)專家開(kāi)發(fā)的多選題問(wèn)答基準(zhǔn),包含了高難度的問(wèn)題。AI共科學(xué)家系統(tǒng)通過(guò)回答GPQA鉆石集中的問(wèn)題,將每個(gè)問(wèn)題作為研究目標(biāo)輸入系統(tǒng),并比較生成的假設(shè)與標(biāo)準(zhǔn)答案的正確性。為了確保Elo評(píng)分的客觀性,所有生成的響應(yīng)根據(jù)Elo評(píng)分被分成不同的評(píng)分區(qū)間,通過(guò)評(píng)估每個(gè)區(qū)間的平均準(zhǔn)確率,驗(yàn)證Elo評(píng)分與結(jié)果質(zhì)量之間的關(guān)聯(lián)性。

圖3|自動(dòng)評(píng)估Elo指標(biāo)與人工智能聯(lián)合科學(xué)家在GPQA上的表現(xiàn)的一致性。圖中的藍(lán)線顯示了根據(jù)Elo評(píng)級(jí)分組的聯(lián)合科學(xué)家反應(yīng)的平均準(zhǔn)確性。紅線表示對(duì)同一組GPQA問(wèn)題的相應(yīng)參考Gemini 2.0回答的平均準(zhǔn)確度,按Elo評(píng)級(jí)分組。請(qǐng)注意,Elo度量是自動(dòng)評(píng)估的,而不是基于地面實(shí)況。
Elo評(píng)分機(jī)制通過(guò)錦標(biāo)賽的形式對(duì)生成的假設(shè)進(jìn)行評(píng)估和排序。錦標(biāo)賽過(guò)程中,假設(shè)成對(duì)比較,進(jìn)行多輪科學(xué)辯論,確保消除排序偏差。低排名假設(shè)通過(guò)單輪比較篩選優(yōu)勝者。每次比較結(jié)束后,由排名智能體決定哪一個(gè)假設(shè)更好。這個(gè)過(guò)程中,排名智能體優(yōu)先處理新穎且質(zhì)量高的假設(shè)。通過(guò)錦標(biāo)賽評(píng)比和自我改進(jìn)反饋循環(huán),系統(tǒng)能夠不斷優(yōu)化假設(shè)生成的質(zhì)量,提高科學(xué)推理的準(zhǔn)確性和可靠性。

圖4|通過(guò)Elo自動(dòng)評(píng)估衡量的縮放測(cè)試時(shí)間計(jì)算對(duì)AI聯(lián)合科學(xué)家的影響。共同科學(xué)家的研究假設(shè)和建議被分為十個(gè)大小相等的時(shí)間桶,最后一個(gè)桶對(duì)應(yīng)于系統(tǒng)最近生成的結(jié)果。對(duì)于每個(gè)桶,我們確定了203個(gè)獨(dú)特研究目標(biāo)中前10個(gè)假設(shè)的最大個(gè)人Elo評(píng)級(jí)(“最佳Elo”)和平均Elo評(píng)級(jí)。由此產(chǎn)生的兩個(gè)指標(biāo)的性能上升趨勢(shì)表明,隨著測(cè)試時(shí)間計(jì)算的擴(kuò)展,聯(lián)合科學(xué)家的結(jié)果質(zhì)量有所提高。請(qǐng)注意,Elo度量是自動(dòng)評(píng)估的,而不是基于獨(dú)立的地面實(shí)況。

圖5 |人工智能聯(lián)合科學(xué)家與其他基線的比較,由Elo對(duì)15個(gè)具有挑戰(zhàn)性的專家策劃的研究目標(biāo)進(jìn)行自動(dòng)評(píng)估。人工智能聯(lián)合科學(xué)家的研究假設(shè)和建議被分為十個(gè)大小相等的時(shí)間桶,最后一個(gè)桶代表系統(tǒng)生成的最新結(jié)果。對(duì)于每個(gè)桶,我們計(jì)算了生物醫(yī)學(xué)專家策劃的15個(gè)具有挑戰(zhàn)性的研究目標(biāo)中前10個(gè)假設(shè)的最大個(gè)人Elo評(píng)級(jí)(“最佳Elo”)和平均Elo評(píng)級(jí)。然后將這些指標(biāo)與幾個(gè)基線的性能進(jìn)行比較:Gemini 2.0 Pro Experimental、Gemini 2.0 Flash Thinking Experimental 12-19、OpenAI o1、OpenAI o3 mini-high、DeepSeek R1以及專家策展人提供的“最佳猜測(cè)”假設(shè)。這些基線性能由彩色虛線表示。在這個(gè)專家策劃的研究目標(biāo)子集上,我們一直觀察到隨著測(cè)試時(shí)間計(jì)算的增加,性能呈上升趨勢(shì)。此外,根據(jù)Elo指標(biāo)衡量,該聯(lián)合科學(xué)家的表現(xiàn)明顯優(yōu)于人類專家和其他最先進(jìn)的LLM基線。值得注意的是,Elo指標(biāo)是自動(dòng)評(píng)估的,而不是基于獨(dú)立的地面真相。這種自動(dòng)評(píng)估指標(biāo)可能有利于具有不一定符合科學(xué)家偏好、質(zhì)量或準(zhǔn)確性的屬性的結(jié)果。

圖6 |人工智能通過(guò)基于Elo的自動(dòng)評(píng)估增強(qiáng)了與聯(lián)合科學(xué)家的專業(yè)知識(shí)。通過(guò)自我改進(jìn)過(guò)程,這位聯(lián)合科學(xué)家隨著時(shí)間的推移完善和增強(qiáng)了專家的“最佳猜測(cè)”解決方案,這是通過(guò)對(duì)15個(gè)精心策劃的研究目標(biāo)的子集進(jìn)行Elo評(píng)級(jí)來(lái)衡量的。值得注意的是,Elo度量是自動(dòng)評(píng)估的,而不是基于獨(dú)立的地面真相。
各生物醫(yī)學(xué)領(lǐng)域的端到端驗(yàn)證
在藥物再利用、新治療靶點(diǎn)發(fā)現(xiàn)和抗菌素耐藥性機(jī)制等生物醫(yī)學(xué)領(lǐng)域,AI共科學(xué)家展示了其強(qiáng)大的預(yù)測(cè)和驗(yàn)證能力。
藥物再利用
在急性髓系白血病(AML)領(lǐng)域,研究團(tuán)隊(duì)對(duì)共科學(xué)家生成的藥物再利用假設(shè)進(jìn)行了體外驗(yàn)證。科學(xué)家用自然語(yǔ)言描述研究目標(biāo),系統(tǒng)解析目標(biāo),生成具體的藥物再利用假設(shè)。隨后,專家對(duì)生成的候選藥物進(jìn)行評(píng)審,選擇有希望的再利用候選藥物進(jìn)行濕實(shí)驗(yàn)驗(yàn)證。體外實(shí)驗(yàn)結(jié)果顯示,共科學(xué)家提出的候選藥物如Binimetinib、Pacritinib和Cerivastatin,在AML細(xì)胞系中展現(xiàn)出抑制細(xì)胞活性的效果。特別是Binimetinib,在AML細(xì)胞系中顯示出低至7 nM的IC50,驗(yàn)證了共科學(xué)家預(yù)測(cè)的準(zhǔn)確性和臨床可行性。

圖7 |專家對(duì)AI聯(lián)合科學(xué)家和其他LLM基線的評(píng)估。左:在11個(gè)專家策劃的研究目標(biāo)中,對(duì)模型反應(yīng)的新穎性和影響的平均專家評(píng)分。數(shù)字越高,評(píng)級(jí)越高(1-5)。正確的AI聯(lián)合科學(xué)家、Gemini 2.0 Flash Thinking Experimental 12-19、Gemini 2.0Pro Experimental和OpenAI o1分別生成的11個(gè)專家策劃的研究目標(biāo)的平均專家偏好排名。數(shù)字越低,排名越高(1-4)。如圖5所示,人類專家的偏好似乎也與相對(duì)Elo評(píng)級(jí)相一致。同時(shí),值得注意的是,這些偏好和評(píng)級(jí)反映了主觀的專家評(píng)估,而不是客觀的事實(shí)。
新治療靶點(diǎn)發(fā)現(xiàn)
在肝纖維化的研究中,AI共科學(xué)家通過(guò)表觀遺傳靶點(diǎn)預(yù)測(cè),提出了新的治療方向。通過(guò)生成智能體的文獻(xiàn)搜索和假設(shè)生成,共科學(xué)家提出了三個(gè)新穎的表觀遺傳修飾靶點(diǎn),并根據(jù)臨床前證據(jù)篩選出可能的靶向藥物。研究團(tuán)隊(duì)在人體肝類器官系統(tǒng)中進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果顯示靶向其中兩個(gè)表觀遺傳修飾劑的藥物表現(xiàn)出顯著的抗纖維化活性,且不產(chǎn)生細(xì)胞毒性。這一研究為肝纖維化的治療提供了新的希望,驗(yàn)證了共科學(xué)家在發(fā)現(xiàn)新靶點(diǎn)方面的潛力。

圖8|AI聯(lián)合科學(xué)家和其他基線的LLM偏好排名自動(dòng)評(píng)估。AI聯(lián)合科學(xué)家、Gemini 2.0 Flash Thinking Experimental 12-19、Gemini 2.0Pro Experimental和OpenAI o1使用四個(gè)不同的LLM評(píng)估者生成的11個(gè)專家策劃的研究目標(biāo)的平均偏好排名:OpenAI o3-mini-2025-01-31(左上)、OpenAI o1-review-2024-09-12(右上)、Gemini 2.0mro Experimental(左下)和Gemini 2.0Flash Thinking Experimental 01-21(右下)。數(shù)字越低,排名越高。
抗菌素耐藥性機(jī)制
在抗菌素耐藥性的研究中,共科學(xué)家通過(guò)cf-PICI(形成衣殼的噬菌體誘導(dǎo)染色體島)研究,揭示了細(xì)菌進(jìn)化的新機(jī)制。研究團(tuán)隊(duì)提供了基本信息和相關(guān)研究文章,要求共科學(xué)家生成解釋cf-PICI在不同細(xì)菌種中存在的機(jī)制假設(shè)。共科學(xué)家獨(dú)立生成假設(shè),提出cf-PICI元素與不同噬菌體尾部相互作用,擴(kuò)展其宿主范圍。這一假設(shè)在獨(dú)立的實(shí)驗(yàn)研究中得到了驗(yàn)證,說(shuō)明共科學(xué)家能夠生成與科學(xué)家實(shí)驗(yàn)結(jié)果一致的科學(xué)假設(shè),展示了其在復(fù)雜生物醫(yī)學(xué)問(wèn)題上的研究能力。

圖9|臨床專家對(duì)美國(guó)國(guó)立衛(wèi)生研究院特定目標(biāo)頁(yè)面格式的聯(lián)合科學(xué)家生成的藥物再利用假設(shè)的評(píng)估。六位專家血液學(xué)家和腫瘤學(xué)家審查了78項(xiàng)藥物再利用研究提案,共同科學(xué)家將其格式化為NIH特定目標(biāo)頁(yè)面。評(píng)估遵循了修改后的美國(guó)國(guó)立衛(wèi)生研究院撥款提案評(píng)估量規(guī)。總體而言,腫瘤學(xué)家認(rèn)為人工智能聯(lián)合科學(xué)家的具體目標(biāo)提案在所有方面都是高質(zhì)量的。
安全性與倫理考量
安全與雙重用途風(fēng)險(xiǎn)
在科學(xué)研究中,AI技術(shù)的應(yīng)用帶來(lái)了諸多便利,但也不可避免地引發(fā)了安全與雙重用途風(fēng)險(xiǎn)的擔(dān)憂。科學(xué)突破有可能被利用于有害目的,特別是在生物醫(yī)學(xué)領(lǐng)域。這種風(fēng)險(xiǎn)不僅存在于意圖不良的個(gè)人和組織,還包括在研究過(guò)程中無(wú)意間產(chǎn)生的安全隱患。因此,確保科學(xué)研究的安全性和規(guī)范性至關(guān)重要。
為應(yīng)對(duì)這些風(fēng)險(xiǎn),系統(tǒng)采取了一系列安全保障措施。首先,初步紅隊(duì)測(cè)試是常用的方法之一,通過(guò)模擬潛在攻擊者的行為,識(shí)別系統(tǒng)的安全漏洞。安全評(píng)審也至關(guān)重要,評(píng)估系統(tǒng)在操作過(guò)程中的每一個(gè)環(huán)節(jié),確保其符合相關(guān)安全標(biāo)準(zhǔn)和倫理規(guī)范。持續(xù)監(jiān)控機(jī)制則通過(guò)實(shí)時(shí)檢測(cè)和記錄系統(tǒng)活動(dòng),及時(shí)發(fā)現(xiàn)和應(yīng)對(duì)潛在威脅,確保研究過(guò)程的安全性和透明度。
倫理風(fēng)險(xiǎn)與監(jiān)管框架
AI技術(shù)的快速發(fā)展也帶來(lái)了倫理風(fēng)險(xiǎn),包括研究倫理、社會(huì)影響、自動(dòng)化偏見(jiàn)以及對(duì)公眾知識(shí)的潛在操縱風(fēng)險(xiǎn)。在科學(xué)研究中,研究倫理始終是一個(gè)重要議題,確保研究過(guò)程不違反倫理規(guī)范和道德標(biāo)準(zhǔn)。同時(shí),AI系統(tǒng)在生成假設(shè)和推理過(guò)程中,可能會(huì)引入或放大現(xiàn)有的偏見(jiàn),進(jìn)而影響研究結(jié)果的公正性和準(zhǔn)確性。此外,自動(dòng)化系統(tǒng)的廣泛應(yīng)用可能會(huì)改變公眾對(duì)科學(xué)知識(shí)的獲取方式,甚至可能被用來(lái)操縱公眾認(rèn)知。
為應(yīng)對(duì)這些挑戰(zhàn),現(xiàn)有的倫理準(zhǔn)則和審查機(jī)制提供了重要的指導(dǎo)作用。許多研究機(jī)構(gòu)和學(xué)術(shù)團(tuán)體都制定了嚴(yán)格的倫理規(guī)范和審核程序,確保研究過(guò)程符合倫理標(biāo)準(zhǔn)。在未來(lái),隨著AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用,相關(guān)政策和監(jiān)管框架也需要不斷完善和更新,以應(yīng)對(duì)新的倫理挑戰(zhàn)和風(fēng)險(xiǎn)。
系統(tǒng)設(shè)計(jì)中的防護(hù)措施
在系統(tǒng)設(shè)計(jì)中,AI共科學(xué)家整合了多種防護(hù)措施,以確保研究過(guò)程的安全性和可靠性。首先,安全評(píng)審機(jī)制貫穿系統(tǒng)操作的各個(gè)環(huán)節(jié),確保每一步操作都符合安全標(biāo)準(zhǔn)。可解釋性是系統(tǒng)設(shè)計(jì)中的另一個(gè)重要方面,通過(guò)提供詳細(xì)的推理過(guò)程和決策依據(jù),使研究人員能夠了解系統(tǒng)的工作原理和生成結(jié)果的依據(jù),從而提高系統(tǒng)的透明度和可信度。
此外,日志記錄機(jī)制為系統(tǒng)操作提供了全面的審計(jì)和追蹤能力,確保每一個(gè)操作都被詳細(xì)記錄,便于后續(xù)審查和分析。受信任測(cè)試計(jì)劃通過(guò)邀請(qǐng)外部專家和研究人員對(duì)系統(tǒng)進(jìn)行測(cè)試和評(píng)估,收集反饋和建議,不斷改進(jìn)和優(yōu)化系統(tǒng)功能。這一機(jī)制不僅提高了系統(tǒng)的安全性和可靠性,還促進(jìn)了研究社區(qū)的廣泛參與和合作。
未來(lái)工作與展望
隨著AI共科學(xué)家在科學(xué)研究中展現(xiàn)出巨大的潛力,進(jìn)一步改進(jìn)和擴(kuò)展該系統(tǒng)的工作變得至關(guān)重要。以下是幾個(gè)關(guān)鍵方向,能夠顯著提升AI共科學(xué)家的功能和應(yīng)用效果。
首先,需要在文獻(xiàn)綜述、事實(shí)檢查和引用召回方面進(jìn)行直接改進(jìn)。通過(guò)加強(qiáng)這些機(jī)制,可以確保生成的研究假設(shè)基于最新和最全面的科學(xué)證據(jù)。此外,改進(jìn)生成輸出的連貫性將有助于減少科學(xué)家在審查假設(shè)時(shí)的負(fù)擔(dān),提高系統(tǒng)生成假設(shè)的整體質(zhì)量。
在擴(kuò)大評(píng)估與驗(yàn)證方面,開(kāi)發(fā)自動(dòng)化和客觀的評(píng)估指標(biāo)是未來(lái)的重要工作方向。通過(guò)引入自動(dòng)化文獻(xiàn)驗(yàn)證和模擬實(shí)驗(yàn),可以更準(zhǔn)確地評(píng)估系統(tǒng)生成假設(shè)的質(zhì)量和可行性。此外,需要進(jìn)行更大規(guī)模的跨學(xué)科專家評(píng)審,確保系統(tǒng)在不同科學(xué)領(lǐng)域的普遍適用性。針對(duì)從疾病機(jī)制到蛋白質(zhì)設(shè)計(jì)等多個(gè)層面的壓力測(cè)試,有助于全面評(píng)估和優(yōu)化系統(tǒng)性能,發(fā)現(xiàn)并解決潛在問(wèn)題。
功能與能力的提升也是未來(lái)工作的重點(diǎn)。引入強(qiáng)化學(xué)習(xí)能夠增強(qiáng)AI共科學(xué)家在假設(shè)排名、提案生成和進(jìn)化精煉方面的能力。通過(guò)不斷學(xué)習(xí)和優(yōu)化,系統(tǒng)可以生成更高質(zhì)量的研究假設(shè)。整合圖像、數(shù)據(jù)集及公共數(shù)據(jù)庫(kù)等多模態(tài)信息,將顯著提高系統(tǒng)生成假設(shè)的多樣性和深度。此外,與實(shí)驗(yàn)室自動(dòng)化系統(tǒng)對(duì)接,構(gòu)建驗(yàn)證閉環(huán),有助于實(shí)現(xiàn)科學(xué)研究的自動(dòng)化和閉環(huán)反饋,提高人機(jī)協(xié)作的效率。
前沿大語(yǔ)言模型(LLM)的更新將對(duì)AI共科學(xué)家的性能改進(jìn)產(chǎn)生深遠(yuǎn)影響。隨著LLM在推理、邏輯和科學(xué)文獻(xiàn)理解方面的能力不斷提升,AI共科學(xué)家的整體性能也將隨之提高。未來(lái),我們可以探索如何充分利用這些前沿LLM,優(yōu)化系統(tǒng)的假設(shè)生成和驗(yàn)證過(guò)程,實(shí)現(xiàn)藥物發(fā)現(xiàn)全流程的自動(dòng)化和智能化。
廣泛影響與應(yīng)用前景
孤兒藥與藥物再利用的應(yīng)用
孤兒藥在原始罕見(jiàn)病適應(yīng)癥中已有豐富的數(shù)據(jù)和安全性驗(yàn)證。然而,這些藥物往往只針對(duì)少數(shù)患者群體,如何將它們高效地?cái)U(kuò)展至其他疾病治療成為一個(gè)重要的研究方向。AI共科學(xué)家通過(guò)系統(tǒng)性地評(píng)估現(xiàn)有臨床數(shù)據(jù)、安全結(jié)果和機(jī)制洞察,能夠快速識(shí)別出孤兒藥在其他疾病中的潛在治療應(yīng)用。這種方法不僅能夠最大化現(xiàn)有藥物的利用率,還能提供一種快速響應(yīng)的方法,解決更多患者群體的醫(yī)療需求。
具體而言,AI共科學(xué)家可以綜合分析孤兒藥的藥理作用機(jī)制和不同疾病的病理機(jī)制,尋找兩者之間的潛在聯(lián)系。例如,通過(guò)分析孤兒藥在細(xì)胞信號(hào)傳導(dǎo)途徑上的作用,AI共科學(xué)家可以推測(cè)該藥物在其他具有相似病理機(jī)制的疾病中的潛在療效。通過(guò)這種系統(tǒng)性和數(shù)據(jù)驅(qū)動(dòng)的方法,共科學(xué)家不僅提高了藥物再利用的效率,還為臨床研究提供了新的方向。
對(duì)科研創(chuàng)造力的影響與自動(dòng)化偏見(jiàn)
在AI技術(shù)廣泛應(yīng)用的背景下,過(guò)度依賴AI生成的建議可能會(huì)帶來(lái)科研思想的同質(zhì)化問(wèn)題。自動(dòng)化系統(tǒng)在生成假設(shè)時(shí),難免會(huì)受到訓(xùn)練數(shù)據(jù)和算法的限制,導(dǎo)致生成的假設(shè)趨向于已有知識(shí)體系中的常規(guī)路徑。為了避免這種同質(zhì)化現(xiàn)象,科研工作者需要在利用AI技術(shù)的同時(shí),保持批判性思維和創(chuàng)造力,主動(dòng)探索新的研究方向。
AI共科學(xué)家的設(shè)計(jì)初衷是作為科學(xué)家的助手,而不是替代者。通過(guò)提供多樣化的假設(shè)和建議,AI共科學(xué)家能夠激發(fā)科研人員的靈感,拓展他們的研究視野。然而,科研人員在接受AI建議時(shí),需要進(jìn)行獨(dú)立的批判性評(píng)估,避免盲目依賴。同時(shí),科研人員可以利用AI共科學(xué)家的強(qiáng)大分析能力,對(duì)非傳統(tǒng)和跨學(xué)科的假設(shè)進(jìn)行驗(yàn)證,進(jìn)一步推動(dòng)科研的多樣性和創(chuàng)新。
AI在科學(xué)發(fā)現(xiàn)和公平性推進(jìn)中的角色
AI技術(shù)的民主化潛力在于它能夠降低科學(xué)信息的獲取門(mén)檻,讓更多的科研人員和機(jī)構(gòu)能夠平等地參與科學(xué)發(fā)現(xiàn)。AI共科學(xué)家通過(guò)自動(dòng)化的數(shù)據(jù)分析和假設(shè)生成,為資源有限的研究機(jī)構(gòu)提供了強(qiáng)大的技術(shù)支持,推動(dòng)了歷史上被忽視領(lǐng)域的突破性研究。
例如,在一些資源匱乏的發(fā)展中國(guó)家,科研人員往往缺乏足夠的資金和技術(shù)手段來(lái)進(jìn)行高水平的科學(xué)研究。通過(guò)引入AI共科學(xué)家,這些科研人員能夠利用AI技術(shù)進(jìn)行高效的文獻(xiàn)綜述和假設(shè)生成,顯著提高研究效率和成果質(zhì)量。AI共科學(xué)家作為一種加速器和激勵(lì)器,不僅促進(jìn)了科學(xué)研究的公平性,也為全球科研社區(qū)帶來(lái)了新的活力。
總體而言,AI共科學(xué)家在科學(xué)研究中的廣泛影響和應(yīng)用前景不僅體現(xiàn)在提高研究效率和創(chuàng)新能力上,還在于推動(dòng)科學(xué)發(fā)現(xiàn)的公平性和民主化。通過(guò)不斷的技術(shù)優(yōu)化和應(yīng)用擴(kuò)展,AI共科學(xué)家將為科學(xué)進(jìn)步和人類社會(huì)的發(fā)展貢獻(xiàn)更多的智慧和力量。(END)
參考資料:https://arxiv.org/pdf/2502.18864
本文轉(zhuǎn)載自 ??獨(dú)角噬元獸??,作者: FlerkenS

















