西湖大學打造了一個AI科學家,突破人類SOTA,還能自己發論文
西湖大學用AI科學家,兩周完成了人類三年的科研量。


這個科學家,是一個名叫DeepScientist的AI系統,自己搗鼓出了5000多個科學想法,動手驗證了其中1100個,最后在三個前沿AI任務上,把人類科學家辛辛苦苦創造的SOTA紀錄給刷新了。
西湖大學文本智能實驗室(WestlakeNLP)發了篇論文,把這個能搞自主探索的AI科學家介紹給了全世界。

AI搞科研的歷史
AI搞科研的想法由來已久,但一路走來其實挺不容易的。
最早的那些系統,更像是工程師的輔助工具,在已經劃好的圈圈里干活。
比如有些AI專門用來復現別人的論文,像PaperBench;有些是解決機器學習工程里的早期問題,像Agent Laboratory。還有AlphaTensor這種,靠海量的試錯來優化代碼性能。它們都很厲害,但都在一個既定的科學范式里做優化,從來沒想過去質疑這個范式本身對不對。
后來,又誕生了各種科學家專用的AI工具。
CycleResearcher幫你寫論文,DeepReview幫你審稿,co-scientists幫你頭腦風暴產生假設。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學習、調整方向這種最關鍵的活兒,還得人來干。
在這些專用工具的基礎上,有人開始琢磨,能不能把整個流程串起來,搞一個全自動的、端到端的AI科學家。
開創性的工作,比如AI Scientist系統,確實證明了AI能跑通整個研究循環,也能發現點新東西。但它們有個普遍的問題,就是探索策略很迷茫,沒有一個明確的、扎根于領域重大挑戰的科學目標。它們可能會發現一些東西,但這些發現看起來沒啥實際的科學價值。
DeepScientist的出現,顯得如此與眾不同。
它是第一個能用一個閉環、迭代的流程,發現超越人類最先進方法的自動化科研系統。它的探索不是瞎蒙,而是有目標、有洞察的。它會先去分析現有的人類SOTA方法到底有什么公認的短板,然后通過故障歸因來確保自己提出的新想法既新穎,又有科學意義。
AI科學家干活的方式
DeepScientist把科學發現這件事,建模成了一個優化問題。
想象一個巨大無比、什么都可能有的空間,里面包含了所有可能的研究方法。你的目標,就是在這個空間里找到那個最牛的方法,它能帶給你最大的科學價值。這個價值由一個黑盒函數決定。
問題是,在前沿科學領域,驗證任何一個想法的成本都高得嚇人。你每試一個想法,就相當于跑一個完整的研究周期,寫代碼、做實驗、分析結果,動不動就要消耗掉海量的計算資源。比如在前沿大語言模型領域,評估一次可能就要消耗10的16次方FLOPs的算力。這種情況下,想靠暴力搜索或者隨機亂試,是不可能的。
DeepScientist想了個聰明的辦法,它設計了一個分層的、三階段的探索循環。

這個循環的核心是一個多代理系統,它有一個開放的知識庫和一個不斷積累的“發現記憶”(Findings Memory)。這個記憶庫里,存著人類最前沿的知識(比如論文和代碼),也存著系統自己過去所有的發現。系統會用這些記憶來指導下一步的探索。
整個過程就像一個漏斗,只有那些真正有潛力的想法,才會被一層層篩選,進入到更昂貴的評估階段。這樣就能確保寶貴的計算資源,被用在刀刃上。
第一階段:出主意(Strategize & Hypothesize)。
每個研究周期開始,系統都會先翻一遍自己的記憶庫。這個庫里有成千上萬條記錄,大部分都是未經證實的“想法發現”(Idea Findings)。
系統會先分析現有知識的局限性,然后頭腦風暴,生成一大堆新的假設。接著,一個扮演“審稿人”角色的LLM代理,會來給這些新想法打分。它會從效用、質量和探索價值三個維度,給每個想法評一個0到100的整數分。這些新想法和它們的評分,就成了記憶庫里的新記錄。
第二階段:動手試(Implement & Verify)。
這么多想法,到底該先驗證哪一個?
系統會用一個叫做“上置信界”(UCB)的經典算法來做決策。這個算法很聰明,它會平衡兩個目標:一是利用那些看起來分數很高的、有希望成功的想法(exploitation),二是探索那些雖然分數不高,但不確定性很大、有可能帶來驚喜的想法(exploration)。
得分最高的那個想法會被選中,進入“實施發現”(Implementation Finding)階段。然后,一個編碼代理就會出馬,在一個沙盒環境里開始寫代碼、做實驗。這個代理權限很大,可以讀取整個代碼庫,還能上網查資料。它的目標,就是在現有SOTA方法的基礎上,把新想法實現出來。實驗跑完,結果和日志會更新到記憶庫里,形成一個學習的閉環。
第三階段:分析和寫報告(Analyze & Report)。
只有當一個想法被成功驗證,并且超越了基線,才會觸發這最后一步。
一旦發生這種情況,這個發現就會被提升為“進展發現”(Progress Finding)。然后,一系列專門的分析代理會上場,它們會設計并執行更深入的分析實驗,比如消融研究、在新的數據集上測試等等。
最后,一個合成代理會把所有的實驗結果、分析洞察,整合成一篇邏輯連貫、可復現的研究論文。這篇由AI自己寫出的論文,會成為系統知識庫里一條閃亮的、經過深度驗證的新記錄,影響未來所有的決策。
AI科學家的真本事
研究團隊選了三個不同方向的前沿AI任務:
- 代理失敗歸因(Agent Failure Attribution):在一個由多個LLM代理組成的系統里,如果任務失敗了,到底是哪個代理、在什么時候犯了錯?
- LLM推理加速(LLM Inference Acceleration):想辦法讓LLM跑得更快、延遲更低。
- AI文本檢測(AI Text Detection):判斷一段文本是人寫的,還是AI生成的。

三個任務都是2024年和2025年剛發表的SOTA方法,讓DeepScientist去挑戰。他們準備了兩臺服務器,每臺都配了8個英偉達H800 GPU。
核心邏輯用的是谷歌的Gemini-2.5-Pro模型,代碼生成則用了Anthropic的Claude-4-Opus模型。還有三名人類專家在旁邊盯著,主要是為了驗證輸出結果,過濾掉AI的“幻覺”。
在代理失敗歸因任務上,DeepScientist分析后認為,這種方法缺少一種關鍵能力,就是反事實推理。你得能推斷出“如果當時那么做,結果會不會不一樣”,才能真正找到問題根源。
經過一番試錯,DeepScientist提出了一個叫A2P的新方法。
A2P是“Abduction-Action-Prediction”的縮寫,它的核心創新在于,把“代理失敗歸因”從簡單的模式識別,升級到了因果推理。它分三步走:首先,通過溯因推理(Abduction)找到代理行為背后的根本原因;然后,定義一個最小化的糾正行動(Action);最后,預測(Prediction)一下這個糾正行動如果被執行,會不會真的解決問題。
在LLM推理加速任務上,DeepScientist也走了不少彎路。比如,它一度嘗試用卡爾曼濾波器來動態調整鄰接矩陣,因為它覺得原始方法缺少記憶功能。雖然大部分嘗試都失敗了,但最終,一個叫ACRA的方法成功了。ACRA通過識別穩定的后綴模式,給解碼過程植入了一種長期記憶,把吞吐量從人類SOTA的190.25 tokens/s,提升到了193.90 tokens/s。
在文本檢測任務上,DeepScientist展現了驚人的持續進化能力。在短短兩周內,它接連搞出了三種越來越牛的方法:T-Detect、TDT和PA-Detect。
一開始,它用T-Detect修復了基線方法在統計上的一個缺陷。然后,它思路一轉,把文本看作一種信號,開始用小波分析和相位一致性分析來定位文本中的異常。這個思路上的轉變,揭示了AI生成文本的一個重要特性,叫“非平穩性”,解決了以前方法會因為平均化而丟失局部證據的問題。
最終的PA-Detect方法,在RAID這個最大的AI文本檢測基準數據集上,建立了新的SOTA紀錄,AUROC(受試者工作特征曲線下面積)提高了7.9%,同時推理速度還快了一倍。

AI寫論文也是能手
DeepScientist自己寫了5篇論文。為了評估這些論文的質量,研究團隊搞了個“雙重評審”。
首先,他們用一個叫DeepReviewer的AI審稿人,把DeepScientist的論文和其他AI科學家系統公開發表的28篇論文放在一起進行“盲審”。
結果,DeepScientist是唯一一個論文接受率達到60%的AI系統。

當然,AI評AI可能不太靠譜。所以他們又組建了一個人類專家委員會,里面有兩位ICLR(國際學習表征會議)的審稿人和一位ICLR的領域主席。
人類專家的評價高度一致:DeepScientist在創新性上表現突出。每篇論文的核心想法,都被稱贊具有真正的新穎性和科學貢獻。這恰恰是人類搞科研時最難、也最關鍵的一步。

從審稿分數來看,DeepScientist產出的論文平均分是5.00,跟ICLR 2025所有提交論文的平均分(5.08)非常接近,其中有兩篇甚至拿到了5.67的高分。
成功的背后是無數次的失敗
分析DeepScientist的實驗日志,能看到一幅壯觀的“試錯”景象。
即使是執行起來比較快的任務,要取得一點點進展,也需要成百上千次的試驗。整個探索過程就像一個巨大的漏斗。在三個任務中,系統一共生成了超過5000個想法,但只有大約1100個被認為值得動手一試,最終,只有21個想法帶來了真正的科學進展。
整體成功率只有1.9%。如果沒有那個聰明的想法篩選機制,成功率幾乎是零。這說明,前沿科學的突破本來就是小概率事件,而智能化的過濾至關重要。
失敗的原因也很有趣。人類專家分析了失敗的試驗,發現大約60%是代碼實現出了bug,剩下的40%里,大多數是想法本身不行,要么沒效果,要么還不如原來的方法。
這只是個開始
這樣一個強大的系統,也帶來了深刻的倫理問題。
最大的風險就是系統可能被壞人用來加速有害領域的研究,比如開發新型病毒。為了評估這個風險,團隊專門搞了一次“紅隊演練”,讓系統去研究怎么生成計算機病毒。
結果,所有參與測試的底層大模型,包括GPT-5、Gemini-2.5-Pro和Claude-4.1-Opus,都表現出了強大的安全對齊,它們識別出這是個非法和有害的任務,然后自主終止了研究。這說明,基礎模型的安全協議提供了一道關鍵的防線。
另一個擔憂是對學術生態的沖擊。如果任由這種系統自動生成大量論文,很可能導致學術界充斥著大量看似可信、實則未經檢驗的垃圾。
為了防止這種情況,團隊做出了一個重要的決定:他們會開源驅動科學發現的核心組件,因為這能加速整個社區的進步;但他們不會開源最后那個“分析與報告”的模塊。這個決定就是為了防止有人用它來自動刷論文,從而保護學術記錄的嚴肅性和完整性。
那1-5%的成功率,其實真實地反映了前沿科學的殘酷現實——突破,本來就極其罕見。
未來,人類研究者的角色可能會發生轉變,從繁瑣的動手實驗,轉變為更高層次的認知任務。





























