西湖大學打造了一個AI科學家，突破人類SOTA，還能自己發論文

2025-10-11 09:15:57

這個科學家，是一個名叫DeepScientist的AI系統，自己搗鼓出了5000多個科學想法，動手驗證了其中1100個，最后在三個前沿AI任務上，把人類科學家辛辛苦苦創造的SOTA紀錄給刷新了。

西湖大學用AI科學家，兩周完成了人類三年的科研量。

西湖大學文本智能實驗室（WestlakeNLP）發了篇論文，把這個能搞自主探索的AI科學家介紹給了全世界。

AI搞科研的歷史

AI搞科研的想法由來已久，但一路走來其實挺不容易的。

最早的那些系統，更像是工程師的輔助工具，在已經劃好的圈圈里干活。

比如有些AI專門用來復現別人的論文，像PaperBench；有些是解決機器學習工程里的早期問題，像Agent Laboratory。還有AlphaTensor這種，靠海量的試錯來優化代碼性能。它們都很厲害，但都在一個既定的科學范式里做優化，從來沒想過去質疑這個范式本身對不對。

后來，又誕生了各種科學家專用的AI工具。

CycleResearcher幫你寫論文，DeepReview幫你審稿，co-scientists幫你頭腦風暴產生假設。但這些工具都只解決科研流程里一小塊孤立的問題。從失敗中學習、調整方向這種最關鍵的活兒，還得人來干。

在這些專用工具的基礎上，有人開始琢磨，能不能把整個流程串起來，搞一個全自動的、端到端的AI科學家。

開創性的工作，比如AI Scientist系統，確實證明了AI能跑通整個研究循環，也能發現點新東西。但它們有個普遍的問題，就是探索策略很迷茫，沒有一個明確的、扎根于領域重大挑戰的科學目標。它們可能會發現一些東西，但這些發現看起來沒啥實際的科學價值。

DeepScientist的出現，顯得如此與眾不同。

它是第一個能用一個閉環、迭代的流程，發現超越人類最先進方法的自動化科研系統。它的探索不是瞎蒙，而是有目標、有洞察的。它會先去分析現有的人類SOTA方法到底有什么公認的短板，然后通過故障歸因來確保自己提出的新想法既新穎，又有科學意義。

AI科學家干活的方式

DeepScientist把科學發現這件事，建模成了一個優化問題。

想象一個巨大無比、什么都可能有的空間，里面包含了所有可能的研究方法。你的目標，就是在這個空間里找到那個最牛的方法，它能帶給你最大的科學價值。這個價值由一個黑盒函數決定。

問題是，在前沿科學領域，驗證任何一個想法的成本都高得嚇人。你每試一個想法，就相當于跑一個完整的研究周期，寫代碼、做實驗、分析結果，動不動就要消耗掉海量的計算資源。比如在前沿大語言模型領域，評估一次可能就要消耗10的16次方FLOPs的算力。這種情況下，想靠暴力搜索或者隨機亂試，是不可能的。

DeepScientist想了個聰明的辦法，它設計了一個分層的、三階段的探索循環。

這個循環的核心是一個多代理系統，它有一個開放的知識庫和一個不斷積累的“發現記憶”（Findings Memory）。這個記憶庫里，存著人類最前沿的知識（比如論文和代碼），也存著系統自己過去所有的發現。系統會用這些記憶來指導下一步的探索。

整個過程就像一個漏斗，只有那些真正有潛力的想法，才會被一層層篩選，進入到更昂貴的評估階段。這樣就能確保寶貴的計算資源，被用在刀刃上。

第一階段：出主意（Strategize & Hypothesize）。

每個研究周期開始，系統都會先翻一遍自己的記憶庫。這個庫里有成千上萬條記錄，大部分都是未經證實的“想法發現”（Idea Findings）。

系統會先分析現有知識的局限性，然后頭腦風暴，生成一大堆新的假設。接著，一個扮演“審稿人”角色的LLM代理，會來給這些新想法打分。它會從效用、質量和探索價值三個維度，給每個想法評一個0到100的整數分。這些新想法和它們的評分，就成了記憶庫里的新記錄。

第二階段：動手試（Implement & Verify）。

這么多想法，到底該先驗證哪一個？

系統會用一個叫做“上置信界”（UCB）的經典算法來做決策。這個算法很聰明，它會平衡兩個目標：一是利用那些看起來分數很高的、有希望成功的想法（exploitation），二是探索那些雖然分數不高，但不確定性很大、有可能帶來驚喜的想法（exploration）。

得分最高的那個想法會被選中，進入“實施發現”（Implementation Finding）階段。然后，一個編碼代理就會出馬，在一個沙盒環境里開始寫代碼、做實驗。這個代理權限很大，可以讀取整個代碼庫，還能上網查資料。它的目標，就是在現有SOTA方法的基礎上，把新想法實現出來。實驗跑完，結果和日志會更新到記憶庫里，形成一個學習的閉環。

第三階段：分析和寫報告（Analyze & Report）。

只有當一個想法被成功驗證，并且超越了基線，才會觸發這最后一步。

一旦發生這種情況，這個發現就會被提升為“進展發現”（Progress Finding）。然后，一系列專門的分析代理會上場，它們會設計并執行更深入的分析實驗，比如消融研究、在新的數據集上測試等等。

最后，一個合成代理會把所有的實驗結果、分析洞察，整合成一篇邏輯連貫、可復現的研究論文。這篇由AI自己寫出的論文，會成為系統知識庫里一條閃亮的、經過深度驗證的新記錄，影響未來所有的決策。

AI科學家的真本事

研究團隊選了三個不同方向的前沿AI任務：

代理失敗歸因（Agent Failure Attribution）：在一個由多個LLM代理組成的系統里，如果任務失敗了，到底是哪個代理、在什么時候犯了錯？
LLM推理加速（LLM Inference Acceleration）：想辦法讓LLM跑得更快、延遲更低。
AI文本檢測（AI Text Detection）：判斷一段文本是人寫的，還是AI生成的。

三個任務都是2024年和2025年剛發表的SOTA方法，讓DeepScientist去挑戰。他們準備了兩臺服務器，每臺都配了8個英偉達H800 GPU。

核心邏輯用的是谷歌的Gemini-2.5-Pro模型，代碼生成則用了Anthropic的Claude-4-Opus模型。還有三名人類專家在旁邊盯著，主要是為了驗證輸出結果，過濾掉AI的“幻覺”。

在代理失敗歸因任務上，DeepScientist分析后認為，這種方法缺少一種關鍵能力，就是反事實推理。你得能推斷出“如果當時那么做，結果會不會不一樣”，才能真正找到問題根源。

經過一番試錯，DeepScientist提出了一個叫A2P的新方法。

A2P是“Abduction-Action-Prediction”的縮寫，它的核心創新在于，把“代理失敗歸因”從簡單的模式識別，升級到了因果推理。它分三步走：首先，通過溯因推理（Abduction）找到代理行為背后的根本原因；然后，定義一個最小化的糾正行動（Action）；最后，預測（Prediction）一下這個糾正行動如果被執行，會不會真的解決問題。

在LLM推理加速任務上，DeepScientist也走了不少彎路。比如，它一度嘗試用卡爾曼濾波器來動態調整鄰接矩陣，因為它覺得原始方法缺少記憶功能。雖然大部分嘗試都失敗了，但最終，一個叫ACRA的方法成功了。ACRA通過識別穩定的后綴模式，給解碼過程植入了一種長期記憶，把吞吐量從人類SOTA的190.25 tokens/s，提升到了193.90 tokens/s。

在文本檢測任務上，DeepScientist展現了驚人的持續進化能力。在短短兩周內，它接連搞出了三種越來越牛的方法：T-Detect、TDT和PA-Detect。

一開始，它用T-Detect修復了基線方法在統計上的一個缺陷。然后，它思路一轉，把文本看作一種信號，開始用小波分析和相位一致性分析來定位文本中的異常。這個思路上的轉變，揭示了AI生成文本的一個重要特性，叫“非平穩性”，解決了以前方法會因為平均化而丟失局部證據的問題。

最終的PA-Detect方法，在RAID這個最大的AI文本檢測基準數據集上，建立了新的SOTA紀錄，AUROC（受試者工作特征曲線下面積）提高了7.9%，同時推理速度還快了一倍。

AI寫論文也是能手

DeepScientist自己寫了5篇論文。為了評估這些論文的質量，研究團隊搞了個“雙重評審”。

首先，他們用一個叫DeepReviewer的AI審稿人，把DeepScientist的論文和其他AI科學家系統公開發表的28篇論文放在一起進行“盲審”。

結果，DeepScientist是唯一一個論文接受率達到60%的AI系統。

當然，AI評AI可能不太靠譜。所以他們又組建了一個人類專家委員會，里面有兩位ICLR（國際學習表征會議）的審稿人和一位ICLR的領域主席。

人類專家的評價高度一致：DeepScientist在創新性上表現突出。每篇論文的核心想法，都被稱贊具有真正的新穎性和科學貢獻。這恰恰是人類搞科研時最難、也最關鍵的一步。

從審稿分數來看，DeepScientist產出的論文平均分是5.00，跟ICLR 2025所有提交論文的平均分（5.08）非常接近，其中有兩篇甚至拿到了5.67的高分。

成功的背后是無數次的失敗

分析DeepScientist的實驗日志，能看到一幅壯觀的“試錯”景象。

即使是執行起來比較快的任務，要取得一點點進展，也需要成百上千次的試驗。整個探索過程就像一個巨大的漏斗。在三個任務中，系統一共生成了超過5000個想法，但只有大約1100個被認為值得動手一試，最終，只有21個想法帶來了真正的科學進展。

整體成功率只有1.9%。如果沒有那個聰明的想法篩選機制，成功率幾乎是零。這說明，前沿科學的突破本來就是小概率事件，而智能化的過濾至關重要。

失敗的原因也很有趣。人類專家分析了失敗的試驗，發現大約60%是代碼實現出了bug，剩下的40%里，大多數是想法本身不行，要么沒效果，要么還不如原來的方法。

這只是個開始

這樣一個強大的系統，也帶來了深刻的倫理問題。

最大的風險就是系統可能被壞人用來加速有害領域的研究，比如開發新型病毒。為了評估這個風險，團隊專門搞了一次“紅隊演練”，讓系統去研究怎么生成計算機病毒。

結果，所有參與測試的底層大模型，包括GPT-5、Gemini-2.5-Pro和Claude-4.1-Opus，都表現出了強大的安全對齊，它們識別出這是個非法和有害的任務，然后自主終止了研究。這說明，基礎模型的安全協議提供了一道關鍵的防線。

另一個擔憂是對學術生態的沖擊。如果任由這種系統自動生成大量論文，很可能導致學術界充斥著大量看似可信、實則未經檢驗的垃圾。

為了防止這種情況，團隊做出了一個重要的決定：他們會開源驅動科學發現的核心組件，因為這能加速整個社區的進步；但他們不會開源最后那個“分析與報告”的模塊。這個決定就是為了防止有人用它來自動刷論文，從而保護學術記錄的嚴肅性和完整性。

那1-5%的成功率，其實真實地反映了前沿科學的殘酷現實——突破，本來就極其罕見。

未來，人類研究者的角色可能會發生轉變，從繁瑣的動手實驗，轉變為更高層次的認知任務。

責任編輯：張燕妮來源： AIGC開放社區

AI 科學家模型