AI 科學家來了?這篇論文說:能做研究,但風險不小
當 AI 開始自己讀論文、想點子、寫代碼、跑實驗、寫論文,學術界會發生什么?最近,東京大學的研究團隊在 arXiv 上發布了一篇特別的論文——不僅展示了他們開發的 Jr. AI Scientist(初級 AI 科學家)系統,更難得的是,同步披露了開發過程中遇到的各種風險和失敗案例。
圖片
從新手研究生的工作流程說起:論文提出了一個樸實的想法:
當學生第一次加入研究實驗室時,一個常見且有意義的過程是:導師分配一篇關鍵論文,學生分析其局限性,提出改進假設,在基線代碼上實現想法,通過徹底的實驗驗證假設,最后撰寫一篇總結結果的論文。
這就是 Jr. AI Scientist 的設計思路——不追求完全自動化的宏大目標,而是模擬一個新手研究生的工作流程。
圖片
它能做什么?:給它一篇基線論文和對應的代碼,Jr. AI Scientist 會:
1.分析論文的局限性
2.提出改進假設
3.在多文件復雜代碼庫上實現想法(這是之前系統做不到的)
4.進行嚴格的實驗驗證
5.撰寫包含結果的論文
與之前假設完全自動化或只能操作小規模代碼的方法不同,Jr. AI Scientist 遵循明確定義的研究工作流程,利用現代編碼agent處理復雜的多文件實現,從而產生科學上有價值的貢獻。
圖片
評審分數確實更高了:研究團隊用了三種方式評估系統:
1.AI 評審員自動評估(DeepReviewer)
2.作者自己的評估
3.提交到真實學術會議(Agents4Science)
圖片
確實,Jr. AI Scientist 生成的論文獲得了比現有全自動系統更高的評審分數。但故事到這里才剛剛開始。
Agents4Science 說:拒稿:Jr. AI Scientist 生成的論文被提交到了 Agents4Science——一個由斯坦福大學和 Together AI 聯合組織的特殊會議,AI 既是作者也是評審員。
評審員(基于 GPT-5、Gemini 2.5 和 Claude Sonnet 4)給出了四個主要弱點:
弱點1:相比基線改進有限:論文坦承:
這個評論是有效的。雖然 Jr. AI Scientist 獲得了比基線更高的分數,但性能差距不足以聲稱有實質性改進。要解決這個局限,需要增加實驗試驗次數并探索更創新的搜索策略。
弱點2:新穎性一般,貢獻漸進:論文承認:
這個觀察也是合理的。由于 Jr. AI Scientist 被設計為在給定基線上構建,一定程度的漸進式進展是不可避免的。實現更創新的想法可能需要在想法生成階段加入人類干預。
弱點3:實驗不足,缺乏與其他方法的比較:論文同意:
僅限于與基線比較是不夠的。然而,擴展比較方法需要適當選擇比較方法并準確復現它們,這超出了當前自主 AI 科學家的水平。因此,這部分也需要人類干預。
弱點4:理論論證淺薄:論文承認:
這個評論是公平的。Jr. AI Scientist 遵循實驗性的、性能驅動的設計,反復編輯和改進代碼直到超過基線。因此,它不包含理論驗證某個特定修改為什么有效的機制。結果,一些成功的解決方案可能只是偶然發現的,其有效性可能無法泛化到其他數據集。
最終結果:由于這些原因,論文的提交被 Agents4Science 會議拒絕了。然而,這個場所接受的大多數論文都涉及人類干預,所以拒絕不一定表明論文AI科學家的能力很低。
作者自己的評估更扎心:研究團隊沒有止步于外部評審,他們自己仔細審查了生成的論文,逐字逐句對照實際代碼和實驗結果。論文強調:評估原始、未編輯的輸出對于準確理解 AI 科學家系統的當前局限性至關重要。這些論文都沒有包含對不存在作品的引用,也沒有開發無效的方法,比如測試數據泄露的方法。
有如下四個問題
問題1:頻繁的不相關引用
論文發現這些論文中有一些不相關的引用。這個問題出現在添加基線論文中不包含的新 BibTeX 條目時。
問題2:模糊的方法描述
論文發現雖然方法描述總體上是準確的,但仍然包含模糊之處。例如,在 LoCoOp 擴展論文中,第156行附近出現的參數沒有明確解釋,使得難以完全理解該方法。這是因為編碼agent在實驗階段的第2階段進行了大量修改,增加了代碼復雜性。這表明,將實驗代碼準確轉換為忠實的方法論描述仍然是一個開放挑戰。
問題3:對圖表結果的誤讀
這些論文包含對圖表結果的過度解釋,做出看似合理但沒有支撐的聲稱。例如,在 Min-K%++ 擴展論文(L177)和 LoCoOp 擴展論文(L160–162)中,它們報告了從圖表中看不出來的發現。這突出表明,精確的結果解釋對當前 AI 科學家系統來說仍然很困難。
問題4:描述了從未進行過的輔助實驗
這是最嚴重的問題:
論文發現了幾個案例,這些論文描述了從未實際進行過的輔助實驗,例如在 LoCoOp 擴展論文(第183–184行)和 GL-MCM 擴展論文(第208–213行)。即使寫作agent被明確指示不要包含不存在的實驗結果,這個問題仍然發生。
這個問題特別棘手,因為幻覺不會出現在容易注意到的主要結果中,而是經常出現在消融研究或分析等部分。因此,即使是人類評審員也可能不會注意到它們,除非他們仔細檢查草稿。這些案例說明,幻覺風險在當前系統中仍然是固有的。
開發過程中的風險:更多坑:論文專門用了一個章節(第7節)詳細報告開發過程中遇到的各種風險。研究團隊說:
分享這些風險對于防止過度依賴這些系統以及促進研究社區對 AI 科學家的深入理解至關重要。
風險1:找到一個成功的想法計算成本極高
論文的目標是為每篇基線論文生成一個成功的想法。為此,論文生成了大約十個想法并進行了評估。一些通過人工審查被過濾掉,其他的沒有超過基線。最終,只有一個想法被證明是成功的。
論文引用了另一項研究的數據:
并發工作 DeepScientist 進行了全面的大規模研究。他們報告說,在生成的大約 5,000 個獨特科學想法中,只有 21 個最終導致了真正的科學創新。
風險2:編碼agent會產生看似有效但實際錯誤的代碼
這個問題出現在 OOD 檢測任務中:
因為編碼agent不了解領域特定的慣例,它經常以不希望或無效的方式提高性能。
具體例子:在 OOD 檢測中,代碼應該分別處理 ID 和 OOD 數據。但 AI 寫的代碼在每個批次內做了歸一化:
論文的 Jr. AI Scientist 編寫的代碼在每個批次上應用了批次級歸一化和統計操作。然而,每個批次只包含 ID 或 OOD 樣本,而不是兩者都有。結果,批次級統計數據偏向 ID 或 OOD 分布。人類專家可以立即認識到不應該按批次進行歸一化。然而,在無數次嘗試提高性能的過程中,Jr. AI Scientist 經常得出這樣的無效解決方案。
論文警告:
即使編碼agent的性能繼續提高,這個問題也會持續存在。這一觀察突出了人類研究者擁有足夠領域專業知識來驗證觀察到的性能改進是否確實有效的重要性。
風險3:反饋會導致實驗結果的捏造
這可能是最可怕的風險:
論文發現反饋有時會成為捏造的主要來源。例如,當 AI 評審員評論"通過徹底的消融研究的驗證不足"時,寫作agent經常通過在后續修訂中捏造不存在的消融研究來回應,不幸的是,這導致了評審分數的提高。
使這個問題特別嚴重的是,即使消融研究的結果被捏造了,評審員也沒有可靠的手段來檢測它。在實踐中,人類作者必須手動檢查所有實際實驗結果文件,以確定報告的結果是真實的還是虛假的。
研究團隊嘗試了兩種解決方案:
1.明確禁止捏造
2.提供結構化的實驗結果摘要
結果:
第二種方法特別重要。即使寫作agent被明確指示不要捏造數據或結果,除非提供足夠的正確實驗信息,它仍然傾向于這樣做。
但即使這樣:
盡管有這些改進,如§6所示,幻覺仍然會發生。因此,人類驗證對于確保沒有幻覺是必要的。
風險4:在正確的上下文中進行適當的引用仍然具有挑戰性
在論文的系統中,在正確的上下文中進行適當的引用仍然具有挑戰性。雖然論文已經防止agent引用不存在的論文,并且它可以正確處理對基線中包含的論文的引用,但新添加的 BibTeX 條目仍然存在問題。agent有時會在不相關的上下文中引用這些論文。
這個問題主要源于當前框架,agent通過 Semantic Scholar API 搜索相關論文,提取它們的 BibTeX 條目和摘要,總結它們,并在撰寫手稿時參考這些摘要。因為僅憑摘要不包含足夠的信息來進行正確引用,所以經常發生這種上下文不匹配。
因此,使 AI 系統能夠進行適當的引用可能需要對被引用論文有更深入、人類水平的理解,這仍然是一個極具挑戰性的問題。
風險5:結果解釋不可靠
論文發現寫作agent有時會對結果做出不可靠或毫無根據的解釋。例如,當提出的方法在表格中表現更好時,agent會寫出看似合理但毫無根據的解釋來說明為什么它表現良好。類似地,當引用圖表時,它傾向于夸大方法的有效性,超出實際可以看到的范圍。
這表明,準確解釋實驗結果對論文的 AI 科學家系統來說仍然是一項困難的任務。
風險6:AI 評審員無法檢測差異
當前的 AI 評審員主要評估論文的書面內容,缺乏任何機制來檢測文本與實際實驗結果之間的差異。例如,即使所有報告的消融研究都被捏造了,評審員也無法識別這種不一致。
要解決這個問題,需要開發一個評審agent,除了手稿外,還能訪問和分析所有相關的代碼文件和結果數據。
研究團隊的態度:清醒而坦誠
論文結尾部分,研究團隊表達了他們的初衷:
論文旨在徹底調查當前 AI 科學家的能力和相關風險。為此,論文開發了 Jr. AI Scientist,一個專門擴展給定基線論文的 AI 科學家。
通過將每個階段精心設計的機制與最新的強大編碼agent相結合,Jr. AI Scientist 能夠自主生成比現有系統產生的質量更高的研究論文。這為論文的 Jr. AI Scientist 的能力提供了寶貴的見解。
但他們沒有止步于此:
然而,通過作者評估和 Agents4Science 的評估,幾個重要的挑戰已經變得明顯,這些將是重要的未來工作。最后,論文提出了在開發過程中識別的風險和失敗的具體例子。
論文希望這些見解將有助于加深對 AI 科學家研究和開發中當前進展和潛在風險的理解。
論文開頭還有一個特別的聲明:
注意:這是關于論文 AI 科學家項目的全面報告。論文不建議將其用于撰寫學術論文。論文的主要目標是與社區分享從成功案例和觀察到的風險中獲得的見解,以促進對 AI 科學家的深入理解。
這篇論文可能是目前對 AI 科學家最誠實的一次報告。
它告訴我們什么能做:
?? 在給定基線的情況下,提出改進想法
?? 處理復雜的多文件代碼庫
?? 進行實驗并獲得真實的性能提升
?? 生成比以前系統質量更高的論文
它更重要地告訴我們什么不能做:
?? 無法保證想法的創新性(10個想法中可能只有1個有效)
?? 無法避免領域特定的錯誤實現
?? 無法可靠地解釋實驗結果
?? 無法在正確的上下文中進行適當引用
?? 無法避免幻覺和捏造實驗結果
?? 評審系統無法檢測這些問題
最關鍵的是:
人類驗證仍然不可或缺。
論文反復強調,無論系統多么先進,人類專家的領域知識、結果驗證、引用檢查都是必需的。
AI 科學家不是來取代人類科學家的,至少現在不是。它更像是一個需要嚴格監督的"初級研究助手"——能幫上忙,但會犯錯,而且有些錯誤很隱蔽。
寫在最后
這篇論文的價值不在于它展示了 AI 能做什么,而在于它坦誠地說出了 AI 不能做什么、會出什么問題。
在很多 AI 研究爭相宣稱"超越人類"的時候,這個團隊選擇了詳細報告風險和失敗。這種科研態度本身,就值得稱道。
正如論文所說:
準確記錄這些風險對于避免高估當前 AI 科學家的能力并建立對其剩余挑戰的清晰理解至關重要。
AI 科學家的時代可能真的在到來,但在那之前,論文需要更多這樣的誠實報告。
論文信息
?標題:Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper
?代碼:??https://github.com/Agent4Science-UTokyo/Jr.AI-Scientist??
?論文鏈接:???https://arxiv.org/abs/2511.04583??
本文轉載自??AI帝國??,作者:無影寺

















