再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?
今天分享一篇來自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench:評估AI復現AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試,旨在評估AI Agents(AI agents)從零開始復現頂尖AI研究論文的能力。這項任務極具挑戰性,要求AI Agents理解論文、從頭編寫代碼、并成功運行實驗以復現結果。
該方法的核心貢獻是:1)數據集:精選了20篇ICML 2024的Spotlight和Oral論文作為復現目標。2)評估框架:為每篇論文與原作者共同制定了層級化的、極其詳細的評估準則(Rubrics),總計包含8316個可獨立評分的任務點。3)自動化評估:開發了一個基于LLM的自動化“裁判”(LLM as Judge),用于對照評估準則為AI Agents的復現嘗試進行打分,解決了人工評估耗時巨大的難題。
實驗結果表明,當前最強的AI Agents(Claude 3.5 Sonnet)平均復現得分僅為21.0%,遠低于人類博士生的基線水平(41.4%),這凸顯了對于復雜AI研發任務,當前Agent系統還是有巨大挑戰的。
一、概述
?Title:PaperBench: Evaluating AI's Ability to Replicate AI Research
?URL:?? https://arxiv.org/abs/2504.01848??
?Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)
?Code:?? https://github.com/openai/preparedness/tree/main/project/paperbench??
1.Motivation
?衡量AI自主復現Paper能力:目前缺乏一個數據集和標準化的方法來衡量Agent復現AI論文的能力。
?現有基準任務相對簡單:現有的AI Agents基準(如CORE-Bench、MLE-bench)要么不要求從零開始復現(而是基于已有代碼庫),要么任務相對簡單(如Kaggle競賽),無法全面評估Agents在真實、復雜、長周期的科研任務中的綜合能力。
2.Methods
PaperBench是一個評估AI Agents復現AI研究論文能力的框架。其流程是:給AI Agents一篇ICML論文,讓它從零開始編寫代碼并提交一個包含??reproduce.sh??腳本的代碼庫。然后,在一個干凈的環境中運行此腳本,最后由一個LLM“裁判”根據與原作者共同制定的詳細評估準則(Rubric),對復現的完整性、代碼正確性和結果匹配度進行打分。

詳細方法和步驟:
1. 任務定義 (Task):
輸入: AI Agents獲得一篇ICML 2024的頂會論文(PDF和Markdown格式)以及一份由原作者提供的澄清附錄(Addendum)。
?目標:Agents需要從零開始,編寫所有必要的代碼來復現論文中的核心實驗結果。
?輸出:提交一個Git代碼倉庫,其中必須包含一個名為??reproduce.sh??的入口腳本,該腳本應能自動完成所有復現步驟。
2. 復現驗證 (Reproduction):
? 為了保證評估的公正性,Agents提交的代碼庫會被復制到一個全新的虛擬機(Ubuntu 24.04 + A10 GPU)中。
? 在這個干凈的環境里執行??reproduce.sh??腳本,生成實驗結果、日志文件(??reproduce.log??)等。這個過程確保了結果是真實可復現的,而非Agents在開發過程中硬編碼的。
3. 評估準則 (Rubrics):

? 這是PaperBench最核心的部分。每篇論文都配有一個層級化的評估樹(tree of requirements)。
? 這個評估樹與論文原作者共同開發,確保了評估的準確性和現實性。它將“復現整篇論文”這個宏大目標,分解為成百上千個具體、細粒度、可被二元(通過/失敗)評判的葉子節點。

image-20250820171131352
? 例如,根節點是“復現論文核心貢獻”,下一層可能是“復現實驗一”、“復現實驗二”,再下一層可能是“正確實現XX模型架構”、“成功運行YY數據集上的訓練”等。
? 整個基準包含20篇論文,共計8,316個可獨立評分的葉子節點。
4. 評分機制 (Grading):
?LLM裁判 (LLM-based Judge):由于人工評估一個復現嘗試需要數十小時,作者開發了一個基于LLM的自動化裁判(SimpleJudge)來擴展評估規模。評估的葉子節點分為三類:
Code Development:檢查源代碼是否正確實現了論文中的方法。
Execution:檢查??reproduce.sh??腳本運行時,特定步驟是否成功執行。
Result Match:檢查腳本生成的最終結果是否與原論文報告的結果相符。
Prompt如下:

?打分流程:LLM裁判逐一評估所有葉子節點,給出0分或1分。然后,根據預設的權重,將分數從葉子節點向上加權平均,最終得到根節點的總分,即為該次復現的Replication Score。
?裁判的評估 (JudgeEval):為了驗證LLM裁判的可靠性,作者還創建了一個名為JudgeEval的輔助基準,通過與人類專家的評分進行對比,證明了其LLM裁判(基于o3-mini模型)能夠達到0.83的F1分數,是一個合理的替代方案。
JudgaEval細節
Q1: 評估整體流程是什么?最終實現的倉庫非常大,代碼比較多,如果來做評估?
答:先需要檢索出最相關的文件,然后再來進行評估,這里檢索是通過先輸入項目的tree structure,然后給予LLM挑選出最相關的文件。然后再進行評估。File Ranking的prompt如下:

Q2: 這篇文章的Agent是如何實現的?
答:基于基礎的Agent來實現(Inspect Ai's basic agent),利用 nanoeval for orchestration,提供各類基礎的Tools來實現代碼,包括websearch的tool,python執行tool,bash shell命令執行tool,文件讀取的tool。
Inspect AI Agentnanoeval
Agent的提示詞如下:

3 Conclusion
?當前AI能力有限:實驗評估了多個前沿模型(如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等)。表現最好的Claude 3.5 Sonnet在PaperBench上的平均復現分數僅為21.0%,表明當前的AI Agents在獨立完成復雜的科研復現任務方面能力還很初級。

?與人類差距顯著:在一個包含3篇論文的子集上,人類機器學習博士生的基線表現(48小時工作后)達到了**41.4%**的復現分數,遠高于AI Agents在同一任務上的表現(26.6%)。AI在任務初期編碼速度快,但缺乏長期規劃和解決復雜問題的能力。

?自動化評估是可行的:論文成功證明了使用LLM作為裁判來評估復雜、非結構化的代碼產出是可行的。開發的SimpleJudge在保證可接受的準確率(0.83 F1-score)的同時,極大地降低了評估成本和時間。

4 Limitation
?數據集規模:目前基準只包含20篇論文,雖然評估點很多,但論文數量有限,未來需要進一步擴大以覆蓋更廣泛的AI研究領域。
?數據污染風險:盡管論文都是最新的,但未來模型可能會在預訓練中接觸到這些論文的官方代碼,導致評估分數虛高。作者通過黑名單機制禁止Agents訪問官方代碼庫,但這無法完全杜絕模型“內化”解決方案的可能。
?評估準則創建成本高:與原作者合作創建詳細的評估準則非常耗時耗力,每篇論文都需要數周時間。這使得其他人難以復刻或擴展該數據集。
?LLM裁判的局限性:盡管LLM裁判表現不錯,但它仍不如人類專家準確,并且其輸出具有不確定性。對于更復雜的任務,仍需進一步研究和改進自動化評估方法。
?評估成本高昂:運行一次完整的PaperBench評估(20篇論文)需要數千美元的API調用和計算資源,這限制了其廣泛應用。
二、詳細內容
1 人類與AI Agents在復現任務上的表現對比

?初期AI領先:在任務開始的最初幾個小時,AI(o1模型)的得分迅速攀升并超過人類,這表明AI在快速生成初始代碼框架方面具有優勢。
?后期人類反超:然而,AI的分數在幾小時后就基本停滯不前。而人類的得分則持續穩定增長,并在24小時后顯著超越AI。
?結論:當前AI Agents雖然具備一定的編碼能力,但缺乏長期規劃、策略調整和深入調試的復雜問題解決能力,而這些正是人類專家在科研工作中的核心優勢。
2 自動評估的準確率分析
不同LLM模型作為“裁判”在JudgeEval基準上的表現

? 結論:o3-mini`模型在F1分數(0.83)和成本($66/篇)之間取得了最佳平衡。
不同模型的復現成功率

? 結論:Claude 3.5 Sonnet以21.0%的得分遙遙領先,其次是OpenAI的o1(13.2%),而其他模型得分均低于10%。這清晰地呈現了當前各大模型在這一復雜任務上的能力排序。
三、總結
結論1: PaperBench為評估AI Agents復現復雜ML Paper提供了一個嚴謹且可擴展的基準。 通過將復現任務分解為細粒度的子任務,并結合LLM as Judge,該基準能夠提供客觀且高效的評估,填補了現有AI能力評估的空白。
結論2: 當前最先進的AI Agents(如Claude 3.5 Sonnet)在PaperBench上展現出初步能力,但其表現仍遠低于人類基線。 這凸顯了AI系統在處理長期、復雜研發任務(特別是需要從零開始構建代碼和成功執行實驗的任務)方面的顯著局限性,表明AI在實現完全自主的ML研究方面仍有很長的路要走。
產業應用價值:
?加速科學發現的“探路者”:雖然目前AI得分不高,但PaperBench指明了通往“AI科學家”的路徑和挑戰。未來在該基準上取得高分的模型,將有潛力在藥物發現、材料科學、氣候模擬等領域作為人類科學家的得力助手,極大加速科學探索的進程。
本文轉載自??????NLP PaperWeekly??????,作者:NLP PaperWeekly

















