再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？

發布于 2025-8-29 06:52

瀏覽

0收藏

今天分享一篇來自OpenAI的文章，Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench：評估AI復現AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試，旨在評估AI Agents（AI agents）從零開始復現頂尖AI研究論文的能力。這項任務極具挑戰性，要求AI Agents理解論文、從頭編寫代碼、并成功運行實驗以復現結果。

該方法的核心貢獻是：1）數據集：精選了20篇ICML 2024的Spotlight和Oral論文作為復現目標。2）評估框架：為每篇論文與原作者共同制定了層級化的、極其詳細的評估準則（Rubrics），總計包含8316個可獨立評分的任務點。3）自動化評估：開發了一個基于LLM的自動化“裁判”（LLM as Judge），用于對照評估準則為AI Agents的復現嘗試進行打分，解決了人工評估耗時巨大的難題。

實驗結果表明，當前最強的AI Agents（Claude 3.5 Sonnet）平均復現得分僅為21.0%，遠低于人類博士生的基線水平（41.4%），這凸顯了對于復雜AI研發任務，當前Agent系統還是有巨大挑戰的。

一、概述

?Title:PaperBench: Evaluating AI's Ability to Replicate AI Research

?URL:?? https://arxiv.org/abs/2504.01848??

?Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)

?Code:?? https://github.com/openai/preparedness/tree/main/project/paperbench??

1.Motivation

?衡量AI自主復現Paper能力：目前缺乏一個數據集和標準化的方法來衡量Agent復現AI論文的能力。

?現有基準任務相對簡單：現有的AI Agents基準（如CORE-Bench、MLE-bench）要么不要求從零開始復現（而是基于已有代碼庫），要么任務相對簡單（如Kaggle競賽），無法全面評估Agents在真實、復雜、長周期的科研任務中的綜合能力。

2.Methods

PaperBench是一個評估AI Agents復現AI研究論文能力的框架。其流程是：給AI Agents一篇ICML論文，讓它從零開始編寫代碼并提交一個包含??reproduce.sh??腳本的代碼庫。然后，在一個干凈的環境中運行此腳本，最后由一個LLM“裁判”根據與原作者共同制定的詳細評估準則（Rubric），對復現的完整性、代碼正確性和結果匹配度進行打分。

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

詳細方法和步驟:

1. 任務定義 (Task):

輸入: AI Agents獲得一篇ICML 2024的頂會論文（PDF和Markdown格式）以及一份由原作者提供的澄清附錄（Addendum）。

?目標:Agents需要從零開始，編寫所有必要的代碼來復現論文中的核心實驗結果。

?輸出:提交一個Git代碼倉庫，其中必須包含一個名為??reproduce.sh??的入口腳本，該腳本應能自動完成所有復現步驟。

2. 復現驗證 (Reproduction):

? 為了保證評估的公正性，Agents提交的代碼庫會被復制到一個全新的虛擬機（Ubuntu 24.04 + A10 GPU）中。

? 在這個干凈的環境里執行??reproduce.sh??腳本，生成實驗結果、日志文件（??reproduce.log??）等。這個過程確保了結果是真實可復現的，而非Agents在開發過程中硬編碼的。

3. 評估準則 (Rubrics):

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

? 這是PaperBench最核心的部分。每篇論文都配有一個層級化的評估樹（tree of requirements）。

? 這個評估樹與論文原作者共同開發，確保了評估的準確性和現實性。它將“復現整篇論文”這個宏大目標，分解為成百上千個具體、細粒度、可被二元（通過/失敗）評判的葉子節點。

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

image-20250820171131352

? 例如，根節點是“復現論文核心貢獻”，下一層可能是“復現實驗一”、“復現實驗二”，再下一層可能是“正確實現XX模型架構”、“成功運行YY數據集上的訓練”等。

? 整個基準包含20篇論文，共計8,316個可獨立評分的葉子節點。

4. 評分機制 (Grading):

?LLM裁判 (LLM-based Judge):由于人工評估一個復現嘗試需要數十小時，作者開發了一個基于LLM的自動化裁判（SimpleJudge）來擴展評估規模。評估的葉子節點分為三類：

Code Development:檢查源代碼是否正確實現了論文中的方法。

Execution:檢查??reproduce.sh??腳本運行時，特定步驟是否成功執行。

Result Match:檢查腳本生成的最終結果是否與原論文報告的結果相符。

Prompt如下：

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

?打分流程:LLM裁判逐一評估所有葉子節點，給出0分或1分。然后，根據預設的權重，將分數從葉子節點向上加權平均，最終得到根節點的總分，即為該次復現的Replication Score。

?裁判的評估 (JudgeEval):為了驗證LLM裁判的可靠性，作者還創建了一個名為JudgeEval的輔助基準，通過與人類專家的評分進行對比，證明了其LLM裁判（基于o3-mini模型）能夠達到0.83的F1分數，是一個合理的替代方案。

JudgaEval細節

Q1: 評估整體流程是什么？最終實現的倉庫非常大，代碼比較多，如果來做評估？

答：先需要檢索出最相關的文件，然后再來進行評估，這里檢索是通過先輸入項目的tree structure，然后給予LLM挑選出最相關的文件。然后再進行評估。File Ranking的prompt如下：

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

Q2: 這篇文章的Agent是如何實現的？

答：基于基礎的Agent來實現（Inspect Ai's basic agent），利用 nanoeval for orchestration，提供各類基礎的Tools來實現代碼，包括websearch的tool，python執行tool，bash shell命令執行tool，文件讀取的tool。

Inspect AI Agentnanoeval

Agent的提示詞如下：

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

3 Conclusion

?當前AI能力有限:實驗評估了多個前沿模型（如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等）。表現最好的Claude 3.5 Sonnet在PaperBench上的平均復現分數僅為21.0%，表明當前的AI Agents在獨立完成復雜的科研復現任務方面能力還很初級。

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

?與人類差距顯著:在一個包含3篇論文的子集上，人類機器學習博士生的基線表現（48小時工作后）達到了**41.4%**的復現分數，遠高于AI Agents在同一任務上的表現（26.6%）。AI在任務初期編碼速度快，但缺乏長期規劃和解決復雜問題的能力。

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

?自動化評估是可行的:論文成功證明了使用LLM作為裁判來評估復雜、非結構化的代碼產出是可行的。開發的SimpleJudge在保證可接受的準確率（0.83 F1-score）的同時，極大地降低了評估成本和時間。

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

4 Limitation

?數據集規模:目前基準只包含20篇論文，雖然評估點很多，但論文數量有限，未來需要進一步擴大以覆蓋更廣泛的AI研究領域。

?數據污染風險:盡管論文都是最新的，但未來模型可能會在預訓練中接觸到這些論文的官方代碼，導致評估分數虛高。作者通過黑名單機制禁止Agents訪問官方代碼庫，但這無法完全杜絕模型“內化”解決方案的可能。

?評估準則創建成本高:與原作者合作創建詳細的評估準則非常耗時耗力，每篇論文都需要數周時間。這使得其他人難以復刻或擴展該數據集。

?LLM裁判的局限性:盡管LLM裁判表現不錯，但它仍不如人類專家準確，并且其輸出具有不確定性。對于更復雜的任務，仍需進一步研究和改進自動化評估方法。

?評估成本高昂:運行一次完整的PaperBench評估（20篇論文）需要數千美元的API調用和計算資源，這限制了其廣泛應用。

二、詳細內容

1 人類與AI Agents在復現任務上的表現對比

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

?初期AI領先:在任務開始的最初幾個小時，AI（o1模型）的得分迅速攀升并超過人類，這表明AI在快速生成初始代碼框架方面具有優勢。

?后期人類反超:然而，AI的分數在幾小時后就基本停滯不前。而人類的得分則持續穩定增長，并在24小時后顯著超越AI。

?結論:當前AI Agents雖然具備一定的編碼能力，但缺乏長期規劃、策略調整和深入調試的復雜問題解決能力，而這些正是人類專家在科研工作中的核心優勢。

2 自動評估的準確率分析

不同LLM模型作為“裁判”在JudgeEval基準上的表現

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

? 結論：o3-mini`模型在F1分數（0.83）和成本（$66/篇）之間取得了最佳平衡。

不同模型的復現成功率

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？-AI.x社區

? 結論：Claude 3.5 Sonnet以21.0%的得分遙遙領先，其次是OpenAI的o1（13.2%），而其他模型得分均低于10%。這清晰地呈現了當前各大模型在這一復雜任務上的能力排序。

三、總結

結論1: PaperBench為評估AI Agents復現復雜ML Paper提供了一個嚴謹且可擴展的基準。 通過將復現任務分解為細粒度的子任務，并結合LLM as Judge，該基準能夠提供客觀且高效的評估，填補了現有AI能力評估的空白。

結論2: 當前最先進的AI Agents（如Claude 3.5 Sonnet）在PaperBench上展現出初步能力，但其表現仍遠低于人類基線。 這凸顯了AI系統在處理長期、復雜研發任務（特別是需要從零開始構建代碼和成功執行實驗的任務）方面的顯著局限性，表明AI在實現完全自主的ML研究方面仍有很長的路要走。

產業應用價值:

?加速科學發現的“探路者”:雖然目前AI得分不高，但PaperBench指明了通往“AI科學家”的路徑和挑戰。未來在該基準上取得高分的模型，將有潛力在藥物發現、材料科學、氣候模擬等領域作為人類科學家的得力助手，極大加速科學探索的進程。

本文轉載自??????NLP PaperWeekly??????，作者：NLP PaperWeekly

標簽

Agent

OpenAI

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

再看OpenAI PaperBench：Agent離獨立復現AI論文還有多遠？

一、概述

1.Motivation

2.Methods

詳細方法和步驟:

JudgaEval細節

3 Conclusion

4 Limitation

二、詳細內容

1 人類與AI Agents在復現任務上的表現對比

2 自動評估的準確率分析

不同LLM模型作為“裁判”在JudgeEval基準上的表現

不同模型的復現成功率

三、總結

目錄