Claude 3.5首戰(zhàn)復(fù)現(xiàn)21%頂會(huì)論文，人類博士無法取代！OpenAI：AI全是草臺(tái)班子

作者：新智元 2025-04-04 00:00:00

AI若能自主復(fù)現(xiàn)頂尖科研論文，未來科研將被掀翻天。OpenAI最新框架PaperBench正為此生，讓AI智能體從頭開始復(fù)現(xiàn)ICML 2024 20篇優(yōu)秀論文，只有Claude 3.5 Sonnet拔得頭籌，但仍無法超越ML博士水平。

AI智能體，能否復(fù)現(xiàn)頂會(huì)中重磅的AI研究？

今天，OpenAI團(tuán)隊(duì)發(fā)布了全新框架PaperBench，便可評(píng)估AI智能體復(fù)現(xiàn)頂尖研究的基礎(chǔ)能力。

論文地址：https://openai.com/index/paperbench/

要求是，AI智能體需從0開始復(fù)現(xiàn)20篇ICML 2024 Spotlight和Oral論文，包括理解論文核心文獻(xiàn)、開發(fā)可運(yùn)行代碼庫，以及執(zhí)行實(shí)驗(yàn)并驗(yàn)證結(jié)果。

為了客觀評(píng)估AI成果，OpenAI聯(lián)手每篇ICML論文作者開發(fā)了「評(píng)估標(biāo)準(zhǔn)」，將每個(gè)復(fù)制任務(wù)層次化分解為具有明確評(píng)分標(biāo)準(zhǔn)的較小子任務(wù)。

總共，PaperBench包含8,316個(gè)可單獨(dú)評(píng)分的任務(wù)。

結(jié)果發(fā)現(xiàn)，只有Claude 3.5 Sonnet（New）拿下了最高分21.0%，o1-high得分13.2%，DeepSeek-R1是6%，GPT-4o是4.1%。

遺憾的是，即便是最領(lǐng)先的LLM，仍無法超越機(jī)器學(xué)習(xí)博士。

目前，OpenAI將PaperBench的所有代碼開源。

GitHub地址：https://github.com/openai/preparedness

AI挑戰(zhàn)復(fù)現(xiàn)ICML 2024大作

PaperBench的目標(biāo)，直指AI智能體的科研潛力。

若要完整復(fù)現(xiàn)ICML 2024 20篇優(yōu)秀的論文，意味著AI不僅需要理解論文核心思想，還得自主開發(fā)代碼庫、運(yùn)行實(shí)驗(yàn)，甚至是排除故障。

要知道，這是一項(xiàng)連人類研究員需要好幾天，才能完成的高難度任務(wù)。

這項(xiàng)研究的主要貢獻(xiàn)包括：

PaperBench：一個(gè)包含20篇ML研究論文和經(jīng)作者批準(zhǔn)的評(píng)分標(biāo)準(zhǔn)的基準(zhǔn)測(cè)試，以及使用基于LLM評(píng)估的自動(dòng)評(píng)分工作流程。
PaperBench Code-Dev：基準(zhǔn)測(cè)試的一個(gè)更輕量級(jí)的變體，放寬了PaperBench的一些要求，使設(shè)置和評(píng)估對(duì)更廣泛的社區(qū)更易于使用。
JudgeEval：一個(gè)包含人類評(píng)分提交結(jié)果的數(shù)據(jù)集，可用作開發(fā)和評(píng)估自動(dòng)評(píng)估的輔助工具。
在PaperBench上對(duì)SOTA模型的評(píng)估：對(duì)幾個(gè)前沿AI智能體執(zhí)行長(zhǎng)周期任務(wù)和機(jī)器學(xué)習(xí)研發(fā)能力的綜合評(píng)估。

更重要的是，PaperBench不僅是一個(gè)學(xué)術(shù)實(shí)驗(yàn)，它還與其他AI安全框架緊密關(guān)聯(lián)。

它可用作OpenAI的準(zhǔn)備框架中的模型自主性度量、Anthropic負(fù)責(zé)任擴(kuò)展政策中的自主能力指標(biāo)，以及Google DeepMind的前沿安全框架中的機(jī)器學(xué)習(xí)研發(fā)評(píng)估工具。

PaperBench：20篇論文，8316個(gè)任務(wù)

如上所述，PaperBench選取了來自ICML 2024中20篇 Spotlight和Oral論文，主要覆蓋了12個(gè)主題。

其中包括，深度強(qiáng)化學(xué)習(xí)、魯棒性和概率方法。

而且，每篇論文都配備了詳細(xì)的評(píng)分標(biāo)準(zhǔn)，總計(jì)8,316個(gè)可單獨(dú)評(píng)估的評(píng)分項(xiàng)目。

這些標(biāo)準(zhǔn)均是由每篇論文原作者與OpenAI共同制定，確保評(píng)估過程中的準(zhǔn)確性和權(quán)威性。

評(píng)分標(biāo)準(zhǔn)采用層次結(jié)構(gòu)，將復(fù)雜的復(fù)現(xiàn)目標(biāo)分解為細(xì)粒度子任務(wù)。

任務(wù)+復(fù)現(xiàn)

對(duì)于PaperBench中的每個(gè)樣本，AI智能體會(huì)收到論文和論文澄清說明的附錄。

候選智能體必須提交一個(gè)包含復(fù)現(xiàn)論文實(shí)證結(jié)果所需的所有代碼的代碼庫，而且代碼庫根目錄必須包含一個(gè)reproduce.sh文件，作為執(zhí)行所有必要代碼以復(fù)現(xiàn)論文結(jié)果的入口點(diǎn)。

當(dāng)提交的reproduce.sh能夠在全新環(huán)境中成功復(fù)現(xiàn)論文中報(bào)告的實(shí)證結(jié)果時(shí)，AI智能體便成功完成復(fù)現(xiàn)任務(wù)。

樹級(jí)評(píng)分

在基準(zhǔn)測(cè)試中，每篇論文都配有一個(gè)評(píng)分標(biāo)準(zhǔn)，明確規(guī)定了完整論文復(fù)制的評(píng)估要求。

評(píng)分標(biāo)準(zhǔn)被設(shè)置為一個(gè)要求層級(jí)結(jié)構(gòu)，每個(gè)葉節(jié)點(diǎn)（leaf node）指定一個(gè)明確的通過/失敗標(biāo)準(zhǔn)（見圖2），且每個(gè)節(jié)點(diǎn)都根據(jù)其相對(duì)于同級(jí)節(jié)點(diǎn)的重要性被手動(dòng)賦予了權(quán)重。

對(duì)于一個(gè)葉節(jié)點(diǎn)標(biāo)準(zhǔn)，評(píng)估者會(huì)判斷提交內(nèi)容是否滿足其要求，如果滿足則給予1分，否則給0分。

當(dāng)所有葉節(jié)點(diǎn)都被評(píng)分后，父節(jié)點(diǎn)（parent node）的分?jǐn)?shù)將等于其所有子節(jié)點(diǎn)分?jǐn)?shù)的加權(quán)平均值。

這一計(jì)分過程會(huì)一直向上傳遞到樹的根節(jié)點(diǎn)（root），根節(jié)點(diǎn)的分?jǐn)?shù)即被視為該提交的最終復(fù)制分?jǐn)?shù)（Replication Score）。

換句話說，每個(gè)提交的評(píng)分是基于所有滿足的評(píng)分標(biāo)準(zhǔn)要求的權(quán)重調(diào)整后的比例，其中100%表示完美復(fù)制，即滿足了所有葉節(jié)點(diǎn)的要求。

目前，論文中主要評(píng)估指標(biāo)是所有論文的平均復(fù)制分?jǐn)?shù)。

每個(gè)葉節(jié)點(diǎn)具有三種可能的需求類型之一，這決定了其評(píng)分方式。

結(jié)果匹配（Result Match）葉節(jié)點(diǎn)評(píng)估已執(zhí)行的提交是否包含復(fù)制論文中特定結(jié)果的證據(jù)。
執(zhí)行（Execution）葉節(jié)點(diǎn)評(píng)估運(yùn)行reproduce.sh腳本時(shí)是否產(chǎn)生了某些特定的執(zhí)行結(jié)果。
代碼開發(fā)（Code Development）葉節(jié)點(diǎn)評(píng)估候選者的源代碼是否包含某些需求的正確實(shí)現(xiàn)。

可以上網(wǎng)，但不能查看原作者代碼庫

PaperBench設(shè)計(jì)為與智能體支持框架（agent scaffolds）無關(guān)，因此研究團(tuán)隊(duì)對(duì)智能體的運(yùn)行環(huán)境沒有特定要求。然而，基準(zhǔn)測(cè)試確實(shí)制定了一些規(guī)則來確保公平比較：

智能體可以瀏覽互聯(lián)網(wǎng)，但不得使用OpenAI提供的每篇論文黑名單中網(wǎng)站的資源。每篇論文的黑名單包括作者自己的代碼庫和任何其他在線復(fù)制實(shí)現(xiàn)。
智能體可使用的資源，如運(yùn)行時(shí)間和計(jì)算能力，不受任何限制。
開發(fā)者應(yīng)為智能體提供必要的在線服務(wù)API密鑰（例如，用于下載數(shù)據(jù)集的HuggingFace憑證）。

對(duì)于實(shí)驗(yàn)，OpenAI還構(gòu)建了一個(gè)簡(jiǎn)單的后處理監(jiān)控工具，用于檢查智能體日志中是否出現(xiàn)黑名單URL，發(fā)現(xiàn)可疑情況后會(huì)提交給人工審核，以取消使用黑名單資源的任何提交資格。

LLM評(píng)判成本降至10美金，比專家更高效

面對(duì)如此復(fù)雜的任務(wù)，人工評(píng)分顯然不現(xiàn)實(shí)。

一篇論文的復(fù)現(xiàn)嘗試，通常需要人類專家數(shù)十小時(shí)來評(píng)估。

為此，OpenAI團(tuán)隊(duì)開發(fā)了一個(gè)基于大模型自動(dòng)評(píng)判系統(tǒng)，并推出了輔助工具JudgeEval，用來驗(yàn)證自動(dòng)評(píng)判者的表現(xiàn)。

對(duì)于給定的提交內(nèi)容，評(píng)判系統(tǒng)SimpleJudge會(huì)獨(dú)立地對(duì)評(píng)分標(biāo)準(zhǔn)中的每個(gè)葉節(jié)點(diǎn)進(jìn)行評(píng)分。

針對(duì)特定葉節(jié)點(diǎn)，評(píng)判系統(tǒng)會(huì)接收論文的Markdown格式文本、完整的評(píng)分標(biāo)準(zhǔn)JSON文件、葉節(jié)點(diǎn)的具體要求和提交內(nèi)容作為提示詞。

如下圖5所示，對(duì)于PaperBench Code-Dev，每篇論文的成本降至約10美元，證明了比聘請(qǐng)專家進(jìn)行人工評(píng)分更加經(jīng)濟(jì)且高效。

Claude 3.5 Sonnet得分最高

實(shí)驗(yàn)中，研究人員對(duì)GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet（New）和Gemini 2.0 Flash在所有20篇論文上進(jìn)行了評(píng)估，每篇論文進(jìn)行了3次運(yùn)行。

而且，他們每個(gè)智能體設(shè)置了最長(zhǎng)12小時(shí)的運(yùn)行時(shí)限。

如下表4所示，展示了各模型的平均復(fù)現(xiàn)得分。

其中，Claude 3.5 Sonnet表現(xiàn)最出色，得分達(dá)到21.0%。OpenAI o1表現(xiàn)較弱，得分為13.2%，其他模型表現(xiàn)不佳，得分均低于10%。

為了更好地理解智能體性能，研究人員手動(dòng)檢查了幾個(gè)智能體的運(yùn)行日志。

他們發(fā)現(xiàn)，除了Claude 3.5 Sonnet外，所有模型都經(jīng)常提前結(jié)束任務(wù)，聲稱它們要么已完成整個(gè)復(fù)現(xiàn)工作，要么遇到了無法解決的問題。

所有智能體都未能制定有效策略，考慮如何在有限時(shí)間內(nèi)最優(yōu)地復(fù)現(xiàn)論文。我們還觀察到o3-mini在工具使用方面經(jīng)常遇到困難。

這些失敗模式表明當(dāng)前模型在執(zhí)行長(zhǎng)期規(guī)劃任務(wù)方面存在弱點(diǎn)：盡管在制定和編寫多步驟計(jì)劃方面表現(xiàn)出充分的能力，但模型未能實(shí)際采取一系列行動(dòng)來執(zhí)行這些計(jì)劃。

迭代智能體

鑒于模型往往無法充分利用可用的全部時(shí)間，研究人員還測(cè)試了BasicAgent的一個(gè)變體。

這個(gè)變體通過移除智能體提前結(jié)束任務(wù)的能力，強(qiáng)制其在全部可用時(shí)間內(nèi)持續(xù)運(yùn)行，并使用經(jīng)過優(yōu)化的提示詞來鼓勵(lì)模型以逐步方式工作。

他們將這個(gè)智能體稱為IterativeAgent。

研究人員使用IterativeAgent對(duì)o1、o3-mini和Claude 3.5 Sonnet進(jìn)行了測(cè)試，如下表5所示。

他們發(fā)現(xiàn)使用IterativeAgent后，o1和o3-mini的得分顯著提升。

值得注意的是，在使用BasicAgent時(shí)，Claude 3.5 Sonnet的表現(xiàn)優(yōu)于o1，但在使用IterativeAgent時(shí)，其表現(xiàn)卻不如o1。這表明為IterativeAgent優(yōu)化的提示詞，對(duì)OpenAI o系列模型有著不同程度的適用性。