精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?

發布于 2025-8-29 06:52
瀏覽
0收藏

今天分享一篇來自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research (PaperBench:評估AI復現AI研究的能力)。這篇文章提出了一個名為PaperBench的全新基準測試,旨在評估AI Agents(AI agents)從零開始復現頂尖AI研究論文的能力。這項任務極具挑戰性,要求AI Agents理解論文、從頭編寫代碼、并成功運行實驗以復現結果。

該方法的核心貢獻是:1)數據集:精選了20篇ICML 2024的Spotlight和Oral論文作為復現目標。2)評估框架:為每篇論文與原作者共同制定了層級化的、極其詳細的評估準則(Rubrics),總計包含8316個可獨立評分的任務點。3)自動化評估:開發了一個基于LLM的自動化“裁判”(LLM as Judge),用于對照評估準則為AI Agents的復現嘗試進行打分,解決了人工評估耗時巨大的難題。

實驗結果表明,當前最強的AI Agents(Claude 3.5 Sonnet)平均復現得分僅為21.0%,遠低于人類博士生的基線水平(41.4%),這凸顯了對于復雜AI研發任務,當前Agent系統還是有巨大挑戰的。

一、概述

?Title:PaperBench: Evaluating AI's Ability to Replicate AI Research

?URL:?? https://arxiv.org/abs/2504.01848??

?Authors:Giulio Starace, Oliver Jaffe, Dane Sherburn, 等 (OpenAI)

?Code:?? https://github.com/openai/preparedness/tree/main/project/paperbench??

1.Motivation

?衡量AI自主復現Paper能力:目前缺乏一個數據集和標準化的方法來衡量Agent復現AI論文的能力。

?現有基準任務相對簡單:現有的AI Agents基準(如CORE-Bench、MLE-bench)要么不要求從零開始復現(而是基于已有代碼庫),要么任務相對簡單(如Kaggle競賽),無法全面評估Agents在真實、復雜、長周期的科研任務中的綜合能力。

2.Methods

PaperBench是一個評估AI Agents復現AI研究論文能力的框架。其流程是:給AI Agents一篇ICML論文,讓它從零開始編寫代碼并提交一個包含??reproduce.sh??腳本的代碼庫。然后,在一個干凈的環境中運行此腳本,最后由一個LLM“裁判”根據與原作者共同制定的詳細評估準則(Rubric),對復現的完整性、代碼正確性和結果匹配度進行打分。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

詳細方法和步驟:

1. 任務定義 (Task):

輸入: AI Agents獲得一篇ICML 2024的頂會論文(PDF和Markdown格式)以及一份由原作者提供的澄清附錄(Addendum)。

?目標:Agents需要從零開始,編寫所有必要的代碼來復現論文中的核心實驗結果。

?輸出:提交一個Git代碼倉庫,其中必須包含一個名為??reproduce.sh??的入口腳本,該腳本應能自動完成所有復現步驟。

2. 復現驗證 (Reproduction):

? 為了保證評估的公正性,Agents提交的代碼庫會被復制到一個全新的虛擬機(Ubuntu 24.04 + A10 GPU)中。

? 在這個干凈的環境里執行??reproduce.sh??腳本,生成實驗結果、日志文件(??reproduce.log??)等。這個過程確保了結果是真實可復現的,而非Agents在開發過程中硬編碼的。

3. 評估準則 (Rubrics):

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 這是PaperBench最核心的部分。每篇論文都配有一個層級化的評估樹(tree of requirements)。

? 這個評估樹與論文原作者共同開發,確保了評估的準確性和現實性。它將“復現整篇論文”這個宏大目標,分解為成百上千個具體、細粒度、可被二元(通過/失敗)評判的葉子節點。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

image-20250820171131352

? 例如,根節點是“復現論文核心貢獻”,下一層可能是“復現實驗一”、“復現實驗二”,再下一層可能是“正確實現XX模型架構”、“成功運行YY數據集上的訓練”等。

? 整個基準包含20篇論文,共計8,316個可獨立評分的葉子節點。

4. 評分機制 (Grading):

?LLM裁判 (LLM-based Judge):由于人工評估一個復現嘗試需要數十小時,作者開發了一個基于LLM的自動化裁判(SimpleJudge)來擴展評估規模。評估的葉子節點分為三類:

Code Development:檢查源代碼是否正確實現了論文中的方法。

Execution:檢查??reproduce.sh??腳本運行時,特定步驟是否成功執行。

Result Match:檢查腳本生成的最終結果是否與原論文報告的結果相符。

Prompt如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?打分流程:LLM裁判逐一評估所有葉子節點,給出0分或1分。然后,根據預設的權重,將分數從葉子節點向上加權平均,最終得到根節點的總分,即為該次復現的Replication Score

?裁判的評估 (JudgeEval):為了驗證LLM裁判的可靠性,作者還創建了一個名為JudgeEval的輔助基準,通過與人類專家的評分進行對比,證明了其LLM裁判(基于o3-mini模型)能夠達到0.83的F1分數,是一個合理的替代方案。

JudgaEval細節

Q1: 評估整體流程是什么?最終實現的倉庫非常大,代碼比較多,如果來做評估?

答:先需要檢索出最相關的文件,然后再來進行評估,這里檢索是通過先輸入項目的tree structure,然后給予LLM挑選出最相關的文件。然后再進行評估。File Ranking的prompt如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

Q2: 這篇文章的Agent是如何實現的?

答:基于基礎的Agent來實現(Inspect Ai's basic agent),利用 nanoeval for orchestration,提供各類基礎的Tools來實現代碼,包括websearch的tool,python執行tool,bash shell命令執行tool,文件讀取的tool。

Inspect AI Agentnanoeval

Agent的提示詞如下:

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

3 Conclusion

?當前AI能力有限:實驗評估了多個前沿模型(如Claude 3.5 Sonnet, OpenAI o1, GPT-4o等)。表現最好的Claude 3.5 Sonnet在PaperBench上的平均復現分數僅為21.0%,表明當前的AI Agents在獨立完成復雜的科研復現任務方面能力還很初級。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區


?與人類差距顯著:在一個包含3篇論文的子集上,人類機器學習博士生的基線表現(48小時工作后)達到了**41.4%**的復現分數,遠高于AI Agents在同一任務上的表現(26.6%)。AI在任務初期編碼速度快,但缺乏長期規劃和解決復雜問題的能力。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?自動化評估是可行的:論文成功證明了使用LLM作為裁判來評估復雜、非結構化的代碼產出是可行的。開發的SimpleJudge在保證可接受的準確率(0.83 F1-score)的同時,極大地降低了評估成本和時間。

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

4 Limitation

?數據集規模:目前基準只包含20篇論文,雖然評估點很多,但論文數量有限,未來需要進一步擴大以覆蓋更廣泛的AI研究領域。

?數據污染風險:盡管論文都是最新的,但未來模型可能會在預訓練中接觸到這些論文的官方代碼,導致評估分數虛高。作者通過黑名單機制禁止Agents訪問官方代碼庫,但這無法完全杜絕模型“內化”解決方案的可能。

?評估準則創建成本高:與原作者合作創建詳細的評估準則非常耗時耗力,每篇論文都需要數周時間。這使得其他人難以復刻或擴展該數據集。

?LLM裁判的局限性:盡管LLM裁判表現不錯,但它仍不如人類專家準確,并且其輸出具有不確定性。對于更復雜的任務,仍需進一步研究和改進自動化評估方法。

?評估成本高昂:運行一次完整的PaperBench評估(20篇論文)需要數千美元的API調用和計算資源,這限制了其廣泛應用。

二、詳細內容

1 人類與AI Agents在復現任務上的表現對比

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

?初期AI領先:在任務開始的最初幾個小時,AI(o1模型)的得分迅速攀升并超過人類,這表明AI在快速生成初始代碼框架方面具有優勢。

?后期人類反超:然而,AI的分數在幾小時后就基本停滯不前。而人類的得分則持續穩定增長,并在24小時后顯著超越AI。

?結論:當前AI Agents雖然具備一定的編碼能力,但缺乏長期規劃、策略調整和深入調試的復雜問題解決能力,而這些正是人類專家在科研工作中的核心優勢。

2 自動評估的準確率分析

不同LLM模型作為“裁判”在JudgeEval基準上的表現

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 結論:o3-mini`模型在F1分數(0.83)和成本($66/篇)之間取得了最佳平衡。

不同模型的復現成功率

再看OpenAI PaperBench:Agent離獨立復現AI論文還有多遠?-AI.x社區

? 結論:Claude 3.5 Sonnet以21.0%的得分遙遙領先,其次是OpenAI的o1(13.2%),而其他模型得分均低于10%。這清晰地呈現了當前各大模型在這一復雜任務上的能力排序。

三、總結

結論1: PaperBench為評估AI Agents復現復雜ML Paper提供了一個嚴謹且可擴展的基準。 通過將復現任務分解為細粒度的子任務,并結合LLM as Judge,該基準能夠提供客觀且高效的評估,填補了現有AI能力評估的空白。

結論2: 當前最先進的AI Agents(如Claude 3.5 Sonnet)在PaperBench上展現出初步能力,但其表現仍遠低于人類基線。 這凸顯了AI系統在處理長期、復雜研發任務(特別是需要從零開始構建代碼和成功執行實驗的任務)方面的顯著局限性,表明AI在實現完全自主的ML研究方面仍有很長的路要走。

產業應用價值:

?加速科學發現的“探路者”:雖然目前AI得分不高,但PaperBench指明了通往“AI科學家”的路徑和挑戰。未來在該基準上取得高分的模型,將有潛力在藥物發現、材料科學、氣候模擬等領域作為人類科學家的得力助手,極大加速科學探索的進程。

本文轉載自??????NLP PaperWeekly??????,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
丁香一区二区三区| 性欧美欧美巨大69| 欧美小视频在线| 欧美日韩大片一区二区三区| 亚洲天堂网视频| 欧美韩国一区| 亚洲天堂av高清| 亚洲妇熟xx妇色黄蜜桃| 超碰激情在线| 国产精品视频线看| 国产精品大全| 久草热在线观看| 午夜久久黄色| 伊人av综合网| 无码国产69精品久久久久网站| 国产精品一区二区av影院萌芽| 日韩一区中文字幕| 蜜桃免费一区二区三区| jlzzjlzzjlzz亚洲人| 天堂精品中文字幕在线| 欧美成人在线免费| av网在线播放| 久久精品国产亚洲5555| 欧美丝袜自拍制服另类| 成熟丰满熟妇高潮xxxxx视频| 午夜激情视频在线| 久久久久久久综合日本| 国产精品久久亚洲7777| 中文字幕人妻互换av久久| 精品成人在线| 美日韩精品免费观看视频| 人人人妻人人澡人人爽欧美一区| 黄色欧美在线| 日韩欧美第一区| www.51色.com| 国产精品蜜月aⅴ在线| 色综合天天性综合| 97视频久久久| 欧美亚洲系列| 一区二区三区日韩欧美精品| 亚洲一区三区视频在线观看| 国产乱理伦片a级在线观看| www.日韩在线| 国产偷国产偷亚洲高清97cao| 99热这里只有精品5| 精品一区二区三区香蕉蜜桃| 国产在线观看不卡| 中文天堂在线播放| 免费成人在线观看视频| 日韩美女免费视频| 国产尤物在线视频| 午夜亚洲精品| 欧美专区在线观看| 成人午夜视频精品一区| 日韩一级欧洲| 538国产精品一区二区免费视频| 日本少妇裸体做爰| 亚洲夜间福利| 91国内精品久久| 国产香蕉视频在线| 亚洲欧美日韩国产综合精品二区 | 国产欧美91| 久久久久久国产精品| 久久精品国产亚洲av无码娇色 | 久久6免费高清热精品| 人妻久久一区二区| 国产精品s色| 97久久精品人搡人人玩| 日本在线播放视频| 日韩中文字幕麻豆| 国产精品久久久久久网站| 色婷婷久久综合中文久久蜜桃av| 蜜桃av一区二区在线观看| 国产精品视频网| 精品国产伦一区二区三| 成人午夜看片网址| 蜜桃视频日韩| 午夜视频在线观看网站| 一区二区三区四区在线播放| 精品无码国产一区二区三区av| 秋霞伦理一区| 欧美午夜在线一二页| 一级网站在线观看| 国产精品调教| 国产亚洲欧美视频| 国产激情无码一区二区三区| 国产精品99一区二区| 欧美在线免费观看| 影音先锋国产在线| 国产高清在线精品| 久久99精品久久久久子伦| 国产精品二线| 亚洲综合丁香婷婷六月香| 国产超级av在线| 91麻豆精品| 日韩成人网免费视频| 正在播放国产对白害羞| 狠狠色丁香久久综合频道| 国产成人啪精品视频免费网| av网站免费大全| www久久精品| 青春草在线视频免费观看| 国产传媒在线观看| 67194成人在线观看| 国产精品久久AV无码| 91精品综合| 日本免费一区二区三区视频观看| 国产免费福利视频| 国产午夜精品美女毛片视频| 91午夜在线观看| 天堂综合在线播放| 精品亚洲国产成av人片传媒| 欧美日韩在线视频免费| 日韩av一区二区三区四区| 国产精品日本一区二区| 五月天婷婷在线视频| 日韩欧美成人区| 久久久无码人妻精品无码| 日本一区二区在线看| 69影院欧美专区视频| 国产探花精品一区二区| 国产精品免费丝袜| 日韩中文字幕组| 久草精品视频| 久久久久久中文| 国产精品免费无遮挡| 国产欧美日产一区| 91九色在线观看视频| av成人app永久免费| 久久精品人人做人人爽| 中文字幕日韩经典| 久久久亚洲欧洲日产国码αv| 国产在线播放观看| 亚洲专区**| 欧美成人全部免费| 国产伦子伦对白视频| 国产精品不卡在线观看| 欧美三级理论片| 精品国产91乱码一区二区三区四区| 欧美日韩成人网| 国产视频aaa| 亚洲丝袜制服诱惑| 欧美国产日韩另类| 久久久久久久久99精品大| 国产精品入口夜色视频大尺度 | 久久精品人人做人人爽97| 国产精品后入内射日本在线观看| 国产精品chinese在线观看| 久久69精品久久久久久久电影好 | 亚洲人成毛片在线播放| 天码人妻一区二区三区在线看 | 精品成人无码一区二区三区| 久久高清国产| 欧美中文娱乐网| 少妇精品视频一区二区免费看| 亚洲一级黄色片| 一区二区三区麻豆| 国产精品视频一区二区三区不卡| 性刺激的欧美三级视频| 色中色综合网| 成人一区二区电影| av网站大全在线| 精品乱人伦一区二区三区| 国产小视频在线看| 99在线精品免费| 成年网站在线免费观看| 欧美日韩性在线观看| 国产区精品视频| 在线播放免费av| 亚洲国产成人av在线| 51国产偷自视频区视频| 国产精品视频一二| 久久久精品视频国产| 狠久久av成人天堂| 欧美精品成人一区二区在线观看 | 无码少妇一区二区| 久久精品99国产国产精| 成人国产一区二区三区| 国内毛片久久| 国产精品91免费在线| 国产最新在线| 亚洲精品国产美女| 波多野结衣在线观看视频| 成人欧美一区二区三区视频网页| ass极品水嫩小美女ass| 西西人体一区二区| 亚洲日本japanese丝袜| 国产成人aa在线观看网站站| 日本一区二区三区四区视频| 国产精品va在线观看视色| 亚洲第一网中文字幕| 中国精品一区二区| 亚洲电影一区二区| 午夜黄色福利视频| 北条麻妃国产九九精品视频| 色婷婷一区二区三区av免费看| 国产一区激情| 亚洲欧美日韩精品在线| 国产精品传媒| 91欧美激情另类亚洲| 天堂中文在线播放| 久热国产精品视频| 飘雪影视在线观看免费观看| 日韩一区二区精品| 国产视频1区2区| 亚洲综合在线五月| 可以免费看av的网址| 91性感美女视频| 午夜影院免费观看视频| 久久精品一区| 蜜臀av无码一区二区三区| 天天超碰亚洲| 日本不卡二区| 国产一区福利| 91视频免费进入| 久久av日韩| 国产成人精品电影久久久| 女人天堂av在线播放| 久久久国产一区| 午夜激情在线观看| 亚洲区在线播放| 四虎永久在线精品免费网址| 日韩一级黄色大片| 国产精品一区二区人人爽| 色欧美乱欧美15图片| 日韩少妇裸体做爰视频| 亚洲另类在线视频| 麻豆明星ai换脸视频| 中文字幕乱码亚洲精品一区| 右手影院亚洲欧美| 91在线视频播放| 在线观看亚洲免费视频| 国产 日韩 欧美大片| 性久久久久久久久久久久久久| 久久精品久久精品| 亚洲欧美视频二区| 老色鬼久久亚洲一区二区| 99热在线这里只有精品| 亚洲日本国产| 亚洲中文字幕无码av永久| 国产精品v亚洲精品v日韩精品 | 亚洲精选一区| 国产视频在线观看网站| 欧美理论在线| 亚洲精品国产suv一区88| 一精品久久久| 国产高清不卡无码视频| 午夜久久福利| www.射射射| 一区二区精品| 免费av网址在线| 久久国产精品毛片| 国产一区视频免费观看| 青青草97国产精品免费观看 | 国产成人无码精品久久久久| 亚洲不卡一区二区三区| 国产午夜视频在线播放| 五月婷婷激情综合| √资源天堂中文在线| 日韩欧美在线一区| 青青艹在线观看| 欧美日本视频在线| 国产精品主播一区二区| 日韩美女主播在线视频一区二区三区| 亚洲成熟女性毛茸茸| 亚洲福利小视频| 色鬼7777久久| 伊人成人开心激情综合网| 免费a级在线播放| 久久99青青精品免费观看| 俺来也官网欧美久久精品| 91精品国产高清久久久久久久久 | 国产三级在线播放| 色综合五月天导航| 成人超碰在线| 国产精品成人国产乱一区 | 国产精品免费一区二区三区在线观看| 欧美日韩另类图片| 亚洲高清精品中出| 欧美激情偷拍| 日韩视频第二页| 久久成人久久鬼色| 亚洲色图欧美另类| 久久精品一区二区| 精品国产精品国产精品| 婷婷成人激情在线网| 毛片在线免费播放| 日韩欧美国产精品| 九色网友自拍视频手机在线| 久久人体大胆视频| 深夜在线视频| 91精品视频免费| 日韩精品欧美大片| 最新中文字幕久久| 久久国产精品毛片| 丰满人妻一区二区三区大胸| 久久蜜臀中文字幕| 黄色片在线观看网站| 日韩欧美精品在线观看| 国产日韩欧美中文字幕| 亚洲人成人99网站| 日本在线观看大片免费视频| 国产精品男女猛烈高潮激情| 米奇精品关键词| 亚洲第一综合网站| 久久久久国产精品一区三寸| 精品人妻一区二区乱码| 欧美国产综合一区二区| 日韩欧美视频在线免费观看| 欧美精品在线观看一区二区| 欧洲一级在线观看| 久久久久国产视频| 国产精品亚洲欧美日韩一区在线| 欧美日韩在线观看一区| 亚洲免费激情| 日批视频免费看| 亚洲精品午夜久久久| 制服丝袜在线一区| 亚洲欧美激情另类校园| sm在线播放| 国产精品久久亚洲| 欧美一区在线看| 欧美大片久久久| 国产精品久久久久影院亚瑟| 久久久精品视频网站| 亚洲国产99精品国自产| 欧美videossex另类| 91免费高清视频| 国产精品久久久久无码av| 国产wwwxx| 国产日韩欧美综合在线| 亚洲日本视频在线观看| 亚洲国产精品嫩草影院久久| 激情av在线| 高清视频一区二区三区| 欧美区亚洲区| 69久久精品无码一区二区| 亚洲人成网站色在线观看| 一级做a爱片性色毛片| 在线观看日韩视频| 韩国理伦片久久电影网| 日韩三级电影| 日本va欧美va瓶| 精品丰满少妇一区二区三区| 欧美性猛片xxxx免费看久爱| 成人午夜电影在线观看| 国产精品欧美一区二区| 成人一区不卡| 女人高潮一级片| 亚洲乱码国产乱码精品精98午夜| 国产不卡精品视频| 欧美激情伊人电影| 麻豆国产欧美一区二区三区r| 中国丰满熟妇xxxx性| 成人精品小蝌蚪| 一区二区三区视频在线观看免费| av成人手机在线| 2021国产精品视频| 欧美日韩播放| 天天爱天天操天天干| 中文字幕中文乱码欧美一区二区| 91好色先生tv| 欧美日韩国产成人| 盗摄系列偷拍视频精品tp| 看av免费毛片手机播放| 国产欧美一区二区三区网站| 中文字幕一区二区三区人妻四季| 日韩中文字幕在线| 麻豆精品一区| 成年人网站免费视频| 久久精品亚洲乱码伦伦中文| 国产精品亚洲lv粉色| 久久久久久久一区二区三区| 竹菊久久久久久久| 伊人网在线综合| 亚洲丶国产丶欧美一区二区三区| 欧美精品少妇| 成人福利在线观看| 伊人激情综合| 一级片视频免费看| 日韩三级视频在线看| 伊伊综合在线| 欧美精品久久96人妻无码| 成人v精品蜜桃久久一区| 91在线视频免费播放| 久久婷婷国产麻豆91天堂| 狠狠久久伊人| 在线观看亚洲色图| 亚洲成av人片在线| p色视频免费在线观看| 91视频免费进入| 男人的天堂久久精品| 久久黄色免费视频| 国产一区二区三区在线| jazzjazz国产精品久久| 自拍偷拍 国产| 午夜欧美大尺度福利影院在线看| 最新av网站在线观看| 国产亚洲二区| 极品美女销魂一区二区三区免费|