精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架” 原創

發布于 2025-4-3 13:37
瀏覽
0收藏

編輯 | 李美涵

出品 | 51CTO技術棧(微信號:blog51cto)

深夜,OpenAI再次發力Agent領域,開源了一個全新的AI Agent評測基準—— PaperBench。

這是一個用于評估 AI 智能體復現最前沿 AI 研究能力的基準測試。智能體需從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文,包括理解論文貢獻、構建代碼庫并成功執行實驗。

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

看得出,OpenAI新的基準測試PaperBench,無疑是想將現在DeepResearch的功能更近一步,劍指AI科學家、甚至諾獎級AI。

那么AI搞科研的水平目前咋樣呢?

OpenAI也用這個最新基準測試了一把目前最頂尖的LLM,結果就是——人類并沒有一敗涂地!“頂尖的“人工智能博士”嘗試了 PaperBench 的一個子集,結果發現模型的性能尚未超過人類基線。”

有趣的是,在OpenAI家的基準上,表現最好的居然是死對頭Anthropic。使用開源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均復現得分為 21.0%。

OpenAI指出,智能體的失敗顯示出當前模型在執行 長時間、多步驟任務 上的弱點。盡管它們能規劃多步驟計劃、寫出流程,卻很難真正一步步執行這些計劃。

OpenAI已經開源PaperBench代碼,旨在推動未來對 AI 智能體工程能力的研究:

開源地址:

??https://github.com/openai/preparedness/tree/main/project/paperbench??

論文閱讀:

??https://openai.com/index/paperbench/??

那么,我們來看看PaperBench究竟指明了Agent進化的那些方向,又是如何構成的?

1.PaperBench層級評分樹:包含 8,316可單獨評分的子任務

為實現客觀評估智能體能力,OpenAI整了一套“套娃式”的評分標準。

將每個復現任務按層次細分為多個小任務,并配有明確的評分標準。整個 PaperBench 共包含 8,316 個可單獨評分的子任務。這些評分標準專業到是由OpenAI成員和每篇 ICML 論文的作者共同開發,那真的是很權威了。

那怎么能方便地給每個智能體評分呢?——外包給AI,OpenAI開發了一個基于大語言模型(LLM)的自動評分系統,AI評估AI。

然后又套娃了一把:OpenAI又另外構建了一個專門的評分基準來評估該評分系統本身的性能,驗證下這個 LLM 評委到底靠不靠譜。

我們來看一下這個層級樹具體如何為AI打分:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

 層級結構說明:
  • 頂層節點(例如圖中最上方 “.55”) 表示某個大的復現目標,比如“成功實現某個算法”。
  • 中間節點 表示這個目標的子目標,比如“能正確實現 Transformer 的結構”。
  • 底層葉子節點(藍色或紅色圓圈) 是可以直接打分的最小任務單元,比如“實現了 Attention 模塊”、“設置了正確的超參數”等。

圖中右邊的文字說明:

  • 每一層越往下,要求越具體(finer granularity)。
  • 所有的葉子節點都由評審(LLM)逐個打分(1 表示通過,0 表示失敗)。
  • 每個子任務都有一個權重(灰色數字),最終通過加權平均把得分向上傳遞,得出總得分。

以"測試時模型自適應"論文為例,其評分樹結構如下:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖源:知乎@北方的郎

2.智能體搞科研:被發1000美元的OpenAI API額度,和一個工具箱

在OpenAI的論文中提到了測試環境:每個智能體都在一個 Ubuntu 24.04 的 Docker 容器中運行,該容器配備了一塊 A10 GPU。

智能體在容器內有一個本地工作目錄,其中包含:

  • 論文的 PDF 和 Markdown 格式版本,
  • 補充材料(addendum),
  • 以及一份指令文本文件。

Docker容器可以訪問互聯網,方便智能體:

  • 下載依賴包,
  • 瀏覽網頁查找資料等。

還為智能體提供了:

  • HuggingFace 和 OpenAI 的 API key,
  • 每個 key 預裝了 1000 美元額度,用于智能體在運行過程中調用這些服務(例如,如果某篇論文需要用到 OpenAI 的微調 API 來運行實驗)。

此外,OpenAI還使用了一個基于 Inspect AI 基礎智能體 的簡單智能體腳手架,稱為 BasicAgent,并用 nanoeval 來調度運行。

這個腳手架會循環調用各種工具,直到模型選擇自行終止,或時間用完為止。

在運行過程中,智能體還獲得了一個原始工具箱,可以調用幾種工具:

  • 一個 Bash shell 命令執行工具,
  • 一個 Python 代碼執行工具,
  • 一個網頁瀏覽器工具,
  • 一個分頁文件閱讀器(用于閱讀長文檔)。

3.人機對照:AI在前24小時表現優于人類,然后被反超

我們先來看看AI對戰的結果:

OpenAI在所有 20 篇論文上評估了以下模型,每篇論文運行 3 次:GPT-4o、 o1、  o3-mini、  DeepSeek-R1、  Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash參與了這次競賽。

OpenAI還報告說,原本也想評估 Claude 3.7 Sonnet,但由于 Anthropic API 的調用限制,未能完成實驗。小編想,如果測成了Anthropic的評分可能更高?

來看一下這個榜單,其中Claude 3.5 Sonnet 表現最亮眼,得分 21.0%;R1的表現也算不錯,在其中位列第三名。

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

通過手動查看了多個智能體的運行日志,OpenAI發現:

  • 智能體經常偷懶擺爛:除了 Claude 3.5 Sonnet 外,其他模型經常提前結束任務,說要么“已經完成了復現”,要么“遇到了無法解決的問題”。
  • 策略不合理:所有模型都沒有制定出 在有限時間內復現論文的合理策略。
  • 工具調用有問題:o3-mini 經常在工具使用上失敗。(這也是o3-mini慘敗的重要原因,只能動腦不能動手)

再來看這個基準上的人機對戰結果:

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”-AI.x社區圖片

雖然人類三小時后取勝了,但是看看OpenAI招募的測試員,還是感覺一陣冷汗了:參與和頂尖智能體PK的 8 個人類,均為正在攻讀或已完成機器學習博士(PhD)的人來構建人類基線(human baseline)。(注:他們來自伯克利、劍橋、卡內基梅隆、哥倫比亞、康奈爾、普渡、維也納理工、麻省大學阿默斯特)

這次只在 4 篇論文上建立人類基線。每篇論文安排 3 次獨立的復現實驗,每次由參與者中最有信心復現該論文的人來執行。

與此同時,OpenAI也對 o1 模型(使用 IterativeAgent)進行了一個 36 小時擴展實驗,并在第 1、3、6、12、36 小時分別保存快照。

我們將這個 o1 的 36 小時版本與人類的表現隨時間變化進行了對比。發現:

  • 在復現初期,o1 模型表現超過人類基線;
  • 但在 24 小時后,人類的表現開始反超 AI。

這一趨勢與 Wijk 等人(2024)以前的研究一致:AI 初期輸出快、人類后勁更強。

特別值得注意的是,o1 的得分在第一小時后幾乎就停滯了,說明它雖然能迅速產出大量代碼,但難以在更長時間內有效策略性地優化方案。

相比之下,人類在初期得分提升緩慢,可能是因為他們花時間認真理解論文內容。

4.寫在最后:智能體離“又好又便宜”還差很遠

OpenAI 的 PaperBench,像是一場酣暢淋漓的機器學習界“神仙打架”——AI 和頂尖人類選手打得有來有回,而最終人類的反超,也像是武俠電影結尾中的神來一筆。

這次“AI 智能體 vs 滿級 PhD 工程師”的對決,既展現了智能體的潛力,也提醒我們:真正的科研復現,還遠不只是“寫出代碼”這么簡單。

而另一方面,智能體也遠不便宜。就在上周,負責維護 ARC-AGI 的 Arc Prize 基金會更新了 o3 的計算成本:該機構最初估計,在測試中表現最好的 o3 配置(即 o3 high)解決一道 ARC-AGI 題目的成本約為 3,000 美元。最近已經更正到高達 30,000 美元。而此前OpenAI 也被外媒曝出可能會為某些 AI Agent 收取每月 2 萬美元的企業級費用。更讓人警醒的是,o3 high 為了完美答對一道題,平均嘗試了 1024 次。

當下的 AI 模型也許足夠強,但想高效、可控地替代人類,還沒那么快。

本文轉載自??51CTO技術棧??,作者:李美涵

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
jizz性欧美| 日韩黄色一级视频| 久久免费视频66| 日韩欧美高清视频| 日韩精品一区二区三区丰满| 国产色在线视频| 国产精品一二| 美女av一区二区三区| 久久人人妻人人人人妻性色av| 第四色男人最爱上成人网| 亚洲人成网站色在线观看| 久久久久久久久久久久久9999| 在线免费观看视频网站| 亚洲人成人一区二区三区| 国产一区二区三区毛片| 国产成人av片| 电影亚洲一区| 狠狠综合久久av一区二区小说| 久久av秘一区二区三区| 外国精品视频在线观看| 国产成人免费视频网站| 国产日韩精品在线观看| 91玉足脚交嫩脚丫在线播放| 欧美体内she精视频在线观看| 自拍偷拍亚洲区| 麻豆精品国产传媒av| 精品久久国产一区| 精品婷婷伊人一区三区三| 怡红院av亚洲一区二区三区h| 超碰在线网址| 国产精品三级在线观看| 蜜桃成人在线| 天堂网2014av| 成人丝袜高跟foot| 亚洲自拍av在线| 亚洲最大成人在线视频| 日韩vs国产vs欧美| 青青草成人在线| 亚洲一区欧美在线| 精品成人在线| 欧美高清videos高潮hd| 欧美精品久久久久性色| 亚洲h色精品| 日日骚久久av| 美国精品一区二区| 欧美丝袜激情| 中文字幕日韩欧美在线| www.狠狠爱| 精品国产123区| 亚洲天堂网在线观看| 中文字幕一二三四区| 日韩精品导航| 亚洲精品丝袜日韩| 亚洲成人日韩在线| 亚洲自拍都市欧美小说| 精品亚洲一区二区三区| aaaaa级少妇高潮大片免费看| 香蕉久久夜色精品国产更新时间 | 精品少妇一区二区三区在线| 草草影院在线| 欧美日韩免费网站| 免费观看日韩毛片| 成人看片在线观看| 欧美日韩在线播放一区| 欧美日韩理论片| 精品视频一区二区三区| 精品国产乱码久久久久久久久| aaa黄色大片| 欧洲在线一区| 伊人伊成久久人综合网站 | 一区二区三区精品在线观看| 黄色三级中文字幕| 国产传媒在线| 在线影视一区二区三区| 欧美成人三级在线播放| 欧美专区视频| 精品视频在线播放免| 青青草自拍偷拍| 一区二区三区在线观看免费| 国产69精品久久久久9| 无码人妻精品一区二| 久久99精品国产.久久久久| 97在线中文字幕| 久草在线青青草| 亚洲日穴在线视频| 国产综合av在线| 国产精品原创视频| 精品美女被调教视频大全网站| 精品无码国产一区二区三区51安| 国产亚洲一区二区三区啪| 久久久国产视频91| 国产小视频在线免费观看| 麻豆极品一区二区三区| 国产精品久久久久免费| 成人午夜影视| 亚洲国产视频一区| 日韩手机在线观看视频| 国产日本亚洲| 亚洲欧美日韩在线一区| 青青草精品在线视频| 亚洲自拍另类| 91久久国产自产拍夜夜嗨| 精品乱码一区二区三四区视频| 亚洲欧美国产三级| 六月丁香婷婷在线| 欧美黄视频在线观看| 在线播放精品一区二区三区| 日本亚洲欧美在线| 激情五月播播久久久精品| 欧美精品国产精品久久久 | 成人乱码一区二区三区| 国产午夜精品理论片a级大结局| 在线观看17c| 日韩毛片在线| 亚洲福利在线观看| 黄色片在线观看网站| 日韩电影一区二区三区四区| 精品日韩电影| 久久www人成免费看片中文| 欧美性极品少妇| 一本色道综合久久欧美日韩精品 | 欧美性久久久久| 超碰在线一区| 欧美大片在线看免费观看| 中文字幕乱码无码人妻系列蜜桃| 91在线免费播放| 日韩av中文字幕第一页| 精品国产亚洲一区二区三区大结局| 亚洲天堂色网站| 黑人精品无码一区二区三区AV| 成人免费看黄yyy456| 亚洲五码在线观看视频| 999精品嫩草久久久久久99| 在线激情影院一区| 中文字幕在线观看免费| 国产午夜精品一区二区 | 免费在线观看国产精品| 紧缚捆绑精品一区二区| 亚洲一区二区免费视频软件合集| 91看片一区| 国产亚洲精品日韩| 亚洲av中文无码乱人伦在线视色| 91视频免费看| 欧美女人性生活视频| 日韩av资源网| 欧美做受高潮电影o| 蜜桃成人在线视频| 色国产精品一区在线观看| 免费看黄色的视频| 日韩国产在线观看| 亚洲在线播放电影| 99久久久成人国产精品| 久久精品人人做人人爽| 国产精品亚洲欧美在线播放| 亚洲天堂精品在线观看| 亚洲精品免费一区亚洲精品免费精品一区 | 久久丫精品忘忧草西安产品| 日韩专区一卡二卡| 色一情一乱一伦一区二区三欧美 | 国产精品一区二区亚洲| 毛片av一区二区三区| 一区二区三区观看| 国内不卡的一区二区三区中文字幕| 欧美成年人视频| 天堂网在线中文| 色婷婷精品大视频在线蜜桃视频| 亚洲午夜久久久久久久国产| 久久精品国产99国产精品| 精品91一区二区三区| 中文字幕亚洲在线观看 | 91精品亚洲一区在线观看| 久久国产精品99国产精| 五月婷婷狠狠干| 色婷婷久久99综合精品jk白丝| 亚洲综合第一区| 国产精品一色哟哟哟| 超碰成人免费在线| 精品国产91乱码一区二区三区四区| 91精品久久久久久综合乱菊| 男女免费观看在线爽爽爽视频| 亚洲男人天堂视频| 国产精品玖玖玖| 天天综合天天综合色| 黄色三级生活片| 国产69精品久久久久毛片| 午夜精品久久久内射近拍高清 | 久久精品中文字幕| 天堂在线观看视频| 欧美久久免费观看| 亚洲日本韩国在线| 亚洲欧洲无码一区二区三区| 无码一区二区精品| 精品在线亚洲视频| 欧美一级在线看| 亚洲成av人电影| 欧美精品一区二区视频| 久久的色偷偷| 国产精品狠色婷| 91九色美女在线视频| 在线a欧美视频| 少妇无码一区二区三区| 欧美精品久久久久久久多人混战| 亚洲 欧美 日韩 综合| 亚洲欧美偷拍另类a∨色屁股| 好吊视频在线观看| 国产成人三级在线观看| 超碰超碰在线观看| 国产精品综合| 欧美高清中文字幕| 日韩久久电影| 欧美一区激情视频在线观看| 91蜜桃臀久久一区二区| 成人精品视频久久久久| 范冰冰一级做a爰片久久毛片| 欧美黑人巨大xxx极品| 日本三级视频在线观看| 亚洲视频在线观看| 色婷婷视频在线| 日韩欧美资源站| 国产男女裸体做爰爽爽| 欧美色图12p| 中文字幕在线播| 色综合视频在线观看| 日韩欧美中文字幕一区二区| 一区二区三区欧美久久| 一起操在线播放| 国产精品美女一区二区三区| 91激情视频在线观看| 91天堂素人约啪| 97香蕉碰碰人妻国产欧美| 菠萝蜜视频在线观看一区| 男人的天堂免费| 国产麻豆视频一区二区| aaaaaaaa毛片| 国产在线看一区| 中文字幕精品一区二区三区在线| 麻豆91在线观看| 蜜桃免费在线视频| 蜜臀久久99精品久久久久宅男| 可以在线看的黄色网址| 久久国产直播| 青青在线视频免费| 视频一区视频二区中文字幕| 97公开免费视频| 免费观看久久久4p| 国产日韩欧美久久| 精品亚洲porn| www.色.com| 国产69精品久久777的优势| 秘密基地免费观看完整版中文| 成人97人人超碰人人99| 最近中文字幕无免费| 91天堂素人约啪| xxxx日本黄色| 日韩理论片一区二区| 中文字幕在线有码| 亚洲高清视频的网址| 亚州国产精品视频| 日本乱码高清不卡字幕| 中文字幕免费播放| 91精品国产麻豆国产自产在线 | 精品国产一区二区三区在线观看| 欧美成人xxx| 久久99国产精品自在自在app | 亚洲女同一区| 国产欧美日韩网站| 日韩成人精品在线观看| 91亚洲一区二区| 99久久99久久免费精品蜜臀| 成人影视免费观看| 国产精品毛片久久久久久| 国产va在线播放| 狠狠做深爱婷婷久久综合一区| av手机天堂网| 日韩一区二区在线看| 天天在线女人的天堂视频| 中文在线资源观看视频网站免费不卡| а√中文在线8| 91禁外国网站| 亚洲我射av| 国产一区喷水| 手机在线电影一区| 草b视频在线观看| 日韩电影免费在线看| 久久久国产精品久久久| 久久久久久夜精品精品免费| 爱爱视频免费在线观看| 日韩欧美成人区| 亚洲AV无码精品色毛片浪潮| 亚洲色图校园春色| 青草青在线视频| 国产精品免费久久久久影院| 国产亚洲精品美女久久| 亚洲精品第一区二区三区| 亚洲大片av| 一个色综合久久| 久久婷婷成人综合色| 国产精品久久久精品四季影院| 色噜噜狠狠成人网p站| 不卡视频在线播放| 日韩中文字幕免费视频| 另类专区亚洲| 国产精品一区二区三区不卡| 国产精品久久久久久影院8一贰佰| 黄色免费观看视频网站| 国产精品一二三四| 战狼4完整免费观看在线播放版| 欧美日韩亚洲一区二区三区| www.黄色片| 日韩视频免费在线| 日韩欧美一区二区三区在线观看| 国产精品果冻传媒潘| 羞羞答答成人影院www| 波多野结衣家庭教师视频| 粉嫩嫩av羞羞动漫久久久| 特一级黄色录像| 欧美日韩免费一区二区三区| 男生女生差差差的视频在线观看| 国产综合在线看| 清纯唯美激情亚洲| 99re99热| 激情另类小说区图片区视频区| 91l九色lporny| 一本一道久久a久久精品综合蜜臀| 亚洲精品视频专区| 美女国内精品自产拍在线播放| 欧美日韩女优| 午夜精品一区二区在线观看的| 午夜综合激情| 天堂久久久久久| 午夜不卡av在线| 男人天堂网在线视频| 久久久最新网址| 久久精品国产亚洲5555| 成年女人18级毛片毛片免费| 国产精品一品二品| 精品午夜福利在线观看| 精品美女一区二区| 国产第一页在线| 国产免费一区二区| 亚洲三级电影在线观看| 国产视频精品视频| 午夜精品久久久久久久久久| 日本美女一级视频| 午夜免费日韩视频| 香蕉国产成人午夜av影院| 国产a级片免费观看| 久久精品人人做人人爽人人| 日韩欧美在线观看免费| 国产亚洲欧美日韩精品| 久久精品国产福利| 日本丰满少妇黄大片在线观看| 狠狠色丁香久久婷婷综合_中 | 成人区精品一区二区| 伊人久久亚洲热| 精品人妻一区二区三区视频| 欧美在线综合视频| 超碰在线无需免费| 国产乱码精品一区二区三区不卡| 99国产精品私拍| 欧洲av一区二区三区| 欧美日韩在线精品一区二区三区激情| 嫩草香蕉在线91一二三区| 99久久国产免费免费| 国产亚洲永久域名| 欧美亚洲色综久久精品国产| 8x8x8国产精品| 久草在线视频资源| 久久人人九九| 久久成人羞羞网站| 麻豆亚洲av熟女国产一区二| 国产视频丨精品|在线观看| 久久精品黄色| 日韩精品一区二区免费| 国产亚洲一区二区三区四区| 国产精品无码AV| 81精品国产乱码久久久久久| 日本道不卡免费一区| 免费人成视频在线播放| 精品国产乱码久久久久久婷婷 | 欧美一级淫片播放口| 日韩午夜电影网| 天天躁日日躁狠狠躁av麻豆男男| 在线观看亚洲一区| 免费在线国产视频| 日韩精品第一页| 国产成人在线看| 精人妻无码一区二区三区| 欧美成人网在线| 国产精品三级| 美女被爆操网站| 欧美色老头old∨ideo| av中文在线资源| 日产精品久久久一区二区| 国产精品自拍毛片| 97人妻精品视频一区| 国内精品久久久久影院优| 亚州av乱码久久精品蜜桃| 日本xxxxxxxxx18| 精品欧美乱码久久久久久 |