精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

人類贏了!OpenAI深夜開源全新Agent評測基準!AI大戰頂尖人類,上演機器學習屆“神仙打架”;R1排第三,Claude奪冠

原創 精選
人工智能
OpenAI 的 PaperBench,像是一場酣暢淋漓的機器學習界“神仙打架”——AI 和頂尖人類選手打得有來有回,而最終人類的反超,也像是武俠電影結尾中的神來一筆。

編輯 | 李美涵

出品 | 51CTO技術棧(微信號:blog51cto)

深夜,OpenAI再次發力Agent領域,開源了一個全新的AI Agent評測基準—— PaperBench。

這是一個用于評估 AI 智能體復現最前沿 AI 研究能力的基準測試。智能體需從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文,包括理解論文貢獻、構建代碼庫并成功執行實驗。

圖片圖片

看得出,OpenAI新的基準測試PaperBench,無疑是想將現在DeepResearch的功能更近一步,劍指AI科學家、甚至諾獎級AI。

那么AI搞科研的水平目前咋樣呢?

OpenAI也用這個最新基準測試了一把目前最頂尖的LLM,結果就是——人類并沒有一敗涂地!“頂尖的“人工智能博士”嘗試了 PaperBench 的一個子集,結果發現模型的性能尚未超過人類基線。”

有趣的是,在OpenAI家的基準上,表現最好的居然是死對頭Anthropic。使用開源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均復現得分為 21.0%。

OpenAI指出,智能體的失敗顯示出當前模型在執行 長時間、多步驟任務 上的弱點。盡管它們能規劃多步驟計劃、寫出流程,卻很難真正一步步執行這些計劃。

OpenAI已經開源PaperBench代碼,旨在推動未來對 AI 智能體工程能力的研究:

開源地址:

https://github.com/openai/preparedness/tree/main/project/paperbench

論文閱讀:

https://openai.com/index/paperbench/

那么,我們來看看PaperBench究竟指明了Agent進化的那些方向,又是如何構成的?

1.PaperBench層級評分樹:包含 8,316可單獨評分的子任務

為實現客觀評估智能體能力,OpenAI整了一套“套娃式”的評分標準。

將每個復現任務按層次細分為多個小任務,并配有明確的評分標準。整個 PaperBench 共包含 8,316 個可單獨評分的子任務。這些評分標準專業到是由OpenAI成員和每篇 ICML 論文的作者共同開發,那真的是很權威了。

那怎么能方便地給每個智能體評分呢?——外包給AI,OpenAI開發了一個基于大語言模型(LLM)的自動評分系統,AI評估AI。

然后又套娃了一把:OpenAI又另外構建了一個專門的評分基準來評估該評分系統本身的性能,驗證下這個 LLM 評委到底靠不靠譜。

我們來看一下這個層級樹具體如何為AI打分:

圖片圖片

 層級結構說明:
  • 頂層節點(例如圖中最上方 “.55”) 表示某個大的復現目標,比如“成功實現某個算法”。
  • 中間節點 表示這個目標的子目標,比如“能正確實現 Transformer 的結構”。
  • 底層葉子節點(藍色或紅色圓圈) 是可以直接打分的最小任務單元,比如“實現了 Attention 模塊”、“設置了正確的超參數”等。

圖中右邊的文字說明:

  • 每一層越往下,要求越具體(finer granularity)。
  • 所有的葉子節點都由評審(LLM)逐個打分(1 表示通過,0 表示失敗)。
  • 每個子任務都有一個權重(灰色數字),最終通過加權平均把得分向上傳遞,得出總得分。

以"測試時模型自適應"論文為例,其評分樹結構如下:

圖源:知乎@北方的郎圖源:知乎@北方的郎

2.智能體搞科研:被發1000美元的OpenAI API額度,和一個工具箱

在OpenAI的論文中提到了測試環境:每個智能體都在一個 Ubuntu 24.04 的 Docker 容器中運行,該容器配備了一塊 A10 GPU。

智能體在容器內有一個本地工作目錄,其中包含:

  • 論文的 PDF 和 Markdown 格式版本,
  • 補充材料(addendum),
  • 以及一份指令文本文件。

Docker容器可以訪問互聯網,方便智能體:

  • 下載依賴包,
  • 瀏覽網頁查找資料等。

還為智能體提供了:

  • HuggingFace 和 OpenAI 的 API key,
  • 每個 key 預裝了 1000 美元額度,用于智能體在運行過程中調用這些服務(例如,如果某篇論文需要用到 OpenAI 的微調 API 來運行實驗)。

此外,OpenAI還使用了一個基于 Inspect AI 基礎智能體 的簡單智能體腳手架,稱為 BasicAgent,并用 nanoeval 來調度運行。

這個腳手架會循環調用各種工具,直到模型選擇自行終止,或時間用完為止。

在運行過程中,智能體還獲得了一個原始工具箱,可以調用幾種工具:

  • 一個 Bash shell 命令執行工具,
  • 一個 Python 代碼執行工具,
  • 一個網頁瀏覽器工具,
  • 一個分頁文件閱讀器(用于閱讀長文檔)。

3.人機對照:AI在前24小時表現優于人類,然后被反超

我們先來看看AI對戰的結果:

OpenAI在所有 20 篇論文上評估了以下模型,每篇論文運行 3 次:GPT-4o、 o1、  o3-mini、  DeepSeek-R1、  Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash參與了這次競賽。

OpenAI還報告說,原本也想評估 Claude 3.7 Sonnet,但由于 Anthropic API 的調用限制,未能完成實驗。小編想,如果測成了Anthropic的評分可能更高?

來看一下這個榜單,其中Claude 3.5 Sonnet 表現最亮眼,得分 21.0%;R1的表現也算不錯,在其中位列第三名。

圖片圖片

通過手動查看了多個智能體的運行日志,OpenAI發現:

  • 智能體經常偷懶擺爛:除了 Claude 3.5 Sonnet 外,其他模型經常提前結束任務,說要么“已經完成了復現”,要么“遇到了無法解決的問題”。
  • 策略不合理:所有模型都沒有制定出 在有限時間內復現論文的合理策略。
  • 工具調用有問題:o3-mini 經常在工具使用上失敗。(這也是o3-mini慘敗的重要原因,只能動腦不能動手)

再來看這個基準上的人機對戰結果:

圖片圖片

雖然人類三小時后取勝了,但是看看OpenAI招募的測試員,還是感覺一陣冷汗了:參與和頂尖智能體PK的 8 個人類,均為正在攻讀或已完成機器學習博士(PhD)的人來構建人類基線(human baseline)。(注:他們來自伯克利、劍橋、卡內基梅隆、哥倫比亞、康奈爾、普渡、維也納理工、麻省大學阿默斯特)

這次只在 4 篇論文上建立人類基線。每篇論文安排 3 次獨立的復現實驗,每次由參與者中最有信心復現該論文的人來執行。

與此同時,OpenAI也對 o1 模型(使用 IterativeAgent)進行了一個 36 小時擴展實驗,并在第 1、3、6、12、36 小時分別保存快照。

我們將這個 o1 的 36 小時版本與人類的表現隨時間變化進行了對比。發現:

  • 在復現初期,o1 模型表現超過人類基線;
  • 但在 24 小時后,人類的表現開始反超 AI。

這一趨勢與 Wijk 等人(2024)以前的研究一致:AI 初期輸出快、人類后勁更強。

特別值得注意的是,o1 的得分在第一小時后幾乎就停滯了,說明它雖然能迅速產出大量代碼,但難以在更長時間內有效策略性地優化方案。

相比之下,人類在初期得分提升緩慢,可能是因為他們花時間認真理解論文內容。

4.寫在最后:智能體離“又好又便宜”還差很遠

OpenAI 的 PaperBench,像是一場酣暢淋漓的機器學習界“神仙打架”——AI 和頂尖人類選手打得有來有回,而最終人類的反超,也像是武俠電影結尾中的神來一筆。

這次“AI 智能體 vs 滿級 PhD 工程師”的對決,既展現了智能體的潛力,也提醒我們:真正的科研復現,還遠不只是“寫出代碼”這么簡單。

而另一方面,智能體也遠不便宜。就在上周,負責維護 ARC-AGI 的 Arc Prize 基金會更新了 o3 的計算成本:該機構最初估計,在測試中表現最好的 o3 配置(即 o3 high)解決一道 ARC-AGI 題目的成本約為 3,000 美元。最近已經更正到高達 30,000 美元。而此前OpenAI 也被外媒曝出可能會為某些 AI Agent 收取每月 2 萬美元的企業級費用。更讓人警醒的是,o3 high 為了完美答對一道題,平均嘗試了 1024 次。

當下的 AI 模型也許足夠強,但想高效、可控地替代人類,還沒那么快。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://www.jxzklqfsx.com/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2025-02-03 12:07:52

2024-10-23 09:20:00

2019-12-08 18:38:17

網絡安全國際網絡安全大賽

2025-03-06 09:55:49

2025-02-28 08:30:00

2022-02-09 17:19:07

谷歌亞馬遜微軟

2021-07-28 11:54:09

阿里云AI自然語言理解

2025-05-14 10:09:12

2025-01-21 11:53:53

2025-10-28 09:27:04

2021-01-12 06:13:23

AI人工智能機器人

2017-06-09 11:20:47

高考AI教育

2025-07-01 09:02:06

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2024-03-25 06:53:34

OpenAIAI 復活親人

2020-09-07 14:15:16

AI 數據人工智能

2020-06-29 14:29:07

人工智能人類工作

2024-03-05 10:55:22

OpenAISOTAClaude 3

2024-10-25 13:30:00

2025-04-04 00:00:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

午夜私人影院久久久久| 久久久久91| 亚洲精品一区二区三区福利| 三上悠亚久久精品| 成人77777| 狠狠色丁香久久婷婷综合丁香| 欧美精品性视频| av鲁丝一区鲁丝二区鲁丝三区| 成人开心激情| 一级中文字幕一区二区| 欧美精品久久| 精品国产乱码久久久久久蜜臀网站| 99亚洲视频| 久久亚洲精品网站| 四虎国产精品成人免费入口| 久久国际精品| 欧美无砖砖区免费| 免费看黄在线看| 免费大片黄在线观看视频网站| 成人av在线电影| 成人黄色免费片| 成人在线免费看视频| 91av精品| 一色桃子一区二区| 国产精品久久AV无码| 视频欧美精品| 91福利国产精品| 妺妺窝人体色777777| 黄色免费在线网站| 久久久久国产免费免费| 国产日本一区二区三区| 99久久精品国产一区色| 美女网站一区二区| 国产不卡视频在线| 日韩aaaaaa| 亚洲手机视频| 欧美久久精品一级黑人c片| x88av在线| 国产99久久| 亚洲精品在线91| 黄色网址在线视频| 福利电影一区| 精品sm捆绑视频| 一区二区在线免费观看视频| 日韩一级视频| 欧美剧情片在线观看| 亚洲人成色77777| 特黄毛片在线观看| 精品国产鲁一鲁一区二区张丽| 2022中文字幕| 视频在线观看入口黄最新永久免费国产| 国产精品美女一区二区三区 | 精品国自产在线观看| 丝袜美腿成人在线| 国产99视频精品免视看7| 51国产偷自视频区视频| 国产欧美一级| 欧美专区在线播放| 可以免费看的av毛片| 亚洲美女少妇无套啪啪呻吟| 午夜精品久久久久久久男人的天堂| 在线免费观看亚洲视频| 国产精品jizz在线观看美国| 欧美疯狂性受xxxxx另类| 青青草激情视频| 欧美激情无毛| 午夜免费在线观看精品视频| 精品视频一区二区在线观看| 亚洲国产日本| 国产成人精品优优av| 亚洲色成人www永久网站| 日本视频免费一区| 成人免费网站在线看| 99产精品成人啪免费网站| 国产成人在线视频网址| 国产一区二区自拍| 国产一级网站视频在线| 亚洲欧美在线另类| 国产免费内射又粗又爽密桃视频| 日本成人不卡| 欧美三级xxx| 天堂视频免费看| 视频精品一区二区三区| 日韩电影在线观看中文字幕| a级大片在线观看| 亚洲人成免费网站| 97香蕉超级碰碰久久免费软件 | 制服诱惑一区二区| 国产精品高潮呻吟久久av黑人| 一级特黄aaa| jvid福利写真一区二区三区| 日韩色妇久久av| 日韩精品卡一| 在线欧美一区二区| 久久久久久久久久久影视| 天堂成人娱乐在线视频免费播放网站 | 亚洲欧洲精品天堂一级| 缅甸午夜性猛交xxxx| 欧美123区| 精品不卡在线视频| 蜜桃av.com| 国产精品日本| 91精品国产91久久久久青草| 婷婷国产在线| 亚洲免费视频成人| 美女黄色片视频| 久久草在线视频| 北条麻妃久久精品| 无码人妻精品一区二区50| 国产一区二区三区四| 欧美午夜精品久久久久久蜜| 呦呦在线视频| 欧美视频中文字幕| 亚洲男人在线天堂| 欧美久久成人| 国产一区二区在线免费视频| 三级在线观看| 亚洲成人av电影| 中文字幕第三区| 第四色成人网| 欧美自拍视频在线观看| 成人免费视频国产| 亚洲欧美另类图片小说| 黄色免费网址大全| 视频一区欧美| 欧洲一区二区视频| 婷婷丁香花五月天| 综合欧美亚洲日本| 亚洲第一狼人区| 精品99久久| 欧美最近摘花xxxx摘花| 欧美 中文字幕| 一级特黄大欧美久久久| 午夜免费视频网站| 国产精品videosex性欧美| 国产精品黄视频| 伦理片一区二区三区| 精品日韩中文字幕| 第四色在线视频| 亚洲久久在线| 国产在线精品二区| bbw在线视频| 亚洲黄色有码视频| 日韩美女视频网站| 97久久人人超碰| 国产福利视频在线播放| 色愁久久久久久| 欧美又大又粗又长| 久久久资源网| 欧美综合久久久| 长河落日免费高清观看| 蜜桃91丨九色丨蝌蚪91桃色| 亚洲精品在线免费看| 岛国精品在线| 久久精品亚洲热| 99精品视频免费看| 亚洲一二三专区| 国产老熟女伦老熟妇露脸| 日韩视频中文| 日韩视频在线播放| 99精品视频在线免费播放| 久久偷看各类女兵18女厕嘘嘘| 国产欧美熟妇另类久久久| 一区二区三区资源| 黄色性视频网站| 久久精品亚洲| 亚洲一区高清| 欧美在线在线| 欧美一级淫片aaaaaaa视频| 国内精品一区视频| 欧美日韩国产综合一区二区三区 | 四虎影院在线播放| 欧亚洲嫩模精品一区三区| 黄色香蕉视频在线观看| 国产成人在线视频播放| 男人天堂1024| 日韩中文首页| 国产福利一区二区三区在线观看| 国产美女精品写真福利视频| 亚洲人成电影网| 国产精品综合在线| 舔着乳尖日韩一区| 久久久久99精品成人| 国产成人高清视频| 黄色国产小视频| 一区二区三区毛片免费| 国模一区二区三区私拍视频| 视频精品导航| 久久久久免费精品国产| 高清性色生活片在线观看| 欧美一级免费大片| 性色av免费观看| 亚洲黄一区二区三区| 91视频免费观看网站| 精品一区二区三区欧美| 又粗又黑又大的吊av| 亚洲中无吗在线| 欧美一区二区三区四区在线观看地址| 巨大黑人极品videos精品| 久久全国免费视频| 免费网站看v片在线a| 日韩精品在线免费观看| 国产夫妻性生活视频| 在线一区二区观看| 日韩网红少妇无码视频香港| 国产精品久久久久影院亚瑟| 精品人妻一区二区三区日产| 麻豆国产91在线播放| 噜噜噜久久亚洲精品国产品麻豆| 国产精品伦理久久久久久| 欧美精品与人动性物交免费看| 精品国产一区二区三区性色av| 欧美中文字幕视频| h片在线观看下载| 久久亚洲精品国产亚洲老地址| 九色在线观看| 日韩av影视在线| 成人午夜视频一区二区播放| 欧美性猛片aaaaaaa做受| 激情五月色婷婷| 一区二区高清在线| 老熟妻内射精品一区| 欧美激情一区二区三区四区| 国产精品福利导航| 国产a级毛片一区| 色偷偷中文字幕| 久久97超碰色| 高潮一区二区三区| 日韩不卡一区二区三区| 噜噜噜久久亚洲精品国产品麻豆 | 91豆花精品一区| 俄罗斯一级**毛片在线播放| 久久久精品欧美| 日本激情在线观看| 色青青草原桃花久久综合| 国产精品久久久久久久龚玥菲 | 欧美性天天影视| 中文字幕在线看视频国产欧美| 久久精品蜜桃| 亚洲香蕉成人av网站在线观看| 天堂av一区二区三区| 亚洲二区在线播放视频| 欧美一区二区黄片| 亚洲第一区在线| 四季av日韩精品一区| 日韩成人在线视频观看| 天堂中文资源在线观看| 亚洲国产精品久久91精品| 人妻偷人精品一区二区三区| 欧美精品一区二区三区蜜桃视频| 国产18精品乱码免费看| 精品欧美乱码久久久久久| 老牛影视av牛牛影视av| 亚洲成人精品视频| 丝袜视频国产在线播放| 亚洲欧美精品中文字幕在线| 精品乱码一区二区三四区视频 | 日韩一区二区视频| 成人免费视频国产| 日韩精品在线观| 国模吧精品人体gogo| 中文字幕一区日韩电影| av网站在线看| 97在线观看视频| 国产综合色在线观看| 国产专区欧美专区| 亚洲va欧美va人人爽成人影院| 国产精品一区二区三区不卡| 首页亚洲中字| 亚洲蜜桃av| 国产精品videossex久久发布| 精品久久久久久久久久中文字幕| 久久国产精品99国产| 中文字幕第100页| 国产98色在线|日韩| 噜噜噜在线视频| 国产精品私人影院| 久久久全国免费视频| 一本色道久久加勒比精品| 亚洲一区中文字幕永久在线| 日韩欧美成人一区| 青青草在线视频免费观看| 日韩在线播放av| 成年女人在线看片| 国产精品久久久久国产a级| 精品91福利视频| 久久综合入口| 亚洲天天影视网| 国产精品宾馆在线精品酒店| 久久99热这里只有精品| 日本69式三人交| 中文字幕中文字幕一区二区| 国产精品第九页| 欧美人牲a欧美精品| 天天av天天翘| 久久影院模特热| 美女100%一区| 2022国产精品| 欧美亚洲高清| 草草视频在线免费观看| 麻豆专区一区二区三区四区五区| 女同性恋一区二区三区| 自拍偷拍欧美精品| 69亚洲精品久久久蜜桃小说 | 毛片激情在线观看| 欧美在线视频导航| 天堂久久av| 这里只有精品66| 三级一区在线视频先锋 | 欧美一区 二区| 久久久久久久久久久久久国产| 久久久久看片| 在线免费播放av| 亚洲国产中文字幕在线视频综合 | 一区二区成人国产精品| 国产精品毛片在线| 性xxxxxxxxx| 亚洲天堂免费看| 中文字幕第315页| 亚洲毛茸茸少妇高潮呻吟| 欧美hdxxx| 91传媒视频在线观看| 欧美hentaied在线观看| 亚洲国产精品毛片av不卡在线| 不卡电影一区二区三区| 久久久久久久久久久久久久久久久| 欧美日本在线视频| 1pondo在线播放免费| 日本精品视频在线| 全球av集中精品导航福利| 日本男女交配视频| 国产乱人伦偷精品视频不卡| 亚洲欧美卡通动漫| 欧美日韩久久久一区| 在线观看免费黄视频| 国产精品免费久久久| 国产精品一区2区3区| 欧美激情成人网| 久久久久久久精| 国产一级片一区二区| 国产小视频国产精品| 桃花岛成人影院| 日韩理论片在线观看| 日韩黄色免费网站| 青娱乐国产视频| 欧美三级三级三级爽爽爽| 国产福利免费在线观看| 国产精品白丝jk喷水视频一区 | 欧美一区在线观看视频| 波多野结衣 作品| 国产 欧美在线| 久久精品人妻一区二区三区| 亚洲国产婷婷香蕉久久久久久| 123区在线| 久久综合毛片| 免费久久精品视频| caoporn91| 亚洲高清久久网| 奇米777日韩| 在线丝袜欧美日韩制服| 国内精品视频一区二区三区八戒| 色欲一区二区三区精品a片| 欧美一级久久久久久久大片| 色爱综合区网| 久久久水蜜桃| 日韩不卡一区二区三区| 精品国产视频一区二区三区| 日韩欧美中文一区| 久草在线资源站手机版| 日韩免费电影一区二区| 国内外成人在线| 国产乡下妇女做爰视频| 亚洲欧美在线播放| 中文幕av一区二区三区佐山爱| 成人av在线播放观看| 99久久伊人精品| 中文字幕乱码中文字幕| 九色精品美女在线| 一区二区三区韩国免费中文网站| 国产又粗又长又大的视频| 一区二区三区在线视频播放| 日本波多野结衣在线| 国产精品电影网站| 牛夜精品久久久久久久99黑人| 欧洲一级黄色片| 欧美欧美欧美欧美首页| 182在线播放| 亚洲一区二区在线观| 国产69精品久久久久毛片| 中文字幕在线播| 久久99青青精品免费观看| 神马电影久久| 蜜臀av粉嫩av懂色av| 欧美色图免费看| 97超碰在线免费| 五月天男人天堂| 久久男人中文字幕资源站| 精品人妻伦一二三区久久| 青草青草久热精品视频在线网站| 中文乱码免费一区二区三区下载|