精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

人工智能
前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。

2小時(shí)內(nèi),Claude和o1就能超過人類專家平均科研水平。

甚至AI還會偷摸兒“作弊”(doge)。事情是這樣的——

人類 VS AI科研能力大比拼,也有新的評估基準(zhǔn)了。

代號“RE-Bench”,由非營利研究機(jī)構(gòu)METR推出,目的是搞清:當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。

注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:

前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。

但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。

圖片

時(shí)間拉得更長(至32小時(shí))之后,研究得出結(jié)論,目前AI智能體更適合并行處理大量獨(dú)立短實(shí)驗(yàn)。

圖片

看完上述結(jié)果,知名預(yù)測師Eli Lifland認(rèn)為這“顯著縮短”了他關(guān)于AGI的時(shí)間表(連續(xù)兩年將2027年作為中位數(shù)),由此也在Reddit引起熱議。

圖片

??上也有人表示,AI自動(dòng)搞科研可能對推動(dòng)爆炸性經(jīng)濟(jì)增長至關(guān)重要。

圖片

甚至有人腦洞大開,開始美滋滋暢想躺著賺錢的生活(doge):

以后AI智能體來做科研,然后雇一群人類寫代碼……

圖片

AI更適合大量并行短時(shí)間任務(wù),長期科研還得靠人類

在RE-Bench上,研究對比了基于大語言模型構(gòu)建的Agent(目前主要公布了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。

值得注意的是,這些專家都有強(qiáng)大機(jī)器學(xué)習(xí)背景,其中很多人在頂級行業(yè)實(shí)驗(yàn)室或機(jī)器學(xué)習(xí)博士項(xiàng)目中工作。

圖片

一番PK后,研究得出了以下主要結(jié)論:

  • 2小時(shí)內(nèi),Claude和o1表現(xiàn)遠(yuǎn)超人類專家。但隨著時(shí)間增加,人類專家的能力提升更顯著;
  • 在提交新解決方案的速度上,AI是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;
  • 在編寫高效GPU內(nèi)核方面,AI表現(xiàn)超越所有人類;
  • AI的運(yùn)行成本遠(yuǎn)低于人類專家;
  • ……

總之一句話,不僅AI和人類各有所長,且不同AI都有自己最佳的科研節(jié)奏。

人類更適應(yīng)更復(fù)雜、更長時(shí)間的科研,AI更適應(yīng)大量并行短任務(wù)。

圖片

回到研究起點(diǎn),METR之所以提出RE-Bench主要是發(fā)現(xiàn):雖然很多政府和公司都在強(qiáng)調(diào),AI智能體能否自動(dòng)研發(fā)是一項(xiàng)關(guān)鍵能力。但問題是:

現(xiàn)有的評估往往側(cè)重于短期、狹窄的任務(wù),并且缺乏與人類專家的直接比較。

圖片

因此,RE-Bench想做的事兒,就是全面評估AI科研所需的技能。本次研究一共提出了7項(xiàng):

  • 高效編程:特別是在優(yōu)化算法和內(nèi)核函數(shù)(如GPU內(nèi)核)方面。
  • 機(jī)器學(xué)習(xí)理論與實(shí)踐:熟悉機(jī)器學(xué)習(xí)模型的訓(xùn)練、調(diào)優(yōu)和評估,包括神經(jīng)網(wǎng)絡(luò)架構(gòu)、超參數(shù)選擇和性能優(yōu)化;
  • 數(shù)據(jù)處理與分析。
  • 創(chuàng)新思維:能夠在面對復(fù)雜問題時(shí)提出新的方法和策略,以及跨領(lǐng)域思考。
  • 技術(shù)設(shè)計(jì):能夠設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜的系統(tǒng)和解決方案,包括軟件架構(gòu)和研究流程。
  • 問題解決。
  • 自動(dòng)化與工具開發(fā):能夠開發(fā)和使用自動(dòng)化工具來加速研究流程。

這些任務(wù)被設(shè)計(jì)在≤8小時(shí)內(nèi),以便人類專家可以使用合理的計(jì)算資源完成,從而實(shí)現(xiàn)人類與AI的直接比較。

圖片

而且主辦方特意提醒,要想獲得高分,就必須最大化利用計(jì)算資源來完成這些復(fù)雜任務(wù)。

圖片

通常來說,RE-Bench的運(yùn)行機(jī)制如下:

首先,7項(xiàng)任務(wù)都是一個(gè)獨(dú)立的評估環(huán)境,各自都有一個(gè)清晰的目標(biāo),比如優(yōu)化一個(gè)GPU內(nèi)核或者調(diào)整一個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。

為了確保任務(wù)的可比性,每個(gè)環(huán)境都提供了一個(gè)參考解決方案,這個(gè)解決方案是有效的,但效率較低,為Agent和人類專家提供了一個(gè)基準(zhǔn)點(diǎn)。

AI和人類專家都可以訪問這些環(huán)境,并且都有權(quán)限使用所需的計(jì)算資源,如GPU。

然后,AI通過自然語言處理和編程能力來執(zhí)行任務(wù),而人類專家則通過編碼和實(shí)驗(yàn)來完成任務(wù)。

執(zhí)行結(jié)束后,每個(gè)環(huán)境都有一個(gè)評分函數(shù),用于衡量Agent或人類專家提交的解決方案的效果。

當(dāng)然,評分函數(shù)會根據(jù)解決方案的性能給出一個(gè)數(shù)值得分,這個(gè)得分隨后會被歸一化,以便于在不同環(huán)境之間進(jìn)行比較。

圖片

需要注意,過程中還涉及時(shí)間預(yù)算分配(time budget)。實(shí)際情況是,人類專家通常被分配8小時(shí)來完成任務(wù),而AI則根據(jù)實(shí)驗(yàn)設(shè)計(jì)在不同的時(shí)間限制下進(jìn)行評估。

舉個(gè)例子,對AI來說,8小時(shí)的預(yù)算可以用于一次8小時(shí)的嘗試,也可以分成16次、每次30分鐘的嘗試。

最后,由于在任務(wù)執(zhí)行過程中,研究會收集AI和人類專家的解決方案日志,以及它們的得分記錄。因此最終將根據(jù)這些記錄來評估不同參與者的進(jìn)步和表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,在2小時(shí)內(nèi),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠(yuǎn)超人類。

圖片

更具體來看,如果不取多次運(yùn)行中的最佳結(jié)果(每個(gè)單獨(dú)繪制8小時(shí)運(yùn)行),AI最初比人類進(jìn)步更快,但提高分?jǐn)?shù)的速度較慢。

圖片

擴(kuò)大時(shí)間線來看,整體上人類專家在較少的長時(shí)間嘗試中表現(xiàn)更佳,而AI則從大量并行、獨(dú)立的短時(shí)間嘗試中受益。

圖片

令人印象深刻的是,盡管大多數(shù)AI只能輕微改進(jìn)參考解決方案,但一個(gè)o1-preview智能體在優(yōu)化Triton內(nèi)核運(yùn)行時(shí)間的任務(wù)中超越了人類專家的最佳解決方案。

圖片

與此同時(shí),評估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如,o1-preview智能體在應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間的任務(wù)中,編寫了只是復(fù)制最終輸出的代碼。

圖片

來自非營利研究機(jī)構(gòu)METR

以上這項(xiàng)新的基準(zhǔn)出自METR,作為一家非營利研究機(jī)構(gòu),他們主要通過實(shí)證測試評估可能對社會造成災(zāi)難性危害的AI系統(tǒng)。

圖片

目前,RE-Bench只包含7項(xiàng)任務(wù),基準(zhǔn)的劣勢也很明顯:

圖片

而且還伴隨著一個(gè)老生常談的問題:

一旦7項(xiàng)任務(wù)公開,如何防止基準(zhǔn)測試數(shù)據(jù)污染問題?

圖片

對此,METR特別提出了幾項(xiàng)措施,來避免將這些任務(wù)包含在LLM訓(xùn)練數(shù)據(jù)中,并防止過擬合。

  • 用戶應(yīng)避免發(fā)布未受保護(hù)的解決方案,以減少過擬合的風(fēng)險(xiǎn)。
  • 用戶不應(yīng)將評估材料提供給可能用于訓(xùn)練的API或服務(wù)。
  • 評估材料不應(yīng)用于訓(xùn)練或提高前沿模型的能力,除非是為了開發(fā)或?qū)嵤┪kU(xiǎn)能力評估。

圖片

更多細(xì)節(jié)歡迎查閱原論文。

論文:https://metr.org/AI_R_D_Evaluation_Report.pdf。
博客:https://metr.org/blog/2024-11-22-evaluating-r-d-capabilities-of-llms/。
GitHub:https://github.com/METR/ai-rd-tasks/tree/main。
實(shí)驗(yàn)詳細(xì)記錄:https://transcripts.metr.org/。

參考鏈接:
[1]https://twitter.com/METR_Evals/status/1860061711849652378。
[2]https://www.reddit.com/r/singularity/comments/1gxzslg/top_forecaster_significantly_shortens_his/。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-12-10 07:00:00

2025-07-01 09:02:06

2025-07-22 10:22:02

2024-12-09 13:40:00

2024-12-26 17:13:17

AI模型訓(xùn)練

2025-02-10 08:37:04

2024-10-23 09:20:00

2025-11-06 01:45:00

2024-10-30 14:25:00

GitHub模型

2023-09-26 22:12:13

數(shù)據(jù)倉庫Doris

2017-06-09 11:20:47

高考AI教育

2025-02-03 14:17:27

2025-02-07 08:33:02

2025-02-19 15:40:00

OpenAI編程模型

2015-11-23 17:34:33

秒借

2018-03-12 21:31:24

區(qū)塊鏈

2017-03-16 08:46:57

延時(shí)消息環(huán)形隊(duì)列數(shù)據(jù)結(jié)構(gòu)

2024-09-18 08:40:00

智能模型AI

2017-05-18 11:11:20

Google谷歌開發(fā)者大會

2024-12-09 08:00:00

AI大模型人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

中文字幕亚洲一区二区av在线| 久久精品卡一| 欧美xxxxxxxx| 亚洲中文字幕无码中文字| 精华区一区二区三区| 久久99精品国产.久久久久久| 久久99精品久久久久久噜噜 | 九九九久久久精品| 久久久久久999| 久久久视频6r| 日韩一二三区在线观看| 色综合久久综合网97色综合| 这里只有精品66| 神马久久久久| 国产精品自产自拍| 国产成人精品在线播放| 欧美又粗又大又长| 欧美综合另类| 亚洲精品成人久久电影| 国产无色aaa| 亚洲日本天堂| 一区二区三区影院| 亚洲va久久久噜噜噜久久狠狠 | 国产米奇在线777精品观看| 欧美一级大胆视频| 久久无码精品丰满人妻| 国产精品传媒精东影业在线| 日韩高清欧美高清| 精品无码av一区二区三区不卡| 亚洲播播91| 无码av中文一区二区三区桃花岛| 亚洲二区自拍| 你懂的免费在线观看视频网站| 国产一区二区三区日韩| 国产精品视频网址| 亚洲精品中文字幕乱码三区91| 欧美日韩精品免费观看视频完整| 中文字幕精品国产| 粉嫩av蜜桃av蜜臀av| 久9re热视频这里只有精品| 91.成人天堂一区| 天堂中文视频在线| 欧美极品影院| 日韩欧美在线视频日韩欧美在线视频| 免费特级黄色片| 毛片在线网址| 亚洲午夜在线视频| 久久亚洲国产成人精品无码区| 3p在线观看| 欧美激情综合在线| 日韩高清国产一区在线观看| 三级在线播放| 久久无码av三级| 久久久久久欧美精品色一二三四| 天天色天天操天天射| av在线播放不卡| 国产一区福利视频| 天堂av一区二区三区| 成人av在线网站| 国产精品免费看一区二区三区| 亚洲卡一卡二卡三| 国产99精品国产| 国产美女在线精品免费观看| 免费观看a视频| 99久久99久久精品国产片果冻| 国产一区免费观看| 色视频在线观看福利| 久久亚洲二区三区| 日韩国产精品一区二区三区| 色网站免费在线观看| 亚洲欧洲在线观看av| 好吊色视频988gao在线观看| 伊人精品影院| 性欧美大战久久久久久久久| 中文字幕日本最新乱码视频| 成人一区福利| 欧美区一区二区三区| 992kp免费看片| 99热这里只有精品首页 | 性久久久久久久| 无码aⅴ精品一区二区三区浪潮| 毛片免费看不卡网站| 欧美三级一区二区| 日本中文字幕精品| 日韩极品少妇| 北条麻妃一区二区三区中文字幕| 亚洲熟女www一区二区三区| 黄色亚洲在线| 1769国产精品| 91精品国产色综合久久不8| 国产成人综合在线| 久久手机视频| 岛国成人毛片| 黑人巨大精品欧美一区免费视频| 青青在线免费观看视频| 国产精品一区二区三区av| 精品99久久久久久| 男女男精品视频网站| 国自产拍偷拍福利精品免费一| 欧美一级淫片videoshd| 国产精品色综合| av激情综合网| 自拍偷拍亚洲色图欧美| 久久影院午夜精品| 91精品国产色综合久久久蜜香臀| 91传媒理伦片在线观看| 欧美久久精品一级c片| 美女999久久久精品视频| 国产成人无码精品亚洲| 麻豆精品一区二区三区| 国产亚洲欧美一区二区| 免费看a在线观看| 欧美性生交xxxxx久久久| 日韩av加勒比| 精品久久91| 2019中文字幕在线| www.97超碰| 国产精品久久久久永久免费观看| 欧美视频免费看欧美视频| 日韩黄色三级| 亚洲午夜未删减在线观看 | 91亚洲精华国产精华| 欧美人体大胆444www| 亚洲一区二区三区四区在线免费观看| 中文字幕在线观看第三页| 精品精品国产毛片在线看| 久久精品小视频| 日韩不卡高清视频| 91在线观看视频| 国产免费一区二区视频| 狂野欧美xxxx韩国少妇| 中文字幕av一区中文字幕天堂| 青青草av在线播放| 成人一级片网址| 男插女免费视频| 国产精品伊人| 色多多国产成人永久免费网站 | 亚洲免费综合| 精品国产免费久久久久久尖叫| 91最新在线视频| 欧美绝品在线观看成人午夜影视| 午夜精产品一区二区在线观看的| 99在线精品视频在线观看| 99在线高清视频在线播放| 久草免费在线观看| 欧美人xxxx| 欧美爱爱免费视频| 精品亚洲国内自在自线福利| 天天好比中文综合网| **在线精品| 国产一区二区三区免费视频| 凹凸精品一区二区三区| 欧美激情在线看| 亚洲欧美自偷自拍另类| 日韩久久视频| 91精品久久久久久综合乱菊| 免费大片黄在线观看视频网站| 欧美写真视频网站| 制服丨自拍丨欧美丨动漫丨| 六月丁香综合在线视频| 一区二区不卡视频| 精品视频一区二区三区在线观看| 久久综合久久八八| 亚洲国产精品二区| 午夜欧美大尺度福利影院在线看 | 红杏aⅴ成人免费视频| 91国产高清在线| 青青国产在线| 欧美视频一二三区| 亚洲AV成人无码精电影在线| 国产精品资源网| 欧美一级视频免费看| 亚洲精品推荐| 国产精品视频26uuu| 2024最新电影在线免费观看| 亚洲精品一线二线三线无人区| 天天操天天爽天天干| 国产亚洲精品福利| 福利视频999| 国产一区观看| 欧美性xxxx69| 国产视频一区二区在线播放| 欧美激情第三页| 岛国最新视频免费在线观看| 欧美丰满一区二区免费视频| 国产真实的和子乱拍在线观看| 91视频一区二区三区| 天天干天天玩天天操| 欧美日韩爆操| 色噜噜一区二区| 日韩精品视频在线看| 日韩av大片在线| 国产福利视频在线| 亚洲欧洲自拍偷拍| 999免费视频| 日本高清不卡在线观看| 精品无码久久久久成人漫画| 91视频com| 亚洲一区二区中文字幕在线观看| 一本久久综合| 午夜啪啪福利视频| 国产一区二区三区站长工具| 亚洲自拍偷拍在线| 成人开心激情| 欧美精品久久久久久久免费观看| 国产69精品久久app免费版| 日韩精品在线一区| 中文字幕一区二区久久人妻| 亚洲二区在线视频| 青花影视在线观看免费高清| 91视频观看视频| 久久久久亚洲av成人网人人软件| 日韩精品电影一区亚洲| 亚洲不卡中文字幕无码| 综合国产在线| 日韩欧美视频一区二区| 乱中年女人伦av一区二区| 91网站免费观看| 不卡亚洲精品| 日韩免费在线免费观看| 日本在线影院| 久久久久久久久久国产精品| 乱人伦中文视频在线| 亚洲天堂免费视频| 四虎永久在线观看| 精品sm在线观看| 精品久久无码中文字幕| 欧美日韩国产一级二级| 婷婷激情五月综合| 日韩欧美国产一区二区| 日本五十熟hd丰满| 亚洲精品国产一区二区三区四区在线 | 一区二区三区四区不卡| 国产一区二区电影在线观看| 精品视频第一区| 国产毛片精品| 国产精品免费一区二区| 日韩三级av高清片| 亚洲影院色在线观看免费| 欧美黄色成人| 国产免费一区二区三区在线观看| 人人鲁人人莫人人爱精品| 欧美亚洲国产成人精品| 亚洲第一av| **欧美日韩vr在线| 吉吉日韩欧美| 国产精品7m视频| 粉嫩一区二区三区| 国产精品久久久久久久久免费 | 一本久道久久综合中文字幕| 欧美另类一区二区| 欧美午夜激情在线| 在线观看黄网站| 色偷偷一区二区三区| 无码人妻一区二区三区免费| 在线亚洲一区观看| 中文字幕永久在线视频| 欧美色精品天天在线观看视频| 中文字幕无码乱码人妻日韩精品| 欧美日韩一区久久| 国产精品污视频| 日韩午夜激情免费电影| 成人免费观看在线视频| 亚洲国产中文字幕久久网 | 99在线精品免费| 草草影院第一页| 国产欧美日韩综合精品一区二区| 精品人体无码一区二区三区| **网站欧美大片在线观看| 午夜69成人做爰视频| 亚洲大片在线观看| av一级在线观看| 欧美日韩国产高清一区二区三区 | 国产精品一区二区三区99| 国产大学生av| 久久亚洲精品国产精品紫薇| 亚洲欧美日韩第一页| 亚洲女与黑人做爰| 欧美成人aaaaⅴ片在线看| 色www精品视频在线观看| 91免费视频播放| 亚洲成色777777在线观看影院| 图片区 小说区 区 亚洲五月| 亚洲人成电影在线播放| 美女羞羞视频在线观看| 午夜精品一区二区三区在线视 | 日韩视频一区| 中文字幕视频在线免费观看| 国产一区二区三区精品欧美日韩一区二区三区 | 国产乱码一区二区三区| 艳妇乳肉亭妇荡乳av| 国产精品卡一卡二卡三| 亚洲国产精品成人无久久精品| 日本大香伊一区二区三区| 国产99对白在线播放| 午夜一区不卡| 国产卡一卡二在线| 亚洲精品护士| www.99av.com| 国产精品99精品久久免费| av网站有哪些| 亚洲天天做日日做天天谢日日欢| 国产无套粉嫩白浆内谢| 欧美日韩电影一区| 午夜激情小视频| 欧美xxxx14xxxxx性爽| 另类专区亚洲| 国产精品一区二区三区不卡| 日韩精品免费一区二区在线观看| 九九久久九九久久| 视频一区中文字幕国产| 亚洲熟女一区二区三区| 中文欧美字幕免费| 成年人免费高清视频| 91精品国产色综合久久| 国内在线免费高清视频| 久久男人的天堂| 国产成年精品| 亚洲欧洲国产精品久久| 亚洲一区不卡| 亚洲少妇一区二区| 亚洲私人影院在线观看| 国产午夜麻豆影院在线观看| 亚洲а∨天堂久久精品9966| 欧美性videos| 国产精品第一页在线| 欧美xxxx在线| 国产曰肥老太婆无遮挡| 国产在线一区观看| 国产一二三av| 欧美视频一区在线| 久久婷婷国产综合尤物精品| 一个色综合网| 欧美成人乱码一二三四区免费| 久久久久成人黄色影片| 国产无遮无挡120秒| 欧美一区二区三区爱爱| 日本中文在线观看| 国产欧美中文字幕| 色综合色综合| 久久国产激情视频| 国产欧美一区视频| 精产国品一区二区| 亚洲一区二区久久久| 综合另类专区| 蜜桃视频日韩| 麻豆9191精品国产| 亚洲av片不卡无码久久| 午夜精品aaa| 肉丝一区二区| 日韩av快播网址| 精品视频网站| 在线观看免费视频高清游戏推荐| 国产视频一区在线播放| 精人妻无码一区二区三区| 亚洲夜晚福利在线观看| 日韩天堂在线| 亚洲午夜精品国产| 国产一区在线不卡| 欧美日韩成人免费观看| 亚洲成人激情在线| 伊人久久精品一区二区三区| 另类视频在线观看+1080p| 天堂在线一区二区| 呻吟揉丰满对白91乃国产区| 欧美高清一级片在线| www久久日com| 国产一区二区三区免费不卡| 亚洲欧美成人| 亚洲一级片在线播放| 91 com成人网| 波多野结依一区| 免费看成人片| 精品一区二区免费看| 久久久久成人网站| 国产丝袜一区二区| 成人一区视频| 亚洲天堂第一区| 91在线视频网址| 一区两区小视频| 欧美高清视频在线| 自拍偷拍精品| japan高清日本乱xxxxx| 亚洲va欧美va人人爽| 成人在线免费公开观看视频| 亚洲xxxxx性| 久久一区二区三区超碰国产精品| 五月婷婷六月香| 精品精品欲导航| 日本欧美韩国| 免费的一级黄色片| 国产视频亚洲色图| 性中国xxx极品hd| 国产精品成人一区| 尹人成人综合网| 欧美乱大交做爰xxxⅹ小说| 亚洲成人av资源网| 伊人亚洲精品| 欧在线一二三四区| 亚洲一区二区三区三|