精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude 3.5兩小時暴虐50多名專家,編程10倍速飆升!但8小時曝出驚人短板

人工智能 新聞
AI自主研發會真的「失控」了嗎?最新研究顯示,Claude 3.5 Sonnet和o1-preview在2小時內的研發任務中,擊敗了50多位人類專家。但另一個耐人尋味的現象是,給予更長時間周期后,人類專家在8小時任務中優勢顯現。

AI智能體離自主研發,還有多遠?

Nature期刊的一篇研究曾證明了,GPT-4能自主設計并開展化學實驗,還能閱讀文檔學習如何使用實驗室設備。

圖片

另有Transformer作者之一研發的「世界首個AI科學家」,一口氣肝出10篇論文,完全不用人類插手。

如今,AI在研發領域的入侵速度,遠超人類預期。

圖片

來自非營利組織METR的最新研究稱:

同時給定2個小時,Claude 3.5 Sonnet和o1-preview在7項具有挑戰性研究工程中,擊敗了50多名人類專家。

圖片

論文地址:https://metr.org/AI_R_D_Evaluation_Report.pdf

令人印象深刻的是,AI編程速度能以超越人類10倍速度生成并測試各種方案。

在一個需要編寫自定義內核以優化前綴和運算的任務中,o1-preview不僅完成了任務,還創造了驚人的成績:將運行時間壓縮到0.64毫秒,甚至超越了最優秀的人類專家解決方案(0.67毫秒)。

不過,當比賽時間延長至8小時,人類卻展現出了明顯的優勢。

由下可以看出,隨著時間逐漸拉長,Claude 3.5 Sonnet和o1-preview的性能提升逐漸趨于平緩。

圖片

有趣的是,為了獲得更高的分數,AI智能體居然會違反規則「作弊」。

原本針對一個任務,智能體應該減少訓練腳本運行時間,o1-preview直接復制了輸出的代碼。

頂級預測者看到這一結果驚嘆道,基于這個進步速度,AI達到高水平人類能力的時間可能會比之前預計的更短。

圖片

RE-Bench設計架構,遍歷七大任務

為了能夠快速迭代,并以合理的成本收集數據,研究人員設定了運行限制:人類專家的評估不超過8小時,且所有環境都只能使用8個或更少的H100 GPU運行。

在環境設計時,主要考慮最大化覆蓋前沿AI難題,同時確保人類專家與智能體能夠持續推進任務,不會遇到研究瓶頸或得分上限。

RE-Bench包含了七個精心設計的評估環境,其中每個環境都提出了一個獨特的機器學習優化問題,要取得高分需要大量的實驗、實現和高效使用計算資源。

圖片

每個評估環境包括三部分:

1、評分函數(scoring function),定義了環境的目標,智能體可以隨時運行該函數。每次運行評分函數時,都會在得分日志中添加一個帶時間戳的事項。智能體可以看到得分日志,并檢查評分函數的細節,有助于理解研究目標。

2、簡單但性能不佳的初始解決方案(starting solution),提供給智能體,以展示有效的解決方案是什么樣子,有助于說明環境設置,可以讓智能體更快地開始研究問題中更具挑戰性的部分。比如說,在「優化核函數」環境中,智能體的輸入為一個簡單但運行緩慢的Python解決方案。

3、由任務作者創建的參考解決方案(reference solution),得分很高。但該解決方案不會提供給智能體,只用于歸一化得分(normalize score),作為一個優秀解決方案的示例。下式中ys為初始方案得分,yr為參考方案得分,y為模型得分,yn為歸一化分數。

圖片

除了「Scaling Law Experiment」采用最終分數進行評估外,其他實驗都使用得分日志中的最高分。

8小時極限,人類專家吊打AI

研究人員使用開源的Vivaria平臺來設置安全的虛擬機,配備20-48個虛擬CPU、200-400 GB的RAM,以及0到6個H100 GPU,對比模型選擇了claude-3-5-sonnet-20241022以及o1-preview,框架選擇為METR和AIDE

時間限制下的性能

在相同時間下,可以看到,o1-preview和Claude 3.5 Sonnet在最初階段進展迅速,但在幾個小時后速度減慢;而人類專家起步較慢,但隨后迅速取得進展。

圖片

采樣限制下的性能

除了長時間運行外,研究人員還評估了模型是否能在更短的時間限制下取得更好的性能:對每個環境進行k次采樣,并選擇所有k次運行中取得的最高分數。

圖片

結果發現,模塊化框架中的智能體在30分鐘嘗試中表現得更好,而AIDE框架中的智能體則在2小時嘗試中表現最佳。

還可以發現,在AIDE框架中的o1-preview和在模塊化框架中的Claude 3.5 Sonnet總體上取得了最高的分數,分別達到了人類專家的第36和第37百分位。

隨著樣本數量的增加,最佳-k次分數(score@k)也會發生變化:Claude 3.5 Sonnet在30分鐘時,樣本數量增加,性能也穩步提高,但即使在k=128個樣本下,智能體的表現也遠遠落后于頂尖人類的表現。

圖片

圖片

總體而言,人類起步較慢,但改進軌跡更陡峭,即進步更快,并且在32小時的時間預算內達到了比任何智能體都更高的分數。

按環境評估

研究人員對比了兩個智能體(模塊化框架中的Claude 3.5 Sonnet和AIDE框架中的o1-preview)在32小時內的最高性能分配與人類結果(四次8小時運行中的最佳表現)以匹配智能體的時間預算。

圖片

結果發現不同智能體在不同環境中的表現存在顯著差異:Claude 3.5 Sonnet智能體在「微調GPT-2進行問答」和「擴展法則實驗」環境中接近人類的表現,而o1-preview在這些環境中表現不佳;o1-preview在「優化核函數」環境中的表現超過了人類。

人類-AI差距之間定性分析

為了更好地了解人類專家在哪些條件下,比AI智能體做得更好或更差的原因,研究人員對智能體成績和解決方案進行了定性分析。

AI智能體:知識儲備大,嘗試頻率37次/h

雖然AI智能體通常無法找到與頂級人類專家相匹配的解決方案,但它們也取得了一些顯著的成功。

比如,在AIDE加持下,Claude 3.5 Sonnet(新版)和o1-preview都能找到「優化內核」的解決方案,運行速度約為參考解決方案的2倍。

如下圖所示,其中,o1-preview的解決方案甚至超過了9位人類專家。

這些都是復雜且新穎的算法,能有效繞過GPU通信限制,并使用一種缺少良好公開文檔的低資源編程語言(Triton)。

圖片

這個令人驚訝的結果可能部分歸因于,AI智能體和許多人類專家之間的專業知識差距,因為大多數人類專家并不具備編程GPU內核的專門知識。

這種情況在多個環境中都有體現:一些不太熟悉該領域的人類專家需要花費大量時間學習或復現標準方法(有時甚至完全失敗),而AI智能體憑借其廣泛的知識基礎往往能輕松完成。

AI智能體成功的另一個關鍵因素可能是,它們能比人類專家嘗試更多的解決方案。

平均而言,AIDE和模塊化智能體每小時分別運行36.8次和25.3次,而人類專家僅為3.4次。

這通常導致智能體找到高度優化的「局部最優」解決方案,僅通過調整初始解決方案的參數和代碼,就能實現顯著的改進。

例如,許多智能體在解決「優化內核」環境時,并非通過編寫成功的Triton解決方案(這很困難),而是通過仔細調整初始的Pytorch解決方案,使其運行速度顯著提高。

也就是說,它們能夠有效優化現有解決方案。

如下,是「微調GPT-2用于問答」最佳智能體解決方案中,Claude 3.5 Sonnet調整了初始解決方案的參數,并在訓練軌跡和評估中獲得了準確結果。

不過,這一高分有可能是對噪聲過度擬合的結果。

圖片

總而言之,AI智能體的成功在于能夠進行大量參數微調和代碼優化,偶爾還會提出創造性有效的解決方案,尤其是在評估成本低的環境在非常有效。

失敗因素

但在大多數環境中,智能體仍然沒有達到強大的人類專家的水平。

造成這種情況的原因之一是,AI智能體提出的解決方案缺乏多樣性。

例如,在「受限架構MLM」任務中,智能體在84%的情況下,都在嘗試使用稍作修改的Transformer架構。即使在不能使用除法和指數運算的情況下,仍固守這種方案。

另一個局限性是,持續性的指令理解錯誤,特別是在「受限架構MLM」和「優化LLM Foundry」任務中。

在某些情況下,這些對環境的誤讀可能導致智能體找到令人印象深刻且意想不到的漏洞,這些漏洞在自動評估中得分很高,但在人工檢查時明顯違反了環境規則。

圖片

縮小差距

基于以上的觀察,研究人員認為AI智能體在以下特征的環境中,會比人類表現更好:

- 短期且高保真循環反饋,可以讓AI智能體充分發揮嘗試多個解決方案的優勢

- 工程復雜度低,使得AI智能體通過幾個步驟就解決問題

- 需要專業知識的任務,AI智能體比人類專家具備更全的知識

- 環境中有顯著的噪聲,這種情況下AI智能體可以進行大量嘗試的優勢會超過人類專家較少的嘗試次數。

- 不易出現意外情況,不需要太多的探索和發現

Re-Bench局限性

評估環境的代表性不足

為了創建符合設計標準的高可靠性評估,研究人員需要努力確保指令和評分容易理解,8小時內可以取得顯著進展,并且提供所有必要的資源,還必須選擇易于構建和評估的環境。

這些限制使得評估環境不太能代表真實的研究,常見問題包括不明確的目標、糟糕的指令、慢反饋和無法解決的問題。

結果噪聲

由于環境數量較少,且智能體得分嚴重向右傾斜,大多數運行得分為0,只有少數得分非常高,所以結果評估對抽樣噪聲很敏感。

評估的成本和復雜性

使用H100 GPU運行智能體數小時需要相應的基礎設施和大量預算,對于普通研究人員來說壓力很大,運行大規模實驗來對比多個模型、框架和參數也更具挑戰性。

缺乏框架迭代

選擇不同的智能體框架或提示,有可能導致模型在相近的時間內,在基準測試上取得更好的成績。

研究人員的預期是,通過為智能體提供管理GPU資源的工具,或是通過并行探索解決方案來利用更多的token等來實現更好的性能。

覆蓋前沿研究的局限性

由于硬件訪問有限,并且前沿AI研究也大多是閉源的,評估所涵蓋的研究類型與推動前沿AI進步的研究類型之間可能存在差異。

方案可能過度擬合

除了「擴展法則實驗」之外,所有環境都向智能體提供了測試分數輸出,以最小化誤解或混淆的風險;在未來的迭代中,研究人員考慮只在大多數環境中向智能體提供驗證分數,把測試分數隱藏起來。

「擴展法則實驗」得分存在運氣成分

雖然良好的實驗可以幫助人類專家在環境中做出明智的預測,但智能體還是主要依賴猜測,更多是運氣而不是技巧的問題。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-05-20 12:44:53

編程軟件開發JavaScript

2015-10-26 11:53:36

OpenStackOpenStack部署RDO

2009-03-24 09:12:15

2021-08-08 11:17:58

谷歌Matt編程

2016-11-14 14:10:15

電信斷網寬帶網絡

2009-07-28 09:18:17

2023-07-02 14:47:26

AI速通效率

2025-05-23 09:01:00

2024-11-25 12:50:14

2024-10-28 22:28:21

2014-12-19 16:08:18

2009-03-09 09:27:16

Facebook社交網站健康

2010-12-24 10:09:04

2009-05-08 08:59:47

微軟Windows 7操作系統

2009-04-24 14:11:53

清理專家2.7殺毒金山

2011-10-25 15:49:57

VPN

2021-10-18 22:07:05

裝機顯卡硬件

2015-12-03 09:02:22

掌握新事物100小時

2022-06-08 10:01:23

性能優化慢查詢

2009-04-30 13:37:38

安全掛馬技術沙龍
點贊
收藏

51CTO技術棧公眾號

欧美性猛交xxxx免费看| 91尤物视频在线观看| 精品国产美女在线| 久久人妻少妇嫩草av蜜桃| 老司机深夜福利在线观看| 久久精品在线免费观看| 成人中文字幕+乱码+中文字幕| 色婷婷在线视频观看| 日韩理论电影中文字幕| 精品视频1区2区3区| xxxx18hd亚洲hd捆绑| 成年午夜在线| 粉嫩一区二区三区性色av| 国产精品va在线播放| 久久久久久久黄色| 欧美综合久久| 亚洲精品第一国产综合精品| 在线观看日本www| 午夜伦理福利在线| 一区二区三区精品在线| 亚洲精品国产精品久久| 天堂网在线中文| 国内外成人在线视频| 日韩av高清不卡| 久久精品欧美一区二区| 色综合久久一区二区三区| 亚洲精品wwww| 绯色av蜜臀vs少妇| 爱情电影网av一区二区| 在线观看精品一区| 北条麻妃在线观看| √天堂8资源中文在线| 亚洲欧美国产三级| 一区二区三区四区欧美| 国产日韩精品在线看| 99久久综合国产精品| 99在线观看| 国产又黄又大又粗的视频| 日产欧产美韩系列久久99| 97在线视频免费| 久久免费视频精品| 欧美私人啪啪vps| 久久成人18免费网站| 国产91在线播放九色| 红桃视频在线观看一区二区| 国产视频精品久久久| 国产又黄又粗又猛又爽的视频| 视频一区在线| 欧美成人三级在线| 日本泡妞xxxx免费视频软件| 亚洲91网站| 欧美成人一区二区| 亚洲精品一二三四| 视频一区日韩| 精品国产免费一区二区三区四区| 国产伦精品一区二区三区妓女下载 | 中文字幕第28页| 亚洲高清免费| 午夜欧美大片免费观看| 久久国产精品系列| 午夜影院日韩| 国产成人精品在线播放| 国产精品成人无码| 久久爱另类一区二区小说| 国产日韩欧美视频在线| 国产露脸91国语对白| 国产大陆精品国产| 国产一区二区三区av在线| 日韩电影在线观看完整版| 久久久久久免费| 亚洲视频欧美在线| 中文字幕中文字幕在线十八区 | 91精品美女| 8x8x8国产精品| 亚洲一二三四五| 羞羞答答一区二区| 最好看的2019年中文视频| 亚洲 欧美 变态 另类 综合| 国内一区二区三区| 7777kkkk成人观看| 中文字幕视频免费观看| 国产乱码精品一区二区三区忘忧草| 国产99视频精品免费视频36| 青青草手机在线| 亚洲天堂久久久久久久| 久久久久久人妻一区二区三区| 综合另类专区| 91麻豆精品国产综合久久久久久| wwwxx日本| 国产欧美一区| 九色成人免费视频| 精品一级少妇久久久久久久| 欧美专区在线| 成人激情黄色网| 色香蕉在线视频| 国产精品日产欧美久久久久| 老司机午夜网站| av综合电影网站| 91精品国产综合久久久久| 亚洲熟女一区二区三区| 精品视频亚洲| 国内外成人免费激情在线视频网站| 男人天堂视频在线| 成人一级片网址| 亚洲.欧美.日本.国产综合在线| 午夜av在线播放| 在线观看免费成人| 亚洲激情 欧美| 婷婷激情综合| 啪一啪鲁一鲁2019在线视频| 国产情侣一区二区| 国产欧美日韩久久| 婷婷无套内射影院| 国产在线不卡一区二区三区| 亚洲精品视频播放| 久久香蕉精品视频| 精品在线视频一区| 日本不卡在线观看| 678在线观看视频| 91麻豆精品91久久久久同性| 在线国产视频一区| 国产亚洲精品bv在线观看| 91精品国自产在线观看| 麻豆影院在线观看| 欧美午夜一区二区三区| 精品夜夜澡人妻无码av| 亚洲国产精品第一区二区| 91亚洲精品久久久久久久久久久久| 黄色片在线播放| 欧美日韩性视频| 欧美日韩人妻精品一区在线| 自拍偷拍欧美专区| 成人午夜小视频| 黄色片视频在线观看| 欧美性xxxx在线播放| 国产激情第一页| 永久91嫩草亚洲精品人人| 国产精品久久久久久av下载红粉| 欧美色视频免费| 黑人与娇小精品av专区| 国产chinese中国hdxxxx| 午夜精品免费| 91一区二区三区| 中文字幕在线播放网址| 91精品国产欧美一区二区| www.黄色com| 久久福利视频一区二区| 一区高清视频| 国产情侣一区在线| 不卡av在线播放| www.麻豆av| 亚洲一区二区三区影院| 四虎成人免费视频| 在线看片日韩| 欧美激情视频一区二区三区| 亚洲第一影院| 中文字幕日韩综合av| 伊人久久国产精品| 《视频一区视频二区| a级大片免费看| 欧美+日本+国产+在线a∨观看| 亚洲综合日韩在线| 日本动漫理论片在线观看网站| 精品欧美一区二区三区精品久久| 国产亚洲第一页| 97国产精品videossex| 黄色一级片播放| 国际精品欧美精品| 国产女同一区二区| 国产一二区在线| 精品蜜桃在线看| 亚洲精品国产精品乱码| 久久久一区二区| 亚洲欧美自偷自拍另类| 亚洲精品tv久久久久久久久久| 国产91精品一区二区绿帽| 亚洲天堂导航| 日韩在线视频中文字幕| www.av黄色| 欧美日韩在线视频一区| 最近中文字幕免费| 国产乱码精品一区二区三区忘忧草| 精品少妇人妻av免费久久洗澡| 成人午夜国产| 成人av蜜桃| 成人自拍视频网| 免费av一区二区| 深夜福利免费在线观看| 欧美片在线播放| 欧美日韩中文视频| 中文字幕第一区二区| 97中文字幕在线观看| 久久婷婷亚洲| 超碰人人爱人人| 国产欧美日韩视频在线| 91丨九色丨国产| 伊伊综合在线| 欧美久久精品午夜青青大伊人| 午夜小视频在线播放| 欧美日韩成人激情| 视频一区二区三区四区五区| 亚洲婷婷综合久久一本伊一区| 中文精品在线观看| 国产精品综合网| 国产真人无码作爱视频免费| 国产一区清纯| 中文字幕一区二区三区四区五区六区 | 日本大片在线观看| 欧美高清一级片在线| 国产免费观看av| 一区二区三区精品视频在线| 亚洲色图日韩精品| 久久伊人中文字幕| 少妇精品无码一区二区| 九色porny丨国产精品| 日韩av资源在线| 影音先锋久久| 中文字幕乱码免费| 久久影视一区| 天堂精品一区二区三区| 欧美一级三级| 国产精品久久久久久久久久直播| 亚洲成人精品综合在线| 国产精品久久久久久久久免费| 日本在线播放一二三区| 欧美黄色成人网| www久久日com| 久久精品国产亚洲7777| 成人在线观看黄色| 亚洲精品在线91| 欧美日韩国产亚洲沙发| 精品亚洲aⅴ在线观看| 肥臀熟女一区二区三区| 欧美高清hd18日本| 在线观看黄色网| 欧美亚洲国产一卡| 精品一区二区无码| 在线精品亚洲一区二区不卡| 波多野结衣啪啪| 日韩欧亚中文在线| 四虎精品永久在线| 黑人狂躁日本妞一区二区三区 | 牛牛精品在线| 欧美极品美女电影一区| 四虎影视成人| 欧美理论电影在线播放| 综合图区亚洲| 欧美激情乱人伦一区| 黄页在线观看免费| 久久久在线观看| 老牛影视精品| 日韩免费观看视频| 成人涩涩视频| 91精品国产综合久久男男| 亚洲三级电影| 99re在线视频观看| 韩国女主播一区二区三区| 久久99精品久久久久久久久久| 日韩理论电影中文字幕| 欧美一区国产一区| 日本高清免费电影一区| 在线视频不卡国产| 国内精品99| 啊啊啊一区二区| 日本亚洲三级在线| 四季av一区二区三区| 国产超碰在线一区| 欧美深性狂猛ⅹxxx深喉| 91视频91自| 日韩影视一区二区三区| 自拍偷拍亚洲欧美日韩| 亚洲国产精一区二区三区性色| 婷婷丁香激情综合| 亚洲中文一区二区| 51精品秘密在线观看| 亚洲AV无码成人片在线观看| 日韩久久精品电影| 9191在线观看| 久久久久久久国产| 精品免费av在线| 国产日产久久高清欧美一区| 欧美日韩国产一区二区在线观看| 国产精品一区二区欧美| 精品视频97| www.av片| 精品无人区卡一卡二卡三乱码免费卡| 动漫av在线免费观看| 久久精品欧美一区二区三区不卡| 国产精品成人69xxx免费视频| 亚洲高清久久久| 最新中文字幕第一页| 日韩你懂的电影在线观看| 欧美另类自拍| 久久999免费视频| 88xx成人永久免费观看| 91精品综合久久| 欧美一二区在线观看| 大西瓜av在线| 激情另类小说区图片区视频区| 中文字幕av观看| 亚洲免费伊人电影| 国产午夜麻豆影院在线观看| 欧美大片在线观看一区二区| 亚洲成人三级| 欧美亚洲国产精品| 日本一区二区三区播放| 亚洲人体一区| 久久婷婷激情| www.免费av| 亚洲综合视频在线观看| 亚洲自拍偷拍另类| 亚洲男人的天堂在线播放| av在线网页| 成人伊人精品色xxxx视频| 国产欧美一区| 国产在线青青草| 成人a免费在线看| 麻豆视频在线观看| 7777精品久久久大香线蕉| 丁香在线视频| 日本国产高清不卡| 卡通动漫精品一区二区三区| 黄色污污在线观看| 国内精品视频一区二区三区八戒| 三年中国中文观看免费播放| 欧美午夜宅男影院在线观看| 免费国产黄色片| 欧美国产乱视频| 天堂精品久久久久| 国产资源第一页| 国产一本一道久久香蕉| 四虎地址8848| 欧美日韩美女一区二区| 国产乱理伦片a级在线观看| 91超碰中文字幕久久精品| 成人三级av在线| 国产免费一区二区视频| 成人午夜电影久久影院| 国产亚洲欧美精品久久久久久| 日韩一级二级三级| 欧美野外wwwxxx| 高清日韩一区| 国产亚洲精品bv在线观看| 特级西西人体4444xxxx| 欧美日韩激情网| 视频三区在线观看| 青草成人免费视频| 久久成人av| 丰满少妇在线观看| 国产精品天干天干在观线| 一本到在线视频| 久久精品国产一区二区三区| 精品国产三区在线| 欧美另类videosbestsex日本| 大桥未久av一区二区三区中文| 久久婷婷一区二区| 精品亚洲夜色av98在线观看| 亚洲精品永久免费视频| 日韩中文字幕一区| 久久99国产精品麻豆| 国产精品老熟女一区二区| 欧美成人猛片aaaaaaa| 国产精品电影| 人偷久久久久久久偷女厕| 麻豆精品在线播放| 中文字幕电影av| 亚洲第一页自拍| 吉吉日韩欧美| 欧美h视频在线观看| 国产乱码精品一区二区三| 日本一本高清视频| 一区国产精品视频| 国产精品成人3p一区二区三区| 国产aaa免费视频| 久久久久久久久久久久久久久99 | 精品国产91乱码一区二区三区| 538在线观看| 日韩在线三级| 国产高清精品网站| 日韩欧美在线观看免费| 久久天天躁狠狠躁夜夜躁| 老司机aⅴ在线精品导航| 色一情一乱一伦一区二区三区日本| 亚洲人成在线播放网站岛国| 亚洲欧美激情另类| 欧美在线一区二区三区四| 日韩欧美中字| 黄色短视频在线观看| 欧美日韩和欧美的一区二区| 超碰在线中文字幕| 亚洲一区二区不卡视频| 成人高清av在线| 在线视频欧美亚洲| 97在线观看视频国产| 97精品国产| 色无极影院亚洲| 日韩精品中文字幕一区| 国产精品亚洲d| 青青青在线视频播放| 中文字幕一区二区三区四区 |