精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI科學家太多,誰靠譜一試便知!普林斯頓新基準CORE-Bench:最強模型僅有21%準確率

人工智能
普林斯頓大學新發布的CORE-Bench基準測試,通過270個基于90篇跨學科科學論文的任務,可評估AI智能體在計算可重復性方面的表現,最簡單任務的準確率可以達到60%,最難任務準確率僅有21%。

大模型的能力越來越強,用戶在一些重要的任務中也可以依賴大模型,比如說輔助做科研。

不過現有科研輔助相關的基準測試都太簡單,跟現實世界的任務差距還是比較大的。

最近,普林斯頓大學的研究人員發布了一個新的基準測試CORE-Bench(Computational Reproducibility Agent Benchmark,計算可重復性智能體基準測試),主要關注模型在處理科研問題中的計算可重復/可復現(computational reproducibility)的問題。圖片論文鏈接:https://arxiv.org/pdf/2409.11363v1

對其他論文進行重復是科研活動的基礎,研究人員需要使用提供的代碼和數據來對論文中報告的結果進行復現。

CORE-Bench基于90篇科學論文,包含了270個任務,覆蓋了三個學科(計算機科學、社會科學和醫學),其任務被劃分為三個難度等級,覆蓋純文本和視覺-語言任務。

文中還提供了一個評估系統,可以快速、并行地測試智能體的準確性,與順序實現相比,每次測試可以節省數天的評估時間。

在評估過程中,研究人員設計了兩個基線智能體:通用的AutoGPT和基于該任務設計的CORE-Agent,其中底層語言模型用到了GPT-4o和GPT-4o-mini,結果顯示,最佳智能體在最難級別的任務上達到了21%的準確率,即模型在常規科學任務自動化方面仍然有很大的改進空間。

CORE-Bench

圖片圖片

基準構造

驗證可重復性需要深度專業的領域知識,即使是對于經驗豐富的研究人員來說,其過程可能也算是勞動密集型的任務,驗證一篇論文最快也需要幾個小時,就算只是給100篇不同領域的論文建立可重復性基準測試,也是不現實的。簡單來說,研究人員的目標是找到一些比較困難的基準任務,雖然這些任務在現實中很難驗證其可重復性,但其基準測試的建立要相對簡單一點。為了解決這個問題,研究人員基于CodeOcean capsules構建了基準測試,可以輕松地進行復現。

圖片圖片

研究人員從CodeOcean中選擇了90篇可復現的論文,然后將數據集分為45篇用于訓練和45篇用于測試。圖片

在論文的選擇標準上,由于CodeOcean包含來自不同學科和編程語言的論文,為了創建一個真實且健壯的基準測試,研究人員提出十個標準,可以確保CORE-Bench能夠代表多樣化但可行的計算可重復性任務子集。

圖片圖片

  1. 對應于可公開獲取的研究論文;對于基準測試的范圍是必要的
  2. 來自計算機科學、醫學或社會科學領域;測試由于分布變化導致的準確性變化
  3. 用Python或R編寫;測試由于分布變化導致的準確性變化
  4. 包含一個README文件;提高構建有效性,雖然并非所有CodeOcean上的膠囊都有README文件,但現實世界中的大多數論文都有5. 在CodeOcean的硬件上運行代碼不超過45分鐘;確保在給定的時間和硬件限制下膠囊(capsule)是可復現的
  5. 需要一個相對簡單的Bash命令來正確復現代碼;允許輕松設計一個英文任務提示,指明在智能體無法訪問運行文件的情況下應該如何運行代碼
  6. 結果在代碼輸出中有充分標記的圖表、表格或文件名;消除了為無組織或未標記的數據設計任務問題的需求
  7. 運行代碼時結果的方差低;確保所有包含的膠囊都可以由人類驗證和復現
  8. 膠囊大小不超過10GB;確保在給定的資源限制下膠囊是可復現的
  9. 膠囊的結果可以在本地運行代碼時復現;確保膠囊是可復現的

雖然并非現實世界中的所有論文都符合這些標準,但這些標準可以提高任務的清晰度,確保了在當前智能體發展水平下,達到基準測試的高準確率是可行的,對于每篇論文,手動創建了一組關于成功復現論文生成的輸出的任務問題,可以評估智能體是否正確執行了代碼并檢索了結果。比如說,可以要求智能體報告模型的測試準確率、圖表的軸標簽或其他復現的結果,其中有些是單一任務問題,有些任務則包含多個問題。

數據集中可以確保每個任務至少有一個不能通過猜測來解決的問題(比如開放式的數值答案),并且只有當所有任務問題都正確回答時,任務才會被標記為正確,也能夠保證任務無法通過隨機猜測來完成。

研究人員從網站CodeOcean.com中獲取的論文,CORE-Bench中的所有任務都來自于可復現的論文。

由于基準測試是衡量智能體復現與論文相關代碼運行結果的能力,而不是為了確保論文中報告結果的正確性,所以研究人員認為沒有必要在基準測試中包含不可復現的論文。

CORE-Bench的優勢

能力要求高、多模態(Skills and modalities)

解決CORE-Bench中的任務需要多種能力,包括理解指令、調試代碼、檢索以及跨學科解釋結果,模型只有具備這些技能才能在CORE-Bench上拿到更高分數,而這些技能對于復現新的研究成果來說也是必要的。

并且任務需要解釋代碼輸出的文本和圖像:基于視覺的問題需要從圖形、圖表、圖或PDF表格的屬性中提取結果;基于文本的問題包括從命令行文本、PDF文本、表格或HTML、Markdown或LaTeX中的文本提取結果。

例如,一個基于視覺的問題可能是「從室內空氣質量 - 廚房 - 秋季圖表中,報告濕度和氣體之間的相關性」,而一個基于文本的問題可能是「報告第10個epochs后神經網絡的測試準確率」。

現實世界中的計算可重復性任務

在構建基準測試時,研究人員主要關注其建構有效性(construct validity),即如何有效地衡量模型在現實世界中的表現,即CORE-Bench的任務與研究人員必須完成的任務密切相關,而其他編碼基準測試中設計的玩具問題,并不能反映軟件工程的復雜性。

在CORE-Bench上提高表現將直接轉化為計算可重復性的改善,也是科學研究的基石。

邁向科研智能體的第一步

完成新科學研究的第一步是能夠復制現有的科學工作,在實現能夠進行新穎研究的智能體的過程中,這一步是非常有必要的。

實驗結果

研究人員按照難度把CORE-Bench劃分為CORE-Bench-Easy、CORE-Bench-Medium和CORE-Bench-HardCORE-Bench-Easy只包括最簡單的任務,代碼輸出已經提供在環境中,智能體只需要導航環境以找到相關結果來回答任務問題。

CORE-Bench-Medium上,智能體輸入一個Docker命令來復制論文的代碼,測試智能體與Bash終端交互的能力,如果智能體擅長與終端交互,這些任務應該也不算難。

CORE-Bench-Hard,智能體必須安裝所有依賴項和庫,并輸出正確的命令以復現結果。

研究人員并選擇了兩個基線模型進行評估:

1. AutoGPT,研究人員基本沒有修改原始模型,創建了query_vision_language_model工具,輸入位一張圖片和一個查詢,并利用OpenAI API輸出對該圖片查詢的回復,以分析圖表和插圖中的結果,該模型的查詢視覺語言模型的能力并不特定于CORE-Bench。

2. CORE-Agent,研究人員在AutoGPT的基礎上創建了CORE-Agent,為CORE-Bench的不同難度級別進行定制,主要修改了程序檢查,以確保正確提交和報告復制結果的文件(即report.json)。

圖片圖片


對于不同的難度級別,研究人員添加了特定的提示來引導智能體的行為,可以根據模型在訓練集上的表現進行定性分析,并調整指令,其中最耗時的部分是分析失敗日志以確定有效的提示策略。

評估指標

任務準確率,即所有任務問題都回答正確的任務比例;智能體的平均成本,即請求智能體的平均API成本。

評估結果

總體來說,使用GPT-4o的CORE-Agent在基準測試集的所有三個級別上都是表現最佳的智能體,其在CORE-Bench-Easy上解決了60.00%的任務,在CORE-Bench-Medium上解決了57.78%,但在CORE-Bench-Hard上僅解決了21.48%

圖片圖片

實驗結果表明,通用智能體可以通過簡單地調整就能適應特定任務,從而獲得顯著的性能提升,作為對比,使用GPT-4o的AutoGPT在CORE-Bench-Hard上僅得分6.7%

文本問題比視覺問題簡單

智能體在基于文本的問題上的表現始終優于基于視覺的問題。在測試集上,使用GPT-4o的CORE-Agent在CORE-Bench-Easy中正確回答了59.26%的視覺問題和87.88%的書面問題;使用GPT-4o-mini的CORE-Agent正確回答了37.78%的視覺問題和81.81%的書面問題。視覺問題之所以更難,主要因為模型需要分析圖表中的結果,而書面答案通常可以直接在終端輸出中找到。如果生成了多個輸出文件,智能體有時無法找到相關的圖表;即使找到了,分析輸出也可能很困難。

Python比R更簡單

智能體在Python任務上的表現遠勝于R任務,可能的原因是R的輸出通常更難解析,因為許多R任務生成了完整的PDF手稿,智能體需要閱讀;另一個可能原因是安裝R包的依賴項可能比Python花費的時間要長得多。

圖片圖片

計算機科學任務在Python中的比例過高,也可能解釋了為什么與其他兩個學科相比,往往更容易被復現。

參考資料:

https://x.com/sayashk/status/1836430461003792485

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-06-21 09:15:30

AI 技術神經網絡

2025-03-25 09:50:23

2023-10-23 15:02:43

AI 中醫人工智能

2024-11-04 14:26:14

2024-09-14 09:31:00

2024-02-19 00:15:39

模型數據

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2023-04-10 12:51:17

人工智能唇語

2023-04-10 16:06:25

人工智能唇語

2022-07-26 09:56:48

模型AI

2023-07-04 13:50:22

AI協作項目

2012-12-06 15:36:55

CIO

2017-08-04 15:53:10

大數據真偽數據科學家

2017-06-06 16:42:22

2023-05-23 09:34:16

科學家AI

2025-02-13 09:40:00

2023-12-18 15:54:42

AI 模型

2023-05-04 12:35:39

AI科學

2025-05-21 13:56:37

模型圖像AI
點贊
收藏

51CTO技術棧公眾號

国产精品456| 欧美aaaaaaaaaaaa| 色哟哟国产精品| 欧美在线一二三区| 国产男女无套免费网站| 中日韩视频在线观看| 一区二区三区视频观看| 午夜影院免费观看视频| 国产精品av一区二区三区| 国产精品夫妻自拍| 久久国产一区| 精品国产一级片| 视频一区在线视频| 国内精品小视频| 美女福利视频网| 日韩大胆成人| 欧美一二三区精品| 男女无套免费视频网站动漫| 羞羞的视频在线观看| 国产婷婷色一区二区三区四区| 91精品黄色| 成人黄色免费网| 国产情侣久久| 欧美激情极品视频| 婷婷亚洲一区二区三区| 国产在线观看91一区二区三区| 51精品国自产在线| 欧美国产日韩在线播放| 国产丝袜在线播放| 亚洲色图欧美在线| 亚洲一卡二卡| 国产午夜精品一区理论片| 成人国产视频在线观看| 亚洲在线视频福利| 91 中文字幕| 青青青爽久久午夜综合久久午夜| 69av成年福利视频| 黄色小说在线观看视频| 欧美日韩网站| 久久综合免费视频影院| 极品美妇后花庭翘臀娇吟小说| 国产成人精品999在线观看| 亚洲国内精品视频| 日韩成人av一区二区| 一区二区三区亚洲变态调教大结局| 欧美精品黑人性xxxx| 日本xxxx黄色| 免费在线观看一区| 欧美日韩一区精品| 一级黄色特级片| 成人福利一区二区| 欧美日韩中文字幕一区二区| 天堂在线资源视频| 国产成人亚洲一区二区三区| 欧美视频在线一区| 精品国产免费视频| 一区二区三区国产免费| 台湾佬中文娱乐久久久| 日韩欧美在线视频免费观看| 女人和拘做爰正片视频| 性国裸体高清亚洲| 日本电影亚洲天堂一区| www国产精品内射老熟女| 国产在线观看www| 五月婷婷色综合| 国产亚洲欧美在线视频| 色尼玛亚洲综合影院| 欧美视频你懂的| 91日韩精品视频| 日韩一级淫片| 亚洲精品理论电影| 国产人妻大战黑人20p| 成人av动漫在线观看| xx视频.9999.com| 久久久久97国产| 99成人在线| 国产精品扒开腿做爽爽爽男男| 91欧美日韩麻豆精品| 国产精品夜夜嗨| 精品一区二区三区国产| 国产在线超碰| 国产精品欧美日韩一区二区| 精品国产91乱码一区二区三区| 99热这里只有精品在线播放| 亚洲欧洲专区| 亚洲成年人在线播放| 国产综合精品在线| 午夜欧美理论片| 成人在线一区二区三区| 91性高湖久久久久久久久_久久99| 国产女无套免费视频| 成人18精品视频| 日韩av在线电影观看| av官网在线播放| 一本久久a久久免费精品不卡| 欧美激情第3页| 秋霞综合在线视频| 免费91麻豆精品国产自产在线观看| 久久久久无码国产精品| 日韩—二三区免费观看av| 99re在线观看视频| 99re在线视频| 天天色综合天天| 日本在线观看视频一区| 自拍偷拍欧美一区| 色综合天天狠天天透天天伊人| 波多野结衣在线电影| 成人性生交大片免费| 亚洲欧美日韩国产成人综合一二三区| 高端美女服务在线视频播放| 欧美日韩国产高清一区二区 | 香蕉国产精品偷在线观看不卡| 成人高清视频观看www| 青青草在线视频免费观看| 1024国产精品| 第四色婷婷基地| 伊人久久大香线蕉综合网站| 欧美高跟鞋交xxxxxhd| 一区二区视频免费观看| 久久久久久久久久久电影| 欧美日韩视频免费| 成人自拍视频| 上原亚衣av一区二区三区| 亚洲欧美自拍视频| 99视频热这里只有精品免费| 18视频在线观看娇喘| 成人一级视频| 亚洲天天在线日亚洲洲精| wwwxxx亚洲| eeuss影院一区二区三区| 成人国产一区二区三区| 国产一区二区三区视频在线 | 国产偷久久久精品专区| 日本孕妇大胆孕交无码| 日韩一区二区三区免费看 | 亚洲视频在线免费| 成人午夜在线影院| 超碰个人在线| 在线播放一区二区三区| 中文字幕91视频| 久久se精品一区二区| 亚洲欧美日韩综合一区| 欧美激情啪啪| 久久精品国产91精品亚洲| 一级特黄aaa大片| 国产精品不卡一区| 超碰在线免费av| 欧美成人高清| 国产精品免费观看高清| 日韩电影免费观看| 亚洲国产精品嫩草影院久久| 日韩av电影网| 久久久亚洲高清| 欧美 日韩 国产 激情| 激情综合网站| 成人精品久久一区二区三区| 欧美成年黄网站色视频| 日韩一级精品视频在线观看| 久久久国产精品人人片| proumb性欧美在线观看| 日本三级免费观看| 俺要去色综合狠狠| 亚洲自拍小视频| heyzo高清中文字幕在线| 亚洲精品国产电影| 波多野结衣在线电影| 亚洲欧洲精品一区二区精品久久久| 男男受被啪到高潮自述| 亚洲国产午夜| 日本精品一区二区| 国产精品一区二区三区四区在线观看 | 先锋资源在线视频| 亚洲第一在线| 日韩av不卡在线播放| 2020国产精品小视频| 久久免费国产视频| аⅴ资源新版在线天堂| 日韩精品中文字幕一区| 日本三级小视频| 国产精品久久久久久久岛一牛影视 | 2021狠狠干| 牲欧美videos精品| 国产免费一区视频观看免费| 免费污视频在线| 在线精品91av| 亚洲精品一区二区三区蜜桃| 色天天综合久久久久综合片| 手机在线免费看毛片| 91视频国产资源| 国产在线观看中文字幕| 国产日韩欧美| 无码毛片aaa在线| 亚洲69av| av色综合网| 91成人在线| 国产69久久精品成人| 国产三区在线观看| 亚洲人免费视频| 亚洲国产欧美另类| 欧美日韩久久一区二区| 国偷自拍第113页| 亚洲美腿欧美偷拍| www久久久久久久| youjizz国产精品| 在线成人免费av| 日韩高清不卡一区| 逼特逼视频在线| 狠狠88综合久久久久综合网| 亚洲国产午夜伦理片大全在线观看网站| 91精品国产乱码久久久竹菊| 国产精品高潮在线| 女厕盗摄一区二区三区| 欧美激情影音先锋| 麻豆av在线免费看| 亚洲一区二区福利| 深夜福利在线观看直播| 日韩精品一区二区三区四区视频 | 伊人天天久久大香线蕉av色| 奇米777国产一区国产二区| 91在线看网站| 国产视频网站一区二区三区| 国产欧美日韩91| 免费污视频在线一区| 日本精品一区二区三区在线| 成人影音在线| 欧美福利视频在线观看| 亚洲性图自拍| 久久夜色精品国产亚洲aⅴ| yw193.com尤物在线| 亚洲天堂免费在线| 精品成人一区二区三区免费视频| 欧美精品一区二区三区一线天视频| 国产模特av私拍大尺度| 欧美丰满一区二区免费视频| 中文字幕精品一区二| 欧美日韩中文国产| 亚洲综合免费视频| 欧美日韩极品在线观看一区| 日韩欧美国产另类| 欧美午夜影院一区| 羞羞色院91蜜桃| 欧美日韩国产小视频在线观看| 精品国产www| 欧美日本在线视频| 国产精品久久无码一三区| 欧美另类久久久品| a视频免费在线观看| 欧美一三区三区四区免费在线看 | 99久久婷婷国产综合精品电影| 2一3sex性hd| 久久午夜老司机| 欧美黄色激情视频| 亚洲欧洲精品一区二区三区| 成人免费视频国产免费观看| 一区二区三区免费在线观看| 久久黄色免费视频| 狠狠躁18三区二区一区| 亚洲婷婷综合网| 欧美日韩一卡二卡| 99精品免费观看| 亚洲国产精品成人va在线观看| 日韩在线免费看| 一夜七次郎国产精品亚洲| 免费黄色在线网站| 欧美激情中文字幕乱码免费| 男女羞羞在线观看| 国产精品人人做人人爽| 中文成人激情娱乐网| 国产精品免费视频一区二区| 天天躁日日躁狠狠躁欧美| 日韩精品最新在线观看| 亚洲最新av| 成人综合视频在线| 久久99精品一区二区三区三区| ass极品水嫩小美女ass| 91在线视频观看| 黄色激情小视频| 亚洲一区二区在线免费观看视频| 免费观看成人毛片| 欧美日韩免费观看一区二区三区| 亚洲精品一区二区三区四区| 亚洲精品一区二区在线| 粗大黑人巨茎大战欧美成人| 久久人人爽人人爽人人片av高清| 精品免费av在线| 999国内精品视频在线| 一区二区三区韩国免费中文网站| 在线播放豆国产99亚洲| 日韩亚洲在线| 三日本三级少妇三级99| 91久色porny| 久久久久久久久久久97| 在线观看日韩高清av| 性生活免费网站| 中文字幕日韩欧美| 99爱在线视频| 91免费精品视频| 精品中文字幕一区二区三区av| av中文字幕av| 人人超碰91尤物精品国产| 911亚洲精选| 国产精品久久二区二区| 五月婷婷视频在线| 欧美成人精品1314www| av成人手机在线| 欧美性受xxxx黑人猛交| 色悠久久久久综合先锋影音下载| 日韩视频专区| a91a精品视频在线观看| 日韩欧美色视频| √…a在线天堂一区| 99超碰在线观看| 日韩av在线免费观看| 亚洲七七久久综合桃花剧情介绍| 国产精品香蕉国产| 精品一区二区三区中文字幕老牛| 草草久久久无码国产专区| 国产成人精品免费一区二区| 99久久精品久久亚洲精品| 日韩欧美在线播放| 日漫免费在线观看网站| 国产综合在线看| 国产日韩三级| 欧美交换配乱吟粗大25p| 精品在线播放免费| 99久久精品久久亚洲精品| 欧美亚洲国产一区二区三区va| 手机福利小视频在线播放| 久久免费国产精品1| 成人福利免费在线观看| 成人短视频在线观看免费| 国产综合色在线| 国产成人av免费在线观看| 欧美日韩免费视频| 免费在线视频欧美| 成人精品久久一区二区三区| 97在线精品| 操人视频免费看| 一区二区三区 在线观看视频| 99国产精品久久久久久久成人| 北条麻妃99精品青青久久| 祥仔av免费一区二区三区四区| 亚洲一区二区精品在线| 久久99精品久久久久久国产越南| 丁香六月激情综合| 欧美精品tushy高清| а√天堂资源地址在线下载| 亚洲伊人第一页| 激情成人综合| 中文字幕日韩三级片| 色综合天天综合色综合av | 亚洲欧美日韩久久| 精品久久在线观看| 欧美劲爆第一页| 日韩a级大片| 蜜臀视频一区二区三区| 国产精品视频yy9299一区| 91中文字幕在线播放| 欧美人在线视频| 香蕉久久夜色精品国产更新时间| 男人天堂网视频| 国产精品视频一二三| 国产成人av免费看| 午夜精品久久久久久久白皮肤 | 在线电影看在线一区二区三区| 激情五月婷婷综合网| 国产一级一片免费播放放a| 日韩精品福利网站| 九九热这里有精品| 国产欧美精品aaaaaa片| thepron国产精品| 中文字幕+乱码+中文字幕明步 | 日韩av网站大全| 91国拍精品国产粉嫩亚洲一区| 综合视频免费看| 99久久精品免费| 又色又爽又黄无遮挡的免费视频| 不卡毛片在线看| 日本中文字幕在线一区| 三上悠亚av一区二区三区| 一区二区欧美视频| 日本午夜在线| 亚洲影影院av| 美女被久久久| 久久久全国免费视频| 精品无人区太爽高潮在线播放| 欧美高清xxx| 国产极品尤物在线| 亚洲天堂2016| 极品白浆推特女神在线观看| 51国偷自产一区二区三区| 欧美资源在线| 欧美黄色免费看| 一区二区三区黄色| 久久a级毛片毛片免费观看| 鲁一鲁一鲁一鲁一av| 黑人欧美xxxx| 国产在线xxx| 伊人久久大香线蕉综合75| 91欧美一区二区|