精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI Scientist爆火背后的技術詳解以及優缺點分析 精華

發布于 2024-8-26 01:41
瀏覽
0收藏

今天分享一篇最近比較熱門的日本創業公司Sakana AI的一篇文章,標題為《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一種名為“AI Scientist”的框架,旨在實現端到端完全自動化的科學發現,完成從Idea構建,實驗跑取,文章撰寫的完全自動化。驗證了AI自動化探索新問題,解決新問題,甚至撰寫Paper的可行性。同時還提出了一個能與人類評委水準接近的Review Agent,能夠給出高水準的評審意見。

總體來說,其還是一個多agent系統,利用了reflection機制迭代優化效果,同時也結合Semantic Scholar等工具驗證創新性,利用Aider工具來更新代碼和Paper,來執行相關實驗。同時也要看到其只是搭了一個基礎的Baseline通道,如何提升Idea生成的深度以及多樣性,如何讓LLM能實現更復雜,更有挑戰性的Idea,如何降低Review Agent的False Positive Rate(FPR)都值得進一步探索。

本文將對其背后的技術,優缺點進行詳細的分析~

一、概述

1. Motivation

  • ? 盡管前沿模型已被用作人類科學家的輔助工具,如頭腦風暴、編寫代碼或預測任務,但它們仍僅完成了科學過程的一小部分。
  • ? 本文提出了第一個全面的框架,用于實現完全自動化的科學發現,使前沿大型語言模型能夠獨立進行研究并傳達其發現。

2. Method

文章介紹了“AI科學家”框架,該框架包括三個主要階段:

1.想法生成:AI科學家首先“頭腦風暴”出一系列新穎的研究方向,然后在此基礎上進行創新性迭代優化,最后篩選創新性較高的idea。

2.實驗迭代:根據想法和模板,AI科學家首先執行提出的實驗plan,然后根據實驗結果,迭代優化實驗,最后更新plot代碼,可視化其結果以供后續撰寫,代碼通過AIder工具來更新。

3.論文撰寫:AI科學家使用LaTeX撰寫完整的科學論文,描述其進展。

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:總體就兩個輸入,Baseline Code,以及論文Latex模板,加上init paper的一些信息。

? Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

? Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

? 輸出:完整的Paper

1 Idea generate過程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?輸入:code template

?輸出:some ideas

?代碼:??https://github.com/SakanaAI/AI-Scientist/blob/main/ai_scientist/generate_ideas.py??

? generate_ideas:idea生成

? generate_next_idea:在seed的基礎上繼續生成新的idea

? search_for_papers:調用api search paper

? check_idea_novelty:檢查并優化創新性

1.1 Idea Generation Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?優點:對diversity做了優化和限制,引入了COT機制。

?缺點:idea全靠LLM內部信息想出來,思考的知識有限,更新也不及時,不太能及時follow最新知識,不過內部知識能做到什么粒度其實還不太確定,另外內部知識其實是缺乏新知識的,這對科學研究非常致命。

1.2 Idea Novelty Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

 

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


?特點:用于搜索num_rounds相關的paper來檢查優化創新性,如果每次沒search到相關內容,還知道去更新Query重新search,最多探索num_rounds,思路看起來不錯。

? 缺點:還是創新全部源于LLM內部知識。

2 Experiments過程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:idea + template

? 輸出:experiment result + experiment figures

? 實現方式:通過Aider更新代碼,然后執行命令行跑取模型結果。

? Aider平臺,可以通過命令更新代碼:https://github.com/paul-gauthier/aider?

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

2.1 Experiment Running Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:先也會有一個plan,然后分別實現experiments

? 缺點:沒具體講如何實現Experiment的,Aider看著是個平臺,可能可以直接用,但是改代碼很容易出錯,穩定性存疑。

2.2 Plotting Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:生成plot,還有description,后續用于添加到論文中。

3 Paper Writing流程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:Latex模版 + Experiments recorded notes + plots,Latex模板圖如下,也是用Aider工具來修改?

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區

? 輸出:paper

3.1 Paper Writing Aider Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:提供每個section的建議+latex的template+plan

?缺點:Aider是個啥,感覺writing比較有用的樣子。

4 Reviewer Agent流程

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 輸入:PDF manuscript

? 輸出:Paper Review Result

? 優點:參考了neurips ReviewerGuidelines,同時引入reflection,few-shot來提升效果。

4.1 Paper Review Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:經過多輪迭代 + COT思考

4.3 Paper Review Ensembling Prompt

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


? 特點:還有個匯總的,優點self-consistant的感覺

5 反思和迭代次數

AI Scientist爆火背后的技術詳解以及優缺點分析-AI.x社區


3. Coclusion

文章搭建了一個AI Scientist,通過三個子任務驗證了其可行性:擴散模型、Transformer和Groking。并且每種想法的實現和開發成本不到15美元。表明了該框架在Research研究和顯著加速科學進步方面的潛力。

? 搭建了一個完整的科研鏈路Agent:idea -> Experiments -> Paper,還真work了。

? 附帶送了一個接近人類水平的Paper Review Agent,效果也還不錯。

4. Limitation

? 生成的Idea經常非常相似,甚至不同模型,不同run都會有很類似的idea。

? Aider實現ideas有困難,GPT-4o寫Latext常不能編譯,有些idea實現challenging比較大。

? plot的圖像也可能有問題,而且還不止是vision,可能看不出效果。

? Latext的cite和reference可能有問題。

? LLM數學能力不太好,對metric不敏感。

? 幻覺。

二、詳細內容

1 LLM Paper Review水平在ICLR2022數據集上已經接近人類水平


? 特點:精度和人類比較接近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,說明也有打分偏高的情況。

2 Reflexion和one-shot能提升Reviewing效果


? 結論:從0.66提升到0.70,看著還不錯。Ensemble后精度沒有提升,但是variance有降低。

3 Diffusion Modeling優化效果


? **結論1:Sonnet3.5看著比GPT-4o好很多啊,而且還更便宜,完成Paper率居然接近80%**,還是很厲害。

?結論2:DeepSeek Coder是性價比之王。

?其他:DIffusion Modeling感覺都是比較老的模型了,利用LLM生成的idea可能都是訓練過的了,可能并不能代表真正的創新。

4 Language Modeling優化效果

?結論: 這次完成率只有40%了,這個差異好大,跟猜測的一樣,coding可能非常不穩定,另外DeepSeek Coder確實厲害。

5 Grokking優化效果

?結論:不同paper,不同LLM基座的Noval Ideas居然都超過90%,但是Experiments的完成率差異非常大。?

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
91caoporm在线视频| 久久青青草原亚洲av无码麻豆| 日日夜夜一区| 亚洲精品国产精华液| 99精品国产高清在线观看| 在线看成人av| 精品国产日韩欧美| 日韩一区二区麻豆国产| 成人免费观看视频在线观看| 久草资源在线观看| 91亚洲永久精品| 国产在线精品自拍| 日韩在线视频免费播放| 亚洲成av人电影| 亚洲精品中文字| ass极品水嫩小美女ass| 亚洲成人激情社区| 亚洲网友自拍偷拍| 在线免费观看成人网| 手机福利在线| 国产宾馆实践打屁股91| 国产精品91一区| 久久精品免费在线| 91成人精品| 一区二区三区国产视频| av av在线| 北岛玲精品视频在线观看| 欧美性xxxx极品高清hd直播| 国产精品8888| 欧美激情二区| 国产日韩精品视频一区| 激情视频在线观看一区二区三区| 国产精品自拍电影| 蜜臀a∨国产成人精品| 欧美在线激情视频| 国产大片中文字幕| 欧美片第1页综合| 久久精品国产亚洲精品| 国产在线综合视频| 国产91久久精品一区二区| 亚洲第一福利在线观看| 9191在线视频| 国产视频一区二| 欧美日本一区二区三区| 日本人视频jizz页码69| 国精产品一区二区三区有限公司| 狠狠色狠色综合曰曰| 国产黄色片免费在线观看| 成人免费视屏| 亚洲免费观看高清完整版在线观看| 日本一区视频在线播放| 久草福利在线视频| www欧美成人18+| 久久综合精品一区| 日本福利在线观看| 久久人人爽人人爽| 欧美日本韩国在线| 黄色软件在线| 欧美国产成人在线| 伊人久久青草| 精品国产丝袜高跟鞋| 亚洲品质自拍视频| 青青草免费在线视频观看| 岛国成人毛片| 亚洲综合一区二区精品导航| 欧美久久久久久久久久久久久久| 色爱综合区网| 精品成人av一区| 欧美一级在线看| 欧美xx视频| 欧美三级日韩三级| 亚洲一级片av| 澳门精品久久国产| 日韩精品中文字幕在线播放| 三上悠亚影音先锋| 精品99在线| www.日韩系列| 久久久国产精华液| 羞羞答答国产精品www一本| 日本精品免费观看| 一区二区久久精品66国产精品 | 国产强伦人妻毛片| 国产成人啪午夜精品网站男同| 动漫美女被爆操久久久| 色呦呦免费观看| 国产亚洲欧美一区在线观看| 一区精品视频| 大桥未久在线视频| 欧美在线一二三四区| 三级黄色片播放| 牛牛精品成人免费视频| 亚洲一区av在线播放| 一级黄色片日本| 在线播放一区| 国产精品情侣自拍| 亚洲精品久久久久久久久久| 91蜜桃婷婷狠狠久久综合9色| 婷婷五月色综合| 性爱视频在线播放| 在线欧美小视频| 极品人妻一区二区| 精品美女久久久| 欧美疯狂xxxx大交乱88av| 亚洲欧美一二三区| 国产成人午夜99999| 日韩欧美精品久久| av成人影院在线| 欧美情侣在线播放| 午夜一区二区三区免费| 91精品福利| 日本成人黄色片| 精品人妻少妇嫩草av无码专区| 91丝袜国产在线播放| 久久人妻无码一区二区| 91tv亚洲精品香蕉国产一区| 亚洲国产精品高清久久久| 91大神福利视频| 国产欧美欧美| 91精品婷婷国产综合久久蝌蚪| 韩日视频在线| 精品美女永久免费视频| aaaaaaaa毛片| 99精品视频在线观看播放| 欧洲成人在线视频| 日韩中文字幕综合| 中文字幕视频一区二区三区久| 日本三级免费网站| 国产伦乱精品| 欧美激情在线狂野欧美精品| 国产精品久久久久久久一区二区 | 国产传媒免费在线观看| 视频在线观看国产精品| 久久婷婷人人澡人人喊人人爽| 在线观看男女av免费网址| 欧美精品v国产精品v日韩精品| 中文字幕免费视频| 午夜亚洲性色视频| 久久国产手机看片| 涩涩在线视频| 日韩av在线一区二区| 久久久久性色av无码一区二区| 国产资源在线一区| 中文字幕av导航| 免费一级欧美在线观看视频| 伊人激情综合网| 中文字幕人妻互换av久久| 亚洲国产精品成人综合 | 一级全黄肉体裸体全过程| 久久av日韩| 在线亚洲午夜片av大片| 精人妻无码一区二区三区| 久久久久九九视频| 992kp快乐看片永久免费网址| 女人丝袜激情亚洲| 国产成人拍精品视频午夜网站| 欧美18xxxxx| 精品国产老师黑色丝袜高跟鞋| 深田咏美中文字幕| 99国产精品自拍| 欧美激情论坛| 日韩色淫视频| 久热精品视频在线免费观看| 国产高潮流白浆喷水视频| 亚洲欧美日韩电影| 免费啪视频在线观看| 一本色道88久久加勒比精品| 麻豆一区区三区四区产品精品蜜桃| 一二三四视频在线中文| 亚洲人a成www在线影院| 在线不卡免费视频| 亚洲男人的天堂一区二区| 免费黄色av网址| 妖精视频成人观看www| 日韩av高清在线播放| 亚洲色图综合| 欧美大片第1页| 欧美成人综合在线| 欧美久久一区二区| 日本特黄一级片| 久久久久青草大香线综合精品| 邪恶网站在线观看| 欧美激情视频一区二区三区免费| 国产伦精品一区二区三区| 成人免费看黄| 久久久999成人| 无码精品人妻一区二区三区影院| 色婷婷久久99综合精品jk白丝| 精品少妇一区二区三区密爱| 高清不卡一二三区| 国模杨依粉嫩蝴蝶150p| 一区二区三区国产精华| 好看的日韩精品视频在线| 精品123区| 欧美高清视频一区二区| 免费福利在线观看| 日韩一级视频免费观看在线| 国产高潮久久久| 日韩一区在线看| aa片在线观看视频在线播放| 奇米色一区二区三区四区| 蜜臀精品一区二区| 久久中文亚洲字幕| 久久99精品久久久久久久青青日本| 久久久久黄色| 欧美亚洲国产视频小说| av网站大全在线| 一区二区欧美久久| 少妇一区二区三区四区| 91精品国产综合久久久久| 国产在线观看黄色| 一区二区三区四区乱视频| 韩国三级hd中文字幕| 成人午夜av影视| av中文字幕网址| 久久夜色精品| 欧美不卡在线播放| 你懂的成人av| 一区二区精品国产| 久久91麻豆精品一区| 精品国产区在线| 精品一区二区三区中文字幕视频 | 日韩欧美中文字幕一区二区三区 | 久久精品久久久久久久| 亚洲一区二区av在线| www色aa色aawww| 亚洲国产精品二十页| 成都免费高清电影| 91视频一区二区三区| 91精品啪在线观看国产| 国产99精品国产| 伊人五月天婷婷| 经典一区二区三区| 免费精品99久久国产综合精品应用| 日韩av一区二区三区四区| 日韩在线综合网| 在线观看日韩av电影| 国产免费内射又粗又爽密桃视频| 久久亚洲国产| 尤物国产精品| 91中文字幕精品永久在线| 亚洲精品一区二区三区四区五区| 国产一区二区三区四区五区| 精品一区在线播放| 香蕉久久夜色精品国产使用方法 | 成人欧美在线视频| 国产精品亚洲成在人线| 国产精品一区二区三区久久| 欧美日韩尤物久久| 国产免费久久av| 成人在线日韩| 91久久精品www人人做人人爽| 久久99成人| 97人人澡人人爽| 懂色av一区二区| 国产欧美韩日| 欧美韩一区二区| 欧美精品久久| 日韩精品2区| 自拍另类欧美| 欧美激情偷拍| 欧美激情视频免费看| 国产日韩欧美高清免费| 日本一极黄色片| 奇米在线7777在线精品| 性鲍视频在线观看| 成人免费毛片片v| 国产激情在线免费观看| 久久你懂得1024| 任我爽在线视频| 亚洲专区一二三| 波多野结衣国产| 在线观看视频一区二区| 91尤物国产福利在线观看| 日韩一区二区在线观看| 人妻无码一区二区三区久久99| 亚洲欧美www| 免费av网站在线看| 久久久久久免费精品| 欧美电影免费看| 成人国产精品日本在线| 国产福利资源一区| 日本一区视频在线观看| 欧美在线资源| 北条麻妃在线视频| 国产一区二区在线观看免费| 97精品人妻一区二区三区蜜桃| 日本一区二区视频在线| 青青草成人免费| 日本韩国一区二区三区视频| 国产乱人乱偷精品视频| 亚洲精品美女久久久| 日本最黄一级片免费在线| 欧美国产日韩一区| 蜜桃精品在线| 国产精华一区| 婷婷综合五月| 91黄色小网站| 国产精品性做久久久久久| 免费看黄色的视频| 亚洲一区视频在线| 国产成人精品一区二区色戒| 亚洲第一页自拍| 黄色成人影院| 国产不卡av在线| 国产伦精品一区二区三区在线播放 | 国产精品精品视频| 大奶一区二区三区| 一本一道久久a久久精品综合| 国产亚洲一级| 天堂va欧美va亚洲va老司机| 国产精品系列在线| 国产精品777777| 日韩欧美电影一区| 麻豆视频在线| 国产精品夫妻激情| 首页亚洲中字| 欧美视频在线观看视频| 国产一区二区女| 成人在线观看免费高清| 欧美日韩免费在线| 亚洲av无码国产精品永久一区| 最近2019中文字幕一页二页| 唐人社导航福利精品| 久久99九九| 伊人成人在线视频| aaaaa黄色片| 亚洲欧美日韩电影| 国产露脸国语对白在线| 视频在线观看一区二区| 桃子视频成人app| 蜜桃久久精品乱码一区二区| 亚洲欧洲一级| 亚洲黄色小说在线观看| 亚洲黄色av一区| 国产av一区二区三区| 久久九九有精品国产23| 高清不卡一区| 日韩视频在线免费播放| 精品无人区卡一卡二卡三乱码免费卡| 国产jjizz一区二区三区视频| 疯狂做受xxxx高潮欧美日本| 天堂成人在线观看| 91国语精品自产拍在线观看性色 | 国产亚洲免费的视频看| 国产精品迅雷| 欧美日韩在线观看一区二区三区 | 亚洲成人动漫av| 丰满肥臀噗嗤啊x99av| 欧美精品18videos性欧美| 三级欧美日韩| 国产成人艳妇aa视频在线| 成人激情视频网站| www.av麻豆| 亚洲美女性生活视频| 手机看片久久| 亚洲一区三区| 高清免费成人av| 日本黄色片视频| 亚洲色图五月天| 国产原创一区| 亚洲爆乳无码精品aaa片蜜桃| 不卡在线观看av| 特级西西444www大精品视频免费看| 亚洲精品一区二区三区不| 中文字幕av一区二区三区佐山爱| 亚洲欧美久久久久一区二区三区| 久久99久久久久| 久久精品99国产精| 日韩电影中文字幕av| 国产精品字幕| 成人av在线播放观看| 99国产精品久久久久久久久久久| 久久精品视频5| 日韩亚洲欧美中文高清在线| 亚洲视频国产精品| 欧美日韩在线中文| 国产精品久久久久久一区二区三区| 国产精品亚洲欧美在线播放| 欧美精品国产精品日韩精品| 九九亚洲视频| 超碰在线免费av| 欧美日韩激情小视频| 亚洲s色大片| 成人欧美一区二区| 日本不卡视频在线| 久久精品一区二区三| 亚洲欧美三级在线| 日本精品在线播放| 欧美 国产 小说 另类| 亚洲视频网在线直播| 五月婷婷狠狠干| 亚洲aⅴ男人的天堂在线观看| 99精品视频免费观看视频| 国产精品麻豆一区| 亚洲精品99久久久久中文字幕| 国产69精品久久| 免费无码不卡视频在线观看| 国产精品高潮呻吟| 日本v片在线免费观看| 成人情趣片在线观看免费|