精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

戰勝100多位NLP研究人員!楊笛一團隊最新百頁論文:首次統計學上證明,LLM生成的idea新穎性優于人類

人工智能 新聞
斯坦福大學的最新研究通過大規模實驗發現,盡管大型語言模型(LLMs)在新穎性上優于人類專家的想法,但在可行性方面略遜一籌,還需要進一步研究以提高其實用性。

大型語言模型(LLMs)在各個領域都是一個優秀的助手,廣大科研人員也對LLM在加速科學發現方面的潛力充滿期待,比如已經有研究提出了能夠自主生成和驗證新想法的研究智能體。

然而,至今還沒有評估結果能夠證明LLM系統能夠生成新穎的、達到專家水平的想法(idea),更不用說接手完成整個研究流程了。

為了填補這一空白,斯坦福大學的研究人員最近發布了耗時一年完成的新實驗,獲得了第一個具有統計學意義的結論:LLM生成的想法比人類專家撰寫的想法更新穎!

圖片

論文鏈接:https://arxiv.org/pdf/2409.04109

在論文中,研究人員設計了一個完整的實驗,可以評估模型在新研究思路生成方面的能力,同時對可能的干擾因素進行控制,首次將專家級的自然語言處理(NLP)研究人員與LLM創意代智能體進行直接比較。

實驗招募了超過100名高水平NLP研究人員來撰寫新想法,然后對LLM生成的想法和人類想法進行盲審,參與者來自 36 個不同的機構,大部分是博士和博士后。

通過這種方式,研究人員首次得出「LLM在研究創意生成」能力的統計顯著結論:LLM生成的想法在新穎性方面優于人類專家的想法(p < 0.05),但在可行性方面略遜一籌。

在深入研究基線模型時,研究人員發現了構建和評估研究智能體中的一些開放性問題,包括LLM自我評估的不足以及在生成過程中缺乏多樣性。

在實驗過程中,研究人員意識到,即使是專家,對想法新穎性的判斷可能也非常困難,因此,文中提出了一個端到端的研究設計,招募研究人員將這些想法轉化為完整的項目。

問題設置

研究人員將科研想法評估(research idea evaluation)分為三個獨立的子部分,主要關注潛在的混雜因素,如研究領域、研究想法的格式和評估過程。

1. 想法本身,根據指令產生;

2. 傳達想法的書面報告(writeup);

3. 專家對書面報告的評估。

構想的范圍和指令(Ideation Scope and Instructions )

研究想法既可以是一個能夠提高模型性能的技巧,也可以是博士論文中描述的大規模研究計劃,任何關于構想的實驗都必須仔細平衡研究想法的「現實性」和「趣味性」。

受思維鏈等項目的啟發,一些簡單的提示思路就能大幅提升LLM的性能,還能夠在不復雜的計算硬件上執行,所以研究人員選擇「基于提示的自然語言處理」研究作為初步實驗領域。

在提示詞的編寫思路上,LLM更傾向于安全的主題,與人類的偏好不一致,所以研究人員為了統一目標,從最近的NLP會議的征稿頁面中提取了七個具體的研究主題,包括偏見(bias)、編碼(coding)、安全性(safety)、多語言性(multilingual)、事實性(factuality)、數學(math)和不確定性(uncertainty)。

圖片

想法書面報告(idea writeup)

一個想法只有在被寫出來后,其他人才能以此交流并評估,但寫作過程會引入其他混雜因素,例如人類研究者可能會用春秋筆法讓研究內容看起來更高大上,比如包括更多的例子和實現細節。

研究人員從資助申請中使用的指南中獲得靈感,編寫了一個模板來指定想法提案的結構和詳細程度,包括標題、問題陳述、動機、提出的方法、逐步實驗計劃、測試用例示例和備選計劃等字段。

不過,即使有了模板,可能仍然存在微妙的寫作風格差異,例如,人類可能傾向于以更具吸引力和非正式的語氣寫作。

為此,研究人員又開發了一個風格標準化提示,使用LLM將所有想法轉換為相同的寫作和格式化風格,而不改變原始內容。

評審和評估(review and evaluation)

對研究想法的評審往往是主觀的,研究人員的目標是設計一個明確定義所有評審標準的表格,以盡可能地將評審過程標準化和錨定評估。

研究人員在設計評審表格時,遵循了AI領域會議(如ACL和ICLR)評審的最佳實踐,定義了四個分解指標,包括新穎性(novelty)、興奮度(excitement)、可行性(feasibility)和預期效果(expected effectiveness)。

每個指標在評審時,都有一個1-10的數字評分,和一段文本作為理由。

盲審評估從三種不同條件下對想法進行對比:

1. 人類想法(human ideas):由招募的專家研究者撰寫的想法提案。

2. AI想法:由LLM智能體生成的想法提案,直接從智能體的輸出中獲取排名靠前的想法。

3. AI想法+人類重新排名:由LLM智能體生成的想法提案,再由人工手動從LLM智能體生成的所有想法中選擇了排名靠前的想法,以便更好地估計AI想法的上限質量。

想法生成智能體(idea generation agent)

論文檢索

為了使創意生成有據可依,智能體需要檢索與給定研究主題相關的論文,以便在生成新創意時能夠了解相關研究。

研究人員利用檢索增強生成(RAG),給定一個研究主題后,例如「能夠提高事實性并減少大型語言模型幻覺的新型提示方法」,首先提示一個LLM生成一系列對Semantic Scholar API的函數調用,然后使用claude-3-5-sonnet-20240620作為智能體的骨干模型,論文檢索的動作空間包括:{KeywordQuery(關鍵詞), PaperQuery(論文ID), GetReferences(論文ID)}。

然后根據一系列標準對檢索到的文獻進行評分和排序,包括文獻與主題的相關性、是否包含計算實驗的經驗性研究,以及文獻的創新性和啟發性,最多檢索120篇論文。

創意生成

研究人員的思路是,首先用LLM為每個研究主題生成4000個種子創意,創意生成提示包括示范示例和檢索到的論文;然后用排序器來從中選取出一小部分高質量的,為了從龐大的候選創意池中去除重復的創意,使用Sentence-Transformers中的all-MiniLM-L6-v2對所有種子創意進行編碼,然后計算成對的余弦相似度來進行一輪去重,最后得到大約5%非重復創意。

創意排名

為了對創意進行排名,研究人員利用了1200篇ICLR 2024會議中與大型語言模型相關的論文及其評審分數和接受決定的數據。

結果發現,當直接要求LLMs預測論文的最終分數或接受決定時,模型的預測準確性不高,但在成對比較中判斷哪篇論文更優秀時,卻能夠達到較高的準確性。

研究人員使用Claude-3.5-Sonnet模型作為自動排名器,在零樣本提示下,通過成對比較任務達到了71.4%的準確率,優于其他模型。

為了確保所有項目提案的排名可靠性,采用瑞士制比賽系統進行多輪評分;在驗證集上,發現排名前10的論文與排名后10的論文在平均評審分數上有明顯差異,證明了排序器的有效性;在實驗中,選擇了5輪作為評分標準。

此外,為了比較AI排序器與人類專家的差異,研究人員還設置了一個條件,即由人工手動對生成的項目提案進行重排,結果顯示兩種排名方法存在一定差異。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-17 07:47:00

2025-03-20 13:02:34

2022-01-04 10:19:23

架構運維技術

2025-01-24 15:30:00

2014-12-25 09:51:32

2025-07-03 09:41:27

2023-05-09 12:27:52

亞馬遜微服務重構

2023-05-17 15:11:23

2023-02-16 20:24:07

OpenAI谷歌ChatGPT

2015-02-02 10:55:10

光纖

2009-12-16 09:52:15

Linux操作系統

2021-04-05 14:25:02

谷歌黑客網絡安全

2021-02-02 09:32:06

黑客攻擊l安全

2021-09-02 08:44:06

漏洞網絡安全網絡攻擊

2017-09-26 11:43:42

互聯網

2024-02-04 09:31:44

大語言模型

2020-10-09 08:34:57

AI

2019-08-23 09:27:25

機器學習NLP誤差分析

2014-08-25 11:06:42

2021-03-31 09:17:46

Android惡意軟件攻擊
點贊
收藏

51CTO技術棧公眾號

久久久精品视频在线| 97视频在线免费| 国产乱人乱偷精品视频a人人澡| 91精品秘密在线观看| 日韩精品一区国产麻豆| 激情六月丁香婷婷| 国产在线高清视频| 91在线国内视频| 91网站在线看| 国产一级免费视频| 你懂的国产精品| 亚洲精品之草原avav久久| 亚洲一区精品视频在线观看| 久久久男人天堂| 亚洲视频你懂的| 欧美在线播放一区二区| 亚洲精品一区二区三区区别| 国产成人无码精品| 亚洲综合色婷婷在线观看| 欧美日韩中文在线观看| 国产女人18毛片| 国产特黄在线| 99精品欧美一区二区三区小说 | 久久久久久久有限公司| 国产精品无码白浆高潮| 日本中文字幕一区二区有限公司| 国内精品400部情侣激情| 5566中文字幕| 国产精品欧美三级在线观看| 亚洲精品短视频| 制服.丝袜.亚洲.中文.综合懂| 国产福利亚洲| 色成人在线视频| 日本www在线播放| 欧美人动性xxxxz0oz| 国产精品久久久一区麻豆最新章节| 蜜桃传媒视频麻豆一区| 人人妻人人澡人人爽久久av| 国产成人精品影视| 亚洲一区二区三区香蕉| 一区二区精品视频在线观看| 日本欧美一区二区| 国产成人av网| 亚洲视频 欧美视频| 中文欧美日韩| 91精品国产免费久久久久久 | 色婷婷av一区二区| 激情六月丁香婷婷| 成人欧美magnet| 欧美性猛交xxxx乱大交3| 欧美日韩成人免费视频| 美女视频在线免费| 狠狠做深爱婷婷久久综合一区 | 国产尤物在线播放| 超碰免费97在线观看| 国产视频网站一区二区三区| 精品视频在线看| 国产成人黄色网址| 四虎在线精品| 欧美一卡二卡三卡四卡| 国产成人精品综合久久久久99| 久久影视精品| 91精品国产综合久久精品性色| 999久久久精品视频| 嫩呦国产一区二区三区av| 日韩欧美的一区二区| 亚洲午夜久久久久久久久| 国产精品一区二区三区美女| 日韩成人av一区| 免费网站在线高清观看| 久久国产影院| 欧美成人免费全部| 国产精品9191| 亚洲欧美日本日韩| 国产精品青草久久久久福利99| 在线观看不卡的av| 国产98色在线|日韩| 久久精品国产精品国产精品污| 亚洲欧美色视频| 国产精品视频一二三区| 亚洲 欧洲 日韩| 俺来也官网欧美久久精品| 日韩欧美一区二区三区久久| 天天干天天草天天| h视频久久久| 一区二区在线视频| 久草资源在线视频| 日韩电影在线一区| 波多野结衣一区二区三区在线观看| 亚洲日本香蕉视频| 综合在线观看色| 国内性生活视频| 国产高清日韩| 日韩hd视频在线观看| 懂色av粉嫩av蜜臀av一区二区三区| 欧美a级片网站| 亚洲一区中文在线| 91久久国产婷婷一区二区| 亚洲精品人妻无码| 国产精品三级av| 日韩 欧美 视频| 国产a亚洲精品| 亚洲第一男人天堂| 亚洲熟女少妇一区二区| 夜久久久久久| 91影院在线免费观看视频| 日韩私人影院| 一区二区三区欧美日| 九色porny91| 欧美国产极品| 欧美噜噜久久久xxx| 无码人妻丰满熟妇精品区| 国产成人精品免费| 亚洲人成网站在线播放2019| 亚洲妇女成熟| 亚洲丁香久久久| 国产极品国产极品| 秋霞午夜鲁丝一区二区老狼| 久久精品综合一区| 激情av在线| 欧美一级片在线看| 日本一二三不卡视频| 亚洲久久在线| 福利视频久久| 91福利国产在线观看菠萝蜜| 欧美日韩美少妇| 中文字幕网站在线观看| 一区二区三区四区五区在线 | 国产精品免费99久久久| 午夜免费久久久久| 高h放荡受浪受bl| 亚洲另类中文字| 中文字幕在线视频一区二区三区| 日本午夜一区| 国产精品久久激情| 免费av在线电影| 欧美视频不卡中文| 国产福利短视频| 99视频精品| 精品久久久久久中文字幕动漫| 欧美xxxx免费虐| 精品三级在线观看| 欧美精品九九久久| 天天看天天摸天天操| 久久精品国产在热久久| 亚洲午夜在线观看| 亚州欧美在线| 久久亚洲综合国产精品99麻豆精品福利 | 国产精品一区二区av交换| 国产91在线播放九色快色| 欧洲一区av| 色婷婷综合在线| 国产伦理片在线观看| 日韩制服丝袜先锋影音| 日韩欧美精品一区二区| 九九久久国产| 久国内精品在线| 日韩一级片免费| 日韩欧美在线免费| 人妻熟人中文字幕一区二区| 精品亚洲免费视频| 一二三在线视频| 国产区精品视频在线观看豆花| 97久久精品国产| 久久综合九色综合久| 欧美亚洲愉拍一区二区| 视频国产一区二区| 高清视频一区二区| 黄色免费视频大全| 成人久久久久| 91aaaa| 亚洲欧洲美洲av| 久久九九精品99国产精品| www.爱爱.com| 日韩欧美亚洲国产一区| 国产麻豆a毛片| 懂色av噜噜一区二区三区av| 男人揉女人奶房视频60分| 欧美一区二区三| 俄罗斯精品一区二区| 91精品论坛| 久久在线免费观看视频| 色视频在线观看免费| 欧亚一区二区三区| 久久久久久久久久综合| 久久综合九色综合久久久精品综合 | 日韩漫画puputoon| 理论片在线不卡免费观看| 黄色av中文字幕| 欧美四级电影网| 九九免费精品视频| 国产欧美日韩麻豆91| avtt中文字幕| 三级不卡在线观看| 欧美中日韩在线| 全球成人免费直播| 精品久久久久久亚洲| 在线视频成人| 日本久久久久久久久| 色在线视频网| 中文字幕在线日韩| 亚洲色大成网站www| 在线观看91av| 日韩综合在线观看| 亚洲国产美国国产综合一区二区| 国产精品18在线| 99亚偷拍自图区亚洲| 亚洲第一成肉网| 久久中文在线| 99在线免费视频观看| 色男人天堂综合再现| 久久综合入口| 国产欧美三级电影| 99re在线观看视频| 亚洲午夜剧场| 国产精品十八以下禁看| 小草在线视频免费播放| 欧美国产日韩一区二区在线观看 | 亚洲综合图片区| 日本裸体美女视频| 国产日韩亚洲欧美综合| 女同性恋一区二区三区| 国产麻豆精品在线观看| 日本在线播放一区二区| 日本中文字幕一区| caopor在线视频| 国产精品久久久免费| 国产一线二线三线女| 午夜久久tv| 91麻豆天美传媒在线| 99精品全国免费观看视频软件| 日韩亚洲不卡在线| 国产aⅴ精品一区二区三区久久| 国产一区二区三区色淫影院 | 精一区二区三区| 蜜臀av免费观看| 欧美aaa在线| 久久久久久噜噜噜久久久精品| 色播视频在线播放| 亚洲大片一区二区三区| 久久久久久久久久91| 亚洲激情自拍视频| 久久久国产精华液| 亚洲一区二区三区在线看| 九九久久免费视频| 亚洲第一激情av| 日韩手机在线观看| 一区二区三区不卡视频 | 亚洲va欧美va人人爽午夜| 国产大片中文字幕| 亚洲成人免费视| 国产高潮久久久| 色哟哟国产精品| 亚洲永久精品一区| 欧美日韩高清一区二区不卡| 国产又大又黄的视频| 日韩美女在线视频| 日韩一级片免费观看| 国产丝袜高跟一区| av在线资源站| 日韩在线激情视频| 91精品久久久久久粉嫩| 国内精品久久久久影院 日本资源| 精品捆绑调教一区二区三区| 69久久夜色精品国产69乱青草| 一区一区三区| 日韩免费观看高清| 国产精成人品2018| 96国产粉嫩美女| 精品欧美午夜寂寞影院| 日韩久久在线| 欧美高清日韩| 国产免费毛卡片| 青青国产91久久久久久| 日韩精品视频网址| 99精品国产99久久久久久白柏| 午夜精产品一区二区在线观看的| 国产精品久久影院| 久久午夜无码鲁丝片| 色综合网色综合| 国产又粗又猛又爽又黄的视频一 | 亚洲欧洲另类| 亚洲视频在线观看一区二区三区| 国产草草影院ccyycom| 欧美亚洲自拍偷拍| 国产黄色小视频在线观看| 亚洲精品xxxx| 日本视频不卡| 97国产精品人人爽人人做| 日韩中文视频| 国产精品9999久久久久仙踪林| 蜜桃a∨噜噜一区二区三区| 亚洲精品成人a8198a| 亚洲精品影视| 九九九九九国产| 91看片淫黄大片一级在线观看| 99久久久免费精品| 欧美日韩美女在线观看| 99久久精品国产一区色| 亚洲天堂网站在线观看视频| 污视频免费在线观看| 国产成人免费av| 国产精品天天看天天狠| 亚洲三区四区| 性伦欧美刺激片在线观看| www.欧美com| 中文字幕亚洲视频| 精品国产午夜福利| 精品国产一区二区精华| 91看片在线观看| 欧美一级片一区| jizz性欧美23| 六月婷婷激情网| 青青草精品视频| 免费成人蒂法网站| 亚洲人一二三区| 国产乱码在线观看| 男人的天堂亚洲| 97视频在线免费| 精品一二三四区| eeuss中文字幕| 色综合久久久久网| 四虎在线视频免费观看| 久久99国产精品自在自在app| 一区在线影院| 欧美在线一区二区三区四区| 亚洲福利免费| 韩国三级在线看| 日韩毛片高清在线播放| 少妇一级淫片日本| 亚洲男人天堂视频| 黄色漫画在线免费看| 国产精品v欧美精品∨日韩| 女同性一区二区三区人了人一| 国内外成人免费在线视频| 国产欧美日韩在线| 国产成人麻豆免费观看| 国产一区二区三区视频免费| 日韩电影av| 日本一区二区在线| 水蜜桃久久夜色精品一区的特点| 久久久久国产精品区片区无码| 精品福利在线视频| 亚洲AV第二区国产精品| 韩国一区二区电影| 日韩三级视频| 国产精品少妇在线视频| 久久久精品欧美丰满| 尤物视频免费观看| 亚洲视频国产视频| 玖玖精品在线| 日本一区二区免费高清视频| 精品一区在线看| 日日噜噜夜夜狠狠久久波多野| 91精品一区二区三区在线观看| 国产淫片在线观看| 成人在线免费网站| 亚洲毛片播放| 中文字幕 自拍| 欧美日韩一区精品| 超碰在线免费公开| 成人av片网址| 久久久久91| 日韩黄色中文字幕| 欧美精三区欧美精三区| 日本精品600av| 精品国产乱码久久久久久郑州公司| 狠狠躁夜夜躁av无码中文幕| 欧美v日韩v国产v| 鲁鲁在线中文| 欧洲亚洲一区二区三区四区五区| 日韩综合在线视频| 欧美特黄一级片| 精品成人一区二区三区四区| 欧产日产国产精品视频 | 国产黄色片在线播放| 国产日韩中文在线| 影音先锋久久久| 高清国产在线观看| 日韩午夜在线影院| 中文字幕这里只有精品| 午夜精品一区二区三区在线观看| 国产麻豆欧美日韩一区| 亚洲天堂日韩av| 久久精品视频网站| 国内露脸中年夫妇交换精品| 青青草精品视频在线观看| 亚洲乱码中文字幕| 日本五码在线| 亚洲自拍偷拍网址| 免费久久99精品国产自在现线| 一级特黄曰皮片视频| 日韩三级免费观看| 四虎4545www国产精品| japanese在线播放| 国产亚洲1区2区3区| 成人毛片视频免费看| 国产精品99久久99久久久二8| 国内精品久久久久国产盗摄免费观看完整版| 日本黄色特级片|