召喚100多位學(xué)者打分，斯坦福新研究：「AI科學(xué)家」創(chuàng)新確實強(qiáng)

作者：機(jī)器之心 2024-09-11 15:00:00

我們都知道通過調(diào)節(jié) LLM 的溫度值確實可以調(diào)整它們的隨機(jī)性和創(chuàng)造性，但在科學(xué)研究方面比人類還懂創(chuàng)新？

近日，一篇關(guān)于自動化 AI 研究的論文引爆了社交網(wǎng)絡(luò)，原因是該論文得出了一個讓很多人都倍感驚訝的結(jié)論：LLM 生成的想法比專家級人類研究者給出的想法更加新穎！

我們都知道通過調(diào)節(jié) LLM 的溫度值確實可以調(diào)整它們的隨機(jī)性和創(chuàng)造性，但在科學(xué)研究方面比人類還懂創(chuàng)新？這還是超乎了很多人的想象 —— 至少很多人沒想到這會來得這么快。難道 AI 科學(xué)家真的要來了？

那么，這項來自斯坦福大學(xué)的研究究竟得出了什么樣的結(jié)論呢？

論文地址：https://arxiv.org/abs/2409.04109
調(diào)查鏈接：https://tinyurl.com/execution-study
項目地址：https://github.com/NoviScl/AI-Researcher

LLM 能生成新穎的研究思路嗎？

為了準(zhǔn)確地對比 LLM 與人類在科研思路創(chuàng)新方面的能力，斯坦福大學(xué)的這個研究團(tuán)隊招募了 104 位 NLP 研究者，讓其中 49 位寫下創(chuàng)新研究想法，然后再讓 79 位專家對 LLM 和人類給出的思路進(jìn)行盲測。請注意，其中有 24 位人類專家既寫了想法，也參與了盲測，當(dāng)然他們并不評估自己寫的內(nèi)容。

模型（或者按該團(tuán)隊的說法：思路生成智能體）方面，該團(tuán)隊使用了 claude-3-5-sonnet-20240620 作為骨干模型。具體來說，給定一個研究主題（比如：可以提升 LLM 事實性并降低其幻覺的提示方法），讓 LLM 生成一系列對 Semantic Scholar API 的函數(shù)調(diào)用。這個論文檢索動作空間包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每個動作生成都基于之前的動作和已執(zhí)行的結(jié)果。

該研究使用的研究主題有 7 個：偏見、編程、安全性、多語言、事實性、數(shù)學(xué)和不確定性。下表是各個主題的想法數(shù)量：

研究過程如下圖所示：

這里我們不細(xì)說其詳細(xì)的設(shè)置和評估過程，詳見原論文。總結(jié)起來就是比較人類專家與 AI 智能體生成的科研思路的新穎程度。我們直接來看結(jié)論。

根據(jù)該團(tuán)隊思路評分（Idea Ranking）規(guī)則，他們對人類和 AI 提出科研思路進(jìn)行了打分，見圖 2 和表 7：

其中 Human Ideas 是指招募的專家研究者提出的思路，而 AI Ideas 則是 LLM 智能體給出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手動從排名靠前的思路中選擇他認(rèn)為最好的一個。

可以看到，在新穎度方面，不管是 AI Ideas 還是 AI+Rerank，都顯著優(yōu)于 Human Ideas（p < 0.01）。在激動人心（excitement）分?jǐn)?shù)上，AI 生成的思路的優(yōu)勢更是明顯（p<0.05）。并且 AI Ideas + Human Rerank 的整體分?jǐn)?shù)也優(yōu)于人類（p<0.05）。不過 AI 生成的思路在另外兩方面（可行性和有效性）與人類的差別不大。

當(dāng)然，我們也能看出，這項調(diào)查研究有一些明顯的局限，比如其調(diào)查范圍較小，樣本量太少了，評價很主觀。另外作者也指出人類研究者可能會「藏私」，可能并不會分享自己的最佳想法。

不管怎樣，這項研究證明了一點：讓 AI 參與到科學(xué)研究中多半是有利的。尤其是當(dāng)你靈感枯竭、思維阻塞時，問一問 LLM 或許就能有意想不到的收獲。

生成創(chuàng)新想法的 AI 工具，正在不斷涌現(xiàn)

實際上，已經(jīng)有研究團(tuán)隊在打造專用于此類任務(wù)的 AI 工具了。比如近日一位專注于開發(fā) LLM 應(yīng)用的研究者 Shubham Saboo 就在社交網(wǎng)絡(luò)分享了使用 Cursor 構(gòu)建一個多智能體 AI 研究者的過程。他表示整個過程用時不到 5 分鐘！參見如下視頻：

也有人分享了自己的一項相關(guān)研究，表示可以使用 LLM 和因果圖譜自動生成心理學(xué)假設(shè)，并生成比 GPT-4 和博士生表現(xiàn)都好：

近日，印度科學(xué)學(xué)院（Indian Institute of Science，IISc）的研究者發(fā)現(xiàn)，AI 在設(shè)計創(chuàng)意方面也比人類更有想法。具體來說，AI 可通過一種新的人工智能會話式「主動構(gòu)思」（Active Ideation）界面來生成新創(chuàng)意。作為一種創(chuàng)意構(gòu)思生成工具，它可幫助新手設(shè)計師緩解一部分的初始延遲和構(gòu)思瓶頸。

論文標(biāo)題：A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System
論文地址：https://arxiv.org/pdf/2409.05747

具體來說，這是一種動態(tài)、交互、上下文響應(yīng)式方法，通過大型語言模型（LLM）主動參與，為不同的設(shè)計問題生成多個潛在創(chuàng)意陳述。論文稱之為「主動構(gòu)思場景」，它有助于促進(jìn)基于對話的持續(xù)互動、對上下文敏感的對話以及多產(chǎn)的構(gòu)思生成。

在當(dāng)前的很多研究設(shè)計中，從書面信息到基于關(guān)鍵詞的在線資源檢索的轉(zhuǎn)變至關(guān)重要。這強(qiáng)調(diào)了文本在轉(zhuǎn)變思維模式和通過發(fā)展高級設(shè)計語言促進(jìn)系統(tǒng)化構(gòu)思方面的重要性。下表 1 總結(jié)了最常用的傳統(tǒng)構(gòu)思技術(shù)、其過程、局限性、涉及的認(rèn)知原則以及在產(chǎn)生創(chuàng)意方面的預(yù)期結(jié)果。

雖然這些傳統(tǒng)方法已被廣泛使用，但它們往往無法為新手設(shè)計師提供積極的支持。在產(chǎn)生新穎想法的過程中，原創(chuàng)性和多樣性主要依賴于設(shè)計者。這一空白標(biāo)志著將人工智能與構(gòu)思相結(jié)合的潛力。

這篇論文就深入探討了對話式人工智能（CAI）系統(tǒng)的設(shè)計、開發(fā)和潛在使用案例，重點是比較基于 CAI 的構(gòu)思工具與傳統(tǒng)方法的效率。

有兩個有趣的特點使 CAI 系統(tǒng)看起來很智能：(a) 能夠就給定主題生成智力上可接受的文章，(b) 能夠在先前交互的基礎(chǔ)上生成對后續(xù)詢問的回復(fù)。這使得交互成為關(guān)于特定主題的連貫對話。因此，如果特征（a）是對一個觀點的描述，那么特征（b）就可以被構(gòu)建為對該觀點的闡述和澄清。

如圖 3 所示，這項研究設(shè)計并開發(fā)了一個主動構(gòu)思界面，使用了生成式預(yù)訓(xùn)練 Transformer（GPT）對話式人工智能系統(tǒng)，該系統(tǒng)嵌入了一個交互式情緒板（moodboard）。GPT 為自然語言交互提供了基礎(chǔ)，使其能夠根據(jù)用戶輸入做出響應(yīng)并生成創(chuàng)意陳述，情緒板提供了一種快速記錄這些想法的手段。因此，該界面為設(shè)計師提供了一個對話式的直觀平臺，由 GPT 驅(qū)動創(chuàng)意生成。

由于本研究調(diào)查的是建議的基于 CAI 的構(gòu)思界面對新手設(shè)計師的潛在益處，因此招募了 30 名產(chǎn)品設(shè)計研究生（下圖），分為 A 和 B 兩組。

論文對這 30 名新手設(shè)計師進(jìn)行了試點研究，讓他們使用傳統(tǒng)方法和基于 CAI 的新界面，針對給定問題產(chǎn)生創(chuàng)意。然后，讓專家小組使用流暢性、新穎性和多樣性等關(guān)鍵參數(shù)對結(jié)果進(jìn)行了定性比較。

研究結(jié)果表明，本文所提出的 AI 工具在生成多產(chǎn)、多樣和新穎的想法方面非常有效。通過在每個構(gòu)思階段加入提示設(shè)計的結(jié)構(gòu)化對話風(fēng)格，使界面更加統(tǒng)一，更方便設(shè)計者使用。結(jié)果發(fā)現(xiàn)，這種結(jié)構(gòu)化 CAI 界面所產(chǎn)生的反應(yīng)更加簡潔，并與隨后的設(shè)計階段（即構(gòu)思階段）保持一致。

從圖 5（a）中可以看出，68% 的專家認(rèn)為 GPT 產(chǎn)生的想法更有意義。此外，圖 5 (b) 顯示，GPT 生成的語句的得票率始終高于設(shè)計者生成的想法。

下表是 A 和 B 兩組的想法陳述對比：

以下是不同維度下，人類與 GPT 構(gòu)思的評估結(jié)果對比：

更多研究細(xì)節(jié)，可查看原論文。

結(jié)語

創(chuàng)新，長久以來被視為人類不可被機(jī)器觸及的領(lǐng)地，然而，LLM 所展現(xiàn)的「幻覺」現(xiàn)象卻悄然打開了這扇門，揭示了創(chuàng)新機(jī)制可能并非我們想象中那般高不可攀。

近期在 AI 創(chuàng)造性研究領(lǐng)域的突破，預(yù)示著 AI 在創(chuàng)意之路上或?qū)⒂瓉砬八从械膹V闊天地。展望未來，或許在不遠(yuǎn)的將來，我們將見證 AI 科學(xué)家、AI 導(dǎo)演、AI 設(shè)計師們紛紛揮灑創(chuàng)意，它們的作品將點亮 AI 應(yīng)用的嶄新篇章。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型