智能體版《苦澀的教訓(xùn)》，圖靈獎(jiǎng)得主Sutton、谷歌RL大佬Silver新作：超人智能靠經(jīng)驗(yàn)

作者：機(jī)器之心 2025-04-17 09:10:00

人類(lèi)生成的數(shù)據(jù)推動(dòng)了人工智能的驚人進(jìn)步，但接下來(lái)會(huì)怎樣呢？

幾天前，Google DeepMind 強(qiáng)化學(xué)習(xí)副總裁 David Silver 參與了一場(chǎng)播客訪談節(jié)目，探討了如何從依賴(lài)人類(lèi)數(shù)據(jù)的時(shí)代邁向自主學(xué)習(xí)的時(shí)代。

與此同時(shí)，David Silver 和他的老師、2024 年圖靈獎(jiǎng)得主 Richard Sutton 合作撰寫(xiě)的論文《Welcome to the Era of Experience》稱(chēng)人們正站在人工智能新時(shí)代的門(mén)檻上，并有望達(dá)到前所未有的水平；同時(shí)展望了新一代智能體，認(rèn)為它們將主要通過(guò)經(jīng)驗(yàn)來(lái)學(xué)習(xí)，獲得超越人類(lèi)的能力。他們還探討了定義這個(gè)即將到來(lái)的新時(shí)代的關(guān)鍵特征。

未來(lái)，這篇論文將成為 MIT Press 出版的書(shū)籍《智能設(shè)計(jì)》（Designing an Intelligence）中的一個(gè)章節(jié)。

論文地址：https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

從模仿時(shí)代到人類(lèi)數(shù)據(jù)時(shí)代再到經(jīng)驗(yàn)時(shí)代，每個(gè)時(shí)代都有相對(duì)應(yīng)的 AI（或大模型）涌現(xiàn)，朝著超人智能不斷邁進(jìn)。

圖源：https://x.com/MaziyarPanahi/status/1912097667707973858

人類(lèi)數(shù)據(jù)時(shí)代

近年來(lái)，人工智能通過(guò)在海量人類(lèi)生成的數(shù)據(jù)上進(jìn)行訓(xùn)練，并通過(guò)專(zhuān)家人類(lèi)示例和偏好進(jìn)行微調(diào)，取得了顯著進(jìn)步。大型語(yǔ)言模型（LLM）就是這種方法的典范，它們已經(jīng)達(dá)到了廣泛的通用性水平。如今，單個(gè) LLM 可以執(zhí)行從寫(xiě)詩(shī)和解決物理問(wèn)題到診斷醫(yī)療問(wèn)題和總結(jié)法律文件的各種任務(wù)。

然而，雖然模仿人類(lèi)足以在很多方面復(fù)制人類(lèi)能力達(dá)到勝任的水平，但這種方法單獨(dú)使用無(wú)法在許多重要主題和任務(wù)上實(shí)現(xiàn)超人類(lèi)智能。在數(shù)學(xué)、編程和科學(xué)等關(guān)鍵領(lǐng)域，從人類(lèi)數(shù)據(jù)中提取的知識(shí)正迅速接近極限。高質(zhì)量數(shù)據(jù)源 —— 那些真正能夠提高強(qiáng)大智能體性能的數(shù)據(jù)源 —— 大多已經(jīng)或很快將被消耗殆盡。僅僅依靠從人類(lèi)數(shù)據(jù)中進(jìn)行監(jiān)督學(xué)習(xí)的進(jìn)步步伐明顯放緩，表明需要一種新的方法。此外，有價(jià)值的新見(jiàn)解，如新定理、技術(shù)或科學(xué)突破，都超出了當(dāng)前人類(lèi)理解的邊界，無(wú)法通過(guò)現(xiàn)有的人類(lèi)數(shù)據(jù)捕獲。

經(jīng)驗(yàn)時(shí)代

要取得進(jìn)一步的顯著進(jìn)步，需要一個(gè)新的數(shù)據(jù)來(lái)源。這種數(shù)據(jù)的生成方式必須隨著智能體變得更強(qiáng)而不斷改進(jìn)；任何靜態(tài)的合成數(shù)據(jù)生成程序都會(huì)很快被超越。這可以通過(guò)讓智能體從自己的經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)來(lái)實(shí)現(xiàn)，即由智能體與環(huán)境互動(dòng)產(chǎn)生的數(shù)據(jù)。AI 正處于新時(shí)期的邊緣，在這個(gè)時(shí)期，經(jīng)驗(yàn)將成為提升的主要媒介，并最終使當(dāng)今系統(tǒng)中使用的人類(lèi)數(shù)據(jù)規(guī)模相形見(jiàn)絀。

這種轉(zhuǎn)變可能已經(jīng)開(kāi)始，即使對(duì)于體現(xiàn)以人為中心的 AI 的大型語(yǔ)言模型也是如此。例如，數(shù)學(xué)能力就是一個(gè)例子。AlphaProof 最近成為第一個(gè)在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得獎(jiǎng)牌的程序，超越了以人為中心的方法的表現(xiàn)。AlphaProof 最初接觸了大約十萬(wàn)個(gè)由人類(lèi)數(shù)學(xué)家多年創(chuàng)建的形式化證明，隨后其強(qiáng)化學(xué)習(xí)算法通過(guò)與形式化證明系統(tǒng)的持續(xù)互動(dòng)又生成了一億個(gè)證明。這種專(zhuān)注于互動(dòng)經(jīng)驗(yàn)的方法使 AlphaProof 能夠探索超出現(xiàn)有形式化證明范圍的數(shù)學(xué)可能性，從而發(fā)現(xiàn)解決新穎且具挑戰(zhàn)性問(wèn)題的方法。非形式化數(shù)學(xué)也通過(guò)用自生成數(shù)據(jù)替代專(zhuān)家生成數(shù)據(jù)取得了成功；例如，DeepSeek 的最近工作「強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)的力量和美學(xué)：與其明確教導(dǎo)模型如何解決問(wèn)題，我們只需提供正確的激勵(lì)，它就會(huì)自主開(kāi)發(fā)高級(jí)問(wèn)題解決策略。」

我們認(rèn)為，一旦充分利用經(jīng)驗(yàn)學(xué)習(xí)的全部潛力，將會(huì)出現(xiàn)令人難以置信的新能力。這個(gè)經(jīng)驗(yàn)時(shí)代可能的特征是智能體和環(huán)境不僅從大量經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)，還將在以下幾個(gè)方面突破以人為中心的 AI 系統(tǒng)的局限：

智能體將生活在經(jīng)驗(yàn)流中，而不是短暫的互動(dòng)片段中。
它們的行動(dòng)和觀察將深深扎根于環(huán)境中，而不僅僅通過(guò)人類(lèi)對(duì)話進(jìn)行互動(dòng)。
它們的獎(jiǎng)勵(lì)將基于環(huán)境中的經(jīng)驗(yàn)，而不是來(lái)自人類(lèi)的預(yù)先判斷。
它們將根據(jù)經(jīng)驗(yàn)進(jìn)行規(guī)劃和/或推理，而不是僅僅以人類(lèi)的方式進(jìn)行推理。

我們相信，今天的技術(shù)，配合適當(dāng)選擇的算法，已經(jīng)提供了足夠強(qiáng)大的基礎(chǔ)來(lái)實(shí)現(xiàn)這些突破。此外，AI 社區(qū)對(duì)這一議程的追求將刺激這些方向上的新創(chuàng)新，迅速推動(dòng) AI 向真正超人類(lèi)智能體的方向發(fā)展。

經(jīng)驗(yàn)流

一個(gè)經(jīng)驗(yàn)型智能體可以在整個(gè)生命周期中持續(xù)學(xué)習(xí)。在人類(lèi)數(shù)據(jù)時(shí)代，基于語(yǔ)言的 AI 主要關(guān)注短時(shí)互動(dòng)情節(jié)：例如用戶提出問(wèn)題，然后（可能經(jīng)過(guò)幾個(gè)思考步驟或工具使用操作后）智能體作出回應(yīng)。通常情況下，從一個(gè)情節(jié)到下一個(gè)情節(jié)幾乎沒(méi)有信息傳遞，排除了隨時(shí)間適應(yīng)的可能性。此外，智能體的目標(biāo)完全在于當(dāng)前情節(jié)的結(jié)果，例如直接回答用戶的問(wèn)題。

相比之下，人類(lèi)（和其他動(dòng)物）存在于持續(xù)數(shù)年的行動(dòng)和觀察流中。信息貫穿整個(gè)流程，其行為根據(jù)過(guò)去的經(jīng)驗(yàn)調(diào)整以自我糾正和改進(jìn)。此外，目標(biāo)可能根據(jù)延伸到流程未來(lái)的行動(dòng)和觀察來(lái)指定：例如人類(lèi)可能選擇行動(dòng)來(lái)實(shí)現(xiàn)長(zhǎng)期目標(biāo)，如改善健康、學(xué)習(xí)語(yǔ)言或?qū)崿F(xiàn)科學(xué)突破。

強(qiáng)大的智能體應(yīng)該有自己的經(jīng)驗(yàn)流，像人類(lèi)一樣，在長(zhǎng)時(shí)間尺度上發(fā)展。這將使智能體能夠采取行動(dòng)實(shí)現(xiàn)未來(lái)目標(biāo)，并隨著時(shí)間的推移不斷適應(yīng)新的行為模式。例如，連接到用戶可穿戴設(shè)備的健康和健身智能體可以在幾個(gè)月內(nèi)監(jiān)測(cè)睡眠模式、活動(dòng)水平和飲食習(xí)慣。然后，這些智能體可以提供個(gè)性化建議、鼓勵(lì)，并根據(jù)長(zhǎng)期趨勢(shì)和用戶的具體健康目標(biāo)調(diào)整其指導(dǎo)。

類(lèi)似地，個(gè)性化教育智能體可以跟蹤用戶學(xué)習(xí)新語(yǔ)言的進(jìn)度，識(shí)別知識(shí)差距，適應(yīng)其學(xué)習(xí)風(fēng)格，并在數(shù)月甚至數(shù)年內(nèi)調(diào)整其教學(xué)方法。此外，科學(xué)智能體可以追求更宏大的目標(biāo)，例如發(fā)現(xiàn)新材料或減少二氧化碳。這樣的智能體可以在較長(zhǎng)時(shí)間內(nèi)分析現(xiàn)實(shí)世界的觀察結(jié)果，開(kāi)發(fā)和運(yùn)行模仿，并建議現(xiàn)實(shí)世界進(jìn)行實(shí)驗(yàn)或干預(yù)措施。

在每種情況下，智能體都會(huì)采取一系列步驟，以便針對(duì)特定目標(biāo)最大化長(zhǎng)期成功。單個(gè)步驟可能不會(huì)提供任何即時(shí)利益，甚至可能在短期內(nèi)產(chǎn)生不利影響，但總體上可能有助于長(zhǎng)期成功。這與當(dāng)前 AI 系統(tǒng)形成強(qiáng)烈對(duì)比，后者對(duì)請(qǐng)求提供即時(shí)響應(yīng)，而沒(méi)有能力測(cè)量或優(yōu)化其行動(dòng)對(duì)環(huán)境的未來(lái)后果。

行動(dòng)和觀察

經(jīng)驗(yàn)時(shí)代的智能體將在現(xiàn)實(shí)世界中自主行動(dòng)。人類(lèi)數(shù)據(jù)時(shí)代的 LLM 主要關(guān)注人類(lèi)特殊的行動(dòng)和觀察，向用戶輸出文本，并將用戶的文本輸入回智能體。這與自然智能有明顯不同，在自然智能中，動(dòng)物通過(guò)運(yùn)動(dòng)控制和感官與環(huán)境互動(dòng)。雖然動(dòng)物，尤其是人類(lèi)，可能與其他動(dòng)物交流，但這種交流通過(guò)與其他感官運(yùn)動(dòng)控制相同的接口進(jìn)行，而不是通過(guò)特殊通道。

長(zhǎng)期以來(lái)，人們認(rèn)識(shí)到 LLM 也可以在數(shù)字世界中調(diào)用行動(dòng)，例如通過(guò)調(diào)用 API。最初，這些能力很大程度上來(lái)自于人類(lèi)工具使用的例子，而不是來(lái)自智能體的經(jīng)驗(yàn)。然而，編程和工具使用能力越來(lái)越多地建立在執(zhí)行反饋上，智能體實(shí)際運(yùn)行代碼并觀察發(fā)生了什么。

最近，一波新型原型智能體開(kāi)始以更普遍的方式與計(jì)算機(jī)互動(dòng)，使用與人類(lèi)操作計(jì)算機(jī)相同的接口。這些變化預(yù)示著從專(zhuān)屬的人類(lèi)特殊通信，向更加自主的互動(dòng)轉(zhuǎn)變，使智能體能夠在世界上獨(dú)立行動(dòng)。這樣的智能體將能夠主動(dòng)探索世界，適應(yīng)不斷變化的環(huán)境，并發(fā)現(xiàn)人類(lèi)可能永遠(yuǎn)不會(huì)想到的策略。

這些更豐富的互動(dòng)將提供一種自主理解和控制數(shù)字世界的方式。智能體可能使用「人類(lèi)友好」的行動(dòng)和觀察，如用戶界面，自然促進(jìn)與用戶的溝通和協(xié)作。智能體還可能采取「機(jī)器友好」的行動(dòng)，執(zhí)行代碼并調(diào)用 API，使智能體能夠自主服務(wù)于其目標(biāo)。

在經(jīng)驗(yàn)時(shí)代，智能體還將通過(guò)數(shù)字接口與現(xiàn)實(shí)世界互動(dòng)。例如，科學(xué)智能體可以監(jiān)測(cè)環(huán)境傳感器，遠(yuǎn)程操作望遠(yuǎn)鏡，或控制實(shí)驗(yàn)室中的機(jī)械臂，自主進(jìn)行實(shí)驗(yàn)。

獎(jiǎng)勵(lì)

如果經(jīng)驗(yàn)智能體可以從外部事件和信號(hào)中學(xué)習(xí)，而不僅僅是人類(lèi)偏好，會(huì)怎樣？以人為中心的 LLM 通常根據(jù)人類(lèi)預(yù)先判斷優(yōu)化獎(jiǎng)勵(lì)：專(zhuān)家觀察智能體的行動(dòng)并決定它是否是一個(gè)好的行動(dòng)，或者在多個(gè)備選方案中選擇最佳智能體行動(dòng)。

這些獎(jiǎng)勵(lì)或偏好由人類(lèi)在不考慮其后果的情況下決定，而不是測(cè)量這些行動(dòng)對(duì)環(huán)境的影響，這意味著它們并不直接以現(xiàn)實(shí)世界為基礎(chǔ)。以這種方式依賴(lài)于人的預(yù)判通常會(huì)導(dǎo)致智能體的表現(xiàn)出現(xiàn)不可逾越的上限：智能體無(wú)法發(fā)現(xiàn)被人類(lèi)評(píng)價(jià)者低估的更好的策略。

為了發(fā)現(xiàn)遠(yuǎn)超現(xiàn)有人類(lèi)知識(shí)的新想法，必須使用基礎(chǔ)獎(jiǎng)勵(lì)，即來(lái)自環(huán)境本身的信號(hào)。例如，健康助手可以根據(jù)用戶的靜息心率、睡眠時(shí)間等信號(hào)組合，將用戶的健康目標(biāo)轉(zhuǎn)化為獎(jiǎng)勵(lì)。而教育助理可以使用考試成績(jī)?yōu)檎Z(yǔ)言學(xué)習(xí)提供基礎(chǔ)獎(jiǎng)勵(lì)。類(lèi)似地，以減少全球變暖為目標(biāo)的科學(xué)智能體可能使用基于二氧化碳水平的經(jīng)驗(yàn)觀察作為獎(jiǎng)勵(lì)，而發(fā)現(xiàn)更強(qiáng)材料的目標(biāo)可能基于材料模仿器的測(cè)量組合，如抗拉強(qiáng)度或楊氏模量。

基礎(chǔ)獎(jiǎng)勵(lì)可能來(lái)自作為智能體環(huán)境一部分的人類(lèi)。例如，人類(lèi)用戶可以報(bào)告他們是否發(fā)現(xiàn)蛋糕美味、鍛煉后的疲勞程度或頭痛的疼痛水平，使助手智能體能夠提供更好的食譜，完善其健身建議或改進(jìn)其推薦的藥物。這些獎(jiǎng)勵(lì)測(cè)量智能體行動(dòng)在其環(huán)境中的后果，最終應(yīng)該比預(yù)先判斷的提議更有效。

除了人類(lèi)數(shù)據(jù)，獎(jiǎng)勵(lì)還能從何而來(lái)？一旦智能體通過(guò)豐富的行動(dòng)和觀察空間連接到世界，將不缺乏提供獎(jiǎng)勵(lì)基礎(chǔ)的基礎(chǔ)信號(hào)。事實(shí)上，世界充滿了諸如成本、錯(cuò)誤率、饑餓、生產(chǎn)力、健康指標(biāo)、氣候指標(biāo)、利潤(rùn)、銷(xiāo)量、考試結(jié)果、成功與否、訪問(wèn)量、產(chǎn)量、股票、收入、愉悅 / 痛苦、經(jīng)濟(jì)指標(biāo)、準(zhǔn)確性、功率、距離、速度、效率或能源消耗等數(shù)量。此外，還有無(wú)數(shù)來(lái)自特定事件或從原始觀察和行動(dòng)序列派生的特征的額外信號(hào)。

原則上，可以創(chuàng)建各種不同的智能體，每個(gè)智能體都將一個(gè)基礎(chǔ)信號(hào)優(yōu)化為其獎(jiǎng)勵(lì)。有一種觀點(diǎn)認(rèn)為，即使是單一的獎(jiǎng)勵(lì)信號(hào)，如果得到高效優(yōu)化，也足以誘導(dǎo)廣泛的智能能力。這是因?yàn)樵趶?fù)雜環(huán)境中實(shí)現(xiàn)一個(gè)簡(jiǎn)單目標(biāo)可能經(jīng)常需要掌握各種各樣的技能。然而，追求單一獎(jiǎng)勵(lì)信號(hào)表面上并不符合通用 AI 的要求，即可靠地引導(dǎo)向用戶期望的任意行為。

那么，自主優(yōu)化基礎(chǔ)的、非人類(lèi)的獎(jiǎng)勵(lì)信號(hào)是否與現(xiàn)代 AI 系統(tǒng)的要求相矛盾？通過(guò)概述一種可能滿足這些需求的方法，我們認(rèn)為不一定如此；其他方法也可能存在。

這個(gè)想法是靈活地調(diào)整獎(jiǎng)勵(lì)，基于基礎(chǔ)信號(hào)，以用戶引導(dǎo)的方式。例如，獎(jiǎng)勵(lì)函數(shù)可以由神經(jīng)網(wǎng)絡(luò)定義，該網(wǎng)絡(luò)將智能體與用戶和環(huán)境的互動(dòng)作為輸入，并輸出標(biāo)量獎(jiǎng)勵(lì)。這允許獎(jiǎng)勵(lì)以依賴(lài)于用戶目標(biāo)的方式從環(huán)境中選擇或組合信號(hào)。例如，用戶可能指定一個(gè)廣泛的目標(biāo)，如「改善我的健康狀況」，而獎(jiǎng)勵(lì)函數(shù)可能返回用戶心率、睡眠時(shí)長(zhǎng)和步數(shù)的函數(shù)。或者用戶可能指定「幫助我學(xué)習(xí)西班牙語(yǔ)」的目標(biāo)，獎(jiǎng)勵(lì)函數(shù)可以返回用戶的西班牙語(yǔ)考試結(jié)果。

此外，用戶可以在學(xué)習(xí)過(guò)程中提供反饋，如他們的滿意度，這可以用來(lái)微調(diào)獎(jiǎng)勵(lì)函數(shù)。然后，獎(jiǎng)勵(lì)函數(shù)可以隨著時(shí)間的推移進(jìn)行調(diào)整，以改進(jìn)它選擇或組合信號(hào)的方式，并識(shí)別和糾正任何不一致。這也可以理解為一個(gè)雙層優(yōu)化過(guò)程，將用戶反饋?zhàn)鳛轫攲幽繕?biāo)進(jìn)行優(yōu)化，并在低層優(yōu)化來(lái)自環(huán)境的基礎(chǔ)信號(hào)。以這種方式，少量的人類(lèi)數(shù)據(jù)可能促進(jìn)大量的自主學(xué)習(xí)。

規(guī)劃和推理

經(jīng)驗(yàn)時(shí)代會(huì)改變智能體規(guī)劃和推理的方式嗎？最近，通過(guò)在輸出響應(yīng)之前遵循思維鏈，使用具備語(yǔ)言推理或「思考」的 LLM 取得了顯著進(jìn)展。在概念上，LLM 可以作為通用計(jì)算機(jī)：LLM 可以將 token 附加到自己的上下文中，允許它在輸出最終結(jié)果之前執(zhí)行任意算法。

在人類(lèi)數(shù)據(jù)時(shí)代，這些推理方法被明確設(shè)計(jì)為模仿人類(lèi)的思維過(guò)程。例如，LLM 被提示發(fā)出類(lèi)似人類(lèi)的思維鏈，模仿人類(lèi)思維的痕跡，或強(qiáng)化與人類(lèi)示例匹配的思考步驟。推理過(guò)程可能進(jìn)一步微調(diào)，以產(chǎn)生與正確答案相匹配的思考痕跡，由人類(lèi)專(zhuān)家確定。

然而，人類(lèi)語(yǔ)言不太可能提供通用計(jì)算機(jī)的最佳實(shí)例。肯定存在更有效的思維機(jī)制，使用非人類(lèi)語(yǔ)言，例如利用符號(hào)、分布式、連續(xù)或可微分計(jì)算。一個(gè)自學(xué)習(xí)系統(tǒng)原則上可以通過(guò)從經(jīng)驗(yàn)中學(xué)習(xí)如何思考來(lái)發(fā)現(xiàn)或改進(jìn)其方法。例如 AlphaProof 學(xué)會(huì)了以與人類(lèi)數(shù)學(xué)家完全不同的方式形式化證明復(fù)雜定理。

此外，通用計(jì)算機(jī)的原理只涉及智能體的內(nèi)部計(jì)算；它沒(méi)有將其連接到外部世界的現(xiàn)實(shí)。訓(xùn)練模仿人類(lèi)思想甚至匹配人類(lèi)專(zhuān)家答案的智能體可能會(huì)繼承深植于數(shù)據(jù)中的謬誤思維方法，如錯(cuò)誤假設(shè)或固有偏見(jiàn)。例如，如果智能體被訓(xùn)練使用 5000 年前的人類(lèi)思想和專(zhuān)家答案進(jìn)行推理，它可能會(huì)以「萬(wàn)物有靈論」的方式推理物理問(wèn)題；1000 年前可能以有神論的方式推理；300 年前可能以牛頓力學(xué)的方式推理；50 年前可能以量子力學(xué)的方式推理。

超越每種思維方法需要與現(xiàn)實(shí)世界互動(dòng)：提出假設(shè)，進(jìn)行實(shí)驗(yàn)，觀察結(jié)果，并據(jù)此更新原則。同樣，智能體必須基于現(xiàn)實(shí)世界數(shù)據(jù)，才能推翻謬誤的思維方法。這種基礎(chǔ)提供了一個(gè)反饋循環(huán)，允許智能體將其繼承的假設(shè)與現(xiàn)實(shí)對(duì)比，并發(fā)現(xiàn)不受當(dāng)前主導(dǎo)人類(lèi)思維模式限制的新原則。沒(méi)有這種基礎(chǔ)，無(wú)論多復(fù)雜，智能體都將成為現(xiàn)有人類(lèi)知識(shí)的「回聲室」。要超越這一點(diǎn)，智能體必須積極參與世界，收集觀察數(shù)據(jù)，并使用這些數(shù)據(jù)迭代地完善其理解，在許多方面反映了推動(dòng)人類(lèi)科學(xué)進(jìn)步的過(guò)程。

直接將思維植根于外部世界的一種可能方式是建立一個(gè)世界模型，預(yù)測(cè)智能體行動(dòng)對(duì)世界的后果，包括預(yù)測(cè)獎(jiǎng)勵(lì)。例如，健康助手可能考慮推薦當(dāng)?shù)亟∩矸炕蚪】挡タ汀Ｖ悄荏w世界模型可能預(yù)測(cè)用戶心率或睡眠模式在此行動(dòng)后如何變化，以及與用戶的未來(lái)對(duì)話。這使智能體能夠直接按照自己的行動(dòng)及其對(duì)世界的因果影響進(jìn)行規(guī)劃。隨著智能體在其經(jīng)驗(yàn)流中繼續(xù)與世界互動(dòng)，其動(dòng)態(tài)模型不斷更新，以糾正預(yù)測(cè)中的任何錯(cuò)誤。

給定一個(gè)世界模型，智能體可以應(yīng)用可擴(kuò)展的規(guī)劃方法，提高智能體的預(yù)測(cè)性能。規(guī)劃和推理方法并不相互排斥：智能體可以應(yīng)用內(nèi)部 LLM 計(jì)算來(lái)選擇規(guī)劃期間的每個(gè)行動(dòng)，或模仿和評(píng)估這些行動(dòng)的后果。

為什么是現(xiàn)在？

從經(jīng)驗(yàn)中學(xué)習(xí)并不新鮮。強(qiáng)化學(xué)習(xí)系統(tǒng)之前已經(jīng)掌握了大量復(fù)雜任務(wù)，這些任務(wù)在模仿器中表示，具有明確的獎(jiǎng)勵(lì)信號(hào)（大致對(duì)應(yīng)圖 1 中的「模仿時(shí)代」）。例如，RL 方法通過(guò)自我對(duì)弈在棋盤(pán)游戲中達(dá)到或超過(guò)了人類(lèi)表現(xiàn)，如西洋雙陸棋、圍棋、國(guó)際象棋、撲克和策略游戲；視頻游戲如雅達(dá)利系列游戲、星際爭(zhēng)霸 II、刀塔 2 和 GT 賽車(chē)；靈巧操作任務(wù)如魔方；以及資源管理任務(wù)如數(shù)據(jù)中心冷卻。

此外，像 AlphaZero 這樣強(qiáng)大的 RL 智能體表現(xiàn)出令人印象深刻的潛在無(wú)限可擴(kuò)展性，隨著神經(jīng)網(wǎng)絡(luò)的大小、互動(dòng)經(jīng)驗(yàn)的數(shù)量和思考時(shí)間的增加而擴(kuò)展。然而，基于這一范式的智能體并沒(méi)有跨越從模仿（具有單一、精確定義獎(jiǎng)勵(lì)的封閉問(wèn)題）到現(xiàn)實(shí)（具有多種看似定義不明確的獎(jiǎng)勵(lì)的開(kāi)放性問(wèn)題）的鴻溝。

圖 1：主流人工智能范式的簡(jiǎn)要時(shí)間線。縱軸顯示該領(lǐng)域在強(qiáng)化學(xué)習(xí)（RL）上的總體努力和計(jì)算資源的占比。

人類(lèi)數(shù)據(jù)時(shí)代提供了一個(gè)吸引人的解決方案。海量的人類(lèi)數(shù)據(jù)語(yǔ)料庫(kù)包含了大量任務(wù)的自然語(yǔ)言示例。與模擬時(shí)代相對(duì)有限的成功相比，基于這些數(shù)據(jù)訓(xùn)練的智能體實(shí)現(xiàn)了廣泛的技能。因此，經(jīng)驗(yàn)式強(qiáng)化學(xué)習(xí)的方法論被廣泛摒棄，轉(zhuǎn)而支持更具通用性的智能體，從而推動(dòng)了人工智能向以人類(lèi)為中心的方向廣泛轉(zhuǎn)變。

然而，在這一轉(zhuǎn)變中失去了一些東西：智能體自我發(fā)現(xiàn)知識(shí)的能力。例如，AlphaZero 發(fā)現(xiàn)了國(guó)際象棋和圍棋的根本性新策略，改變了人類(lèi)玩這些游戲的方式。經(jīng)驗(yàn)時(shí)代將把這種能力與人類(lèi)數(shù)據(jù)時(shí)代所實(shí)現(xiàn)的任務(wù)通用性水平結(jié)合起來(lái)。正如上面所概述的，當(dāng)智能體能夠在現(xiàn)實(shí)世界經(jīng)驗(yàn)流中自主行動(dòng)和觀察，并且獎(jiǎng)勵(lì)可以靈活地連接到任何基礎(chǔ)的現(xiàn)實(shí)世界信號(hào)時(shí)，這將成為可能。

與復(fù)雜現(xiàn)實(shí)世界行動(dòng)空間互動(dòng)的自主智能體的出現(xiàn)，加上能夠在豐富推理空間中解決開(kāi)放性問(wèn)題的強(qiáng)大 RL 方法，表明向經(jīng)驗(yàn)時(shí)代的轉(zhuǎn)變即將來(lái)臨。

強(qiáng)化學(xué)習(xí)方法

強(qiáng)化學(xué)習(xí)有著悠久的歷史，深深植根于自主學(xué)習(xí)，其中智能體通過(guò)與環(huán)境的直接交互進(jìn)行自我學(xué)習(xí)。早期的強(qiáng)化學(xué)習(xí)研究催生了一系列強(qiáng)大的概念和算法。例如，時(shí)序差分學(xué)習(xí)使智能體能夠預(yù)估未來(lái)的獎(jiǎng)勵(lì)，并取得了一些突破，例如在西洋雙陸棋比賽中取得了超越人類(lèi)的表現(xiàn)。由樂(lè)觀或好奇心驅(qū)動(dòng)的探索技術(shù)被開(kāi)發(fā)出來(lái)，幫助智能體發(fā)現(xiàn)創(chuàng)造性的新行為，并避免陷入次優(yōu)的做法。比如，像 Dyna 算法這樣的方法使智能體能夠構(gòu)建和學(xué)習(xí)其所處世界的模型，從而使它們能夠規(guī)劃和推理未來(lái)的行動(dòng)。再比如選項(xiàng)和選項(xiàng)內(nèi) / 選項(xiàng)間學(xué)習(xí)之類(lèi)的概念促進(jìn)了時(shí)間抽象，使智能體能夠在更長(zhǎng)的時(shí)間尺度上進(jìn)行推理，并將復(fù)雜的任務(wù)分解為可管理的子目標(biāo)。

然而，以人為中心的 LLM 的興起將重點(diǎn)從自主學(xué)習(xí)轉(zhuǎn)移到利用人類(lèi)知識(shí)。比如 RLHF（基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）之類(lèi)的技術(shù)以及將語(yǔ)言模型與人類(lèi)推理能力相結(jié)合的方法，已被證明極其有效，推動(dòng)了人工智能能力的快速發(fā)展。這些方法雖然功能強(qiáng)大，但往往繞過(guò)了強(qiáng)化學(xué)習(xí)的核心概念：RLHF 通過(guò)調(diào)用人類(lèi)專(zhuān)家代替機(jī)器估值來(lái)回避對(duì)價(jià)值函數(shù)的需求；來(lái)自人類(lèi)數(shù)據(jù)的強(qiáng)先驗(yàn)知識(shí)減少了對(duì)探索的依賴(lài)；以人為中心的推理減少了對(duì)世界模型和時(shí)間抽象的需求。

有人可能會(huì)認(rèn)為，這種范式轉(zhuǎn)變?nèi)缤赴押⒆雍拖丛杷黄鸬沟簟埂Ｒ匀藶橹行牡膹?qiáng)化學(xué)習(xí)雖然實(shí)現(xiàn)了前所未有的行為廣度，但也給智能體的性能設(shè)定了新的上限：智能體無(wú)法超越現(xiàn)有的人類(lèi)知識(shí)。此外，人類(lèi)數(shù)據(jù)時(shí)代主要關(guān)注的是那些為短時(shí)間、無(wú)根基的人機(jī)交互而設(shè)計(jì)的強(qiáng)化學(xué)習(xí)方法，而這些方法并不適用于長(zhǎng)時(shí)間、有根基的自主交互。

經(jīng)驗(yàn)時(shí)代為重新審視和改進(jìn)經(jīng)典強(qiáng)化學(xué)習(xí)概念提供了機(jī)會(huì)。經(jīng)驗(yàn)時(shí)代將帶來(lái)新的思考獎(jiǎng)勵(lì)函數(shù)的方式，這些獎(jiǎng)勵(lì)函數(shù)可以靈活地以觀察數(shù)據(jù)為基礎(chǔ)。經(jīng)驗(yàn)時(shí)代還將重新審視價(jià)值函數(shù)以及從序列尚未完成的長(zhǎng)流中估計(jì)它們的方法。同時(shí)將帶來(lái)原則性且實(shí)用的現(xiàn)實(shí)世界探索方法，從而發(fā)現(xiàn)與人類(lèi)先驗(yàn)截然不同的新行為。

新的世界模型方法將被開(kāi)發(fā)出來(lái)，以捕捉有根基交互的復(fù)雜性。新的時(shí)間抽象方法將使智能體能夠基于，在更長(zhǎng)的時(shí)間尺度內(nèi)進(jìn)行推理。通過(guò)構(gòu)建強(qiáng)化學(xué)習(xí)的基礎(chǔ)，并使其核心原則適應(yīng)新時(shí)代的挑戰(zhàn)，我們能夠充分釋放自主學(xué)習(xí)的潛力，為真正的超人（superhuman）智能鋪平道路。

后果

經(jīng)驗(yàn)時(shí)代的到來(lái)，AI 智能體從與世界的互動(dòng)中學(xué)習(xí)，預(yù)示著未來(lái)將與我們之前所見(jiàn)的一切大相徑庭。這一新范式雖然提供了巨大的潛力，但也提出了需要仔細(xì)考慮的重要風(fēng)險(xiǎn)和挑戰(zhàn)，包括但不限于以下幾點(diǎn)。

從積極的一面來(lái)看，實(shí)驗(yàn)式學(xué)習(xí)將釋放前所未有的能力。在日常生活中，個(gè)性化助手將利用連續(xù)的經(jīng)驗(yàn)流來(lái)適應(yīng)個(gè)人在健康、教育或?qū)I(yè)需求方面的長(zhǎng)期目標(biāo)，跨越數(shù)月或數(shù)年。也許最具變革性的將是科學(xué)發(fā)現(xiàn)的加速。AI 智能體將在材料科學(xué)、醫(yī)學(xué)或硬件設(shè)計(jì)等領(lǐng)域自主設(shè)計(jì)和進(jìn)行實(shí)驗(yàn)。通過(guò)不斷從自己的實(shí)驗(yàn)結(jié)果中學(xué)習(xí)，這些智能體可以以前所未有的速度快速探索知識(shí)的新前沿，開(kāi)發(fā)出新材料、藥物和技術(shù)。

然而，這個(gè)新時(shí)代也帶來(lái)了新的重大挑戰(zhàn)。雖然人類(lèi)能力的自動(dòng)化有望提高生產(chǎn)力，但這些改進(jìn)也可能導(dǎo)致工作崗位的流失。智能體甚至可能展現(xiàn)出以前被認(rèn)為是人類(lèi)專(zhuān)屬領(lǐng)域的能力，如長(zhǎng)期問(wèn)題解決、創(chuàng)新和對(duì)現(xiàn)實(shí)世界后果的深入理解。

此外，盡管對(duì)任何人工智能的潛在濫用都存在普遍擔(dān)憂，但能夠在長(zhǎng)時(shí)間內(nèi)自主與世界互動(dòng)以實(shí)現(xiàn)長(zhǎng)期目標(biāo)的智能體可能會(huì)帶來(lái)更大的風(fēng)險(xiǎn)。默認(rèn)情況下，這為人類(lèi)提供了較少的介入和調(diào)解智能體的機(jī)會(huì)，因此需要更高的信任和責(zé)任標(biāo)準(zhǔn)。遠(yuǎn)離人類(lèi)數(shù)據(jù)和人類(lèi)思維模式也可能使未來(lái)的 AI 系統(tǒng)更難解讀。

然而，雖然認(rèn)識(shí)到經(jīng)驗(yàn)學(xué)習(xí)將增加某些安全風(fēng)險(xiǎn)，肯定需要進(jìn)一步研究以確保安全過(guò)渡到經(jīng)驗(yàn)時(shí)代，我們也應(yīng)該認(rèn)識(shí)到它可能帶來(lái)一些重要的安全益處。

首先，智能體感知到其所處的環(huán)境，其行為可以隨著時(shí)間的推移適應(yīng)環(huán)境的變化。任何預(yù)編程系統(tǒng)，包括固定的 AI 系統(tǒng)，可能不了解其環(huán)境背景，并且無(wú)法適應(yīng)其部署的不斷變化的世界。例如，關(guān)鍵硬件可能發(fā)生故障，大流行病可能會(huì)導(dǎo)致社會(huì)迅速變革，或新的科學(xué)發(fā)現(xiàn)可能觸發(fā)一系列快速的技術(shù)發(fā)展。相比之下，智能體可以觀察并學(xué)習(xí)規(guī)避故障硬件，適應(yīng)快速的社會(huì)變化，或接受并建立在新的科學(xué)和技術(shù)上。也許更重要的是，智能體可以識(shí)別其行為何時(shí)引發(fā)人類(lèi)關(guān)注、不滿或痛苦，并適應(yīng)性地修改其行為以避免這些負(fù)面后果。

其次，智能體的獎(jiǎng)勵(lì)函數(shù)本身可以通過(guò)經(jīng)驗(yàn)進(jìn)行調(diào)整，例如使用前面描述的雙層優(yōu)化（見(jiàn)獎(jiǎng)勵(lì)）。重要的是，這意味著當(dāng)獎(jiǎng)勵(lì)函數(shù)出現(xiàn)價(jià)值偏差時(shí)，通常可以通過(guò)試錯(cuò)逐漸糾正。例如，與其盲目地優(yōu)化一個(gè)信號(hào)（如回形針的最大化生產(chǎn)），不如根據(jù)人類(lèi)擔(dān)憂的跡象修改獎(jiǎng)勵(lì)函數(shù)，以免回形針生產(chǎn)消耗地球上所有資源。這類(lèi)似于人類(lèi)為彼此設(shè)定目標(biāo)的方式，然后如果他們觀察到人們利用系統(tǒng)、忽視長(zhǎng)期福祉或?qū)е虏幌Ｍ呢?fù)面后果，就調(diào)整這些目標(biāo)；當(dāng)然，正如人類(lèi)自身的目標(biāo)設(shè)定過(guò)程，這種調(diào)節(jié)機(jī)制也無(wú)法確保絕對(duì)的價(jià)值對(duì)齊。

最后，依賴(lài)物理經(jīng)驗(yàn)的進(jìn)步，本質(zhì)上受到在現(xiàn)實(shí)世界中執(zhí)行行動(dòng)并觀察其后果所需的時(shí)間的限制。例如，開(kāi)發(fā)一種新藥，即使有 AI 輔助設(shè)計(jì)，仍然需要在現(xiàn)實(shí)世界中試驗(yàn)，而這些試驗(yàn)不可能在一夜之間完成。這可能為潛在的 AI 自我改進(jìn)速度產(chǎn)生一個(gè)自然的抑制作用。

結(jié)論

經(jīng)驗(yàn)時(shí)代標(biāo)志著人工智能發(fā)展的一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn)。在現(xiàn)有的堅(jiān)實(shí)基礎(chǔ)上，智能體將超越人類(lèi)生成數(shù)據(jù)的局限性，越來(lái)越多地從與世界的互動(dòng)中學(xué)習(xí)。智能體將通過(guò)豐富的觀察和行動(dòng)自主與環(huán)境交互，并在終身經(jīng)驗(yàn)流中持續(xù)適應(yīng)。它們的目標(biāo)可以被引導(dǎo)至任何基于環(huán)境信號(hào)的組合。此外，智能體將利用強(qiáng)大的非人類(lèi)推理能力，并制定基于其行為對(duì)環(huán)境影響的計(jì)劃。最終，經(jīng)驗(yàn)數(shù)據(jù)將在規(guī)模和質(zhì)量上超越人類(lèi)生成的數(shù)據(jù)。這種范式轉(zhuǎn)變，伴隨著強(qiáng)化學(xué)習(xí)算法的進(jìn)步，將在許多領(lǐng)域釋放出超越人類(lèi)能力的新能力。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

人工智能智能體數(shù)據(jù)