DeepMind哈薩比斯：智能體可以在Genie實(shí)時(shí)生成的世界里運(yùn)行

2025-08-13 18:32:31

人工智能新聞

世界模型已經(jīng)開始用于訓(xùn)練AI，想一下，一個(gè)AI在另一個(gè)AI的“大腦”里玩游戲，這真的很瘋狂。

諾貝爾化學(xué)獎(jiǎng)得主、DeepMind創(chuàng)始人哈薩比斯最新訪談來了。

他分享了Genie 3的驚艷表現(xiàn)——智能體可以在Genie實(shí)時(shí)生成的世界里運(yùn)行。

我們的目標(biāo)是打造一個(gè)世界模型，一個(gè)真正理解世界物理規(guī)律的模型。

這也正是Genie 3的方向——不僅能生成虛擬世界，還能讓這些世界真實(shí)運(yùn)轉(zhuǎn)起來。

值得一提的是，此次訪談主持人為谷歌AI Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick，同時(shí)也是DeepMind團(tuán)隊(duì)成員。

除此之外，他還聊了DeepMind發(fā)展速度，聊了評測基準(zhǔn)，還聊了AGI。

對于AI的發(fā)展速度，哈薩比斯談到DeepMind幾乎每天都在推出新東西，速度之快甚至讓內(nèi)部人員也難以跟上。

他還表示，AGI的關(guān)鍵是讓模型具備思考、規(guī)劃和推理能力，以并行分析和不斷優(yōu)化應(yīng)對數(shù)學(xué)、編程、科學(xué)等復(fù)雜任務(wù)。

但是這些模型參差不齊，在部分任務(wù)上能力很強(qiáng)，但在一些簡單問題上又會(huì)犯低級錯(cuò)誤。

看完訪談，有的網(wǎng)友為哈薩比斯歡呼：

有的網(wǎng)友關(guān)注點(diǎn)則跑偏了：

話不多說，量子位為大家翻譯整理了這次訪談，祝各位閱讀愉快～

模型迫切需要新的、更難且更廣泛的評測基準(zhǔn)。
判斷一個(gè)工具是否應(yīng)整合進(jìn)主模型，關(guān)鍵在于它是否能夠提升模型的整體能力。
模型表現(xiàn)參差不齊，主要原因是在推理、規(guī)劃和記憶等關(guān)鍵能力方面仍存在不足。
AGI需自主轉(zhuǎn)化人類意圖為動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù)，解決多目標(biāo)優(yōu)化難題。……

產(chǎn)品迭代速度、更優(yōu)評測體系與世界模型發(fā)展

DeepMind發(fā)展勢頭

Kilpatrick：我感覺我們發(fā)布了很多成果——DeepThink、IMO金牌、Genie 3——而且反響非常熱烈，我想了解一下你對這種進(jìn)展和勢頭的整體感受。

哈薩比斯：看到這些進(jìn)展真的非常令人振奮。過去幾年里，我們一直在逐步加快發(fā)布和進(jìn)步的速度，我覺得現(xiàn)在你們看到的正是這些努力的成果。

這是整個(gè)行業(yè)非常激動(dòng)人心的時(shí)刻。我可以說，幾乎每天都有新東西發(fā)布。連我們內(nèi)部都很難跟上步伐，整個(gè)領(lǐng)域也是如此。

所以這一切非常令人興奮，我也為我們最近推出的一些成果感到非常自豪和滿意。

DeepThink與智能體系統(tǒng)

Kilpatrick：關(guān)于DeepThink，你怎么看？顯然讓我最興奮的一點(diǎn)是，IMO金牌模型的一個(gè)版本已經(jīng)向Gemini應(yīng)用的訂閱用戶開放了。

人們真的可以親自使用這個(gè)模型，這在過去我們談?wù)揋emini相關(guān)內(nèi)容時(shí)是很少見的。我覺得把技術(shù)研發(fā)出來，再真正交到用戶手中，這種結(jié)合非常美妙。那么，從DeepThink的角度來看，你是怎么考慮這個(gè)問題的？

哈薩比斯：我覺得DeepThink的出現(xiàn)，讓人有點(diǎn)回想起我們最初在AlphaGo和AlphaZero等游戲項(xiàng)目上的工作。

實(shí)際上，從DeepMind成立之初，我們的工作歷來都是基于智能體系統(tǒng)的。這里說的智能體系統(tǒng)，就是指能夠完成整個(gè)任務(wù)的系統(tǒng)。

早期我們主要關(guān)注的是在游戲中表現(xiàn)出色的智能體，因?yàn)橛螒蛴忻鞔_的目標(biāo)。現(xiàn)在是多模態(tài)模型，非常強(qiáng)大，能夠理解語言和我們周圍的一切，而當(dāng)年，我們主要是游戲模型。

然后，你需要在此基礎(chǔ)上加入思考、規(guī)劃和推理的能力，這顯然是實(shí)現(xiàn)AGI的關(guān)鍵步驟。一旦具備了思考能力，就能進(jìn)行深度甚至極深度的思考，并實(shí)現(xiàn)并行規(guī)劃——同時(shí)進(jìn)行多條思路的分析，再選出最優(yōu)方案做出決策，隨后推進(jìn)到下一步。

雖然這里仍需大量創(chuàng)新，但看到思考能力的快速進(jìn)展令人振奮。尤其是在數(shù)學(xué)、編程、科學(xué)問題以及游戲等領(lǐng)域，必須進(jìn)行有效的處理和規(guī)劃，而不僅僅是輸出模型最初想到的結(jié)果，因?yàn)槟莻€(gè)答案往往不足夠好。你需要反復(fù)完善自己的思路，這正是思考系統(tǒng)的核心所在。

參差不齊的AI

Kilpatrick：我之前沒看過思維游戲，大概是一周半前才看。當(dāng)時(shí)我一邊看一邊記筆記，感覺DeepMind團(tuán)隊(duì)在這方面確實(shí)領(lǐng)先很多，而且有很多有趣的相似點(diǎn)，比如你們之前嘗試用強(qiáng)化學(xué)習(xí)去解決問題，跟現(xiàn)在很像。

AlphaFold的數(shù)據(jù)瓶頸就是個(gè)很好的例子，這和我們今天在某些特定領(lǐng)域任務(wù)（比如編碼，或者科學(xué)領(lǐng)域之外的任務(wù)）上遇到的人類專家數(shù)據(jù)問題非常相似。你覺得這種感覺是否“似曾相識”？

哈薩比斯：是的，我覺得我們一直都走在正確的道路上，這一點(diǎn)現(xiàn)在已經(jīng)比較清楚了。

我們是最早認(rèn)真使用強(qiáng)化學(xué)習(xí)的人之一。實(shí)際上，這也是我們在2010年做出的最早幾個(gè)重要賭注之一，和深度學(xué)習(xí)同時(shí)期的。

當(dāng)然，還有我們的Atari工作，那是我們的第一個(gè)標(biāo)志性成果——第一個(gè)真正的深度強(qiáng)化學(xué)習(xí)系統(tǒng)，能夠僅憑屏幕上的像素玩70年代的Atari游戲，而且表現(xiàn)超過任何人類玩家。

更重要的是，這個(gè)系統(tǒng)開箱即用，具備一定的泛化能力。這其實(shí)向整個(gè)領(lǐng)域證明了，這些新技術(shù)確實(shí)可以被放大應(yīng)用，并且能真正產(chǎn)生用處。

至于思考，如果你像我一樣從小就下棋，你會(huì)發(fā)現(xiàn)，你腦子里一直在想的就是如何提升自己的思維過程，你的思維到底是怎么工作的？這當(dāng)然也促使我思考神經(jīng)科學(xué)——大腦是怎么運(yùn)作的，然后把人工智能當(dāng)成一個(gè)神奇的工具，嘗試把思維提煉成一個(gè)數(shù)字化的產(chǎn)物。

我們現(xiàn)有的系統(tǒng)在某些方面表現(xiàn)非常出色，但在其他一些相對簡單的事情上仍然存在不少缺陷。它們確實(shí)令人印象深刻，比如能夠在國際數(shù)學(xué)奧林匹克（IMO）中獲得金牌——如果你從自然語言描述的角度去想，這真是難以置信。

順便說一下，這其實(shí)只是搭載了DeepThink 和一些額外思考能力的Gemini模型，它們并不是專門針對這些測試設(shè)計(jì)的，但表現(xiàn)卻非常非常出色。

另一方面，如果問題以某種特定的方式提出，它們?nèi)匀粫?huì)在高中數(shù)學(xué)、簡單邏輯題或者簡單游戲中犯一些低級錯(cuò)誤。所以這說明它們?nèi)匀蝗鄙倌承〇|西。可以說，這些模型的智能表現(xiàn)參差不齊——在某些方面它們非常強(qiáng)，而在其他方面，它們的弱點(diǎn)卻很容易被暴露出來。

Genie 3與世界模型

Kilpatrick：我們能不能先深入聊聊Genie 3？我覺得這里有個(gè)有趣的切入點(diǎn)，就是模型在玩游戲方面其實(shí)并不算特別出色，但我看到很多人對Genie 3的反應(yīng)簡直是震驚和敬畏，有些評論甚至非常極端，覺得“我們生活在模擬世界里”，覺得這證明了任何事情都是可能的，因?yàn)镚enie的演示實(shí)在太精彩了。那么這是怎么做到的呢？

這顯然也和用游戲來解決強(qiáng)化學(xué)習(xí)（RL）的問題有關(guān)。如果回頭看、再結(jié)合現(xiàn)在對Genie 3的感受，你覺得它的發(fā)展結(jié)果是否符合你的預(yù)期？我個(gè)人覺得，單純讓模型擅長玩游戲，并不一定會(huì)直接帶來我們今天所看到的“世界模型”這些成果，這點(diǎn)對我來說并不那么顯而易見。

哈薩比斯：關(guān)于Genie，實(shí)際上它融合了多條研究路徑和各種想法。我們一直把棋類游戲作為一個(gè)具有挑戰(zhàn)性的領(lǐng)域，用來推動(dòng)AI算法的改進(jìn)。

同時(shí)，我們也大量使用電腦游戲，不僅作為挑戰(zhàn)環(huán)境，還用來生成合成數(shù)據(jù)。事實(shí)上，我們過去一直在用，也仍然在使用大量非常逼真的模擬環(huán)境，尤其是基于3D游戲引擎構(gòu)建的傳統(tǒng)模擬環(huán)境，用來為系統(tǒng)提供更多訓(xùn)練數(shù)據(jù)，幫助它們更好地理解物理世界。

我們之所以這么做，是因?yàn)槲覀兿?/span>構(gòu)建所謂的“世界模型”，也就是能夠真正理解物理世界的模型。這個(gè)模型需要理解物理結(jié)構(gòu)、事物的運(yùn)行方式、各種材料和液體，甚至是活體生物的行為，比如動(dòng)物和人類的行為——這些顯然都是我們世界中至關(guān)重要的部分。

我們不僅生活在語言和數(shù)學(xué)的世界里，還有一個(gè)真實(shí)存在的物理世界。因此，如果想要實(shí)現(xiàn)AGI，它必須理解物理世界，才能在其中進(jìn)行操作。

實(shí)際上，機(jī)器人發(fā)展的瓶頸就在于缺乏世界模型。還有像我們的Gemini Live項(xiàng)目Astra，致力于打造一個(gè)通用助手，能夠在你的手機(jī)或眼鏡上幫助你處理日常生活中的各種事務(wù)。顯然，這樣的助手也需要理解你所處的時(shí)空環(huán)境。

所以，想要真正理解世界及其運(yùn)行方式，就必須有一個(gè)世界模型。而證明你擁有良好世界模型的方法之一，就是能夠生成這個(gè)世界。

測試世界模型有效性和深度的方法有很多，其中一個(gè)很好的方式就是讓它反向生成關(guān)于世界的內(nèi)容。比如你打開水龍頭，會(huì)有液體流出；或者面前有一面鏡子，你能看到自己的倒影。所有這些細(xì)節(jié)。

Genie正是朝著這個(gè)方向努力，構(gòu)建世界模型，然后通過它來表達(dá)，并且真正能夠生成一個(gè)自洽的世界。

Genie的未來應(yīng)用

Kilpatrick：你覺得大家會(huì)如何使用Genie？它的初衷是用來幫助提升 Gemini 以及我們其他機(jī)器人項(xiàng)目的效果并實(shí)現(xiàn)規(guī)模化，還是說人們也會(huì)直接拿它來玩？你覺得它還有什么其他潛在的用途嗎？

哈薩比斯：Genie在多個(gè)方面都非常令人興奮，其中之一就是我們已經(jīng)開始將它用于自身的訓(xùn)練。

我們有一個(gè)叫Sima的游戲代理，它能開箱即用地接管操作，玩現(xiàn)有的電腦游戲。雖然有時(shí)候表現(xiàn)不錯(cuò)，但有時(shí)候也不盡如人意。

不過有趣的是，你可以把這個(gè)Sima智能體放進(jìn)Genie 3里，基本上就是一個(gè)AI在另一個(gè)AI的“大腦”里玩游戲。想想都挺瘋狂的。Sima會(huì)決定采取什么行動(dòng)，你可以給它設(shè)定目標(biāo)，比如“去房間里找到鑰匙”，它就會(huì)像玩普通電腦游戲一樣發(fā)出指令去完成任務(wù)。

實(shí)際上，另一端是Genie 3實(shí)時(shí)生成世界。也就是說，有一個(gè)AI在生成世界，另一個(gè)AI則在這個(gè)世界里運(yùn)行。這對于創(chuàng)造無限的訓(xùn)練數(shù)據(jù)非常有用，我能想象這對機(jī)器人技術(shù)以及我們通用人工智能系統(tǒng)的訓(xùn)練都會(huì)大有幫助。

當(dāng)然，它在應(yīng)用層面也有巨大的潛力，特別是在未來的互動(dòng)娛樂領(lǐng)域。我有很多想法，你一定不會(huì)驚訝于下一代令人難以置信的游戲會(huì)是什么樣子，甚至可能出現(xiàn)我們以前從未想過的新型娛樂形式，介于電影和游戲之間，開創(chuàng)一種全新的娛樂類別。

當(dāng)你深夜工作，生成這些完整的世界，思考這項(xiàng)技術(shù)是如何運(yùn)作的時(shí)候，你也不得不去思考現(xiàn)實(shí)世界到底是怎樣的？我在整個(gè)職業(yè)生涯中一直在思考這個(gè)問題：現(xiàn)實(shí)的本質(zhì)是什么？

實(shí)際上，正是這個(gè)問題驅(qū)使我一直致力于把人工智能打造成為科學(xué)研究的強(qiáng)大工具。我認(rèn)為，像Video 3、AI Studio以及Genie 3，如果用不同的視角去看，真的能告訴我們一些關(guān)于現(xiàn)實(shí)本質(zhì)的重要信息。

對更好評測基準(zhǔn)的需求與Kaggle Game Arena

Kilpatrick：一方面，我們有這樣一個(gè)令人震撼的系統(tǒng)，可以生成完整的世界；但另一方面，你拿出Gemini讓它下棋，它棋藝很差。雖然知道規(guī)則，但其實(shí)下得不好。我覺得我們的模型在下棋方面也差不多有這種情況，有時(shí)候甚至連規(guī)則都沒法完全遵守。

因此，我們還宣布了與Kaggle的合作，推出了Game Arena，讓模型們有一個(gè)可以去玩各種游戲、測試能力的平臺。我很想聽聽你對這件事的看法。

哈薩比斯：這確實(shí)很有意思。這其實(shí)反映了一個(gè)更廣泛的情況：我們的系統(tǒng)，包括Gemini，以及競爭對手的系統(tǒng)，都在不斷進(jìn)步。

我們的系統(tǒng)能夠做很多令人驚嘆的事情，比如根據(jù)文本提示生成模擬世界，理解視頻內(nèi)容，解決數(shù)學(xué)問題，處理科學(xué)相關(guān)任務(wù)等等。但我想我們直覺上都能感覺到，當(dāng)我們和這些聊天機(jī)器人互動(dòng)時(shí)，很容易發(fā)現(xiàn)它們能力的邊界。

在我看來，系統(tǒng)尚未成為真正AGI的一個(gè)重要原因，就是它們?nèi)狈σ恢滦?/span>。

比如以前系統(tǒng)會(huì)數(shù)錯(cuò)草莓的數(shù)量，這個(gè)問題我們現(xiàn)在基本解決了，但仍有一些非常簡單的事情，比如小學(xué)生能輕松做的題目，這些系統(tǒng)卻做不到。那么為什么會(huì)這樣呢？

這是一個(gè)很好的問題，很可能是在推理、規(guī)劃和記憶方面還缺少某些關(guān)鍵能力，除了簡單地?cái)U(kuò)大規(guī)模，我們或許還需要在這些領(lǐng)域?qū)崿F(xiàn)一兩項(xiàng)新的突破。但這也可能是因?yàn)槲覀冃枰晟啤⒏行У脑u測基準(zhǔn)來更準(zhǔn)確地評估系統(tǒng)的能力。

這些系統(tǒng)的優(yōu)勢和不足是什么呢？它們非常通用，包括Gemini在內(nèi)，但我們使用的許多評測基準(zhǔn)已經(jīng)逐漸達(dá)到飽和。比如一些標(biāo)準(zhǔn)的數(shù)學(xué)評測，如MATH測試，DeepThink最新成績已經(jīng)達(dá)到99.2%

因此，我們迫切需要新的、更難且更廣泛的評測基準(zhǔn)。我認(rèn)為，這些新的基準(zhǔn)應(yīng)該涵蓋對世界物理和直覺物理的理解，以及其他我們作為人類理所當(dāng)然但系統(tǒng)尚未掌握的能力，比如物理智能。

實(shí)際上，我們目前還沒有很好的這方面評測標(biāo)準(zhǔn)。此外，也需要一些安全性相關(guān)的評測，比如測試系統(tǒng)中不希望出現(xiàn)的特質(zhì)，如欺騙等行為。

我認(rèn)為，設(shè)計(jì)真正有意義的評測基準(zhǔn)還有很大的發(fā)展空間，這些基準(zhǔn)能夠考察比現(xiàn)在那些純粹依靠蠻力的學(xué)校考試類型測試更復(fù)雜、更微妙的能力。這也是我對Game Arena感到如此興奮的原因。

當(dāng)然，這也回歸了我們的初心，也是我們?yōu)槭裁磿?huì)提出這個(gè)平臺的原因。而且，當(dāng)初我們選擇以游戲作為起點(diǎn)的許多理由，至今依然適用。

首先，游戲是非常干凈的測試場地。你可以很容易獲得分?jǐn)?shù)，評判標(biāo)準(zhǔn)非常客觀，沒有主觀因素，比如人類評分或者A/B測試那樣的干擾。從這個(gè)角度來看，它非常科學(xué)。

其次，游戲的測試難度會(huì)隨著系統(tǒng)能力自動(dòng)調(diào)整。因?yàn)橄到y(tǒng)之間會(huì)通過錦標(biāo)賽相互對戰(zhàn)，實(shí)際上觀看這些比賽也非常有趣。正如Game Arena這個(gè)名字所示，最強(qiáng)的模型會(huì)彼此對決。我們希望這能推動(dòng)技術(shù)的快速進(jìn)步。

現(xiàn)在的AI系統(tǒng)普遍不擅長玩游戲，比如象棋，甚至比象棋更簡單的游戲也是如此。為什么會(huì)這樣是一個(gè)有趣的問題。

我相信有了Game Arena這個(gè)評測平臺，它們會(huì)迅速進(jìn)步。而且，隨著系統(tǒng)變得更強(qiáng)，測試難度也會(huì)自動(dòng)增加。

這與MATH或者GPQA不同，后者需要不斷設(shè)計(jì)更難的科學(xué)問題，而且誰來設(shè)計(jì)這些問題，或者這些問題是否已經(jīng)在網(wǎng)上泄露，都是個(gè)難題。

每場游戲都是獨(dú)一無二的，因?yàn)樗怯呻p方玩家共同“創(chuàng)造”出來的。這種獨(dú)特性也使得游戲非常適合作為測試手段。

最后一點(diǎn)，就像我們早期在游戲領(lǐng)域的工作一樣，隨著系統(tǒng)變得越來越強(qiáng)大，我們可以不斷向Game Arena引入越來越復(fù)雜的游戲。

起初我們選擇了象棋，原因顯而易見——它是測試AI的經(jīng)典項(xiàng)目，也讓我個(gè)人非常有感情。但我們的目標(biāo)是將游戲數(shù)量擴(kuò)展到可能達(dá)到數(shù)千款，然后給出一個(gè)綜合評分。

我們并不只是想要系統(tǒng)能夠在某一款游戲中表現(xiàn)出色，而是希望它們能夠在所有游戲中都達(dá)到較高的水平，這包括電腦游戲和棋盤游戲。

更有趣的是，未來AI系統(tǒng)甚至可能自己發(fā)明新的游戲，然后教給其他AI系統(tǒng)去學(xué)習(xí)。這就像是學(xué)習(xí)一款全新的、以前從未存在過的游戲，這樣就不可能在訓(xùn)練數(shù)據(jù)上產(chǎn)生過擬合。

我有很多關(guān)于這種多智能體環(huán)境的想法，最終Game Arena可能會(huì)支持這些場景。我認(rèn)為它將成為一個(gè)非常重要且持久的評測基準(zhǔn)。

與此同時(shí)，我也相信，隨著我們越來越接近AGI，還會(huì)出現(xiàn)許多新的評測基準(zhǔn)，確保我們能夠全面覆蓋認(rèn)知能力的各個(gè)方面。

超越游戲的評測

Kilpatrick：你說得很有意思。過去幾年我也一直在思考評測的問題，越來越清楚的是，實(shí)際上生活中的大多數(shù)問題本質(zhì)上都是評測問題，無論是工作表現(xiàn)，還是我們?nèi)粘Ｓ龅降母鞣N事情，本質(zhì)上都是評測問題。

游戲領(lǐng)域有Game Arena這樣的平臺，能通過實(shí)證的方式來衡量系統(tǒng)表現(xiàn)，那里有明確的“真相”和一系列約束條件，這點(diǎn)非常寶貴。但當(dāng)我們把視角擴(kuò)展到游戲之外的領(lǐng)域，就會(huì)發(fā)現(xiàn)難度大大增加。

比如說，如何為人類執(zhí)行的各種復(fù)雜任務(wù)設(shè)計(jì)強(qiáng)化學(xué)習(xí)（RL）環(huán)境？這就涉及“真相”的來源問題——我們?nèi)绾味x和衡量這些任務(wù)的標(biāo)準(zhǔn)？這確實(shí)是一個(gè)難題。

所以我很好奇，在非游戲環(huán)境下，你怎么看待開始捕捉和評估這些復(fù)雜能力的方法？你覺得有哪些可行的路徑？

哈薩比斯：強(qiáng)化學(xué)習(xí)一直面臨的最大挑戰(zhàn)之一就是，在那些更復(fù)雜、更真實(shí)的領(lǐng)域里，如何明確指定獎(jiǎng)勵(lì)函數(shù)或目標(biāo)函數(shù)，也就是你要優(yōu)化的具體內(nèi)容。

而在人類世界中，我們其實(shí)并沒有單一的目標(biāo)函數(shù)，情況非常復(fù)雜。實(shí)際上，如果我問你每天的目標(biāo)是什么，你很可能會(huì)給出不同的答案。

這說明我們是多目標(biāo)驅(qū)動(dòng)的存在，而且會(huì)根據(jù)各種因素不斷調(diào)整不同目標(biāo)之間的權(quán)重，比如情緒狀態(tài)、所處的物理環(huán)境，甚至你職業(yè)生涯所處的階段，所有這些都會(huì)影響你的決策。

不過，我們?nèi)四X總能以某種方式摸索出大致的“北極星”——也就是那個(gè)指導(dǎo)我們行動(dòng)的核心目標(biāo)。我認(rèn)為，我們的通用系統(tǒng)未來也必須做到這一點(diǎn)，它們需要學(xué)會(huì)去理解人類用戶真正想要實(shí)現(xiàn)的目標(biāo)，然后把這些目標(biāo)轉(zhuǎn)化成一組可優(yōu)化的獎(jiǎng)勵(lì)函數(shù)。

利用工具提升AI功能

Kilpatrick：歷史上，我們見證了模型規(guī)模的不斷擴(kuò)大、預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)的增長、計(jì)算能力的提升，然后是推理能力的擴(kuò)展。

現(xiàn)在，工具似乎成為了一個(gè)全新的“擴(kuò)展維度”。當(dāng)你賦予模型更強(qiáng)大、多樣化的工具時(shí)，它們就能完成更多任務(wù)。

我很好奇，這種新的擴(kuò)展維度如何和我們在游戲及模擬強(qiáng)化學(xué)習(xí)環(huán)境中所做的工作結(jié)合起來。比如，是否存在一種可能，讓模型能夠使用物理模擬器作為它的一個(gè)工具，從而更好地理解和操作物理世界？

哈薩比斯：我認(rèn)為工具使用將成為這些AI系統(tǒng)最重要的能力之一。思考能力之所以在系統(tǒng)中扮演關(guān)鍵角色，很大程度上是因?yàn)槟憧梢栽谒伎歼^程中調(diào)用各種工具。

比如說，你可以調(diào)用搜索引擎，使用數(shù)學(xué)軟件，寫代碼，然后再回過頭來更新你的計(jì)劃和決策。

目前這方面的能力其實(shí)還處于比較初期的階段，但我相信這一旦變得足夠可靠，并且系統(tǒng)能夠穩(wěn)定地使用相當(dāng)復(fù)雜的工具，整個(gè)能力將會(huì)變得非常強(qiáng)大。

有趣的問題是，哪些功能應(yīng)該作為工具保留，哪些又應(yīng)該直接內(nèi)置在主系統(tǒng)，也就是“主大腦”里。對于人類來說，這很簡單，因?yàn)槲覀兊纳眢w有限制，凡是不在身體里的東西都算是外部工具，所以“什么是我們的腦子”這個(gè)界限很清楚。

但對于數(shù)字系統(tǒng)來說，這個(gè)界限就變得模糊了。比如，下棋的能力到底應(yīng)該是主模型自帶的，還是直接調(diào)用像Stockfish或AlphaZero這樣的工具？而且，這個(gè)工具也可以是另一個(gè)AI系統(tǒng)，不一定是傳統(tǒng)軟件，比如AlphaFold這樣的模型也可以作為工具。

關(guān)鍵問題在于，這種能力是否能提升其他能力。

舉個(gè)例子，數(shù)學(xué)和編程我們會(huì)直接放進(jìn)主模型——比如主Gemini模型——因?yàn)檫@似乎能“全面提升”，也就是說，編程能力好了，數(shù)學(xué)也會(huì)跟著提升，整體的推理能力也會(huì)更強(qiáng)。我猜象棋等能力可能也有類似的效果。

但另一方面，你又不想把過多的專門領(lǐng)域數(shù)據(jù)直接塞進(jìn)通用模型，因?yàn)槟强赡軙?huì)影響模型在其他方面的表現(xiàn)。所以這其實(shí)是一個(gè)非常需要通過實(shí)證研究來判斷的問題。

如果把這項(xiàng)能力加入主模型能促進(jìn)其他能力的發(fā)展，那就應(yīng)該直接整合進(jìn)去；反之，如果會(huì)影響其他通用能力，那么就可以考慮把它作為一個(gè)獨(dú)立的工具來使用。

從模型到系統(tǒng)的轉(zhuǎn)變

Kilpatrick：有意思的是，模型在推理時(shí)實(shí)際上會(huì)調(diào)用各種工具，做很多事情。過去的模型更像是一堆權(quán)重——你輸入一個(gè)token，輸出一個(gè)token。現(xiàn)在感覺模型本身正在演變成一個(gè)完整的系統(tǒng)，人們在它之上構(gòu)建應(yīng)用的方式也在發(fā)生變化，模型“開箱即用”地幫你完成了更多工作。

我很好奇，這種從單純的權(quán)重模型向完整系統(tǒng)轉(zhuǎn)變的趨勢，是否與你對整體進(jìn)展的看法相契合？你覺得這種趨勢會(huì)繼續(xù)發(fā)展嗎？

另外，對于正在構(gòu)建產(chǎn)品的人來說，你有沒有什么建議？比如在思考“我應(yīng)該做成一個(gè)工具，還是把功能直接整合進(jìn)模型”時(shí)，有沒有什么經(jīng)驗(yàn)或者原則可以參考？

哈薩比斯：模型確實(shí)在快速進(jìn)步。隨著它們獲得了工具使用的能力，加上規(guī)劃和思考能力，系統(tǒng)能做的事情呈指數(shù)級增長。因?yàn)樗鼈兡軌蛞匀碌姆绞浇M合和運(yùn)用各種工具。

你可以考慮的一個(gè)方向是：哪些工具對AI來說最有用？先著手去開發(fā)和提供這些工具。這里面潛力巨大。

不過，即便有了工具使用能力，智能體本身也不一定能成為一個(gè)完整的產(chǎn)品。所以我覺得在這之上，還有很多產(chǎn)品化的工作需要去做。

現(xiàn)在的難點(diǎn)，也是我們之前談過的，是在這個(gè)新世界里，產(chǎn)品經(jīng)理或者產(chǎn)品設(shè)計(jì)師需要具備非常有趣且獨(dú)特的技能。

因?yàn)槟阋O(shè)計(jì)的產(chǎn)品可能要一年后才能發(fā)布，你必須非常貼近技術(shù)發(fā)展，準(zhǔn)確預(yù)測一年后技術(shù)會(huì)達(dá)到什么水平，然后圍繞那個(gè)未來狀態(tài)來設(shè)計(jì)產(chǎn)品。

而且，無論你給產(chǎn)品加上多少精致的包裝，都必須允許底層引擎隨時(shí)可以被換成更先進(jìn)的系統(tǒng)。畢竟，這樣的系統(tǒng)大約每三到六個(gè)月，甚至更快就會(huì)更新一次，現(xiàn)在感覺幾乎是每兩周一次更新。所以你必須把這種高速迭代的節(jié)奏考慮進(jìn)設(shè)計(jì)里。

同時(shí)，我也覺得，隨著智能體能夠有效調(diào)用這些系統(tǒng)作為工具，整個(gè)網(wǎng)絡(luò)生態(tài)和應(yīng)用的運(yùn)作方式可能都會(huì)發(fā)生變化，未來的產(chǎn)品形態(tài)可能會(huì)因此不同于現(xiàn)在。