DeepMind首席科學(xué)家:比起機(jī)器智能,我更擔(dān)心人類智能造成的災(zāi)難
在 DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院計(jì)算機(jī)科學(xué)教授David Silver 看來,游戲是激發(fā)創(chuàng)造力的關(guān)鍵,尤其是對(duì)AI而言。
Silver曾小時(shí)候參加過全國拼字游戲比賽,之后他繼續(xù)在劍橋?qū)W習(xí)并共同創(chuàng)辦了一家視頻游戲公司。
后來,在獲得人工智能博士學(xué)位后,他帶領(lǐng)DeepMind團(tuán)隊(duì)開發(fā)了 AlphaGo,這是第一個(gè)圍棋比賽中擊敗世界冠軍的AI程序。
對(duì)于Silver 來說,游戲是了解人類和人工大腦如何自行學(xué)習(xí)以實(shí)現(xiàn)目標(biāo)的實(shí)驗(yàn)場(chǎng)。
對(duì)于圍棋AI AlphaGo來說,向程序提供有關(guān)人類在不同位置的決策,再讓AI模仿,這種學(xué)習(xí)被稱為「監(jiān)督式學(xué)習(xí)」。實(shí)現(xiàn)AI程序通過自對(duì)弈中學(xué)習(xí),這種方式稱為「強(qiáng)化學(xué)習(xí)」。
然后,在 AlphaGo 和世界冠軍的關(guān)鍵比賽中,Silver突然想到:也許,機(jī)器的決策根本不應(yīng)該受到人類的影響。
這個(gè)想法最終成為 AlphaGo Zero 的開端,它是 AlphaGo 的繼任者,在完全不接收人類知識(shí)的情況下,只靠強(qiáng)化學(xué)習(xí),從游戲規(guī)則出發(fā)學(xué)習(xí)如何下好圍棋。
后來,AlphaGo Zero 與 AlphaGo 對(duì)弈 100 局,零封了自己的「老大哥」。
2020年4月,David Silver因在「計(jì)算機(jī)游戲方面的突破性進(jìn)步」獲得了2019年ACM計(jì)算獎(jiǎng)。
在頒獎(jiǎng)儀式上,時(shí)任ACM主席 Cherri M. Pancake表示:
「很少有其他研究人員像 David Silver 那樣,在 AI 領(lǐng)域引起如此多的令人興奮的成果。他對(duì)深度強(qiáng)化學(xué)習(xí)的見解已經(jīng)從游戲中鋪開,應(yīng)用于多個(gè)領(lǐng)域,包括電網(wǎng)效率的提升、降低數(shù)據(jù)中心的功耗以及為歐洲航天局規(guī)劃太空探測(cè)器的軌跡等。」
另外,Silver是英國皇家學(xué)會(huì)Fellow,也是在AI領(lǐng)域首位獲得門薩基金最佳科學(xué)發(fā)現(xiàn)獎(jiǎng)的科學(xué)家。
Silver的明星氣質(zhì)與他安靜、謙遜的天性形成鮮明對(duì)比。在本次采訪中,Silver 談?wù)摿擞螒颉?chuàng)造力的意義,以及AI在避免氣候變化、病原體感染、大規(guī)模貧困和環(huán)境災(zāi)難等方面的應(yīng)用潛力。
以下是訪談內(nèi)容:
你小時(shí)候玩游戲的方式就與其他孩子不一樣嗎?
我那時(shí)候參加過全國學(xué)校拼字游戲比賽,我還記得一些有趣的時(shí)刻。
有一次,在最后一場(chǎng)比賽結(jié)束時(shí),我問我的對(duì)手,「你確定要拼這個(gè)詞嗎?為什么不拼一個(gè)得分更高的詞呢?」 他改變了自己的拼法,贏得了比賽和冠軍,這讓我非常高興。
比起贏得比賽,我更著迷于比好一場(chǎng)比賽的意義。
您是如何將對(duì)游戲的熱愛轉(zhuǎn)化為一份真正的工作的?
后來,我接觸到了國際象棋,遇到了Demis Hassabis(DeepMind 的聯(lián)合創(chuàng)始人 。那個(gè)時(shí)候,他是世界上同齡最強(qiáng)的少年棋手。
當(dāng)時(shí)他零花錢不夠時(shí),就會(huì)來我所在的鎮(zhèn)里,參加比賽,贏走 50 英鎊的獎(jiǎng)金,然后回家。后來,我們?cè)趧蛘J(rèn)識(shí)了,并一起成立了一家游戲公司 Elixir,現(xiàn)在我們一起回到了 DeepMind。
這種對(duì)游戲的迷戀,教會(huì)了你解決問題的哪些方面?
一方面,我們相信自己擁有所謂「創(chuàng)造力」的特殊能力,而AI算法并沒有這種能力。實(shí)際上這是一個(gè)謬論。
現(xiàn)在,在 AI 中已經(jīng)看到了創(chuàng)造力的端倪。2016年 AlphaGo 對(duì)陣?yán)钍朗牡诙直荣愔校珹lphaGo執(zhí)黑下出的第37手,圍棋社區(qū)中就認(rèn)為創(chuàng)造力十足,甚至超出了當(dāng)時(shí)人類職業(yè)棋手的理解。這說明,AI的確嘗試了一些非同以往的新東西。
但是,人類可以將這種廣泛的創(chuàng)造力應(yīng)用于任何事物,而不僅僅是在游戲中嗎?
整個(gè)試錯(cuò)學(xué)習(xí)的過程,比如嘗試自己去想辦法,或者讓AI自己去想辦法,如何解決問題,這都是一個(gè)創(chuàng)造性的過程。AI從一開始什么都不知道。然后會(huì)發(fā)現(xiàn)一件新事物、一種創(chuàng)造性飛躍、一種新模式或一種新想法,這有助于比以前更好地實(shí)現(xiàn)目標(biāo)。
現(xiàn)在,你掌握了玩游戲、解謎或與人互動(dòng)的新方式。這個(gè)過程實(shí)際上是成千上萬個(gè)小發(fā)現(xiàn)一個(gè)接一個(gè)累計(jì)而成的。這才是「創(chuàng)造力」的本質(zhì)。
如果AI算法沒有創(chuàng)造力,就會(huì)陷入困境。AI需要有能力為自己嘗試新的想法——那些人類沒有告訴它們的想法。這應(yīng)該是未來研究的方向,以繼續(xù)推動(dòng)通過自我嘗試得出「新點(diǎn)子」的系統(tǒng)。
許多人認(rèn)為,計(jì)算機(jī)只能在人類業(yè)余水平上下圍棋。你有沒有懷疑過自己進(jìn)步的能力?
當(dāng)我參加 2016 年 AlphaGo 比賽抵達(dá)韓國時(shí),看到了一排排的攝像頭,我聽說當(dāng)時(shí)有超過 2 億人在網(wǎng)上觀看,我想當(dāng)時(shí)想「等等,這真的能行嗎?」
對(duì)手李世乭是一位天才的世界冠軍,他會(huì)嘗試一切手段,將AI程序帶入一般不會(huì)發(fā)生的奇怪情況。
我感到很幸運(yùn),我們經(jīng)受住了那次考驗(yàn)。后來我問自己:“能不能退一步回到基礎(chǔ),理解一個(gè)系統(tǒng)真正為自己學(xué)習(xí)意味著什么?” 為了找到更純粹的東西,我們放棄了AI模型中的人類知識(shí),開發(fā)出了 AlphaZero。
幾千年來,人類已經(jīng)為圍棋制定了眾所周知的策略。當(dāng) AlphaZero 迅速發(fā)現(xiàn)并拒絕了這些有利的策略時(shí),您是怎么想的?
我們?cè)O(shè)置了原版 AlphaGo 下錯(cuò)的位置(與人類職業(yè)選手相比)。我們認(rèn)為,如果能找到一個(gè)讓AI自己找到正確位置的新版本,就算是成功了。一開始,我們?nèi)〉昧司薮蟮倪M(jìn)步,但后來似乎就不行了。我們認(rèn)為AI并沒有自己找到正確的 20 到 30 手的位置。
與我們合作的職業(yè)選手樊麾花了幾個(gè)小時(shí)研究這些著法。最后他說,是職業(yè)選手下錯(cuò)了,AlphaZero 是對(duì)的。AI找到了解決方案,重新評(píng)估了最初被歸于「錯(cuò)誤」的棋。我意識(shí)到我們有能力推翻人類認(rèn)為的標(biāo)準(zhǔn)知識(shí)。
這之后,你主持開發(fā)AlphaStar,讓AI玩《星際爭霸2》。為什么從圍棋跳到了電子游戲?
圍棋是一個(gè)相對(duì)狹小的領(lǐng)域。要想從圍棋入手,擴(kuò)展到人腦的能力范圍需要大量的步驟。我們嘗試更復(fù)雜的維度,那些人類做得好,但AI做不好的大量領(lǐng)域。
從AlphaGo到AlphaStar, 實(shí)際上是個(gè)自然的發(fā)展。與人類一樣,AI系統(tǒng)只能看見地圖的某個(gè)部分。這就不像下圍棋或國際象棋,能看到對(duì)手和自己的所有棋子。游戲中只能看到控制對(duì)象附近的信息,你必須偵察以獲取信息。這更接近現(xiàn)實(shí)世界中發(fā)生的事情。
最終目標(biāo)是什么?
我認(rèn)為AI代理的能力與人類大腦一樣廣。雖然目前我們還不知道如何才能完全實(shí)現(xiàn)大腦的功能,但在人腦中有存在的證據(jù)。
完全復(fù)制人腦嗎?你真的認(rèn)為這很現(xiàn)實(shí)嗎?
我不相信對(duì)大腦的神奇、神秘的解釋。
在某種程度上,人腦是一種算法,它以強(qiáng)大而通用的方式接受輸入并產(chǎn)生輸出。我們理解和構(gòu)建人工智能的能力有限,但這種理解正在快速增長。今天,我們擁有能夠破解了圍棋等狹窄領(lǐng)域的AI,也有了可以理解和產(chǎn)生自然語言的模型。
那么,你認(rèn)為人AI的能力沒有上限嗎?
現(xiàn)在我們才剛剛開始上路。想象一下,如果再經(jīng)歷 40 億年的進(jìn)化,我們會(huì)是什么狀態(tài)?也許我們會(huì)擁有更復(fù)雜的智能,可以做得更好。AI和這有點(diǎn)像,這個(gè)過程沒有限制,因?yàn)槭澜缭诒举|(zhì)上是無限復(fù)雜的。
那么,會(huì)有上限嗎?在某些時(shí)候,物理極限的確存在,所以并非沒有界限。最終,你會(huì)用盡了宇宙中的所有能量和所有原子來構(gòu)建計(jì)算設(shè)備。但相對(duì)于目前來說,實(shí)際上可以視作是無限的。超越人類智能,這個(gè)范圍是很廣的。
斯蒂芬·霍金擔(dān)心機(jī)器智能會(huì)產(chǎn)生可怕的意外后果。你有類似的擔(dān)心嗎?
比起這個(gè),我更擔(dān)心人類智能的意外后果,比如氣候變化、病原體、大規(guī)模貧困和環(huán)境災(zāi)難。
對(duì)AI的追求應(yīng)該帶來新技術(shù)、更深入的理解和更明智的決策。AI有朝一日可能成為我們避免此類災(zāi)難的最佳工具。但是,我們應(yīng)該謹(jǐn)慎行事,制定明確的規(guī)則,禁止不可接受的AI應(yīng)用,例如禁止開發(fā)自主武器。
現(xiàn)在,你通過游戲AI的成功應(yīng)對(duì)了這些巨大的挑戰(zhàn),但有沒有失望過?
嗯,監(jiān)督學(xué)習(xí)已經(jīng)產(chǎn)生了巨大的主流影響。大多數(shù)來自谷歌的大型應(yīng)用程序都在系統(tǒng)的某個(gè)地方使用監(jiān)督學(xué)習(xí)。
目前我的一個(gè)失望是,我們還沒有發(fā)現(xiàn)通過強(qiáng)化學(xué)習(xí)對(duì)自學(xué)習(xí)系統(tǒng)產(chǎn)生這種程度的影響。在未來,我希望看到能夠在虛擬世界中以真正實(shí)現(xiàn)我們目標(biāo)的方式與人互動(dòng)的自學(xué)系統(tǒng)。例如,一個(gè)為自己學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最佳方式的數(shù)字助理。那將是一個(gè)美麗的成就。
你有工作的個(gè)人目標(biāo)嗎?
在與李世石的AlphaGo比賽中,我走到比賽場(chǎng)地外,發(fā)現(xiàn)一個(gè)圍棋選手哭了。我以為是在難過,但實(shí)際上他并沒有。
在這個(gè)他全心投入的領(lǐng)域,AlphaGo 正在下出他從之前未意識(shí)到的棋。這讓他感受到了一種深刻的美感。
以我的圍棋水平,還不足以完全體會(huì)到這一點(diǎn)。但我們應(yīng)該努力在能感覺到的一切地方都建立類似的智能。
我認(rèn)為應(yīng)該這樣開發(fā)AI智能,不是因?yàn)锳I做了什么或AI給我們的幫助多么多么大,而是因?yàn)椋悄鼙旧砭褪且患苊利惖氖虑椤?/p>









































