對話Google DeepMind資深科學家:強化學習是重點,大模型時代AlphaZero依然重要
如果說有一類游戲貫穿AI發展的始終,圍繞其誕生的Thinking Game至今仍影響著最前沿AI技術的發展,那么答案很顯然:
棋類游戲。
就在新加坡舉辦的國際象棋世界冠軍賽(WCC 2024)上——就是中國國際象棋世界冠軍丁立人,迎戰國際象棋史上最年輕世界冠軍挑戰者、印度棋手古克什的比賽——盡管是人類頂尖頭腦之間的對弈,比賽現場,AI的氛圍仍然濃烈。
除了Imagen 3和Gemini Flash加持的創意棋子生成:

△部分Google技術僅適用于出海開發者
谷歌大模型還擔綱了比賽“解說”的角色——Gemini支持的Chatting Chess,可以通過對話深入淺出地講解國際象棋中各種復雜概念,幫助觀眾更好地讀懂棋局。

△視頻來源:FIDE官方推特
新晉諾貝爾化學獎得主Demis Hassabis(戴密斯·哈薩比斯)也在比賽首日出現在現場,為兩位棋手開棋。

△圖源:FIDE youtube官方頻道
實際上,從上世紀50年代的AI跳棋,到擊敗棋王卡斯帕羅夫的深藍,再到掀起人工智能第一波全球熱潮的AlphaGo……在載入史冊的歷史事件背后,棋類游戲對AI更重要的影響或許是,啟發了身在時代洪流中的那些人。
哈薩比斯是其中之一。
△圖源:《The Thinking Game》宣傳片
年少時,他曾是同年齡段世界排名第二的棋手。他也在自傳電影《The Thinking Game》中坦言:
我實際上是通過游戲接觸到人工智能的。
I actually got into AI through games.
而在Google DeepMind,與棋類游戲、進而與AI深深聯結的人,還不只是哈薩比斯一人。
就在WCC現場,量子位見到了深度參與AlphaZero項目的Google DeepMind資深研究科學家Nenad Toma?ev——同時也是一位國際象棋“狂熱愛好者”、FIDE(國際棋聯)注冊棋手。
從AlphaZero到Gemini,從棋盤到影響人們現實生活的更多領域,圍繞“通用AI”,量子位也和Nenad更深入地聊了聊其中的“Thinking Game”。

(以下為量子位與Nenad對話全文,在保留原意基礎上有編輯調整。)
“強化學習仍然非常重要”
量子位:大模型之后,像AlphaZero這樣的研究項目還在繼續嗎,是否在研究方向上有所改變?這些技術還會對我們的日常生活產生更大的影響嗎?
Nenad:
當任何研究領域出現重大變革時,你都會看到研究方向的改變,一切照舊反而不太正常。但我認為,強化學習作為AlphaZero體現的原則,在大語言模型領域非常重要。
所以對強化學習的研究仍然非常活躍,是整個AI社區關注的重點領域之一。
我們已經看到AI在各個方面產生越來越多的影響。其中一些影響對大多數人來說可能還不太明顯,因為科學領域的重大突破往往需要一段時間才能傳播開來,并最終通過如醫療的改善、更好的產品等形式,影響人們的生活。
你可以把世界想象成一棵知識之樹,有些問題更接近根部,而應用則在樹梢。從商業角度來說,大語言模型如Gemini,突然間降低了人們使用AI的門檻,這是一個非常強大的范式。但技術本身并不是突然發生的,正是因為我們在國際象棋、AlphaZero這樣的項目上的積累,啟發我們走到了這里。
我想說的是,盡管AI在過去已經取得了許多重大進步,但如果不是AI的密切關注者,或者國際象棋愛好者這類直接感受到影響的人,普通人可能不會注意到這些進步,因為他們無法真正與這些系統交互,或從中獲得洞見。語言模型的通用性要強得多。
人工智能領域的長期目標是創造真正的通用人工智能系統,并且讓我們能夠加以利用。為了利用這些系統,我們需要一種與之交互的方式。人類使用語言相互交流,因此我們可以使用語言與基于大語言模型的AI交流,這使它們非常易于使用。
如果你有一個非常復雜的用戶界面,必須輸入一些以某種方式編碼的特征,這對人類用戶來說是很難用的。但如果你可以跟模型用自然語言對話,模型能夠給出回應,這就是一種非常強大的范式。
這種技術的應用領域可以是任何事情,當然也可以只是為了好玩。你可以讓AI給你講故事,創作詩歌,或者生成你喜歡的圖像。但我們也看到其在醫療等領域的進步。我們看到各種工作流程正在被自動化或在一定程度上實現自動化,這是一個令人興奮的時代,讓我們拭目以待未來幾年會發生什么。
量子位:你認為當前哪些大模型應用領域最具潛力?
Nenad:
我認為所有領域都會受益于大模型的潛力,問題只在于我們如何使用它們,這顯然需要花費一些時間和精力,去謹慎地進行構建和設計。
醫療是我非常熱衷的領域之一。我的家人們都是醫生,只有我這個“害群之馬”是計算機科學家(笑),他們對AI醫療感到害怕,但同時也充滿熱情。醫療是一個非常敏感、復雜的領域,因為它關系到人們的生命和健康,你不能在這個領域奉行硅谷“快速行動、打破常規”的思維模式。
作為研究人員,我們所做的很多工作是構建看起來可行的概念驗證系統,但要真正落地實踐,還需要做更多的工作,以確保其安全性,比如進行臨床試驗。從一個想法到一個模型,到一個早期產品,再到通過試驗并獲得批準,之后真正投入使用,這需要很多年時間。另外,即使AI已經準備就緒,也需要等待整個醫療系統做好使用它的準備。
AGI:炒作和宣傳不足同時存在
量子位:有人認為大語言模型讓我們更接近AGI了,但也有人認為AGI仍然是個被過分炒作的概念,你怎么看?
Nenad:
我剛加入Google DeepMind的時候,我們的規模比現在要小得多,但當時我們就是為數不多敢于說出“AGI”這個詞,并真正暢想它的團隊——我不想說錯話,或許還有其他團隊也是如此。
AGI顯然一直是AI領域的夢想。但之前也曾出現過AI寒冬,當時人們認為AGI離我們很近,然后人們失望了,于是投資枯竭。在神經網絡真正登上舞臺之前,這個流程被完整地走過了一遍。
即使是在神經網絡來到舞臺中央,深度學習成為一種趨勢之后,仍然有人一再說AI撞墻了,悲觀情緒仍然存在。但我認為,現在有了語言模型,有了它們展現出的通用能力和性能,更多人開始相信AGI是可能的,AGI正在成為一個被更廣泛討論的話題。
以前,只有一些非常樂觀的技術專家會討論AGI,大家顯然都知道AGI還很遙遠。盡管如此,我們會設想通往這一目標的道路。舉個例子,從AlphaGo、AlphaZero開始,到MuZero,再到更多更通用的強化學習系統……
最終的問題是如何實現AGI。不同的人對應該把什么放在首位有不同的看法,比如語言是否是構建AGI所必需的——從事機器人研究的人就可能更多地從空間智能的角度來思考AGI。
我認為,語言發揮著巨大的作用,這也是語言模型能產生如此巨大影響的原因。人類積累了幾千年的所有知識都以語言的形式表達,用語言的形式寫成,包括我們所知道的關于科學和其他一切的一切。因此,一個能夠很好地理解和使用語言的模型,就可以利用我們已有的所有知識。
想象一下,你創造了一個不會說話、像嬰兒一樣對世界一無所知的AGI,那么它需要通過實驗、試錯,重新學習人類在這么長時間里學到的一切。這在原則上是可能的,它可能會自己發明一種語言等等,但這并不是最短路徑或者說一個好的主意。
因此,語言模型讓我們如此興奮是有原因的。人們目前正在構建的、基于語言模型的智能體,確實具有許多AGI所需的特征。
但它們仍有局限性。所以說到炒作,有人完全否定AI正在取得的進展,也有人認為語言模型就像魔法一樣能解決一切,這兩種看法都不正確。大模型是機器學習模型,在某些方面表現出色,但也有一些其他缺陷。它們有很大的潛力,但仍有我們需要解決的問題。
我是一個樂觀主義者,我認為在未來幾年里,我們將能夠解決其中的許多缺陷。
過度炒作和宣傳不足同時存在,這使得有關這項技術的對話很難保持頭腦清醒、腳踏實地,這取決你在和誰交談。我認為事實總是介于兩者之間。
量子位:所以在你看來,我們離AGI還有多遠?
Nenad:
我認為這是不可能說清楚的。你會看到有人預測是20年-50年,這聽起來很遙遠;也有人說大概是2年,這顯然是一個非常近期的預測。
目前這一切都尚未明朗,因為全球有越來越多的人在研究這些問題,每天都能看到非常多的新進展。
我個人試圖緊跟所有最新進展,但僅僅是每天發布的研究論文,其數量之多,就幾乎不可能讓一個人完全通讀,更不用說詳細地了解所有內容了。
因此,我們每個人都只能了解自己所關注領域的一部分情況,并試圖根據這些片段來理解事物的發展方向。
我想說,也許是一個無聊的答案,但事實可能介于兩者之間。準確預測未來是很難的,即使是短期的預測,人們也總是犯錯誤。所以當你試圖做一個長期的預測,比如AGI是否會在5年、10年、15年或20年內實現?這是很長的一段時間,任何事情都可能發生。
我想,原則上,這將取決于AI社區能夠產生多少創造力和靈感。靈感越多,問題就會更快得到解決;靈感不足,就需要更長時間。在某種程度上,未來掌握在我們自己手中,但我們只能拭目以待。
One More Thing
當被問到平常都會用大模型做些什么時,作為一位科學家+工程師,Nenad Toma?ev的回答是“幫忙寫代碼”,還打了個小小廣告(doge):
我認為Gemini對于各種事情都非常有用。
無關于代碼,每個人都可以用它處理自己的事情。
比如說,回到開頭所說,咱們吃瓜群眾在等待丁立人與古克什大戰分出勝負的同時,也在新加坡比賽現場,嘗試了生成自己的創意棋子:

還讓Gemini[1]給我們解釋了一下,丁立人的綽號為什么叫“沉默的風暴”(Slient Storm)。
“沉默風暴”這個綽號源于丁立人的棋風特點:他具備深度計算變化的能力,棋風穩健,卻又充滿爆發力。
他能夠在長時間的相持中尋找機會,也能在關鍵時刻抓住對手的失誤,一舉獲勝。

[1]部分Google技術僅適用于出海開發者






























