AI為啥不懂物理世界?李飛飛、楊立昆:缺個「世界模型」,得學大腦新皮質工作
我們的大腦蘊藏著待解的進化密碼,而AI的未來或許正系于此。
近來,AI圈接連爆出驚天猛料。12日凌晨,圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun)被爆出計劃離開公司,創立自己的AI公司,籌備以“世界模型”(World Models)為核心的事業,繼續其長期以來研究方向。

而就在1天前,“AI教母”李飛飛在自己的社交平臺發布萬字長文,直指當下大語言模型(LLM)的弊端,并提出,AI的未來并非建立更大的語言模型,而是賦予其“空間智能”(Spatial Intelligence)——這一人類與生俱來,連嬰兒都具備的能力。只有這樣,人類才有可能真正通往通用人工智能(AGI)。

和楊立昆一樣,李飛飛也強調了建立“世界模型”的重要性。
那么,兩位AI專家口中的“世界模型”到底是什么?它與大語言模型的區別是什么?如何才能實現“世界模型”呢?
世界模型是啥?
正如李飛飛所言,AI已經突破了很多曾被認為不可能的局限:生成有邏輯、符合需求的文本,以及逼真的照片和視頻,等等。但是,仍有太多我們需要它擁有的能力是當前AI望塵莫及的,比如:
- AI還不能產出完全接近現實的視頻
- 依然沒能發明出幫我們做家務、洗碗的機器人
- AI無法真正理解并創造出藝術家、建筑師大腦中的“虛擬世界”
簡而言之,AI不懂物理世界,無法理解距離、大小、遠近。
現在人工智能系統缺少什么,以及如何讓人工智能系統展現出(或更接近)人類級智能,學界存在許多爭議。有人認為,缺失的關鍵部分是語言和邏輯,但楊立昆(包括后來的李飛飛)則認為缺失的是一些更基礎、更早進化出來的東西。用他自己的話說:
“我們人類過于重視語言和符號作為智能的基礎。靈長類動物、狗、貓、烏鴉、鸚鵡、章魚以及許多其他動物,并沒有類似人類的語言,但它們卻表現出了超越我們最先進人工智能系統的智能行為。它們所具有的是學習強大‘世界模型’的能力,這些模型使它們能夠預測自己行為的后果,并尋找路徑和規劃行動以實現目標。學習這種世界模型的能力正是當今人工智能系統所缺少的。”
由此可見,世界模型的提出起源于對當前“大語言模型”局限的反思,以及對動物智能行為和學習能力的探索,我們所追求的智能特征,都源自第一批哺乳動物微笑的大腦。
那么,研究“世界模型”,就必須要回答一個關鍵的問題:
動物是如何感知周圍、想象未知世界,并進行更高級的智能行為的呢?
動物感知世界的真實方式:識別or模擬?
這個問題同樣困擾著一位年輕的美國AI企業家麥克斯·班尼特(Max Bennett),他在一家名為Bluecore的公司擔任首席產品官。班尼特并非神經科學家或機器人專家,但在實際工作中,他透過人工智能系統應用于現實世界產生的種種問題,發現了人類智能與人工智能之間令人困惑的差異。于是,他花費多年時間來思考大腦的進化歷程。因為他知道,理解大腦的工作方式,是創造類人人工智能的前提。
1.人類感知的三大屬性
班尼特通過查閱文獻,發現針對人類感知的科學研究自19世紀便已展開。至少對于人類而言,感知大部分發生在大腦新皮質。(當你觀察人類大腦時,你所看到的幾乎都是新皮質)科學家們對感知的研究始于利用錯覺:通過操縱人們的視覺感知,科學家發現了感知的三個奇特屬性,正是這些感知屬性教會了我們新皮質的工作方式。

屬性一:填補性
人類的大腦會自動且無意識地填補缺失的東西。

屬性二:逐一性
我們經常會看到網上一些視覺錯覺的的例子,比如一幅圖片既可以看成是一只兔子,也可以看成是一只鴨子;一個球面圖既可以是凸出來的,也可以是凹進去的。

所有這些模棱兩可的圖片的有趣之處在于,你的大腦一次只能看到一種解釋。即使感官證據表明這既可以是鴨子也可以是兔子,你也不能同時看到鴨子和兔子。不知出于何種原因,大腦中的感知機制要求它只能選擇其中一種。
屬性三:無法忽視性
請看如下這幅圖。如果你以前從未見過這幅圖像,它看起來會毫無意義,只是一些斑點。如果我給你一個對這些斑點的合理解讀,突然間,你對它的感知就會發生改變。

這幅圖片可以被解讀為一只青蛙,一旦大腦感知到了這種解讀,你就再也無法忽視它了。你的大腦喜歡有一個能夠解讀感官輸入的解釋,一旦我給你一個合理的解釋,大腦就會堅持它,你現在看到的就是一只青蛙。19 世紀,德國物理學家和醫生赫爾曼·馮·亥姆霍茲(Hermann von Helmholtz)提出了一種新穎的理論來解釋感知的這些特性。他提出,人們并不是感知到經歷的事物,而是感知到大腦認為存在的事物——亥姆霍茲將這一過程稱為“推斷”(Inference)。換句話說,你并不是感知到你實際看到的事物,你感知到的是一個模擬現實,這是你從看到的事物中推斷出來的。
這一觀點解釋了感知的三個奇特屬性:
- 你的大腦會填補物體缺失的部分,因為它試圖解讀你的視覺所暗示的真相。(“那里真的有一個球體嗎?”)
- 你一次只能看到一件事物,因為你的大腦必須選擇一個單一的現實進行模擬——實際上,這只動物不能同時是兔子和鴨子。
- 而一旦你發現將一張圖像解釋成青蛙最為合理,那么當你觀察它時,你的大腦就會維持這個現實。
盡管許多心理學家在原則上同意了亥姆霍茲的理論,但直到又一個世紀之后,才有人提出亥姆霍茲的“推斷”理論到底是如何起作用的。
在20世紀90年代,杰弗里·辛頓和他的一些學生(包括之前協助發現多巴胺反應是時序差分學習信號的彼得·達揚)開始著手構建一個按照亥姆霍茲提出的方式學習的人工智能系統。1995年,辛頓和達揚為亥姆霍茲通過推斷感知的想法提出了一個概念驗證,他們將其命名為“亥姆霍茲機器”。從原則上講,亥姆霍茲機器與其他神經網絡類似,它接收從一端流向另一端的輸入。但與其他神經網絡不同,它還具有反向連接,這些連接從末端流向起點。
辛頓使用0到9的手寫數字圖像測試了這個網絡。可以在網絡的底部給出一張手寫數字的圖片(每個像素對應一個神經元),然后圖片會向上流動并激活頂部的一組隨機神經元。這些被激活的頂部神經元隨后可以向下流動并激活底部的一組神經元,以產生自己的圖片。學習的目的是使網絡穩定到一個狀態,即流入網絡的數字在流回底部時能被準確復現。
最初,流入網絡中的神經元值與流出的結果值存在很大的差異。辛頓設計了這個網絡,使其可以用兩種不同的模式學習:識別模式和生成模式。在識別模式下,信息從網絡底部向上流動(從輸入的一張7的圖片開始,流向頂部的某些神經元),并調整反向權重,使網絡頂部被激活的神經元能更好地再現輸入的感覺數據(生成一個逼真的7)。相反,在生成模式下,信息在網絡中向下流動(從生成一個想象的7的圖片的目標開始),并調整正向權重,以使網絡底部被激活的神經元在頂部能被正確識別(“我識別出我剛剛生成的圖片是一個7”)。

在整個過程中,這個網絡并沒有被告知正確答案。它從未被告知哪些特性構成了一個2,甚至哪些圖片是2、7或任何其他數字。網絡唯一可以學習的數據是數字圖片。當然,問題在于這是否可行。這種在識別和生成之間來回切換的方式,是否能讓網絡在從未被告知正確答案的情況下,既能識別手寫數字,又能生成自己獨特的手寫數字圖片呢?
令人驚訝的是,它真的自學成才了。當這兩個過程來回切換時,網絡神奇地穩定下來。當你給它一個數字7的圖片時,它基本上能夠在下行過程中創建出一個類似的數字7的圖像。如果你給它一個數字8的圖像,它也能夠生成一個數字8的輸入圖像。
這可能看起來并不是那么了不起。你給網絡一張數字圖片,它就輸出一張相同數字的圖片,這有什么大不了的?這個網絡有三個具有突破性的屬性。首先,這個網絡的頂部現在能可靠地“識別”不完美的手寫字母,而無須任何監督。其次,它的泛化能力非常出色,它能將兩張不同手寫方式的數字圖片識別為一個數字——它們會在網絡的頂部激活相似的一組神經元。最后,也是最重要的一點,這個網絡現在可以生成手寫數字的新圖片。通過操作這個網絡頂部的神經元,你可以創建許多手寫數字7或手寫數字4,或者它已學習的任何數字。這個網絡通過生成自己的數據學會了識別。
亥姆霍茲機器是生成模型這一更廣泛類別模型的早期概念驗證。大多數現代生成模型比亥姆霍茲機器更復雜,但它們都共享一個基本屬性,即通過生成自己的數據并將生成的數據與實際數據進行比較,來學習識別世界上的事物。
亥姆霍茲提出,人類的許多感知過程其實是一種推斷過程,即使用生成模型將世界的內部模擬與呈現的感覺證據進行匹配的過程。現代生成模型的成功(如深度偽造、人工智能生成藝術、GPT-3等)驗證了他的想法,這些模型表明,至少在原則上,類似這樣的過程是可以實現的。事實上,有大量證據表明,新皮質神經微環路正在實現這樣的生成模型。
而且,作為生成模型的新皮質不僅能解釋視覺錯覺,還能解釋人類為何會出現幻覺、做夢和睡覺,甚至能解釋想象的內在運作機制。
大腦生成模型(新皮質)還能做啥?想象、預測……
哺乳動物想象力的許多特征都與我們對生成模型的預期一致。對人類來說,想象一些當前沒有經歷的事情是很容易的,甚至是自然的。你可以想象昨晚吃的晚餐,或者想象今天晚些時候你要做什么。當你想象某件事情時,你在做什么?這只是你的新皮質處于生成模式。你正在你的大腦新皮質中調用一個模擬現實。
1、想象力
想象力最明顯的特征就是,你無法同時想象事物和識別事物。你不能一邊讀書,一邊想象自己正在吃早餐——想象的過程與體驗實際感覺數據的過程本身就是相互矛盾的。事實上,通過觀察一個人的瞳孔,你可以判斷他是否在想象某件事情——當人們想象事物時,他們的瞳孔會擴張,因為大腦停止了處理實際的視覺數據,人們會變得偽失明。就像生成模型一樣,生成和識別不能同時進行。感知和想象亦不是兩個獨立的系統,而是同一枚硬幣的兩面。
2、預測未來
另一種思考新皮質中生成模型的方式是,它會對環境進行模擬,以便在事情發生之前進行預測。新皮質會持續地將實際的感覺數據與模擬預測的數據進行比較。這樣,你就可以立即識別出周圍環境中發生的任何令人驚訝的事物。當你走在大街上時,你可能并沒有注意到自己腳上的感覺。但是,隨著每一步移動,你的新皮質都在被動地預測它所期望的感覺結果。如果你把左腳放下卻沒有感覺到地面,你會立刻查看是否即將踩進一個坑里。你的新皮質正在運行一個你走路的模擬,如果模擬與感覺數據一致,你就不會注意到它,但如果它的預測出現錯誤,你就會注意到。
班尼特和他的《智能簡史》
班尼特通過研究發現,除了模擬、想象和預測,大腦新皮質還可以讓早期哺乳動物能夠執行規劃、情景記憶和因果推理等極高難度的智能行為,而這些能力也是我們對未來AI的期盼——世界模型要具備的特性。

他將以上高級智能行為的具體實現方式,連同其他有關大腦的有趣故事撰寫在《智能簡史:進化、AI與大腦的未來》一書中。班尼特寫這本書,是因為他想讀這本書(但沒找到)。在《智能簡史》中,他架起神經科學與AI的橋梁,講述大腦的進化史詩,并揭示這一歷程如何塑造下一代AI革新。通過獨創性框架,他將龐雜的進化史凝練為“五次突破”,每次突破都標志著人腦進化的重要躍遷,并為人類智能的核心謎題注入全新解讀。結合AI科學的前沿進展,班尼特指出了當前AI系統在哪些領域已比肩或超越人腦,又在何處仍顯不足。
諾貝爾經濟學獎得主丹尼爾·卡尼曼在讀完此書后稱:“令人驚嘆,我快速地讀完了,然后又重讀了很多部分。”
在不斷追問大腦進化的奧秘中,班尼特對于AI和智能的理解愈發加深。其創立的公司Alby致力于幫助企業將大語言模型整合至網站,打造智能化導購與搜索體驗。此前,班尼特曾是Bluecore聯合創始人兼首席產品官。Bluecore作為美國增長最快的科技企業之一,為全球多家頂尖公司提供AI技術服務。該公司屢次入選Inc.雜志“全美增長最快企業500強”,近期估值已突破10億美元。



































