編輯 | 云昭
幾個小時前,“AI教母”李飛飛發(fā)表了一篇信息量非常高密的長文,
名為“From Words to Worlds:Spatial Intelligence is AI’s Next Frontier”。
圖片
如果你對空間智能感興趣,卻搞不懂這個充滿想象空間的技術名詞,又或者你深處視頻生成、多模態(tài)理解,又或者是具身智能領域中,這篇文章都是必看的干貨。
李飛飛在這篇文章中,以她獨有的筆觸為清晰勾勒了下一個前沿領域:空間智能。
同一天的X上,李飛飛也發(fā)帖,表示:空間智能是這樣一想前沿技術:視覺轉(zhuǎn)化為推理、感知轉(zhuǎn)化為行動,想象轉(zhuǎn)化為創(chuàng)造!
圖片
文章中,她給出了一個空間智能的定義:
空間智能是認知的腳手架,它讓我們理解世界、推理、規(guī)劃,并與環(huán)境互動——而今天的AI,還遠未具備這種能力。
那么如何構建空間智能?李飛飛表示目前AI,尤其是多模態(tài)大模型取得了不錯的進展,但局限依舊明顯,比如:
- AI在估計距離、方向、尺寸時,表現(xiàn)常常如隨機猜測;
- 它無法“腦內(nèi)旋轉(zhuǎn)”物體、走迷宮、找捷徑;
- 視頻生成幾秒鐘后往往失去連貫性。
等等,要解決這些問題,就需要把大模型向前推進到下一步:世界模型,把人工智能推進一步到空間智能。
而要實現(xiàn)這一步的跨越,就需要在三個方面努力:生成性、多模態(tài)、交互性,這是空間智能的三大基石。
那么李飛飛新成立的WordLabs是如何在這些方面投入和規(guī)劃的呢?
李飛飛也將roadmap在本文中公開了出來。從創(chuàng)作領域、到機器人、再到科學、醫(yī)療、教育領域,都闡述了自己的研究設想。
最重要的是,這篇文章解答了我們的一個困惑:AI時代,機會那么多,李飛飛為什么獨獨要搞空間智能?
因為,沒有空間智能,我們對“真正智能機器”的愿景就無法完成。
以下是小編整理編譯的文章,enjoy!
一、圖靈的思考:機器能思考嗎?
1950年,計算機技術還僅限于自動算術和簡單邏輯運算,艾倫·圖靈提出了一個至今仍影響深遠的問題:機器能思考嗎?
他擁有非凡的想象力,預見到智能或許有一天可以構建,但并非天生而來。
這一洞見后來開啟了一場名為人工智能(AI)的不懈科學探索。在我從事人工智能工作25年后,圖靈的遠見卓識依然激勵著我。但我們距離目標究竟有多近?答案并不簡單。
如今,諸如大型語言模型等領先的人工智能技術已經(jīng)開始改變我們獲取和處理抽象知識的方式。
然而,它們?nèi)匀皇巧硖帯昂诎抵械奈淖纸橙恕保核鼈兡苎陨妻q卻缺乏經(jīng)驗,知識淵博卻缺乏根基。
空間智能將徹底改變我們創(chuàng)造和與現(xiàn)實世界及虛擬世界互動的方式——它將革新故事講述、創(chuàng)造力、機器人技術、科學發(fā)現(xiàn)等諸多領域。這正是人工智能的下一個前沿領域。
自進入這個領域以來,對視覺和空間智能的追求一直是指引我的北極星。
正因如此,我花費數(shù)年時間構建了 ImageNet——首個大規(guī)模視覺學習和基準測試數(shù)據(jù)集,也是現(xiàn)代人工智能誕生的三大關鍵要素之一(另外兩個要素是神經(jīng)網(wǎng)絡算法和圖形處理器 (GPU) 等現(xiàn)代計算技術)。
也正因如此,我在斯坦福大學的實驗室在過去十年中致力于將計算機視覺與機器人學習相結(jié)合。一年多前,我和我的聯(lián)合創(chuàng)始人 Justin Johnson、Christoph Lassner 和 Ben Mildenhall 共同創(chuàng)立了World Labs :旨在首次將這種可能性完全實現(xiàn)。
在本文中,我將解釋什么是空間智能,為什么它很重要,以及我們?nèi)绾螛嫿軌蜥尫潘氖澜缒P汀@將對創(chuàng)造力、具身智能和人類進步產(chǎn)生重塑作用。
二、空間智能:人類認知的腳手架
AI從未像今天這樣令人興奮。生成式AI,如LLM,從實驗室走向日常生活,成為數(shù)十億人的創(chuàng)造力、生產(chǎn)力和溝通工具。
它們曾被認為不可能完成的任務,如生成連貫文本、代碼、逼真圖像甚至短視頻,現(xiàn)在都輕而易舉。
然而,許多能力仍然超出我們的掌控:
- 自主機器人仍然是未來幻想;
- 疾病研究、新材料發(fā)現(xiàn)、粒子物理的加速夢想仍未實現(xiàn);
- 真正理解并賦能人類創(chuàng)造者的AI,依然遙不可及。
人類視覺與空間感知早已成為智能的基石。從遠古動物感知光影與紋理,到神經(jīng)系統(tǒng)演化,感知與行動的循環(huán)推動了智能的發(fā)展,最終孕育出人類這一物種。
空間智能定義了我們?nèi)绾闻c物理世界互動。每天,我們都在使用它:
- 倒車時想象車與路沿的距離;
- 抓飛過來的鑰匙;
- 走在人群擁擠的街道上而不碰撞;
- 半瞇著眼睛把咖啡倒進杯子里。
- 在極端情況下,消防員在煙霧中穿行,瞬間判斷建筑穩(wěn)定性。
- 兒童通過游戲探索世界……
所有這些都直覺完成,而機器尚無法達到這種流暢度。
空間智能同樣支撐我們的想象力與創(chuàng)造力:
- 從洞穴壁畫到現(xiàn)代電影、沉浸式游戲;
- 從孩子堆沙堡到《Minecraft》建造虛擬世界;
- 從工業(yè)設計到數(shù)字孿生、機器人訓練的仿真模擬。
歷史上,空間智能推動了文明進步:
- 埃拉托色尼利用影子和角度測算地球周長;
- 哈格里夫斯通過并排紡錠提升生產(chǎn)效率;
- 沃森與克里克用3D模型發(fā)現(xiàn)DNA結(jié)構。
空間智能是認知的腳手架,它讓我們理解世界、推理、規(guī)劃,并與環(huán)境互動——而今天的AI,還遠未具備這種能力。
三、AI在空間智能上的現(xiàn)狀與局限
近年來,AI取得了巨大進步:
- 多模態(tài)LLM(MLLM)開始處理圖像、視頻、文本等多種信息;
- 高級機器人可以在受控環(huán)境中操作物體;
- AI生成的圖像和視頻逼真而炫酷。
但真相是:
- AI在估計距離、方向、尺寸時,表現(xiàn)常常如隨機猜測;
- 它無法“腦內(nèi)旋轉(zhuǎn)”物體、走迷宮、找捷徑;
- 視頻生成幾秒鐘后往往失去連貫性。
人類的世界理解是整體性的——不僅看眼前,還理解空間關系、因果與意義。這種通過想象、推理、創(chuàng)造與互動形成的理解力,正是空間智能的力量。
沒有空間智能,AI無法有效駕駛、指導機器人、創(chuàng)造沉浸式體驗,也無法加速材料科學或醫(yī)學研究。
四、未來十年:打造真正具備空間智能的AI
1. 什么是世界模型(World Models)
要讓AI具備空間智能,我們需要邁向世界模型:
一種全新的生成模型,它能理解、推理、生成并與復雜世界互動——
無論虛擬還是現(xiàn)實,遠超今天的LLM能力。
世界模型的三大核心能力:
第一,生成性(Generative)。
空間智能要求AI不僅能識別現(xiàn)實世界,還要能生成新的世界。想象一位建筑師或?qū)а荩麄儾粌H觀察現(xiàn)實,更創(chuàng)造新的空間、場景與故事。生成式AI必須同樣具備這種能力:從有限的數(shù)據(jù)中“構建”世界,而非只是“描述”它。這意味著模型要能理解物理規(guī)律、時空關系與因果動態(tài),并在生成的過程中保持邏輯一致與物理可行性。
第二,多模態(tài)(Multimodal)。
語言模型教會了機器如何掌握文本,但空間智能要求AI能跨越視覺、語言、音頻、運動與觸覺等多維感知。這并不是把多種模態(tài)簡單拼在一起,而是要讓AI真正“理解”這些信息之間的空間關聯(lián)與語義統(tǒng)一性。
比如,一個孩子看到杯子掉落時,不僅看到畫面、聽到聲音,還在心中形成了“重力”這一物理直覺。這種多模態(tài)融合正是空間智能的關鍵。
第三,交互性(Interactive)。
真正的智能無法停留在被動觀察。它必須通過與世界互動來學習,就像人類通過試錯、操作與反饋來理解世界那樣。AI需要能在模擬環(huán)境與現(xiàn)實世界中進行行動、感知結(jié)果、更新模型,形成閉環(huán)式學習。
這種交互是機器從“看世界”邁向“理解世界”的關鍵一步。
這三大能力——生成性、多模態(tài)、交互性,是空間智能的三大基石。
2. 世界模型的技術挑戰(zhàn)
- 規(guī)則復雜:物理、幾何、動力學和語義要統(tǒng)一;
- 高維表示:世界遠比一維語言復雜得多;
- 訓練數(shù)據(jù):需要圖像、視頻、深度、觸覺等多模態(tài)大規(guī)模數(shù)據(jù);
- 模型架構:需要支持3D、4D空間感知與記憶的新型架構。
在World Labs,我們開發(fā)了Marble:
全球首個可以通過多模態(tài)輸入生成和維護一致3D環(huán)境的世界模型,為創(chuàng)作者和故事講述者提供可探索、可互動、可再創(chuàng)造的三維世界。
五、空間智能如何改變世界
空間智能的影響將遠超文字和代碼的范疇。它不僅關乎理解世界,更關乎創(chuàng)造、行動與體驗。
應用領域與進展
- 創(chuàng)造力:World Labs的Marble平臺已將空間智能與可控創(chuàng)作能力交到創(chuàng)作者手中。從電影制作者、游戲設計師到建筑師,都可以快速構建、迭代可探索的3D世界。
- 機器人:通過世界模型,機器人可提升感知—行動循環(huán)能力,實現(xiàn)更高水平的協(xié)作與自主操作。無論是實驗室助手、家庭陪伴,還是軟體機器人、深海探測機器人,都能在空間智能的支持下更安全、精準地執(zhí)行任務。
- 科學、醫(yī)療與教育:
科學研究:模擬實驗、驗證假設、探索人類無法觸及的空間環(huán)境。
醫(yī)療:加速藥物研發(fā)、提升影像診斷、支持患者護理。
教育:讓抽象概念可視化,可互動,讓學習與技能訓練更加高效。
目標愿景:用世界模型為人類打造更美好的世界
開發(fā)AI的動機非常關鍵。作為推動現(xiàn)代AI時代的科學家之一,我始終堅信:AI應當增強人類能力,而非取代它。
多年來,我一直努力讓AI的發(fā)展、部署與治理,與人類的需求保持一致。
雖然極端的科技烏托邦或末日論述層出不窮,我依然保持務實的觀點:AI是由人開發(fā)、由人使用、由人管理的。它必須尊重人的自主權與尊嚴。其魔力在于擴展我們的能力,讓我們更有創(chuàng)造力、更緊密相連、更高效、更充實。
而空間智能,正代表了這一愿景——讓AI賦能創(chuàng)作者、護理者、科學家和夢想家,實現(xiàn)曾被認為不可能的事。
在所有這些領域,潛力無限,但目標始終一致:
AI增強人類專業(yè)能力、加速人類發(fā)現(xiàn)、放大人類關懷,而非替代人類判斷力、創(chuàng)造力與同理心。
六、結(jié)語:北極星般的使命
過去十年里,AI成為全球現(xiàn)象,也成為科技、經(jīng)濟甚至地緣政治的重要轉(zhuǎn)折點。
然而,無論作為研究者、教育者,還是如今的創(chuàng)業(yè)者,真正持續(xù)驅(qū)動我的,仍然是圖靈75年前提出的問題背后的精神。
我依舊保持那種好奇與敬畏,這也是我每天面對空間智能這一巨大挑戰(zhàn)時的動力來源。
歷史上第一次,我們有機會構建一類與物理世界高度契合的機器,并在我們應對最大的挑戰(zhàn)時真正依賴它們。
無論是加速實驗室中的疾病研究、革新我們講述故事的方式,還是在疾病、受傷或衰老的脆弱時刻給予支持,我們正站在一種全新技術的門檻上:它能提升生活中最重要的部分,讓生活更廣闊、更豐富、更具力量。
在自然首次為祖先動物點亮空間智能的近五億年之后,我們這一代技術工作者有幸處在一個可能把同樣能力賦予機器的時刻——并且有機會將這種能力用于造福每一個人。
沒有空間智能,我們對“真正智能機器”的愿景就無法完成。
這是我的北極星,也是我永遠追求的前沿。
邀請你,與我一同探索這一偉大前沿。
參考鏈接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence


































