AI的未來:Bill Dally與Yann LeCun談計算驅動與世界模型的突破
- ?題目:Frontiers of AI and Computing: A Conversation With Yann LeCun and Bill Dally
- 談話人:
Bill Dally, Chief Scientist and SVP of Research, NVIDIA
Yann LeCun, Chief AI Scientist at Meta, Professor at New York University
- 時間:March 2025 (GTC 2025)

核心觀點
1. AI發展方向
Bill Dally
- AI在過去十年取得顯著進展,尤其得益于計算能力的提升,如GPU性能從Kepler到Blackwell增長5000至10000倍。
- AI未來需關注訓練與推理的權衡,強大模型需更多訓練資源,較弱模型可通過多次推理增強能力。
Yann LeCun
- LLM已是上一代技術,當前僅在產業界外圍調整,缺乏突破性潛力。
- AI應聚焦四大方向:理解物理世界、實現持久記憶、提升推理能力、增強規劃能力,這些是未來五年的研究重點。
- AGI短期實現(幾年內)是胡說,真正的人類水平智能可能需十年,需新范式而非僅擴展LLM。
2. 世界模型
Yann LeCun
- 世界模型是人類理解物理世界的核心,嬰兒在數月內通過觀察形成,AI需類似能力。
- LLM基于離散令牌預測,無法有效處理高維連續數據(如視頻),像素級預測浪費資源且失敗。
- 聯合嵌入預測架構(JEPA)是解決方案,通過編碼器生成抽象表示,在潛在空間預測,避免細節不可預測性。
- JEPA能從視頻中學習物理可能性,如判斷物體行為是否符合現實,已在小規模驗證(如V-JEPA)。
3. 推理與規劃
Yann LeCun
- 當前LLM的推理方式(生成大量令牌序列并篩選)效率低下,類似隨機寫程序后測試,無望實現復雜任務。
- 人類和動物在抽象心理空間推理和規劃,不依賴語言或令牌,AI需模仿此模式。
- JEPA可實現給定狀態和行動預測下一狀態,支持零樣本任務規劃,三到五年內有望小規模成功。
- 推理分System 1(自動反應)和System 2(深思規劃),當前AI擅長System 1,需新架構突破System 2。
4. AI應用與社會影響
Bill Dally
- AI已改善人類生活,如醫療和駕駛領域,需關注部署時的可靠性與準確性。
- AI有負面潛力(如深度偽造),需平衡利弊,尤其在高風險應用中需近乎完美。
Yann LeCun
- AI在醫學(如影像篩查、MRI加速)和自動駕駛(減少40%碰撞)有顯著應用,短期影響巨大。
- 部署AI系統比預期難,尤其高可靠性場景(如自動駕駛),需整合現有系統且成本高。
- AI負面應用(如深度偽造)未顯著增加惡意內容,公眾適應力強,災難場景不可信。
- Galactica受批判而ChatGPT受歡迎表明公眾接受度取決于用途而非技術本身,更好AI是解決誤用的關鍵。
5. 硬件需求
Bill Dally
- GPU能力提升(5000-10000倍)及擴展技術支持AI進步,未來需持續增強硬件以滿足新模型需求。
- 神經形態硬件和處理器內存一體(PIM)可能在邊緣計算中有前景,如智能眼鏡的低功耗處理。
Yann LeCun
- JEPA等新模型運行時計算成本高,需強大硬件支持,視頻處理(如V-JEPA)尤甚。
- 當前數字CMOS占主導,神經形態硬件短期無優勢,因無法復用硬件且跨芯片通信效率低。
- 生物啟發(如視網膜壓縮)表明傳感器內處理可降低功耗,PIM在邊緣設備(如智能眼鏡)有潛力。
- 量子計算僅適合量子系統模擬,超導和光學技術短期內難以突破現有硬件局限。
6. 開源AI
Bill Dally
- LLaMA的開放權重推動生態發展,用戶下載超10億次,顯示開源AI的廣泛應用潛力。
Yann LeCun
- 開源AI(如LLaMA)加速創新,全球協作證明好點子無地域限制。
- 未來AI需多樣化,支持所有語言和文化,單一公司無法實現,需開源平臺支撐。
- 分布式訓練是未來趨勢,各地貢獻數據但保留所有權,構建共識基礎模型,專有平臺將消失。
- Meta通過開源(如PyTorch、LLaMA)獲益,因核心業務非模型本身,生態繁榮不構成威脅。
目錄
一、AI研究的新方向:超越大語言模型
二、構建世界模型:從令牌到抽象表示
三、超越生成式推理:抽象空間的規劃
四、AI的實際應用:從醫學到自動駕駛
五、開源AI:全球協作與多樣化的未來
六、AI的計算需求:從GPU到新興技術
一、AI研究的新方向:超越大語言模型
Bill Dally:大家好!我們將就AI相關話題進行一次簡短對話,希望大家會覺得有趣。Yann,過去一年AI領域發生了許多引人注目的進展。在你看來,哪一項是最激動人心的?
Yann LeCun: 發展太多,難以一一列舉,但我可以提到一點,可能讓一些人感到意外。我對LLM不再感興趣。它們已經是上一代技術,目前掌握在產業界的產品團隊手中,更多是在小幅改進,追求更多數據、更大算力、生成合成數據。我認為有四個更有趣的問題:如何讓機器理解物理世界——Jensen今天上午在主題演講中提到過;如何讓它們具備持久記憶,這一點很少有人討論;最后兩個是如何實現推理和規劃。當然,有人嘗試讓LLM具備推理能力,但在我看來,這種方式對推理的理解過于簡單化。我相信有更好的方法。我關注的是未來五年可能會讓科技界興奮的方向,盡管現在它們只是學術論文中的晦澀內容。
二、構建世界模型:從令牌到抽象表示
Bill Dally: 如果不是LLM來推理物理世界、保持持久記憶并進行規劃,那會是什么?底層模型會是什么?
Yann LeCun: 許多人在研究世界模型。什么是世界模型?我們大腦中都有世界模型,它讓我們能夠操控思維。我們對當前世界有模型。如果我從頂部推這個瓶子,它可能會翻倒;從底部推,它會滑動;用力過猛,它可能會爆開。我們在生命最初幾個月就獲得了物理世界模型,這讓我們能應對現實世界。處理現實世界比處理語言要難得多。我認為,真正能應對現實世界的系統需要完全不同于當前架構的設計。LLM預測的是令牌(token),但令牌可以是任何東西。自動駕駛模型使用傳感器輸入的令牌,生成駕駛指令的令牌,在某種程度上,它在推理物理世界,至少是判斷哪里安全駕駛、不會撞上電線桿。為什么令牌不是表示物理世界的正確方式?
Yann LeCun: 令牌是離散的。我們討論令牌時,通常指一個有限的可能性集合。在典型LLM中,可能令牌數量大約是10萬級別。當你訓練系統預測令牌時,無法讓它精確預測文本序列中的下一個令牌。但你可以生成詞典中所有可能令牌的概率分布——一個10萬維的向量,每個值在0到1之間,總和為1。這我們知道如何實現。但對于視頻或高維連續的自然數據,我們不知道如何做到。試圖通過訓練系統在像素級預測視頻來理解世界或構建心智模型的每一次嘗試都失敗了。即使是訓練神經網絡學習圖像的良好表示,所有通過從損壞或變換版本重建圖像的技術都失敗了。不是完全失敗——它們有些效果,但遠不如我們稱為聯合嵌入(joint embedding)的替代架構。這些架構不試圖在像素級重建,而是學習圖像、視頻或自然信號的抽象表示,在這個抽象表示空間中進行預測。我常舉的例子是,如果我拍攝這個房間的視頻,移動鏡頭到這里停下,讓系統預測視頻后續,它可能會預測這是一個房間,有人坐在里面,等等。但它無法預測你們每個人的具體長相。這從視頻的初始片段是完全不可預測的。世界中有很多不可預測的東西。如果訓練系統在像素級預測,它會把所有資源浪費在嘗試發明無法預測的細節上。這是資源的徹底浪費。我20年來嘗試通過自監督學習預測視頻訓練系統,都不起作用。只有在表示層級上才有效。這意味著這些架構不是生成式的。
Bill Dally: 你是說變換器(transformer)沒有這種能力——但有人用視覺變換器取得了不錯結果。
Yann LeCun: 我不是這個意思,因為變換器可以用在這些架構中。我說的是聯合嵌入預測架構(joint embedding predictive architecture)。拿一段視頻或圖像,甚至文本,通過編碼器生成一個表示;然后拿后續文本、視頻或圖像的變換版本,也通過編碼器生成表示,在這個表示空間中進行預測,而不是在輸入空間。你可以用相同的訓練方法填補空白,但在潛在空間而不是原始表示中進行。
Bill Dally: 確實如此。難點在于,如果不小心、不使用巧妙技術,系統會坍塌——它會忽略輸入,僅生成一個恒定的、不具信息量的表示。
三、超越生成式推理:抽象空間的規劃
Yann LeCun: 五六年前,我們沒有任何技術防止這種情況發生。現在,如果你想用它構建一個代理系統或能推理和規劃的系統,你需要一個預測器。當它觀察一段視頻時,能大致了解世界當前狀態,然后預測如果我采取某個想象中的行動,下一個狀態是什么。你需要一個預測器,給定世界狀態和想象的行動,能預測下一狀態。如果有了這樣的系統,你就能規劃一系列行動達到特定目標。這是我們所有人進行規劃和推理的真正方式——不在令牌空間中。舉個簡單例子。現在有很多所謂的代理推理系統,它們的運作方式是生成大量令牌序列,用不同方法隨機生成,然后用另一個神經網絡從所有序列中選出最佳的。這就像不會寫程序卻要寫程序——隨機寫代碼,測試所有代碼,保留給出正確答案的那個。這是完全無望的。
Bill Dally: 有超優化(super-optimization)的論文建議這樣做。對于短程序。
Yann LeCun: 對于短程序當然可以——但隨著代碼行數增加呈指數增長,很快就無望了。
Bill Dally: 許多人說通用AI(AGI)——或者你說的AMI——即將來臨。你的看法是什么?你認為它什么時候到來?有哪些差距?
Yann LeCun: 我不喜歡“AGI”這個詞,因為人們用它指代具備人類水平智能的系統,但人類智能是高度特化的。稱它為“通用”是個誤解。我更喜歡“AMI”——我們讀作“AMI”——意思是高級機器智能。只是個術語問題。我描述的這個概念——系統能學習世界的抽象心智模型并用于推理和規劃——我認為三到五年內我們能在小規模上很好地掌握它。然后是擴展規模的問題,直到達到人類水平AI。歷史上有過一代又一代AI研究者發現新范式,宣稱“就是它——10年內,或5年內,我們會有人類水平智能,機器會在所有領域超過人類”。70年來一直如此,每10年一個浪潮。當前浪潮也是錯的。認為只需擴展LLM規模或讓它們生成數千令牌序列再選出好的,就能達到人類水平智能,甚至幾年內——有人預測兩年——在數據中心里創造一個天才國度,我認為是胡說。完全是胡說。當然,近期會有很多應用,系統可能達到博士水平。但整體智能上,我們還很遠。我說“很遠”,可能十年左右——不算太遠。
四、AI的實際應用:從醫學到自動駕駛
Bill Dally: AI已在許多方面改善人類生活,讓生活更便利。你認為AI哪個應用最具吸引力、最有益?
Yann LeCun: 有顯而易見的例子。我認為AI對科學和醫學的影響可能比我們現在想象的更大,盡管已經很顯著。不只是在蛋白質折疊、藥物設計等研究領域——理解生命機制——還有短期影響。現在在美國,你做醫學影像檢查,經常涉及AI。乳腺X光片可能用深度學習系統預篩查腫瘤。做MRI,待在機器里的時間減少了四分之一,因為現在可以用更少數據恢復高分辨率圖像。很多短期效果。當然,我們的車——英偉達是主要供應商之一——現在大多配備駕駛輔助或自動緊急制動系統。在歐洲,這幾年來是強制裝備。這些系統能減少40%的碰撞。它們救命。這是巨大的應用。這不是生成式AI——不是LLM——是感知系統,當然還有一點控制。顯然,現有或未來幾年的LLM在工業、服務等領域有很多應用。但我們也要考慮局限性——部署系統達到預期準確性和可靠性比多數人想的難。自動駕駛就是如此。達到第5級自動駕駛的時間表一直在推遲——我想未來也是這樣。AI失敗的地方通常不在基礎技術或炫酷演示,而是在實際部署、應用、確保可靠并與現有系統整合時。這會變得困難、昂貴,耗時超預期。像自動駕駛這種必須時刻正確的應用——否則可能有人受傷或死亡——準確性需近乎完美。但很多應用只要大多數時候正確就很有益——如某些醫學應用,醫生會復查,或娛樂、教育等領域,你希望利大于弊,錯誤后果不嚴重。
Bill Dally: 確實如此。對大多數系統,最有用的那些是提升人們生產力或創造力的。
Yann LeCun: 像編碼助手幫助他們。在醫學、藝術、文本生成中都如此——AI不是取代人,而是給他們強大工具。
Bill Dally: 未來可能會取代,但——
Yann LeCun: 我不認為人們會接受。未來AI系統,包括超智能、超人類系統,我們的關系是我們是它們的老板。我們會有一個超智能虛擬團隊為我們工作。我不知道你怎么樣,但我喜歡和比我聰明的人共事。
Bill Dally: 我也是。世上最棒的事。正面是AI能多方面造福人類,反面是有人會用它制造深度偽造、假新聞,若應用不當可能引發情感困擾。你對AI使用最大的擔憂是什么?如何緩解?
Yann LeCun: Meta很熟悉的一件事是用AI對抗攻擊,無論攻擊是否來自AI。可能讓人意外的是,盡管LLM和深度偽造技術已存在多年,我們負責檢測和移除這類攻擊的同事說,我們沒看到社交網絡上生成內容大幅增加——至少不是以惡意方式發布,通常會標注為合成內容。我們沒看到三四年前警告的那種災難場景——“這會摧毀所有信息”。有個有趣的故事。2022年秋,我的Meta同事,一個小團隊,訓練了一個涵蓋全部科學文獻的LLM——他們能拿到所有技術論文。叫Galactica,公開上線,附帶描述訓練過程的長論文、開源代碼和可玩的演示系統。Twitter上對此潑了一盆冷水。有人說,“這太可怕了,會害死我們,毀掉科學交流系統——現在任何傻瓜都能寫出看似科學的論文,比如吃碎玻璃的好處。”負面意見如海嘯般涌來,我那可憐的五人小團隊夜不能寐,他們撤下了演示。開源代碼和論文留下了——演示沒了。我們得出結論:世界還沒準備好這種技術,沒人感興趣。三周后,ChatGPT出來了,像是救世主再臨。我們面面相覷,說:“怎么回事?”我們無法理解公眾對此的熱情,和之前反應的對比。
Bill Dally: ChatGPT的討論不是要寫學術論文或做科學——它是能對話、回答任何問題的東西。試圖更通用化。在某種程度上,對更多人更有用——或大致有用。
Yann LeCun: 有危險,肯定有各種濫用。但對抗濫用的對策是更好的AI。如我之前所說,有不可靠系統——解決方法是更好的AI系統,具備常識、推理能力,檢查答案是否正確,評估自身答案可靠性——目前還做不到。但災難場景——我不信。人們會適應。
五、開源AI:全球協作與多樣化的未來
Bill Dally: 我認為AI大多有益,盡管有點壞處。作為大西洋兩岸都有家的人,你有全球視角。你認為AI未來創新會從哪來?
Yann LeCun: 可以來自任何地方。聰明人無處不在。沒人壟斷好點子。有些人有極大優越感,以為自己不需交流就能想出所有好點子。我作為科學家,經驗告訴我不是這樣。好點子來自多人互動、思想交流,過去十年還有代碼交換。這是我強烈支持開源AI平臺的原因之一,Meta也部分采納了這哲學。我們沒壟斷好點子——再聰明也不行。DeepSeek的故事表明好點子可來自任何地方。中國有很多優秀科學家。一個故事很多人該知道:過去10年科學界引用最多的論文是什么——2015年發表,剛好10年前,關于一種叫ResNet(殘差網絡)的神經網絡架構,來自北京微軟研究院,一群中國科學家完成。領銜作者是何愷明。一年后,他加入加州Meta的FAIR,待了八年,最近去了MIT。
Bill Dally: 去了MIT,沒錯。
Yann LeCun: 這說明全球有很多優秀科學家。點子可從各地冒出。但要把點子付諸實踐,需大基礎設施、大量計算——得給朋友、同事很多錢買硬件。但開放的知識社區讓進步更快,因為有人在這兒想到半個好點子,別人那兒想到另一半,若交流就成了。若都封閉孤立,進步就不發生。
Bill Dally: 沒錯。還有一點——創新點子要涌現——作為英偉達首席科學家,你明白——得給人們長繩子。得讓他們創新,別每三六個月壓他們出成果。
Yann LeCun: DeepSeek是這樣,LLaMA也是。不廣為人知的故事是,2022年FAIR有幾個LLM項目——一個資源多,高層支持,另一個是巴黎十幾人的小海盜項目,他們因某種需要自己建LLM。這成了LLaMA。大項目——你沒聽說過——停了。你不需所有支持也能有好點子。若管理層隔離你、放手,你能想出比按計劃創新更好的點子。這十幾人做了LLaMA 1。當然,后來決定以此為平臺,而非另一項目,建了團隊做LLaMA 2,開源后在領域掀起革命。然后是LLaMA 3——截至昨天,LLaMA下載超10億次。我覺得不可思議。我猜包括你們很多人,但那些人是誰?你該知道,他們得買英偉達硬件跑這些。
Bill Dally: 感謝你幫我們賣GPU。談談開源。LLaMA很創新,是頂尖LLM,至少開放權重,人們可下載自己運行。利弊是什么?公司投入巨資開發、訓練、微調模型,然后免費放出。好處是什么,壞處呢?
Yann LeCun: 若你是靠服務直接賺錢的公司,有壞處。若那是你的唯一業務,公開所有秘密可能不利。但若你是Meta——或某種程度上的Google——收入來自別處:Meta是廣告,Google有多種來源,未來或許還有其他。短期收入不重要——關鍵是:你能為想建的產品開發所需功能嗎?能讓全球最多聰明人貢獻嗎?對全世界——若其他公司用LLaMA做其他事,不傷Meta——他們沒社交網絡可建在上面。對Google威脅更大,你能用它建搜索引擎——這可能是他們對此態度不積極的原因。我們看到的效果——先是PyTorch對社區的影響,然后是LLaMA 2——啟動了整個初創生態。現在大行業也如此,人們有時用專有API原型AI系統,部署時最劃算的方式是用LLaMA,因為可本地運行——或其他開源模型。但哲學上,想有開源平臺最重要的原因是,很快,我們與數字世界每一次互動都將由AI系統調解。我戴著Ray-Ban Meta智能眼鏡——可通過它與Meta AI對話,問任何問題。我們不認為人們想要單一助手,或這些助手只來自美國西海岸或中國的幾家公司。我們需極其多樣的助手——說世界所有語言,懂所有文化、價值觀、興趣中心,有不同偏見、政治觀點等等。我們需多樣助手,就像需多樣媒體——否則信息都來自同一來源,對民主等不利。我們需一個任何人可用來建助手的平臺——多樣助手群體——現在只能通過開源平臺做到。未來更重要,若要基礎模型說世界所有語言等,沒單一實體能獨自做到。誰會收集全球所有語言數據,交給OpenAI、Meta、Google或Anthropic?沒人——他們想留數據。世界各地會想為全球基礎模型貢獻數據,但不交出數據。可能為訓練全球模型出力——這是未來模式。基礎模型將開源,以分布式方式訓練,全球各地數據中心訪問不同數據子集,訓練共識模型。這使開源平臺不可避免,專有平臺會消失。
Bill Dally: 這對語言多樣性和應用也有意義。公司可下載LLaMA,用不愿上傳的專有數據微調。
Yann LeCun: 這正在發生。AI初創的商業模式大多如此——為垂直應用建專用系統。
Bill Dally: 在Jensen的主題演講中,他提到用代理LLM做婚禮規劃——決定誰坐哪桌——這是訓練和推理投入權衡的好例子。一方面,你可有強大模型,訓練耗費巨資;另一方面,建較弱模型,多次運行推理。你認為建強大模型時,訓練時間和推理時間的權衡是什么?最佳點在哪?
Yann LeCun: Jensen完全正確,能推理的系統最終更有威力。我不同意當前LLM增強推理能力的方式是正確途徑——你說它有效,但不是正確方式。
Bill Dally: 不是正確方式。
Yann LeCun: 我們推理、思考時,在與語言無關的抽象心理狀態中進行。你不是踢出令牌——你想在潛在空間、抽象空間中推理。若我說,想象一個立方體浮在你面前,繞垂直軸旋轉90度,你能在腦海中做到——與語言無關。貓也能做到——我們無法用語言向貓描述問題,但貓規劃跳上家具的軌跡時,做的事比這復雜。不關語言——肯定不在令牌空間,那是動作。在抽象心理空間中。這是未來幾年挑戰——找出允許這種事的新架構。這是我在研究的——會有新模型讓我們在抽象空間推理嗎?
Yann LeCun: 我們叫它JEPA,或JEPA世界模型。我和同事過去幾年發表了論文——對此的初步步驟。JEPA是聯合嵌入預測架構。這些世界模型學習抽象表示,能操控這些表示,或許推理并生成行動序列達到特定目標。這是未來。我三年前寫了篇長論文解釋這可能如何運作。
六、AI的計算需求:從GPU到新興技術
Bill Dally: 運行這些模型需優秀硬件。過去十年,GPU能力在AI模型訓練和推理上提升了5000到10000倍——從Kepler到Blackwell——今天看到還有更多,擴展和升級提供了額外能力。你認為未來會有什么?什么能讓我們建你的JEPA和其他更強模型?
Yann LeCun: 繼續努力,因為我們需要能拿到的一切算力。這抽象空間推理想法在運行時計算成本高,與我們熟悉的東西有關。心理學家談System 1和System 2。System 1是你不怎么思考就能完成的任務——你習慣了,不用多想。若你是老司機,可不怎么思考開車——即使沒駕駛輔助。可同時聊天等。但若你首次開車,頭幾小時在方向盤后,得專注你在做什么。規劃各種災難場景,想象各種事。這是System 2——你調動整個前額葉皮層,你的世界模型——內部世界模型——弄清會發生什么,規劃行動讓好事發生。熟悉后,你可用System 1自動完成。你用世界模型開始,能完成任務——即使沒遇過的任務,零樣本——不需訓練解決那任務——僅憑對世界的理解和規劃能力完成。這是當前系統缺失的。若多次完成那任務,最終編譯成所謂策略——反應系統,讓你不規劃就完成。這推理是System 2。自動、無意識、反應性策略是System 1。當前系統能做System 1,正朝System 2邁進,但我認為System 2需不同架構。
Bill Dally: 你認為會是你的JEPA嗎?
Yann LeCun: 若要系統理解物理世界,不會是生成式架構。物理世界比語言難理解得多。我們視語言為人類智力巔峰,但其實語言簡單,因為它是離散的——因是通信機制,需離散,否則不抗噪。你現在聽不懂我說什么。它因此簡單,但現實世界復雜得多。我過去說過:當前LLM訓練用約30萬億令牌。令牌約3字節——0.9×10^13字節——約10^14字節。我們任一人讀完需超40萬年,因為那是網上所有文本總量。心理學家說,四歲児醒著共1.6萬小時,我們視覺皮層通過視神經每秒接收約2兆字節。1.6萬小時乘3600——約10^14字節,四年通過視覺。你看到的數據量等于40萬年讀的文本。這說明僅靠文本訓練永遠達不到AGI——無論你怎么定義。
Bill Dally: 回到硬件,脈沖系統(spiking systems)有不少進展,倡導者看生物系統類比,建議神經形態硬件有作用。你認為神經形態硬件會在AI中補足或替代GPU嗎?
Yann LeCun: 短期不會。事后給我20塊?
Bill Dally: 什么?
Yann LeCun: 我得講個故事。1988年我進貝爾實驗室,我那組專注神經網絡的模擬硬件,建了幾代完全模擬神經網,然后混模擬-數字,到90年代中期全數字。那時人們對神經網失去興趣,就沒意義了。像這樣的奇異原理問題在于,當前數字CMOS處于極深局部極小值,替代技術——及巨額投資——需很久才能趕上。甚至不清楚原理上是否有優勢。像模擬或脈沖神經元、脈沖神經網——可能有些固有優勢,但它們讓硬件復用難。我們現在每塊硬件太大太快,你得復用同一硬件——多路復用——計算不同模型。
Bill Dally: 你的神經網?
Yann LeCun: 若用模擬硬件,不能多路復用——你得為虛擬神經網每個神經元配一個物理神經元。意味著單芯片裝不下像樣大小的神經網——得用多芯片。一旦做到會非常快,但效率不高,因為需跨芯片通信,內存變復雜。最終,你得數字通信——那是唯一高效、抗噪的方式。腦子——有趣信息——多數動物腦中,神經元通過脈沖通信。脈沖是二進制信號——是數字——不是模擬。神經元計算可能是模擬,但神經元間通信是數字——除了微小動物。如 C. elegans——1毫米長蠕蟲——有302個神經元。不脈沖——不需因不需遠距離通信——那尺度可用模擬通信。這說明即使想用模擬計算這類奇異技術,也得某種方式用數字通信,至少為內存。不清楚——我多次算過。你比我知道得多,但我短期看不到這發生。邊緣計算可能有些角落——若想要超便宜微控制器跑吸塵器或割草機的感知系統——若能單芯片裝下,用相變內存存權重,也許有些人真在建這些。
Bill Dally: 這涉及所謂PIM——處理器內存一體——技術,模擬和數字都有。你認為它們有作用嗎?
Yann LeCun: 絕對有。我同事對此很感興趣,因他們想建智能眼鏡后續產品。你想要視覺處理隨時進行——現在因功耗不可能。像圖像傳感器——不能在這種眼鏡里一直開,幾分鐘電池就沒了。一潛在解法是傳感器上直接處理——不需把數據移出芯片,那才耗能。數據移動耗能——不是計算本身。這方面有不少工作,但還沒到那。
Bill Dally: 你認為這是有前景的方向?
Yann LeCun: 我認為是。生物已解決這問題。我們視網膜有約6000萬光感器,前有四層透明神經元處理信號,壓縮到100萬視神經纖維到視覺皮層。有壓縮、特征提取——各種處理——從視覺系統提取最有用信息。
Bill Dally: 其他新興技術呢?你認為量子、超導邏輯或其他會在AI處理能力上給我們大步前進嗎?
Yann LeCun: 超導——也許。我了解不夠多不好說。光學很令人失望。我記得80年代聽光學實現神經網的演講很驚嘆——從未實現。技術在進化——也許會變。我認為那成本多——像模擬——在與數字系統接口轉換時丟了。量子——我極懷疑量子計算。我看到的唯一中期應用是模擬量子系統——如量子化學——也許。其他我很懷疑。
Bill Dally: 你談到建AI能像幼動物從觀察學習。這對硬件有何需求?你認為硬件需如何發展支持這?你能給我們多少?
Yann LeCun: 是你愿買多少。買越多省越多——賺越多,如今天所聞?
Bill Dally: 沒錯。
Yann LeCun: 不會便宜,因視頻——我講個實驗,我同事一年前做的。有種自監督學習技術用重建學圖像表示——我說過這不行。項目叫MAE——掩碼自編碼器。是自編碼器——去噪自編碼器——很像用的方式。拿圖像,破壞掉部分——其實是大塊——訓練巨型神經網重建完整圖像,在像素級——或令牌級。然后用內部表示作為下游任務輸入,監督訓練——物體識別之類。效果還行。得煮沸小池塘冷卻液冷GPU集群來做。不如聯合嵌入架構好——你可能聽過DINO、DINOv2等。那些是聯合嵌入架構——效果更好,訓練更便宜。
Bill Dally: 聯合嵌入是你有兩個輸入類的潛在空間?
Yann LeCun: 沒錯。不是把一切轉為一個令牌——不是拿圖像和損壞或變換版,從損壞或變換版重建全圖像,而是拿全圖像和損壞/變換版,兩者都通過編碼器,然后鏈接——從部分可見、損壞版的表示訓練全圖像表示。這是聯合嵌入預測架構。效果更好,更便宜。MAE團隊說,“圖像行——試視頻。”得把視頻令牌化——視頻轉為16×16補丁——短視頻也有很多補丁。訓練巨型神經網重建缺失補丁——也許預測未來視頻。得煮沸小湖——不是池塘——基本失敗。項目停了。現在替代是V-JEPA項目——接近第二版——是聯合嵌入預測架構。在表示層級預測視頻——效果很好。第一版訓在短視頻,16幀,從部分掩碼版預測全視頻表示。這系統能判斷視頻是否物理可能——至少在限制案例中。給二元輸出——“可行,不可行”——或——
Bill Dally: 更簡單——測系統預測誤差。拿視頻16幀滑動窗口,看能否預測下幾幀,測誤差。視頻有怪事——如物體消失、變形狀或什么——或突然出現、不遵物理——僅觀視頻就物理真實?
Yann LeCun: 訓在自然視頻,測在合成視頻,有怪事發生。若訓在怪事視頻,那成正常——不會覺奇怪。
Bill Dally: 沒錯。
Yann LeCun: 不那樣做。這有點像嬰兒需時間學直覺物理——物體無支撐會掉。重力效應——嬰兒9個月左右學會。給五六個月嬰兒看物體浮在空中——不驚訝——九十個月看,大眼瞪,你能測——心理學家有測注意方法。意指嬰兒內部世界模型——心智模型——被違反。嬰兒見她認為不可能的事——不符預期。她得看它修正內部世界模型——“也許該學這個”。
Bill Dally: 你談到聯合嵌入空間的推理和規劃——我們需什么到那?模型和硬件的瓶頸是什么?
Yann LeCun: 多是讓它生效。需好配方——像以前人們找到訓簡單卷積網的好配方。直到2000年代末,Jeff Hinton告訴大家,“用反向傳播訓深網很難——Yann能用ConvNets,他是世上唯一能的”——當時真但不真。不那么難,但得弄清很多技巧——工程或直覺技巧——用哪非線性。ResNet這想法——10年引用25萬次,科學最引用論文——簡單想法。每層有跳躍連接——默認深神經網一層算恒等函數——神經網做的是偏離——簡單想法——但讓訓—
Bill Dally: 避免反向丟梯度。
Yann LeCun: 沒錯。讓訓百層神經網成可能。之前,人們用技巧——拉中間東西,有損失函數——因不能全程反向傳播。
Bill Dally: 一層死——網就死——得重啟訓練。
Yann LeCun: 人們很快放棄,因沒全技巧。找到好配方前——殘差連接、Adam優化器、歸一化——我們有論文示變換器不需歸一化——這類東西——沒全配方和技巧前,沒東西行。同NLP——自然語言處理系統——2010年代中,基于去噪自編碼器——如BERT型——拿文本,破壞,訓神經網恢復缺詞——最終被GPT式架構取代——訓全系統——作自編碼器,但不破壞輸入,因架構是因果的。配方——證明極成功擴展。我們得為JEPA架構找個好配方,能同樣擴展——這缺了。
Bill Dally: 我們前有紅燈閃。結束前有最后想法留給觀眾嗎?
Yann LeCun: 我想強化之前觀點。AI進展——朝人類水平AI、高級機器智能或AGI,隨你叫它什么——需所有人貢獻。不會從某單一實體秘密研發出來——不會發生。不是事件——是沿途連續進展。人類不會在這發生一小時內滅亡,因不是事件。需全球各地貢獻——開放研究,基于開源平臺。需大量訓練——需更便宜硬件——你得降價。跟Jensen說。
Bill Dally: 我們會有未來,高多樣AI助手助我們日常生活——隨時伴我們,通過智能眼鏡或其他設備——我們是它們老板。它們為我們工作——像我們都成經理。
Yann LeCun: 那未來糟透了。
本文轉載自Andy730,作者:常華Andy

















