Meta開源V-JEPA 2:楊立昆顛覆生成式AI,世界模型性能碾壓英偉達30倍 原創
“通過生成像素來模擬真實世界,不僅是一種浪費,更是注定失敗。”2024年2月,當OpenAI的Sora驚艷全球時,圖靈獎得主楊立昆的這句炮轟猶如在AI界投下一顆炸彈。
?

?
這位Meta首席AI科學家與網友展開了數天的唇槍舌戰,甚至憤怒表示:“我從沒想過會看到這么多從未為AI或機器學習做過任何事情的人告訴我,我對AI的觀點是錯誤、愚蠢、盲目的。”
?
十五個月后的今天,楊立昆用行動證明了自己的堅持。他親自發布了V-JEPA 2——Meta迄今最強大的開源世界模型,一個讓AI真正理解物理世界的智能引擎。
?

?
預測而非生成:一條少有人走的路
?
此前,當OpenAI的Sora憑借驚艷的視頻生成能力被冠以“世界模型”稱號時,楊立昆的反對聲顯得格外刺耳。在他看來,生成像素與理解世界存在本質差異。
?
“視頻生成似是而非的空間非常大,只需要產生一個合理的樣本就能視為成功,而真實視頻的合理延續空間要小得多。”楊立昆在社交媒體上不斷強調這一觀點。他堅持認為,真正的世界模型應該模擬人類的理解方式 ——通過被動觀察建立概念認知,而非像素級的重建。
?
這一理念源于他2022年提出的JEPA(聯合嵌入預測架構)理論。
?

?
與傳統生成模型不同,JEPA的核心是預測而非重建。如同嬰兒通過觀察學習世界運行規律,JEPA架構通過觀察視頻,在抽象層面預測世界狀態變化,而非生成具體像素。
?
“人類最初對世界的理解,是從最自然的‘觀察’開始,在此基礎上進行學習,總結經驗,形成認知模型。”楊立昆曾這樣解釋自己的設計哲學。
?
而V-JEPA 2正是這一理念的最新結晶。模型包含兩大核心組件:一個編碼器負責提取視頻特征,一個預測器基于這些特征預測未來狀態。
?
這種設計讓AI能在抽象層面理解世界運行規律,而非糾纏于像素細節。
?
V-JEPA 2的突破:速度與理解的革命性飛躍
?
今天開源的V-JEPA 2交出了一份令人震驚的成績單。這個擁有12億參數的模型,在超過100萬小時的視頻訓練后,實現了物理世界理解的質的飛躍。
?

?
最引人注目的是其效率突破。根據Meta測試數據,V-JEPA 2執行任務時每個步驟的規劃用時縮短至英偉達Cosmos模型的三十分之一,同時成功率更高。這一突破對需要實時決策的自動駕駛和機器人領域具有重要意義。
?

?
在實際應用中,V-JEPA 2展現出類人的物理直覺。
?
它可以預測人類舀起一勺東西后將放入另一個容器的意圖:
?

?
它甚至能拆解運動員復雜跳水動作的每個階段,理解連續動作間的因果關系:
?

?
在機器人測試中,V-JEPA 2在觸碰(Reach)、抓取(Grasp)、選擇和擺放物體(Pick-and-place)三類任務中的成功率分別達到100%、45%和73%——這一切都不需要海量的機器人數據或針對性訓練。
?

?
“在世界模型的幫助下,AI不再需要數百萬次的訓練才能掌握一項新的能力,”楊立昆在發布視頻中強調,“世界模型直接告訴了AI世界是怎樣運行的,這可以極大提升效率。”
?
楊立昆描繪了V-JEPA 2將如何重塑現實世界:
?
在輔助技術領域,搭載世界模型的AI助手可幫助視障人士“看見”并理解物理環境,識別障礙物和潛在危險;
在教育領域,混合現實頭顯中的AI導師能理解學生的操作,提供個性化指導;
在工業自動化中,機器人將獲得真正的環境理解能力, 在無需海量訓練數據的前提下完成復雜任務。
他認為,世界模型將為機器人開啟一個新時代,讓現實世界中的人工智能助手能夠在不需要海量訓練數據的情況下,幫助人們完成家務和體力勞動。
?
為推動整個行業進步,Meta同時發布了三個創新的基準測試工具:IntPhys 2(復雜合成環境中的直觀物理理解測試)、基于最小視頻對的物理理解視頻問答基準、以及CausalVQA(視頻模型的物理基礎因果推理測試)。
?
這些工具將幫助研究界客觀評估模型對物理世界的理解能力。
?
物理理解:通往AGI的必經之路
為何物理理解如此重要?因為它代表了AI從數字世界走向物理世界的關鍵一步。
?
“理解世界物理規律聽起來并不復雜,但這是AI與人類差距非常大的一個方面,”Meta在技術說明中指出。人類天生理解重力作用、物體持久性和運動軌跡預測,這些直覺對AI卻異常困難。
?
楊立昆一直強調,物理理解是實現AGI(人工通用智能)的基礎。真正的智能體需要構建理解物理世界的“心理模型”,才能像人類一樣預測行為后果并規劃行動。
?
隨著谷歌DeepMind的Genie、李飛飛的World Labs等團隊紛紛投入世界模型研發,物理理解已成為AI巨頭競逐的下一個前沿。
?
而Meta憑借V-JEPA 2,在這一關鍵賽道占據了領先位置。
?
大家怎么看?歡迎在評論區留言討論~

















