李飛飛最新成果RTFM世界模型震撼問世,單塊GPU就能跑 原創
想象一下,僅用一張GPU,就能實時生成永不消失的3D世界——這不再是科幻小說,而是李飛飛團隊帶給我們的現實。
?
今天,李飛飛及其團隊正式發布了全新的世界模型RTFM(A Real-Time Frame Model),憑借其實時運行、持久性和3D一致性三大特性,成功實現了僅靠單張H100 GPU即可流暢運行的技術突破。
?

?
這不僅解決了長期困擾世界模型發展的算力瓶頸問題,更意味著曾經只屬于科技巨頭的世界模型技術,即將進入更廣闊的應用場景,對游戲、影視、零售、家居設計等消費領域產生深遠影響。
?
世界模型的算力困境與RTFM的突破
?
世界模型作為一種能夠理解物理環境動態特征的生成式AI模型,可以通過文字、圖像、視頻及動作數據生成影片,并實現對現實世界的自主導航與模擬。與當前主流的大語言模型不同,世界模型通過學習視頻和機器人數據來理解現實世界,致力于將AI能力拓展至實體產品。
?
然而,世界模型的發展一直面臨著巨大的算力挑戰。據李飛飛團隊分析,如果直接將現有視頻架構應用于世界模型,生成一個60幀的4K交互視頻流,每秒需要處理超過10萬個token——這相當于《哈利·波特》第一本書的文字量。而要維持一小時以上的持續交互,需要處理的上下文token數量將超過1億,基于當前的計算基礎設施,這既不可行,也不具備經濟效益。
?
RTFM模型的革命性在于它成功突破了這一瓶頸。該模型采用自回歸擴散Transformer架構,在大型視頻數據上進行端到端訓練,通過優化架構設計顯著降低了計算負擔。團隊精細優化了推理堆棧的每一個環節,應用了架構設計、模型蒸餾和推理優化等領域的最新進展,最終實現了在單張H100 GPU上以交互幀率進行實時推理的目標。
?

?
技術核心
?
RTFM模型的技術路徑與傳統方法有本質區別。傳統的3D圖形管線使用顯式的3D表征來構建世界模型,然后通過渲染生成2D圖像。這些方法依賴人工設計的算法和數據結構來模擬3D幾何、材質、光照、陰影、反射等效果。
?
而RTFM則走上了一條全新的道路。它不構建世界的顯式3D表征,而是接收一張或多張2D圖像作為輸入,然后直接從不同視點生成同一場景的全新2D圖像。簡單來說,RTFM可以被視為一個“學會了渲染的AI——它僅通過在訓練中觀察視頻,便學會了對三維幾何、反射、陰影等復雜物理現象進行建模。
?

?
這種“學習型渲染器”的方法使RTFM能夠打破重建(在現有視圖之間進行插值)與生成(創造輸入視圖中未見的新內容)之間的界限。當提供大量輸入視圖時,由于任務約束更強,它更傾向于重建;而當輸入視圖較少時,它則必須進行外推和想象。
?
消費級應用場景的顛覆性變革
?
隨著RTFM模型將世界模型的硬件門檻降至單張GPU,未來一系列消費級應用場景可能會迎來顛覆性變革。
?
首當其沖的便是游戲行業。傳統的游戲場景搭建需要大量人工建模和渲染,而RTFM的技術僅需一張圖片即可構建持久存在的3D環境,可大幅降低虛擬場景的搭建成本,并支持實時交互式體驗的持續擴展。
?
不僅如此,玩家除了能享受由AI動態生成的游戲世界,還可以根據行為實時變化,大大提升游戲的自由度和真實感。
?
同樣,RTFM的持久性特性允許用戶與模型進行無休止的交互,而這個世界將永不消逝。這意味著在影視制作行業,導演和設計師可以構建持續存在的虛擬場景,在不同時間、從不同角度進行拍攝和創作,大幅降低外景拍攝和場地搭建成本。
?
涉足3D空間設計的家居設計、房產領域也能受益匪淺。
?
盡管RTFM已經取得了突破性進展,但世界模型的發展旅程才剛剛開始。目前的模型主要專注于靜態世界的建模,而團隊的下一步目標是增強其模擬動態世界的能力,并允許用戶與生成的世界進行實時互動。
?
從市場前景看,空間智能相關模型的需求正在爆發性增長。2024年12月,Omdia最新研究報告《空間計算:云端和邊緣應用》表明,全球空間計算市場預計在2029年突破100億美元,年增速高達18%。而中國元宇宙市場預計2030年規模達8500億元人民幣,其中與空間智能緊密相關的部分占比將高達40%。
?

【圖片來源于網絡,侵刪】
?
李飛飛團隊對RTFM的擴展潛力充滿信心。他們期待,面向更大推理預算的更大型號模型將持續帶來性能提升。隨著算力成本的持續下降和算法的不斷優化,世界模型有望在未來五年內成為企業數字化轉型的核心工具之一,重塑多個行業的生產力邊界。
?
RTFM的發布不僅僅是技術上的突破,更是世界模型從實驗室走向廣泛應用的重要里程碑。它將曾經高不可攀的世界模型技術,變得觸手可及。
?
那個曾經只存在于科幻作品中的賽博朋克世界,或許真的離我們不遠了。

















