李飛飛全新「世界模型」問世！單張H100實時生成3D永恒世界

2025-10-17 09:53:23

人工智能新聞

RTFM將未來提前帶到眼前，讓我們看到了未來世界模型在當今硬件上部署的雛形，并為「將世界模型視為從數據中端到端學習的渲染器」這一理念設定了技術路線。

就在剛剛，李飛飛World Labs重磅發布全新實時生成式世界模型——RTFM（Real-Time Frame Model，實時幀模型）！

這是一款效率極高的，在大型視頻數據上進行端到端訓練的自回歸擴散Transformer模型。

僅需一塊H100 GPU，RTFM就能在你與之交互時，實時渲染出持久且3D一致的世界，無論是真實場景還是想象空間。

其獨特之處在于，它不構建世界的顯式三維表征。相反，它接收一張或多張二維圖像作為輸入，然后直接從不同視點生成同一場景的全新二維圖像。

簡單來說，你可以將它看作一個「學會了渲染的AI」。

僅僅通過觀察訓練集中的視頻，RTFM便學會了對三維幾何、反射、陰影等復雜物理現象進行建模；而且，還能利用少量稀疏拍攝的照片，重建出真實世界的具體地點。

請注意，接下來你看到的這些不是真實視頻，它們完全是由RTFM實時生成的畫面。

RTFM的設計圍繞三大核心原則：

高效性：僅需單塊H100 GPU，RTFM便能以交互式幀率運行實時推理。
可擴展性：RTFM的設計使其能隨著數據和算力的增加而擴展。它在建模3D世界時不依賴于顯式的3D表示，并采用一種通用的端到端架構，從大規模視頻數據中學習。
持久性：可以與RTFM進行無休止的交互，而這個世界將永不消逝。它所模擬的是一個持久的3D世界，不會在您移開視線時消失。

RTFM可渲染由單張圖像生成的3D場景。同一個模型能處理多樣的場景類型、視覺風格和效果，包括反射、光滑表面、陰影和鏡頭光暈

有網友戲言，「我們的世界或許是在單個H100上運行的」。

前谷歌高級工程師表示，RTFM最新成果真正解決了，長期困擾世界模型可擴展性的問題。

現在，RTFM正式開放，任何人皆可試玩。

傳送門：https://rtfm.worldlabs.ai/

世界模型：算力吞噬者

我們憧憬著這樣一個未來：強大的世界模型能夠實時地重建、生成并模擬一個持久、可交互且遵循物理規律的世界。這類模型將徹底改變從傳媒到機器人等眾多行業。

過去一年，隨著生成式視頻建模的進步被應用于生成式世界建模，這項新興技術的發展令人振奮。

隨著技術的發展，有一點日益清晰：生成式世界模型的算力需求將極其龐大，遠超當今的大語言模型。

如果我們簡單地將現有視頻架構應用于此，要以60fps的幀率生成一個交互式的4K視頻流，每秒需要生成超過10萬個token（大約相當于《弗蘭肯斯坦》或第一本《哈利·波特》的長度）。

而要在一小時或更長的交互中維持這些內容的持久性，則需要處理超過1億token的上下文窗口。

以當今的計算基礎設施而言，這既不可行，也不具備經濟效益。

團隊堅信「苦澀的教訓」（The Bitter Lesson）：在AI領域，那些能隨著算力增長而平滑擴展的簡單方法往往會占據主導地位，因為它們能受益于數十年來驅動所有技術進步的、呈指數級下降的計算成本。

生成式世界模型恰好能從未來算力成本持續降低的趨勢中獲得巨大優勢。

這自然引出一個問題：生成式世界模型是否會受限于當今的硬件瓶頸？或者說，我們是否有辦法在今天就一窺這項技術的未來？

高效性：將未來提前帶到眼前

對此，李飛飛團隊設定了一個簡單的目標：設計一個足夠高效、可在當前部署，并能隨算力增長而持續擴展的生成式世界模型。

而更為宏大的目標是：構建一個能在單塊H100 GPU上部署的模型，既要保持交互式幀率，又要確保世界無論交互多久都能持久存在。

實現這些，將讓我們得以將未來愿景呈現在當下，通過今天的體驗一窺這類模型在未來的巨大潛力。

而這一目標，也影響了從任務設定到模型架構的整個系統設計。

為此，團隊精細優化了推理堆棧的每一個環節，應用了架構設計、模型蒸餾和推理優化等領域的最新進展，力求在今天的硬件上，以最高保真度預覽未來模型的樣貌。

可擴展性：將世界模型視為「學習型渲染器」

傳統的3D圖形管線使用顯式的3D表征（如三角網格、高斯濺射）來對世界進行建模，再通過渲染生成2D圖像。它們依賴于人工設計的算法和數據結構來模擬3D幾何、材質、光照、陰影、反射等效果。

這些方法作為計算機圖形學領域數十年來可靠的支柱，卻難以隨數據和算力的增長而輕松擴展。

相比之下，RTFM則另辟蹊徑。

它基于生成式視頻建模的最新進展，訓練一個單一的神經網絡。該網絡僅需輸入場景的一張或多張2D圖像，便能從新的視角生成該場景的2D圖像，而無需構建任何顯式的3D世界表示。

RTFM的實現是一個在幀序列上運行的自回歸擴散Transformer。它通過對大規模視頻數據進行端到端訓練，學會在給定前序幀的條件下預測下一幀。

RTFM可被視為一個「學習型渲染器」——

輸入的幀被轉換為神經網絡的激活值（即KV緩存），從而隱式地表征了整個世界；
生成新幀時，網絡通過注意力機制從這一表征中讀取信息，從而創建出與輸入視圖一致的世界新視圖。

從輸入視圖到世界表征的轉換，再到從表征渲染新幀的整個機制，均通過數據進行端到端學習，而非人工設計。

RTFM僅通過在訓練中觀察，便學會了模擬反射、陰影等復雜效果。

可以通過將RTFM與Marble相結合，由單張圖像創建3D世界。RTFM能夠渲染光照和反射等復雜效果，這些都是端到端地從數據中學習得到的

RTFM打破了重建（在現有視圖之間進行插值）與生成（創造輸入視圖中未見的新內容）之間的界限，而在計算機視覺領域，這兩者歷來被視為獨立問題。

當為RTFM提供大量輸入視圖時，由于任務約束更強，它更傾向于重建；而當輸入視圖較少時，它則必須進行外推和想象。

可以使用RTFM從短視頻中渲染真實世界的場景

持久性：以帶位姿的幀作為空間記憶

真實世界的一個關鍵屬性是持久性：當你移開視線時，世界不會消失或徹底改變；無論你離開多久，總能回到曾經到過的地方。

這對于自回歸幀模型而言一直是個挑戰。

由于世界僅通過2D圖像幀被隱式表征，要實現持久性，模型就必須在用戶探索世界時，對一個不斷增長的幀集合進行推理。這意味著生成每個新幀的成本都比前一個更高，因此模型對世界的記憶實際上受限于其算力預算。

RTFM通過為每個幀建模一個在 3D 空間中的位姿（位置和方向）來規避此問題。

團隊通過向模型查詢待生成幀的位姿來生成新幀。這樣，模型對世界的記憶（包含在其幀中）便具有了空間結構；它使用帶位姿的幀作為一種空間記憶。

這為模型賦予了一個弱先驗——即它所建模的世界是一個三維歐幾里得空間——而無需強迫它明確預測該世界中物體的3D幾何形狀。

RTFM配合「上下文調度」技術，使其能在大型場景中保持幾何形狀的持久性，同時維持高效

RTFM的空間記憶實現了無限的持久性。

在生成新幀時，會通過從帶位姿幀的空間記憶中檢索附近的幀，為模型形成一個自定義的上下文。

團隊將這種技術稱為「上下文調度」（context juggling）：模型在空間的不同區域生成內容時，會使用不同的上下文幀。

這使得RTFM能夠在長時間的交互中保持大型世界的持久性，而無需對一個不斷增長的幀集合進行推理。

展望未來

擴展RTFM有許多激動人心的方向。比如，通過增強使其能夠模擬動態世界，并允許用戶與生成的世界互動；同樣，它也非常適合擴展。

當前的模型目標是在單塊H100 GPU上實現實時推理，李飛飛團隊期待，面向更大推理預算的更大型號模型將持續帶來性能提升。

責任編輯：張燕妮來源：新智元

3D 模型 AI