視覺語言世界模型來了!AI不僅能看懂視頻,還能自我反思制定計劃,離人類思維更近一步!

文章地址:https://arxiv.org/pdf/2509.02722

亮點直擊
- 提出學習一種以自然語言作為抽象世界狀態表示的世界模型。引入了視覺語言世界模型(Vision Language World Model, VLWM),該模型通過視覺觀察感知環境,并利用基于語言的抽象來預測世界的演化過程。
- 提出將直接世界建模作為目標,并以大規模、未經過濾的視頻數據為基礎進行訓練。
- 采用了一條高效的抽象處理流程,并引入了一種反思式的 System-2 模式,即“帶推理的規劃(planning with reasoning)”。
- VLWM 在多個評估指標上都有較大提升,在 WorldPrediction 程序化規劃任務中也達到了 45% 的準確率,更是創下了SOTA。

總結速覽
解決的問題
當前的高級世界模型在理解和推理動作的語義和時間抽象方面發展不足,無法有效支持復雜的規劃任務。
提出的方案
引入視覺語言世界模型(VLWM),利用自然語言作為抽象的世界狀態表示,通過視覺觀察來感知環境,并預測世界的演化過程。
應用的技術
- 將原始視頻壓縮為分層的字幕樹(Tree of Captions),并通過基于大語言模型的自我優化(Self-Refine)方法精煉為結構化的目標-計劃描述。
- 學習動作策略和動態模型,支持反應性系統1計劃解碼和反思性系統2規劃。
- 使用自監督訓練的評論模型來評估假設未來狀態與預期目標狀態之間的語義距離。
達到的效果
VLWM 在輔助視覺規劃(VPA)的基準評估和 PlannerArena 人類評估中實現了最先進的性能,系統2將 Elo 分數提高了27%。在 RoboVQA 和 WorldPrediction 基準測試中,VLWM 也超越了強大的視覺語言模型基線,達到了SOTA。
方法論
本文旨在訓練一個能夠理解并預測動作如何影響物理世界狀態的世界模型,并開發一個以該世界模型為核心組件的推理與規劃框架。本文方法建立在 LeCun提出的智能體架構之上,其中一個與獎勵無關的世界模型在給定候選動作計劃的情況下進行推演,智能體評估每個推演結果與當前狀態向期望目標推進的程度,并選擇最小化該距離(即成本)的計劃。
下面首先詳細介紹了本文如何提取結構化的基于語言的表示作為未來世界狀態的抽象,包括出于效率考慮的語義壓縮技術和質量優化策略。接著,介紹了如何以自監督方式訓練 critic 來評估成本,并基于成本最小化原理解釋 system-2 的計劃搜索過程。
視覺語言世界建模
給定一個視頻,目標是提取如下圖2(b) 所示的結構化語言表示,該表示由一個目標(描述與解釋)和一個過程性計劃(動作-狀態序列)組成。對于這種視頻到文本的提取任務,一個直接的方法是將完整視頻輸入到一個視覺語言模型(VLM)中,并提示其提取語言表示。然而,這里存在一個不可能三角:在可行的計算與內存預算下,同時實現以下三點幾乎不可能:1)用于細粒度感知的高空間分辨率,2)覆蓋多個過程步驟的長時間跨度,3)能夠理解復雜指令的大型智能 VLM。

為了解決這一挑戰,提出了一個兩階段策略。首先,將輸入視頻壓縮為一個密集的 字幕樹(Tree of Captions),該過程顯著減少了數據體積,同時保留了關鍵語義信息。隨后,使用大型語言模型(LLM)從這些字幕中提取結構化的目標-計劃表示。
由于第二階段完全在文本上進行,因此可以高效地利用大型語言模型處理,并通過 Self-Refine 實現迭代式的質量優化。
將視頻壓縮為字幕樹
每個字幕樹由一組從視頻的不同局部窗口獨立生成的視頻字幕組成,共同形成一個層次化的樹結構。該結構旨在全面捕捉細粒度的局部細節與長時程的全局信息。一個關鍵挑戰在于如何自適應地確定樹的結構,即為字幕生成安排不同層級的窗口。
理想情況下,每個節點或葉子應對應一個語義單一、連貫的單元,避免跨越語義邊界。現有的時間動作定位與分割模型在開放性方面存在局限,因為它們依賴于帶有封閉詞匯表的人工注釋動作分類體系,且通常僅在狹窄的視頻領域中訓練。

最終得到的字幕樹實現了顯著的壓縮效果:例如,Ego4D 數據集中原始大小為 1.1 TB 的視頻文件可以壓縮為小于 900 MB 的字幕文件。
使用 LLM 自我優化提取計劃
給定從視頻中提取的壓縮字幕樹,本文的下一個目標是導出一個結構化的文本表示,作為視覺語言世界模型(VLWM)的預測目標。該表示包含以下四個組成部分:
該表示包含以下四個組成部分:
- 目標描述(Goal description)是對整體成就的高層次總結(例如:“炒西紅柿雞蛋”)。在下游應用中,用戶給出的目標描述通常較為簡潔(例如一句話),省略了全面定義最終狀態的細粒度細節。因此,需要明確的目標解釋。
- 目標解釋(Goal interpretation)包含情境性的解釋,概述初始世界狀態和預期的最終世界狀態。初始狀態描述工具、材料及其依賴關系等當前狀態,為計劃生成提供必要的基礎。最終狀態則對目標描述進行具體化解釋,以便在 System-2 規劃中進行代價評估。例如:“為了達成目標,需要將雞蛋煮熟并與西紅柿混合,同時對混合物進行適當調味。雞蛋應充分攪拌,以獲得均勻的質地……”
- 動作描述(Action description)是系統的最終輸出,將被傳遞給下游執行體或呈現給用戶(例如:“在爐灶上預熱煎鍋”)。它們必須清晰、簡潔且信息充分,以使接收方能夠理解并實現預期的世界狀態轉變。
- 世界狀態(World states)是系統內部的中間表示,用于推理和計劃搜索。它們應作為信息瓶頸:既要充分捕捉所有與任務相關的動作后果,又要盡量減少冗余。例如:“該動作通過提升溫度為煎鍋做烹飪雞蛋的準備。煎鍋的狀態從冷變為熱,準備好進行烹飪。用于預熱的油防止雞蛋粘鍋,確保其均勻熟透……”
為了確保生成的各組成部分滿足上述要求,本文采用一種迭代的 Self-Refine 過程,利用大語言模型(LLMs)作為優化器。本文首先向 LLM 提供輸出要求的詳細描述、預期格式的示例以及格式化后的字幕樹(Tree of Captions)作為輸入,以生成初始草稿。在每一次優化迭代中,LLM 首先對當前草稿提供反饋,并據此生成修訂版本。該自我優化過程會重復進行預設次數,逐步提升輸出質量。
為了將字幕樹輸入到 LLM 中,本文使用深度優先遍歷(DFS)的順序對其進行格式化。這種線性化方式與 LLM 通常訓練和熟悉的文本文檔層級結構相一致(例如:Section 1 → 1.1 → 1.1.1 → 1.1.2 → ...)。本文中本文使用 Llama-4 Maverick,因為其推理效率高且支持較長的上下文輸入。需要指出的是,Self-Refine 方法并不依賴于特定的 LLM 架構。
以下是 Llama-4 Maverick 在 Self-Refine 過程中生成的一些反饋示例:
- 草稿中的 “Prepare the ingredients for Zucchini Curry.” 可以拆分為更具體的動作,例如 “Wash, peel, and chop the zucchini” 和 “Chop the onions and tomatoes.”
- 在炒洋蔥、生姜、大蒜和青辣椒之后的狀態變化,可以包含更多細節,說明這一步如何影響咖喱的整體風味和質地。
- “Display the Zucchini Curry in a bowl” 這個動作更像是展示步驟,而不是一個能推進任務進展的有意義動作,因此應從步驟中移除。
視覺語言世界模型的訓練
VLWM 的訓練任務定義如下公式1所示。

VLWM 通過最小化上述公式右側的交叉熵損失,進行下一個 token 的預測:

該輸入輸出形式體現了世界建模的三個層次:
- 上下文目標推理,即對可能的未來成就進行預測;
- 動作預判,即提出可能的下一步動作;
- 基于動作的世界狀態動態預測。

帶推理的規劃
雖然 System-1 模式支持快速生成計劃,但它缺乏前瞻性、備選方案評估以及修正次優決策的能力。一旦動作被生成,即被固定,模型無法重新考慮或糾正錯誤。這種反應式行為可能導致錯誤積累,尤其是在長期或復雜任務中。
為了解決這些局限性,本文引入 System-2 反思式規劃,其中世界模型與一個評估模塊(critic module)結合,在給定目標的情況下對多個預測的未來進行可取性評估。這使得模型能夠通過代價最小化過程進行推理,從而搜索最優的計劃。
通過自監督學習訓練評估器(Critic)
在基于世界模型的規劃中,代價函數通常用于量化候選計劃所導致的世界狀態與目標狀態之間的距離。它評估當前任務進展與預期目標及最終狀態之間的一致性程度。
在 JEPA 世界模型中,該距離可以通過世界狀態的固定維度嵌入表示之間的 L1 或 L2 距離直接測量。然而,在 VLWM 中,本文必須測量基于語言的世界狀態表示之間的語義距離,而不是計算 token 空間中的距離。

理想情況下,當預測軌跡反映出朝向目標的有意義進展時,代價應較低;當軌跡因無關或錯誤的動作而偏離目標時,代價應較高。
為了建模這種行為,本文以自監督方式訓練一個語言模型,使其能夠在無需顯式標注的情況下評估預測計劃的語義質量。如下圖 3(a) 所示,本文探索了兩種類型的自監督訓練信號用于訓練評估器:
本文從一個基本的部分軌跡出發,構造訓練樣本,并追加以下兩類之一的步驟:
- (i) 來自任務連貫延續的有效下一步;
- (ii) 從無關任務中采樣的干擾步驟。

以確保其對過程順序和時間連貫性的敏感性。




除了 VLWM 的進展數據之外,評估器的構建也支持來自外部來源的監督,以增強泛化能力。例如,偏好微調數據集(由查詢、首選(被選中)響應和被拒絕響應三元組組成)可以直接利用。同樣,由于評估器旨在建模語義距離,它也可以從為學習句子嵌入而設計的基于三元組的數據集中受益。這些來源提供了額外的正/負樣本對,可用于進一步增強評估器的訓練數據。
通過代價最小化實現 System-2 規劃
System-2 規劃涉及三個組件的協同工作:VLWM、評估器(critic)和執行器(actor)。如上圖 3(b) 所示,執行器提出候選動作序列,VLWM 模擬其效果,評估器評估其代價。最終計劃通過選擇預測代價最低的候選序列確定。
執行器可以由 VLWM 本身實現,也可以是一個外部模塊(例如 LLMs),特別是在需要遵循動作空間或輸出格式的額外約束時。執行器可以通過調整候選方案數量來控制搜索寬度,或生成部分計劃以實現更高效的樹搜索。除了評估器計算的代價之外,還可以將任務特定的懲罰項或保護機制整合進代價函數,從而使規劃器能夠遵循外部約束、安全規則或領域特定的偏好。
實驗
實現細節
VLWM-8B
視頻來源:如下表 1 所總結,用于視覺-語言世界建模訓練的視頻主要來自兩個領域:
- 網頁教學視頻:包括 COIN、CrossTask、YouCook2 和 HowTo100M 的子集。這些視頻涵蓋多種任務,并提供清晰的專家演示。
- 第一人稱視角錄制:包括 EPIC-KITCHENS-100 和 EgoExo4D。這些視頻展示了真實可穿戴代理場景中的連續、未剪輯錄制內容。

對于所有數據集,本文從其訓練集劃分中收集視頻。盡管 Ego4D 是一個大規模第一人稱視角錄制數據集,但本文將其排除在訓練數據之外,以避免由于訓練/驗證劃分不一致而與基準測試產生潛在重疊。
視覺-語言世界建模數據的生成。 本文使用感知編碼器 PE-G14 和 PerceptionLM-3B(空間分辨率為 320×320,每個輸入包含 32 幀,可在 32GB V100 上運行)生成標題樹(Tree of captions)。本文根據樹結構(BFS 遍歷順序的前 5 個節點)從每個視頻中最多采樣 5 個目標窗口,并使用 Llama-4 Maverick(128 路專家混合,激活參數為 17B,總參數為 400B,FP8 精度)從包含標題子樹的窗口中提取計劃,過程包括兩輪 Self-Refine。為了提升 LLM 在計劃提取過程中的視頻理解能力,本文為網頁視頻提供了額外的語音轉錄文本,并為 EgoExo4D 提供了專家解說內容,作為視頻標題的補充。
除了基于視頻的提取外,本文還將 NaturalReasoning 數據集重新用于世界建模,將標題樹替換為思維鏈(chain-of-thoughts)。動作-狀態軌跡通過 LLM 的 Self-Refine 和相似的提示詞進行提取。
VLWM-critic-1B

最后,加入用于學習語義相似性的訓練數據,將 ??<query, positive sentence, negative sentence>?? 三元組轉換為:query 作為目標,positive sentence 作為正向動作,negative sentence 作為負向動作。該類數據包括 MS-MARCO、SQUAD、HotPotQA、NaturalQuestions 和 FEVER。

輔助視覺規劃(VPA)
VPA 基準測試
為了驗證 VLWM 的大規模預訓練是否在流程規劃中帶來實際收益,本文采用了輔助視覺規劃(Visual Planning for Assistance, VPA)基準測試。VPA 衡量模型在給定視頻歷史和明確文本目標的情況下,預測當前活動的未來T 個高層步驟的能力。本文遵循標準評估范圍T=3 和T=4 。
實驗在兩個廣泛使用的流程規劃教學視頻語料庫上進行:COIN 包含 11,827 個視頻,覆蓋 180 個任務;CrossTask 包含 2,750 個視頻,涵蓋 18 個任務。本文遵循官方的訓練/驗證/測試劃分,以保證結果可與現有工作直接比較。
本文將 VLWM 與四個最新的規劃器進行對比:DDN、LTA、VLaMP 和 VidAssist,以及兩個基于頻率的啟發式方法:Most-Probable(全局動作頻率)和 Most-Probable w/ Goal(基于任務條件的頻率)。
VLWM 在 COIN 和 CrossTask 的 VPA 訓練集上進行微調,使用與預訓練相同的超參數。按照現有工作,本文分別報告以下指標:成功率(Success Rate, SR)、平均準確率(Mean Accuracy, mAcc)和平均交并比(Mean IoU, mIoU),分別衡量計劃級準確率、步驟級準確率和動作提議準確率。
下表 2 證實了 VLWM 在 VPA 基準測試中設立了新的技術標準。在 COIN 和 CrossTask 的兩個范圍T=3 和 T=4 上,本文的模型始終優于現有的基線。與采用 700 億參數的大型語言模型 VidAssist 相比,本文的 VLWM 僅有 80 億參數,卻在 12 個指標中的 8 個上取得了更好的結果。在四種設置中平均,VLWM 在成功率(SR)上提升了 3.2%、在平均準確率(mAcc)上提升了 3.9%,在平均交并比(mIoU)上提升了 2.9 個點。

使用 PlannerArena 進行人工評估
傳統的嵌入式 AI 助手生成面向人類的計劃的基準測試是不足的,因為它們依賴于有偏見或低質量的真實數據,無法捕捉真實世界的性能和人類輔助效果。為了解決這個問題,本文創建了 PlannerArena,一個受 ChatbotArena 啟發的人類評估框架。這個基于 Arena/Elo 的系統讓人類評估者從不同匿名模型生成的計劃中選擇更好的,成對的結果被轉換為 Elo 分數和模型勝率。這個方法與 AI 助手的實際使用案例緊密結合,確保本文開發的模型不僅在理論上可靠,而且在現實世界中具有實際價值。
本文實驗設置包括三個數據集(COIN、CrossTask 和 EgoExo4D),將 VLWM 與通過 20 個計劃搜索的 VLWM System-2 進行比較,該搜索由一個 80 億參數的評論者引導,最小化生成計劃的成本,以及一個最大化成本的 80 億參數評論者,與領先的多模態大型語言模型和真實計劃進行對比。成對樣本在每種可能的對戰配置中均勻采樣,以在模型之間保持平衡的對戰數量。模型從初始評分 1000 開始,使用 Elo K 因子 32 在每場對戰后更新分數。五位不同的注釋者參與了 PlannerArena 評估,總共評估了 550 對對戰,其中三位注釋者進行了 90 個樣本的固定試點運行以計算注釋者間一致性分數。
評論模型評估
在本節中,本文獨立于 VLWM-8B 的推演對評論模型進行內在評估,以評估它是否表現出預期行為。
目標達成檢測

結果如下表 5 所示。VLWM-critic-1B 在大多數子集上大幅超越基準。VLWM-critic-1B 在 VLWM-Instruct 上達到 98.4%,而在 VLWM-Ego 上較低,為 92.7%。這可能是由于領域差異造成的:本文的評論模型僅在 HowTo100M 指令視頻上訓練,未見過任何自我中心錄制的數據。在 OGP 上,本文評論模型明顯優于表現最好的基準 Qwen3-Reranker-8B(72.9% 對 65.6%),但在 OGP-WikiHow 上表現相當(盡管參數數量少了 8 倍)。這一較小差距的可能原因包括數據噪聲或 Qwen3-Reranker 的訓練數據中可能存在的重疊。

在下圖 5 中,可視化了不同評論模型預測的歸一化成本曲線。可視化可以視為“能量景觀”,理想的形狀是在 100% 目標達成點處具有最低成本。在 VLWM 數據上,VLWM-critic-1B 給出了比基準更清晰的景觀。然而,當涉及到 OGP 數據集時,分布變得更加嘈雜。盡管存在上述領域差異和數據集噪聲問題,性能下降的一個潛在原因是 OGP 僅提供動作軌跡,沒有任何明確的世界狀態描述,這使得成本評估更加困難。

消融研究。 下表 6 提供了使用 VLWM-critic-1B 和 VLWM 數據的評論輸入表示的消融研究。本文嘗試去除包含當前和預期最終目標狀態描述的目標解釋,以及從軌跡表示中去除狀態描述,僅保留動作。本文發現這兩種消融都導致目標達成檢測性能下降,尤其是在未見的 OOD 數據(Ego 子集)上的下降更為嚴重,這顯示了解釋和世界狀態描述對于有效泛化的重要性。

在 WorldPrediction-PP 上的程序規劃
WorldPrediction 基準旨在評估高級世界建模和程序規劃能力。其程序規劃子集,WorldPrediction-PP,包含 570 個經過人類驗證的樣本。每個測試案例提供初始和最終視覺狀態以及四個候選行動計劃,這些計劃由視頻序列表示。任務是從打亂的反事實干擾項中識別出正確排序的序列,強調目標條件規劃的能力以及模型對語義和時間動作順序的理解。
為了在 WorldPrediction-PP 上評估本文的評論模塊,本文遵循了(Chen 等人,2025)中關于蘇格拉底 LLM 的評估協議。視覺輸入首先通過 Qwen2.5-VL 生成的字幕轉換為文本描述。具體來說,描述初始和最終狀態的兩幅圖像生成了一個目標描述,概述了世界狀態的變化,候選行動的視頻片段也以類似方式生成字幕。這些文本輸入直接提供給本文的 VLWM-critic 模型,以計算每個候選計劃的成本,選擇預測成本最低的選項。
在下圖 6 (b) 中,本文將 VLWM-critic 模型與基準蘇格拉底 LLM 進行比較。本文的模型在模型大小和準確性之間實現了帕累托最優平衡。重要的是,這一評估對 VLWM-critic 模型構成了零樣本場景,因為基于變化字幕的目標描述和作為行動步驟的詳細視頻字幕都不是訓練語料庫的一部分。

結論
本工作介紹了視覺語言世界模型(VLWM),這是一種基礎模型,能夠直接在語言空間中學習表示和預測世界動態,從而實現可解釋且高效的高級規劃。通過將原始視頻壓縮為分層的字幕樹,并將其優化為結構化的目標、動作和世界狀態變化軌跡,VLWM 架起了感知驅動的視覺語言模型(VLMs)與推理導向的大語言模型(LLMs)之間的橋梁。其雙模式設計支持通過直接策略解碼進行快速反應的系統1規劃,以及通過自監督評論指導的成本最小化進行反思的系統2規劃,這使模型能夠在內部執行試錯推理并選擇最佳計劃。
VLWM 在大量多樣的教學和自我中心視頻語料庫上進行訓練,在輔助視覺規劃基準上建立了新的最先進成果,在 PlannerArena 的人類偏好評估中展示了卓越的計劃質量,并在 RoboVQA 上取得了頂級表現,同時生成可解釋的動作-狀態展開。此外,評論模型在目標達成檢測和程序規劃基準上獨立表現出色,突顯了顯式語義成本建模對于基于世界模型推理的價值。綜上所述,這些貢獻表明,通過直接從大規模自然視頻中學習,并在抽象的、非生成的表示空間中進行預測,而非依賴原始像素,視覺語言世界模型(VLWM)可以為感知、推理和規劃之間架起強大的接口,推動 AI 助手超越模仿,朝著能夠進行穩健、長遠決策的反思性代理邁進。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/jwmog-cIrJ1dYYrIAplKPA??

















