視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？精華

發(fā)布于 2025-11-13 09:05

瀏覽

0收藏

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2510.26802v1
項(xiàng)目主頁(yè)：https://video-cof.github.io/

引言

近年來(lái)，以 Veo、Sora 等為代表的視頻生成模型展現(xiàn)出驚人的生成能力，能夠合成高度逼真、時(shí)間連續(xù)的動(dòng)態(tài)畫(huà)面。這些進(jìn)展暗示，模型在視覺(jué)內(nèi)容生成之外，或許已開(kāi)始具備對(duì)物理世界結(jié)構(gòu)與規(guī)律的潛在理解。

值得注意的是，Google 最新研究指出，諸如 Veo-3 等模型正在顯現(xiàn)出超越純粹生成的“涌現(xiàn)能力”，例如感知建模、動(dòng)態(tài)預(yù)測(cè)以及推理能力。

由此催生出一個(gè)與語(yǔ)言模型“思維鏈”（Chain-of-Thought, CoT）相對(duì)應(yīng)的新概念——幀鏈推理（Chain-of-Frame, CoF）。

其核心思想在于：視頻模型通過(guò)逐幀生成過(guò)程，構(gòu)建連貫的視覺(jué)演化，從而體現(xiàn)思維與推理的過(guò)程。然而，一個(gè)關(guān)鍵問(wèn)題仍懸而未決——這些模型是否真的具備零樣本推理（Zero-Shot Reasoning）能力？還是僅僅在模仿訓(xùn)練數(shù)據(jù)中的表層模式？

為驗(yàn)證這一點(diǎn)，來(lái)自香港中文大學(xué)、北京大學(xué)、東北大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)開(kāi)展了系統(tǒng)研究，對(duì) Veo-3 等模型的零樣本推理潛能進(jìn)行全面評(píng)估，并提出了涵蓋空間、幾何、物理、時(shí)間等 12 個(gè)維度的綜合基準(zhǔn)——MME-CoF。

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

什么是 Chain-of-Frame（CoF）？

“幀鏈推理（CoF）”可以視作語(yǔ)言中“思維鏈”（CoT）的視覺(jué)化形式：

CoT：通過(guò)逐步生成文本展示思考與推理路徑。
CoF：通過(guò)逐幀生成畫(huà)面，以動(dòng)態(tài)演化的方式呈現(xiàn)推理與決策過(guò)程。

這種方式使模型不僅輸出結(jié)果，更在生成的時(shí)間維度上“展示”其思考軌跡。

12 項(xiàng)推理挑戰(zhàn)概覽

研究團(tuán)隊(duì)圍繞 12 個(gè)推理維度構(gòu)建了系統(tǒng)測(cè)試，對(duì) Veo-3 模型進(jìn)行了實(shí)證評(píng)估。以下為部分典型任務(wù)摘要。

視覺(jué)細(xì)節(jié)推理（Visual Detail Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：檢測(cè)模型保持細(xì)粒度視覺(jué)屬性（顏色、紋理）與空間關(guān)系的能力。
表現(xiàn)：對(duì)顯著、易識(shí)別物體表現(xiàn)較好。
局限：當(dāng)目標(biāo)較小、被遮擋或背景復(fù)雜時(shí)，模型易偏離任務(wù)目標(biāo)或生成風(fēng)格化偏差。

視覺(jué)追蹤推理（Visual Trace Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：評(píng)估模型在動(dòng)作序列中維持因果連續(xù)性的能力。
表現(xiàn)：在簡(jiǎn)單任務(wù)中能生成連貫的短時(shí)序路徑。
局限：長(zhǎng)時(shí)序或高邏輯依賴任務(wù)中，模型難以保持連貫因果關(guān)系。

物理推理（Physics-based Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：測(cè)試模型是否理解重力、碰撞、摩擦等物理規(guī)律。
表現(xiàn)：能生成短期合理的動(dòng)態(tài)畫(huà)面。
局限：經(jīng)常違反物理約束（如能量守恒），僅在“模仿”物理而非真正推理。

真實(shí)世界空間推理（Real-World Spatial Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：測(cè)試模型在視角變化下保持空間一致性的能力。
表現(xiàn)：簡(jiǎn)單場(chǎng)景中能維持基本的方向與空間結(jié)構(gòu)。
局限：在復(fù)雜多視角任務(wù)中常出現(xiàn)空間錯(cuò)位或漂移。

3D 幾何推理（3D Geometry Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：評(píng)估模型在立體折疊、旋轉(zhuǎn)與重構(gòu)任務(wù)中的結(jié)構(gòu)理解。
表現(xiàn)：在單步操作中具備一定三維感知。
局限：復(fù)雜組合變換時(shí)易崩壞，缺乏穩(wěn)定幾何一致性。

2D 幾何推理（2D Geometry Reasoning）

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

目標(biāo)：檢驗(yàn)?zāi)Ｐ驮谄矫鏄?gòu)圖與形狀關(guān)系中的精確度。
表現(xiàn)：能識(shí)別并繪制基礎(chǔ)幾何關(guān)系。
局限：更傾向生成“好看”的圖形而非“正確”的幾何，易出現(xiàn)邏輯順序錯(cuò)誤。

其他六個(gè)推理維度概覽

除上述6項(xiàng)外，其余6個(gè)維度同樣揭示了 Veo-3 的限制：

旋轉(zhuǎn)推理（Rotation Reasoning）：小角度旋轉(zhuǎn)可近似實(shí)現(xiàn)，大角度下結(jié)構(gòu)崩壞。
圖表推理（Table & Chart Reasoning）：可模仿局部視覺(jué)模式，但缺乏對(duì)數(shù)值關(guān)系的真實(shí)理解。
物體計(jì)數(shù)（Object Counting Reasoning）：在靜態(tài)場(chǎng)景下表現(xiàn)良好，但動(dòng)態(tài)環(huán)境中常出現(xiàn)漏數(shù)或重復(fù)。
GUI 推理（GUI Reasoning）：能生成點(diǎn)擊或拖動(dòng)動(dòng)作，但對(duì)操作目的與邏輯缺乏認(rèn)知。
具身推理（Embodied Reasoning）：能識(shí)別物體位置與動(dòng)作，但不遵守環(huán)境規(guī)則，偶有“作弊式”生成。
醫(yī)學(xué)推理（Medical Reasoning）：在放大或觀察局部細(xì)節(jié)時(shí)具備表面能力，但無(wú)法保持影像邏輯一致，易出現(xiàn)結(jié)構(gòu)性錯(cuò)誤。

MME-CoF：首個(gè)視頻推理基準(zhǔn)

研究團(tuán)隊(duì)據(jù)此提出 MME-CoF，這是首個(gè)專門(mén)用于量化視頻模型推理能力的標(biāo)準(zhǔn)化評(píng)測(cè)體系。其主要特征包括：

首個(gè)系統(tǒng)化視頻推理評(píng)估框架；
覆蓋 12 個(gè)維度；
將抽象的推理過(guò)程轉(zhuǎn)化為視頻生成挑戰(zhàn)，以迫使模型在視覺(jué)上展示“幀鏈思考”。

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

基于 MME-CoF 基準(zhǔn)，研究團(tuán)隊(duì)對(duì)多個(gè)主流模型進(jìn)行了量化評(píng)測(cè)（由 Gemini-2.5-Pro 評(píng)分，滿分 4 分）。結(jié)果顯示：

整體表現(xiàn)較低：多數(shù)模型平均得分不足 2 分，推理能力仍有限。
優(yōu)勢(shì)差異顯著：

a.Sora-2 在物理、具身與醫(yī)學(xué)推理中表現(xiàn)相對(duì)突出；

b.Veo-3 在真實(shí)空間推理上具優(yōu)勢(shì)；

c.Seedance-1.0-Pro 在旋轉(zhuǎn)與三維幾何任務(wù)中略勝一籌。

總體趨勢(shì)：各模型均在特定方向具備偏好性，但仍停留在“模式重現(xiàn)”層面，尚未形成真正的邏輯推理能力。

視頻模型在真推理還是“演”推理？港中文等提出新基準(zhǔn)拷問(wèn):Chain-of-Frame到底是真是假？-AI.x社區(qū)

結(jié)論：推理，還是表演？

通過(guò)對(duì) Veo-3 等模型的實(shí)證分析，研究團(tuán)隊(duì)得出如下結(jié)論：

缺乏真正的零樣本推理：當(dāng)前視頻模型更多依賴數(shù)據(jù)模式，而非自主邏輯推演。
生成強(qiáng) ≠ 推理強(qiáng)：高質(zhì)量的畫(huà)面并不代表深層理解。
注重表象，忽視因果：生成結(jié)果“看似合理”，但常違背邏輯或物理規(guī)律。
視頻模型可作為視覺(jué)推理系統(tǒng)的重要模塊，與語(yǔ)言或邏輯模型結(jié)合，推動(dòng)多模態(tài)智能邁向真正的“通用理解”。

總體來(lái)看，本研究為學(xué)術(shù)界構(gòu)建了一個(gè)系統(tǒng)且可驗(yàn)證的實(shí)證評(píng)估框架，清晰揭示了視頻生成模型在從“內(nèi)容生成”邁向“邏輯推理”，并邁向真正“通用視覺(jué)智能”過(guò)程中仍需跨越的核心瓶頸。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/TshekyfXktEp3Eqm6TVtlg??

標(biāo)簽

模型

視頻生成

已于2025-11-13 10:18:19修改

贊

回復(fù)