北大字節(jié)開源首個(gè)時(shí)空推理視頻模型!思考過程全透明,性能超越GPT-4o
AI看視頻也能劃重點(diǎn)了!
不僅能回答“是什么”、“發(fā)生了什么”,還能指出是在“何時(shí)何地”發(fā)生。
來自北大和字節(jié)的聯(lián)合團(tuán)隊(duì),推出了首個(gè)將顯式時(shí)空證據(jù)嵌入視頻推理全過程的開源模型——Open-o3 Video,讓AI不僅能答對問題,也能在思維過程中同步直觀標(biāo)出具體位置,真正實(shí)現(xiàn)有跡可循的視頻推理。
△Open-o3 Video的能力
同時(shí),模型采用non-agent架構(gòu),避免了復(fù)雜的工具調(diào)用和多輪推理,一次回復(fù)中直接完成“看—想—證—答”的閉環(huán)。
在多個(gè)視頻推理測試中,關(guān)鍵指標(biāo)可提升至24.2%,性能表現(xiàn)超越GPT-4o和Gemini-2-Flash等一眾閉源模型。

下面是更多詳細(xì)內(nèi)容。
研究背景
視頻理解是多模態(tài)大模型(MLLM)中最復(fù)雜的任務(wù)之一。
不同于靜態(tài)圖像,視頻同時(shí)承載著時(shí)間維度的動(dòng)態(tài)變化與空間維度的場景交互。
這意味著,模型不僅要識(shí)別畫面中的物體與動(dòng)作(What),還必須判斷它們在什么時(shí)間(When) 出現(xiàn)、什么位置(Where) 發(fā)生。
近期,Video-R1、VideoRFT等模型通過強(qiáng)化學(xué)習(xí)顯著提升了視頻理解的邏輯一致性,但它們的思維鏈仍是純文本的,模型可能正確回答問題,卻無法指出支撐答案的具體畫面。
這種“黑箱式推理”讓模型的判斷既難以解釋,也難以驗(yàn)證。
另外,OpenAI的o3模型首次提出 “Thinking with Images(圖像思考)” 的理念,通過在推理中嵌入圖像(如框選區(qū)域、局部放大、縮放查看),讓模型能在推理鏈中自然地引用視覺線索,從而實(shí)現(xiàn)“有依據(jù)的推理”。
然而,將這種理念擴(kuò)展到視頻領(lǐng)域,即讓模型在推理中提供時(shí)間和空間兩方面的證據(jù),更具有困難:
1、在推理中,文本、時(shí)間戳和物體目標(biāo)框的一致性難以保持。
模型需在幾十上百幀中精確對齊事件發(fā)生的時(shí)間點(diǎn),任何漂移都會(huì)導(dǎo)致推理邏輯錯(cuò)誤,訓(xùn)練難度大。
且同一物體在不同幀位置變化劇烈,需在時(shí)序動(dòng)態(tài)中持續(xù)追蹤空間位置。
2、 時(shí)空耦合監(jiān)督嚴(yán)重缺失。
現(xiàn)有數(shù)據(jù)要么只提供時(shí)間段標(biāo)注(Temporal Grounding),要么僅有單幀的空間框(Spatial Grounding),缺乏統(tǒng)一的時(shí)空標(biāo)注與相應(yīng)的思維鏈。
模型訓(xùn)練過程
補(bǔ)足數(shù)據(jù)短板
因此基于時(shí)空定位的線索來做視頻推理,最根本的瓶頸在于數(shù)據(jù)。
現(xiàn)有的視頻理解數(shù)據(jù)集往往只具備時(shí)間或空間維度的標(biāo)注,沒有時(shí)空耦合的思維鏈數(shù)據(jù),模態(tài)間存在割裂。
于是團(tuán)隊(duì)構(gòu)建了首個(gè)面向顯式時(shí)空推理的統(tǒng)一語料體系——STGR(Spatio-Temporal Grounded Reasoning),包括:STGR-CoT-30k與STGR-RL-36k兩部分。
前者用于監(jiān)督微調(diào)(SFT),幫助模型學(xué)習(xí)帶時(shí)空標(biāo)注的推理格式與輸出結(jié)構(gòu);后者用于強(qiáng)化學(xué)習(xí)階段(RL),提供高質(zhì)量獎(jiǎng)勵(lì)信號(hào),以持續(xù)優(yōu)化模型的時(shí)空對齊與證據(jù)生成能力。
△左:數(shù)據(jù)構(gòu)建流程;右:數(shù)據(jù)分布
兩個(gè)數(shù)據(jù)集均包含四類任務(wù):時(shí)序定位;空間定位;時(shí)空定位數(shù)據(jù)和視頻問答數(shù)據(jù),數(shù)據(jù)的分布。
其中,5.9k的高質(zhì)量spatio-temporal數(shù)據(jù)是團(tuán)隊(duì)按照圖中的數(shù)據(jù)管線進(jìn)行標(biāo)注的,具體流程如下:
1、針對兩種數(shù)據(jù)源(temporal grounding和plm-rdcap) 利用Gemini 2.5 Pro進(jìn)行初始標(biāo)注,生成問題-答案對,初始的關(guān)鍵幀、目標(biāo)檢測框和推理過程;顯示的時(shí)空定位的格式如下:
"<obj>object_name</obj><box>[x min, y min, x max, y max]</box>at<t>timestamp</t>s"
2、由于大模型標(biāo)注的檢測框的質(zhì)量有限,團(tuán)隊(duì)通過兩種方式進(jìn)行過濾:
- 剔除覆蓋面積過大(超過畫面80%)的無效框;
- 通過Qwen2.5-VL-7B驗(yàn)證目標(biāo)類別是否匹配,例如用查詢“Is this a dog?”來確認(rèn)檢測框內(nèi)容。
3、一致性檢查:改寫推理鏈以確保問題-答案、時(shí)間戳、物體名稱、邊框和推理鏈一一對應(yīng),刪除冗余或不一致的樣本。
兩階段訓(xùn)練方法
△Open-o3 Video兩階段訓(xùn)練流程
在高質(zhì)量時(shí)空語料奠定基礎(chǔ)之后,如何讓模型真正學(xué)會(huì)“在視頻中思考”成為關(guān)鍵問題。
團(tuán)隊(duì)發(fā)現(xiàn),僅靠監(jiān)督微調(diào)并不能達(dá)到滿意效果。因?yàn)樵诒O(jiān)督階段,模型更多地是在模仿人類標(biāo)注者的語言模式,而非真正理解視覺線索與推理結(jié)構(gòu)之間的邏輯關(guān)系。
因此,要讓模型能夠主動(dòng)發(fā)現(xiàn)并引用關(guān)鍵證據(jù),必須通過一種可自我糾偏的強(qiáng)化學(xué)習(xí)機(jī)制,讓獎(jiǎng)勵(lì)信號(hào)直接約束其“看哪幀、注意哪個(gè)區(qū)域、想什么”。
這一理念構(gòu)成了Open-o3 Video的訓(xùn)練核心:雙階段學(xué)習(xí)機(jī)制——冷啟動(dòng)預(yù)訓(xùn)練與基于GSPO的強(qiáng)化學(xué)習(xí)。
在冷啟動(dòng)階段,模型首先通過STGR-CoT-30k數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。
此階段的目標(biāo)是讓模型掌握推理格式與輸出規(guī)范,即如何在回答中同時(shí)生成、、等結(jié)構(gòu)化標(biāo)記,并學(xué)會(huì)將推理鏈與視頻內(nèi)容對應(yīng)起來。
這一階段相當(dāng)于“教模型說話”:它學(xué)習(xí)了如何用語言描述視覺證據(jù),但尚未形成自發(fā)的證據(jù)選擇策略。
換言之,冷啟動(dòng)階段讓模型具備了“生成有跡可循答案的能力”,而下一個(gè)階段要做的,是讓這種能力變得準(zhǔn)確、穩(wěn)定、可推廣。
在第二階段,團(tuán)隊(duì)引入強(qiáng)化學(xué)習(xí)框架GSPO。
比起廣泛應(yīng)用的GRPO,GSPO基于序列進(jìn)行優(yōu)化,更有利于長期訓(xùn)練的穩(wěn)定,避免思維鏈的崩潰。
這一階段,模型被要求在開放視頻場景中生成完整的時(shí)空推理序列,然后通過獎(jiǎng)勵(lì)函數(shù)進(jìn)行自我校正。獎(jiǎng)勵(lì)函數(shù)由三部分組成:

r_acc衡量答案的正確性;r_thk則反映推理鏈的合理性和完整性,鼓勵(lì)模型在生成思考文本時(shí)對視覺證據(jù)進(jìn)行充分利用,如計(jì)算時(shí)序IoU和空間IoU等指標(biāo), r_fmt評(píng)估推理格式是否符合規(guī)范。
團(tuán)隊(duì)特別強(qiáng)調(diào),單一的準(zhǔn)確率獎(jiǎng)勵(lì)無法支撐多模態(tài)可解釋推理,因?yàn)槟P涂赡堋懊蓪Α贝鸢竻s忽略關(guān)鍵畫面;只有當(dāng)推理的過程本身被納入優(yōu)化目標(biāo),模型才會(huì)真正學(xué)會(huì)如何在視覺世界中進(jìn)行思考。
然而,利用強(qiáng)化學(xué)習(xí)同時(shí)優(yōu)化時(shí)序和空間兩個(gè)維度的定位能力是具有很大挑戰(zhàn)的,尤其注意到,空間獎(jiǎng)勵(lì)(IoU)必須依賴于時(shí)間預(yù)測的準(zhǔn)確性。
具體而言,如果時(shí)間預(yù)測錯(cuò)誤,即使空間框位置正確,也無法和真值對應(yīng),即時(shí)間預(yù)測是訓(xùn)練穩(wěn)定性的前提。
但是,如果在時(shí)序獎(jiǎng)勵(lì)預(yù)測中直接使用嚴(yán)格的時(shí)間約束,則在訓(xùn)練初期模型往往得不到獎(jiǎng)勵(lì),導(dǎo)致學(xué)習(xí)停滯;如果始終使用寬松的約束,模型雖能得到獎(jiǎng)勵(lì),但時(shí)序上獎(jiǎng)勵(lì)容易飽和,預(yù)測無法逐漸收斂到精確位置,這樣空間獎(jiǎng)勵(lì)的計(jì)算還是不準(zhǔn)確。
因此,團(tuán)隊(duì)提出自適應(yīng)時(shí)間臨近性機(jī)制,即在訓(xùn)練過程中逐步調(diào)整時(shí)間獎(jiǎng)勵(lì)的容忍范圍,具體公式如下:

隨著訓(xùn)練進(jìn)行,標(biāo)準(zhǔn)差從大逐漸調(diào)小,以實(shí)現(xiàn)這種從“粗定位”到“精定位”的收斂。
同時(shí),本團(tuán)隊(duì)提出時(shí)間門控機(jī)制,即在計(jì)算空間獎(jiǎng)勵(lì)之前,首先檢查預(yù)測時(shí)間戳是否落在真實(shí)時(shí)間戳附近,只有在時(shí)間預(yù)測接近真值時(shí)(小于設(shè)定的閾值),才會(huì)計(jì)算對應(yīng)幀上預(yù)測框與真值框的 IoU,否則空間獎(jiǎng)勵(lì)為0。
通過這樣的訓(xùn)練方式和獎(jiǎng)勵(lì)設(shè)計(jì),模型能夠以更穩(wěn)定高效的方式訓(xùn)練。
推理增強(qiáng)
△基于Open-o3 Video進(jìn)行測試時(shí)擴(kuò)展
團(tuán)隊(duì)提出的時(shí)空證據(jù)可以作為一種可驗(yàn)證的信號(hào),應(yīng)用于測試時(shí)擴(kuò)展。
具體而言,在推理階段,模型生成多個(gè)獨(dú)立推理鏈,每個(gè)鏈包含時(shí)空證據(jù)。
從推理鏈中裁剪出對應(yīng)的關(guān)鍵幀區(qū)域,并再次輸入模型進(jìn)行與問題的相關(guān)性評(píng)分(0、1、2分,分別表示與問題不相關(guān),可能對答題有幫助,對答題非常有幫助)。
每個(gè)回答根據(jù)其得分進(jìn)行加權(quán)投票,最終輸出置信度最高的答案。
該機(jī)制有效避免投票被低質(zhì)量思維鏈誤導(dǎo),提高推理的準(zhǔn)確性和魯棒性。
實(shí)驗(yàn)結(jié)果
△時(shí)空推理基準(zhǔn)測試集表現(xiàn)
Open-o3 Video在多個(gè)視頻推理與理解基準(zhǔn)上均取得顯著性能。
首先,團(tuán)隊(duì)在時(shí)空推理的基準(zhǔn) V-STAR上測試,該基準(zhǔn)綜合考察了模型在 “何物(what)—何時(shí)(When)—何地(Where)” 三個(gè)維度上的性能。
可以看到,Open-o3 Video在Temporal IoU(時(shí)間對齊)與Visual IoU(空間對齊)兩項(xiàng)上都取得顯著提升,整體mAM提升+14.4%、 mLGM提升+24.2%,超越GPT-4o與Gemini-2-Flash等大型閉源模型,充分證明其在時(shí)空聯(lián)合定位與推理一致性上的顯著優(yōu)勢!
△視頻理解和時(shí)序定位數(shù)據(jù)集表現(xiàn)
再者,在VideoMME、WorldSense、VideoMMMU與TVGBench四個(gè)基準(zhǔn)測試上,Open-o3 Video穩(wěn)定超越基線模型和眾多視頻推理模型。
其在 VideoMME-Long 子任務(wù)上達(dá)到54.9 %,顯著提升4.1 %;在WorldSense和VideoMMMU偏感知的任務(wù)中都相較于基線模型有超越3%的提升,在 TVGBench上mIoU達(dá)到20.8,也提升4.5%。
這些結(jié)果表明,Open-o3 Video不僅在需要復(fù)雜推理的時(shí)空任務(wù)上表現(xiàn)突出, 在傳統(tǒng)的視頻識(shí)別與時(shí)間定位任務(wù)中也展現(xiàn)了強(qiáng)大的泛化能力。
更重要的是,得益于其顯式的證據(jù)鏈設(shè)計(jì),模型生成的答案具有可驗(yàn)證性,在同等準(zhǔn)確率下提供了更高的可解釋性與可靠性。


△消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證不同訓(xùn)練環(huán)節(jié)、數(shù)據(jù)構(gòu)成及獎(jiǎng)勵(lì)機(jī)制對模型性能的影響,團(tuán)隊(duì)進(jìn)行了系統(tǒng)性的消融研究。
實(shí)驗(yàn)結(jié)果如表所示,全面評(píng)估了訓(xùn)練策略、獎(jiǎng)勵(lì)設(shè)計(jì)、數(shù)據(jù)類型及數(shù)據(jù)規(guī)模等因素對時(shí)空推理性能的貢獻(xiàn)。
從表3可以看出,雙階段訓(xùn)練機(jī)制(SFT + RL) 對模型性能的提升至關(guān)重要。
在僅依賴監(jiān)督學(xué)習(xí)(Pure SFT)的情況下,模型已能初步學(xué)習(xí)帶時(shí)空標(biāo)注的推理格式,但整體性能仍受限于固定標(biāo)簽的模仿。
而單獨(dú)的強(qiáng)化學(xué)習(xí)(Pure RL, GSPO)雖能提升時(shí)間與空間一致性,但未經(jīng)CoT數(shù)據(jù)的訓(xùn)練,性能提升有限。
兩者結(jié)合后,模型在mAM 和mLGM 上分別提升至33.7%和46.6%。
這表明冷啟動(dòng)階段的結(jié)構(gòu)化監(jiān)督提供了必要的推理模板,而基于GSPO的強(qiáng)化階段則進(jìn)一步優(yōu)化了模型的時(shí)空對齊與證據(jù)指向,從而實(shí)現(xiàn)穩(wěn)定而可解釋的推理能力。
表4則展示了兩項(xiàng)關(guān)鍵獎(jiǎng)勵(lì)機(jī)制:自適應(yīng)時(shí)間臨近(Adaptive Temporal Proximity) 與時(shí)間門控(Temporal Gating)的作用。
若移除自適應(yīng)臨近機(jī)制(w/o Ada.),模型的mLGM下降1.4%;若不使用門控(w/o Gat.),性能下降1.7%。
這印證了團(tuán)隊(duì)的設(shè)計(jì)初衷:時(shí)間臨近機(jī)制能緩解訓(xùn)練初期獎(jiǎng)勵(lì)稀疏的問題,而門控策略能避免模型在錯(cuò)誤時(shí)間幀上誤判無關(guān)物體。
二者的結(jié)合有效保障了獎(jiǎng)勵(lì)信號(hào)的密集性與精確性,使模型能逐步收斂到真正的時(shí)空一致推理模式。
表5進(jìn)一步驗(yàn)證了時(shí)空標(biāo)注數(shù)據(jù)的重要性。
在移除時(shí)空標(biāo)注樣本的條件下(w/o spatio-temporal data),模型性能顯著下降至 mAM 28.3/mLGM 36.2;當(dāng)引入現(xiàn)有的VideoEspresso數(shù)據(jù)后雖略有提升,但仍不及團(tuán)隊(duì)自建的高一致性語料。
當(dāng)使用完整的STGR標(biāo)注數(shù)據(jù)時(shí),mLGM達(dá)到46.6,說明模型確實(shí)從統(tǒng)一的時(shí)空監(jiān)督中學(xué)到了穩(wěn)健的定位與推理能力。這也間接驗(yàn)證了STGR數(shù)據(jù)在語言、空間與時(shí)間三維一致性上的價(jià)值。
表6探討了通用視頻問答數(shù)據(jù)量對模型整體表現(xiàn)的影響。
實(shí)驗(yàn)表明,適度的通用QA樣本能有效平衡模型的語言生成與證據(jù)定位能力。當(dāng)額外加入15k條通用VideoQA樣本時(shí),模型實(shí)現(xiàn)了最佳平衡。
若進(jìn)一步擴(kuò)大數(shù)據(jù)規(guī)模,性能反而出現(xiàn)輕微下降,說明過多的通用樣本會(huì)稀釋時(shí)空標(biāo)注的監(jiān)督信號(hào)。
因此,團(tuán)隊(duì)最終采用了15k規(guī)模的混合數(shù)據(jù)配置,以在可解釋推理與通用問答之間取得最優(yōu)折中。
綜上,消融實(shí)驗(yàn)全面驗(yàn)證了Open-o3 Video的三項(xiàng)核心設(shè)計(jì)理念,統(tǒng)一的時(shí)空數(shù)據(jù)、雙階段訓(xùn)練機(jī)制與自適應(yīng)獎(jiǎng)勵(lì)策略,在提升模型可解釋性與可靠性方面的顯著貢獻(xiàn)。
正是這些設(shè)計(jì),使模型能夠在復(fù)雜視頻場景中穩(wěn)定生成“有跡可循”的推理鏈,實(shí)現(xiàn)真正基于證據(jù)的多模態(tài)推理。
△驗(yàn)證時(shí)空證據(jù)
表7的結(jié)果可以看到,在WorldSense與VideoMMMU兩個(gè)測試基準(zhǔn)上,基于置信度的測試時(shí)擴(kuò)展策略帶來穩(wěn)定提升,均優(yōu)于單一推理(Base)與簡單多數(shù)投票(Majority Voting)方案。
這表明,顯式的時(shí)空證據(jù)不僅能在訓(xùn)練階段提供監(jiān)督信號(hào),也能在推理階段作為可靠的置信度衡量指標(biāo),幫助模型在多樣化思維路徑間做出更穩(wěn)健的判斷。
然而,通過并行生成多個(gè)回復(fù),團(tuán)隊(duì)也觀察到:面對相對困難的問題,當(dāng)前模型在實(shí)際運(yùn)行中生成的高質(zhì)量推理軌跡相對較少。
這意味著,模型的時(shí)空證據(jù)提取仍有待進(jìn)一步改進(jìn),尤其是在更長的視頻和更復(fù)雜多變的場景中,這也是未來開源社區(qū)值得深入探索的重要方向。
可視化結(jié)果
Open-o3 Video能夠在推理中提供時(shí)間與空間證據(jù)(時(shí)間戳和目標(biāo)框),以支持其推理的思路和最終的答案,具體可體現(xiàn)在以下可視化實(shí)例中:



這些示例分別體現(xiàn)了Open-o3 Video在處理物體外觀識(shí)別,動(dòng)作意圖分析,以及天氣推理上的突出性能。
模型表現(xiàn)上完全不遜色于其他推理模型,且能夠提供一定的證據(jù)支撐,讓回復(fù)更加直觀可靠,易于驗(yàn)證。
下面再看看Demo展示。


團(tuán)隊(duì)相信,Open-o3 Video將推動(dòng)視頻多模態(tài)模型從“能答對”走向“能定位,能解釋”,讓機(jī)器真正具備在時(shí)空維度上進(jìn)行有跡可循推理的能力。
未來,團(tuán)隊(duì)將繼續(xù)完善時(shí)空推理數(shù)據(jù)與后訓(xùn)練機(jī)制,為更長視頻,更復(fù)雜場景下的問答提供有利的時(shí)空證據(jù)支撐。
另外,團(tuán)隊(duì)論文、代碼和模型全部開源,歡迎大家交流討論!
論文鏈接:https://huggingface.co/papers/2510.20579
代碼鏈接:https://github.com/marinero4972/Open-o3-Video
模型鏈接:https://huggingface.co/marinero4972/Open-o3-Video













































