Video理解后訓(xùn)練綜述:SFT、RL、TTS
引言
視頻理解一直是計(jì)算機(jī)視覺領(lǐng)域最具挑戰(zhàn)性的前沿方向。近日,來自羅切斯特大學(xué)、西北大學(xué)、卡內(nèi)基梅隆大學(xué)等多所頂尖院校的研究團(tuán)隊(duì)聯(lián)合發(fā)布了一篇重磅綜述論文,系統(tǒng)性地梳理了視頻大型多模態(tài)模型(Video-LMM)后訓(xùn)練(Post-Training)的關(guān)鍵技術(shù)與方法論。這篇題為"Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models"的綜述,首次全面剖析了將基礎(chǔ)感知系統(tǒng)轉(zhuǎn)化為復(fù)雜推理引擎的關(guān)鍵階段。
論文鏈接: https://hf.co/papers/2510.05034
項(xiàng)目主頁: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
圖片
電腦端訪問 https://www.paperscope.ai/hf/2510.05034 可獲取 “中英文對(duì)照的 PDF 翻譯”
研究背景與動(dòng)機(jī)
視頻理解不僅需要模型識(shí)別視覺內(nèi)容,更需要理解復(fù)雜的時(shí)空關(guān)系、事件因果和長(zhǎng)期依賴。隨著大型語言模型(LLM)的崛起,視頻-語言建模范式經(jīng)歷了三次重要演進(jìn):
1?? CNN+RNN時(shí)代:通過循環(huán)架構(gòu)聚合時(shí)序特征
2?? Transformer時(shí)代:BERT風(fēng)格的聯(lián)合編碼實(shí)現(xiàn)跨模態(tài)對(duì)齊
3?? 解碼器+LLM時(shí)代:最大化復(fù)用預(yù)訓(xùn)練LLM的知識(shí)和推理能力
在這一最新范式下,后訓(xùn)練(Post-Training)成為決定模型能否從基礎(chǔ)感知躍升至復(fù)雜推理的關(guān)鍵階段。然而,相關(guān)方法論在文獻(xiàn)中較為分散,缺乏系統(tǒng)性的整理與分析。
圖片
圖1:Video-LMM后訓(xùn)練概覽與本綜述的研究范圍。 該圖展示了后訓(xùn)練的三大核心組件:監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)(RL)和測(cè)試時(shí)擴(kuò)展(TTS),以及它們?cè)谝曨l推理中的相互關(guān)系。
研究趨勢(shì)分析
研究團(tuán)隊(duì)對(duì)2024年11月至2025年9月間的相關(guān)論文進(jìn)行了統(tǒng)計(jì)分析,詞云圖清晰地揭示了當(dāng)前研究熱點(diǎn):
圖片
圖2:Video-LMM后訓(xùn)練研究趨勢(shì)(2024年11月-2025年9月)。 詞云基于論文標(biāo)題生成,高頻詞匯包括"Reinforcement"、"Reasoning"、"Grounding"等,反映了領(lǐng)域的核心關(guān)注點(diǎn)。
從圖中可以看出,強(qiáng)化學(xué)習(xí)(RL)、推理(Reasoning)、時(shí)空定位(Grounding)成為最熱門的研究方向,這與DeepSeek-R1等模型的成功密切相關(guān)。
后訓(xùn)練的三大支柱
本綜述將Video-LMM后訓(xùn)練方法論系統(tǒng)地劃分為三大核心組件:
1?? 監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)
SFT是后訓(xùn)練的基礎(chǔ)階段,主要包括:
?? 基礎(chǔ)SFT
- 模態(tài)整合(Modality Integration):將視覺編碼器與LLM連接,使模型能夠理解視覺信息
- 領(lǐng)域適配(Domain Adaptation):針對(duì)特定領(lǐng)域(如醫(yī)療視頻、異常檢測(cè))進(jìn)行微調(diào)
- 視頻指令調(diào)優(yōu)(Video Instruction Tuning):增強(qiáng)模型的指令遵循能力
?? 思維鏈微調(diào)(CoT-SFT)
這是從傳統(tǒng)指令微調(diào)向高級(jí)推理能力躍升的關(guān)鍵環(huán)節(jié):
- 推理格式蒸餾:通過長(zhǎng)鏈?zhǔn)剿季S(CoT)數(shù)據(jù),讓模型學(xué)會(huì)生成逐步推理軌跡
- 視頻基礎(chǔ)CoT:將推理步驟與視覺證據(jù)綁定(時(shí)間戳、幀ID、區(qū)域標(biāo)注),減少幻覺
- RL冷啟動(dòng):為強(qiáng)化學(xué)習(xí)提供穩(wěn)定的初始化,采用統(tǒng)一的
<think>和<answer>格式
?? 關(guān)鍵洞察:
固定格式的CoT監(jiān)督雖能模仿推理模式,但靈活性有限,難以自我探索和糾錯(cuò)。因此需要過渡到RL來學(xué)習(xí)抽象目標(biāo),泛化到復(fù)雜場(chǎng)景。
圖片
圖3:Video-LMM后訓(xùn)練的分類體系。 該分類樹展示了SFT、RL和TTS各自的子方法和技術(shù)路線。
2?? 強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)
RL是當(dāng)前最具影響力的后訓(xùn)練范式,已從RLHF、PPO、DPO演進(jìn)到R1-style/GRPO方法。
?? GRPO:無需偏好數(shù)據(jù)的高效RL
GRPO(Group Relative Policy Optimization)的核心優(yōu)勢(shì)在于:
- ? 可驗(yàn)證獎(jiǎng)勵(lì):使用答案正確性、時(shí)序IoU等客觀指標(biāo),無需人工標(biāo)注偏好
- ? 組相對(duì)優(yōu)勢(shì):通過組內(nèi)樣本對(duì)比計(jì)算優(yōu)勢(shì)函數(shù),穩(wěn)定訓(xùn)練過程
- ? 數(shù)據(jù)高效:少量高質(zhì)量數(shù)據(jù)即可匹配大規(guī)模監(jiān)督學(xué)習(xí)效果
?? 視頻特化的策略優(yōu)化
針對(duì)視頻任務(wù)的獨(dú)特挑戰(zhàn),研究者們提出了多種改進(jìn)策略:
方法 | 核心思想 | 適用場(chǎng)景 |
T-GRPO | 通過對(duì)比有序/亂序幀的準(zhǔn)確率,獎(jiǎng)勵(lì)真正依賴時(shí)序的推理 | 時(shí)序敏感任務(wù) |
Reg-GRPO | 將GRPO重構(gòu)為回歸問題,加入難度感知增強(qiáng) | 難度不均衡數(shù)據(jù) |
TW-GRPO | 基于token重要性加權(quán),改善長(zhǎng)鏈推理的信用分配 | 長(zhǎng)推理鏈 |
DGRPO | 根據(jù)任務(wù)和樣本難度自適應(yīng)調(diào)整優(yōu)勢(shì)權(quán)重 | 多任務(wù)聯(lián)合訓(xùn)練 |
?? 視頻專用獎(jiǎng)勵(lì)設(shè)計(jì)
綜述詳細(xì)梳理了視頻RL中的獎(jiǎng)勵(lì)設(shè)計(jì)原則:
R(x,τ) = Σ λ? R?(x,τ)其中包括:
- 時(shí)序定位獎(jiǎng)勵(lì):tIoU、事件順序一致性
- 空間定位獎(jiǎng)勵(lì):邊界框/掩碼/軌跡IoU
- 內(nèi)容正確性:多選準(zhǔn)確率、開放式語義匹配
- 格式結(jié)構(gòu)約束:強(qiáng)制
<think>/<answer>模板 - 幻覺緩解:實(shí)體/證據(jù)基礎(chǔ)性檢查
- 預(yù)算感知:獎(jiǎng)勵(lì)在預(yù)算內(nèi)完成任務(wù)的高效解決方案
?? 關(guān)鍵洞察:
GRPO因其可驗(yàn)證結(jié)果導(dǎo)向而成為視頻推理的主流方法,避免了人工偏好數(shù)據(jù)的需求。成功的系統(tǒng)需要協(xié)同設(shè)計(jì)三要素:先進(jìn)的策略算法、多維獎(jiǎng)勵(lì)函數(shù)和高質(zhì)量數(shù)據(jù)集。
3?? 測(cè)試時(shí)擴(kuò)展(Test-Time Scaling, TTS)
TTS通過在推理階段分配更多計(jì)算資源來提升可靠性,是后訓(xùn)練的第三大支柱。
?? 核心策略
- 視頻思維鏈提示(Video-CoT Prompting)
- Video-of-Thought(VoT):將復(fù)雜問題分解為子問題,逐步推理
- CoT-Vid:動(dòng)態(tài)判斷是否需要推理,分階段迭代生成答案
- 自一致性解碼(Self-Consistency Decoding)
- 采樣多條推理路徑并通過投票機(jī)制聚合
- CoT-Vid實(shí)驗(yàn)表明,5個(gè)樣本時(shí)性能達(dá)到最佳平衡點(diǎn)
- 置信度驅(qū)動(dòng)迭代(Confidence-Based Iterative Reasoning)
- CyberV:控制器監(jiān)控不確定性,指導(dǎo)模型深入思考或請(qǐng)求更密集的視覺證據(jù)
- VideoICL:對(duì)不確定查詢分配更多計(jì)算,對(duì)確信查詢提前停止
- 自我改進(jìn)循環(huán)(Self-Improvement Loops)
- DIVE:多步循環(huán)分解子問題,每輪精煉查詢和答案
- VideoMTR:漸進(jìn)式選擇相關(guān)片段并更新答案直至收斂
- 工具增強(qiáng)推理(Tool-Augmented Reasoning)
- VITAL:配備視覺工具箱,推理時(shí)調(diào)用工具獲取證據(jù)
- Ego-R1:工具鏈思維(Chain-of-Tool-Thought),編排專門化工具處理超長(zhǎng)自我中心視頻
?? 關(guān)鍵洞察:
TTS通過證據(jù)選擇、推理深度和路徑多樣性來提升可靠性。最新研究探索了自適應(yīng)觀看機(jī)制、多路徑推理和驗(yàn)證器架構(gòu),實(shí)現(xiàn)了訓(xùn)練成本與推理準(zhǔn)確性的平衡。
代表性模型匯總
綜述整理了30+個(gè)最新Video-LMM模型的訓(xùn)練策略和特性:
模型 | 參數(shù)量 | 訓(xùn)練階段 | 核心策略 | TTS支持 |
Fact-R1 | ~7B | 3 | SFT + DPO + GRPO | ? |
VideoChat-R1 | 7B | 1 | 多任務(wù)RFT(GRPO) | ? |
LongVILA-R1 | 7B-8B | 2 | CoT-SFT + RL(MR-SP,GRPO) | ? |
Video-R1 | 7B | 2 | CoT-SFT + 時(shí)序GRPO | ? |
DeepVideo-R1 | 2B-7B | 1 | 回歸式GRPO(Reg-GRPO) | ? |
VITAL | 7B | 7 | SFT + 工具增強(qiáng)DGRPO | ? |
Ego-R1 | ~3B | 2 | SFT(COTT)+ RL(GRPO) | ? |
這些模型充分展示了從單階段純RL到多階段精細(xì)化訓(xùn)練的多樣化探索。
數(shù)據(jù)集與基準(zhǔn)測(cè)試
?? 訓(xùn)練數(shù)據(jù)集
綜述系統(tǒng)整理了40+個(gè)用于SFT和RL的數(shù)據(jù)集:
SFT階段:
- VideoRFT-CoT-102K:大規(guī)模CoT軌跡,102K樣本
- MTVR-CoT-72k:多任務(wù)CoT,連接視頻QA和時(shí)序定位
- LongVideo-Reason-CoT:長(zhǎng)視頻多事件理解,敘事級(jí)標(biāo)注
RL階段:
- Temporal-RLT-32k:精選用于GRPO的時(shí)序信號(hào)數(shù)據(jù)
- Video-R1-260k:T-GRPO混合視頻/圖像池
- MTVR-RL-110k:多任務(wù)視頻推理,難度感知調(diào)度
?? 評(píng)估基準(zhǔn)
通用視頻QA:
- MMVU:專家級(jí)多學(xué)科視頻理解(3000條)
- VideoMME:通用視頻理解(2700條QA)
- Video-Holmes:高級(jí)視頻推理基準(zhǔn)
視頻推理專項(xiàng):
- MECD:多事件因果依賴
- VidHalluc/HAVEN:幻覺魯棒性評(píng)估
- LongVideo-Reason-eval:長(zhǎng)視頻推理
定位推理:
- ActivityNet-RTL:推理密集型時(shí)序定位
- V-STAR:實(shí)體/動(dòng)作定位與軌跡標(biāo)注
- VSI-Bench:空間關(guān)系、排序、計(jì)數(shù)
?? 評(píng)估建議:
報(bào)告時(shí)應(yīng)披露:觀看預(yù)算(幀數(shù)/token數(shù))、推理長(zhǎng)度、路徑數(shù)量、延遲/吞吐量和字幕使用情況,以實(shí)現(xiàn)公平比較并避免數(shù)據(jù)泄露。
?? 挑戰(zhàn)與未來方向
?? SFT方向
- 結(jié)構(gòu)化接口與基礎(chǔ)CoT:規(guī)范化推理格式(時(shí)間戳、幀ID、區(qū)域),簡(jiǎn)化驗(yàn)證器設(shè)計(jì)
- 大規(guī)模驗(yàn)證器循環(huán)合成:自動(dòng)化草稿-精煉-審計(jì)流程,減少幻覺
- 三模態(tài)監(jiān)督:對(duì)齊語音、事件和視覺證據(jù),避免ASR捷徑
- 多語言與OCR增強(qiáng):擴(kuò)展至降級(jí)文本和長(zhǎng)跨度敘事推理
?? RL方向
- 組合式可驗(yàn)證獎(jiǎng)勵(lì):聯(lián)合時(shí)間-空間-語義檢查,引入過程獎(jiǎng)勵(lì)模型(PRM)
- 長(zhǎng)視頻成本優(yōu)化:緩存視覺特征、解耦編碼器、微型rollouts
- 超越教師探索:難度感知和自博弈策略
- 評(píng)估偏差控制:匹配預(yù)算、控制推理長(zhǎng)度、引入人工/驗(yàn)證器審計(jì)
?? TTS方向
- 置信度感知驗(yàn)證器引導(dǎo):結(jié)合不確定性的停止規(guī)則,按需深化推理
- 工具增強(qiáng)推理與蒸餾:推理時(shí)工具調(diào)用,事后蒸餾到基礎(chǔ)模型
- 流式代理與記憶:任務(wù)感知工作記憶的自適應(yīng)觀看決策
- 標(biāo)準(zhǔn)化報(bào)告:統(tǒng)一披露觀看預(yù)算、推理長(zhǎng)度、路徑數(shù)等,診斷偽影來源
?? 總結(jié)
這篇綜述為Video-LMM后訓(xùn)練提供了首個(gè)系統(tǒng)性的框架,涵蓋了:
? 三大支柱:SFT、RL、TTS的完整技術(shù)路線
? 40+數(shù)據(jù)集:訓(xùn)練與評(píng)估資源的全面梳理
? 30+模型:最新研究成果的詳細(xì)對(duì)比
? 未來方向:可驗(yàn)證性、效率、魯棒性的深度探討
對(duì)于希望在視頻理解領(lǐng)域開展研究的學(xué)者和工程師而言,這篇綜述提供了寶貴的路線圖和實(shí)踐指南。隨著R1-style方法和測(cè)試時(shí)擴(kuò)展技術(shù)的成熟,Video-LMM正從基礎(chǔ)感知系統(tǒng)向真正的視頻推理引擎演進(jìn)。
?? 更多資源:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
參考文獻(xiàn):Tang, Y., Bi, J., Liu, P., et al. (2025). Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models. arXiv:2510.05034




































