告別「偏科」,UniVid實現視頻理解與生成一體化
在視頻生成與理解的賽道上,常常見到分頭發力的模型:有的專注做視頻生成,有的專注做視頻理解(如問答、分類、檢索等)。而最近,一個開源項目 UniVid,提出了一個「融合」方向:把理解 + 生成融為一體 —— 他們希望用一個統一的模型,兼顧「看懂視頻」+「生成視頻」的能力。

這就像把「看圖識物」和「畫圖創作」兩件事,交給同一個大腦去做:理解一段文字 + 理解已有視頻內容 → 再「畫」出新的、連貫的視頻 —— 這在技術上挑戰極大。

- 論文標題:UniVid: The Open-Source Unified Video Model
- 論文地址:https://arxiv.org/abs/2509.24200
UniVid 想解決什么問題?
UniVid 嘗試把視頻「理解」與「生成」融合為一體,構建出一個真正通用的統一視頻模型(Unified Video Model),一個既能「理解」又能「生成」的視頻多模態模型。
核心創新
1.統一結構:Adapter-based Unified Architecture

在傳統方案中,理解模型和生成模型是完全分開的系統,訓練開銷大、互通困難。要把它們融合,需要重新訓練一個龐大的聯合模型,成本極高。
本文采用適配器(Adapter)插入機制,在已有多模態大語言模型中插入輕量模塊,使其具備視頻生成能力。這樣,理解模塊 + 生成模塊可以共享大部分參數,只需訓練少量新增參數。
優勢:
- 顯著降低訓練開銷與算力成本;
- 提高模型擴展性:已有理解能力的模型能「平滑地」插入生成能力;
- 兼顧理解與生成,不犧牲已有強大的視覺 / 語言理解基礎。
2. 溫控對齊:Temperature Modality Alignment
在跨模態(文本 → 視頻)生成中,文本與視覺之間表示尺度、語義強度往往不匹配。若直接融合注意力或特征,很容易出現「提示偏移」(Prompt Drift):生成的視頻越偏離最初的文字意圖。
本文提出模態溫度對齊機制(Temperature Modality Alignment)。在跨模態注意力層中對不同模態(文本 / 視覺特征)引入溫度系數(類似 softmax 溫度調節),動態調節它們的注意力權重與融合強度。在生成過程的早期階段,更高權重給文本提示以加強語義引導;在后期階段,則逐漸讓視覺特征主導細節優化。
這能夠有效減少提示偏移,提高語義一致性;讓模型在「理解 → 生成」過程中過渡更自然;保證最終視頻既符合提示,又具備高質量視覺細節。
3. 金字塔反射:Pyramid Reflection

視頻是時序數據,理解和建模長時域依賴(遠幀之間的關聯)成本極高。傳統 Transformer 全幀注意力的計算量呈平方級增長,難以擴展。
本文提出金字塔反射機制(Pyramid Reflection):
- 在理解任務中采用 Reflector 模塊,通過動態選擇關鍵幀,并在金字塔層次上進行「反射 / 聚合」操作;
- 將幀序列映射到不同時間尺度,自底向上或自頂向下反射信息,使模型能在多個尺度上捕捉時序關系。
在視頻 QA / 時序理解任務中,PR 模塊結合 Actor – Evaluator – Reflector 循環結構,讓模型能用最少的幀達到準確推理結果。
實驗結果:打敗 SOTA?
UniVid 在視頻生成與理解兩大方向上,都達到了同級模型最優表現。
1. 視頻生成:VBench 全維度刷新記錄
測試基準:VBench-Long,是目前最嚴格的視頻生成綜合評測集,涵蓋多個維度:
- 技術質量(Technical Quality)
- 美學質量(Aesthetic Quality)
- 語義一致性(Semantic Fidelity)
- 對象 / 動作 / 場景 / 時序等細粒度指標

UniVid 的成績不僅在總分上超越所有主流視頻生成模型,更在關鍵維度上超越同級:
- Temporal Consistency(時序一致性):99.88(幾乎滿分);
- Motion Smoothness(運動平滑度):99.25;
- Semantic Alignment(語義一致性):80.58(領先 EasyAnimate 的 77.01);
- Imaging Quality(影像質量):73.03(顯著高于其他模型)。
UniVid 在生成的同時,極大提升了語義契合度與畫面連貫性。

與頂尖視頻生成模型的比較
2. 視頻理解:多項問答任務登頂
在視頻問答(Video Question Answering, Video-QA)任務中,UniVid 同樣登頂多個主流基準。

UniVid 在 MSVD-QA 和 ActivityNet-QA 上均創造新紀錄,并在更復雜的長時序視頻上展現出卓越的時序推理與語義理解能力。

與頂尖視頻生成模型的比較
Demo 展示
為了讓大家更直觀地理解 UniVid 的能力,研究團隊還準備了視頻 Demo,涵蓋視頻生成和視頻理解兩類任務。
視頻生成:

從左到右的 prompt 分別是:
- Mouse with large teeth aggressively eating cheese.
- A white cat in sunglasses relaxes on a surfboard at the beach under a sunny sky.
- Ten fluffy kittens eat breakfast together in warm sunlight.
視頻理解:

應用價值與意義
1. 視頻創作與生成
在影視、廣告、短視頻等場景中,創作者只需輸入文字腳本或圖像提示,UniVid 就能自動生成連貫、符合語義邏輯的視頻。它能「理解」劇情后再去「創作鏡頭」,讓內容生產更自然、更高效。
2. 視頻理解與分析
UniVid 還能看懂視頻。無論是體育賽事、監控畫面還是教學視頻,它都能識別動作、人物、事件邏輯,生成精準摘要或問答結果。讓機器不僅看到畫面,更「理解故事」。
3. 機器人與具身智能
在機器人導航、自動駕駛或智能體系統中,UniVid 可以理解攝像頭輸入并生成未來場景預測,幫助智能體進行規劃與決策。它讓機器人不僅「看得到」,還能「想得出下一步」。
4. 開源生態與科研價值
與閉源視頻模型不同,UniVid 的代碼開源,任何研究者或開發者都可自由使用、復現、二次開發。它為視頻智能研究提供了一個通用底座,也讓產業界能以更低成本構建自己的視頻生成系統。
作者介紹
羅嘉濱是北京大學軟微與微電子學院在讀博士生,研究興趣為多智能體系統、多模態生成、RAG、AI 安全。曾參與多項科研項目,長期致力于構建安全可信的 AGI。
林峻輝是北京師范大學在讀本科生,AI Geek 成員,研究興趣為圖像,視頻生成與處理。曾參與多項科研項目,積極探索有趣且有用的計算機視覺模型。
張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。
唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金,連續三年入選斯坦福大學全球前 2% 頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發表論文 100 余篇,相關成果被引用超過 10000 次。曾獲 ACM Multimedia 最佳論文提名獎,現任 ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025 領域主席及多個人工智能會議和期刊審稿人。
更多信息參見個人主頁: https://ha0tang.github.io/






















