一個能思考、會記憶的AI導演誕生了!新加坡管理大學,香港中文大學等實現故事化視頻生成
視頻生成領域的一個長期困境是工具的碎片化。
已經有許多在單一任務上表現出色的專業模型,有的擅長理解視頻內容,有的精于生成視頻畫面,但現實世界的視頻創作是一個復雜且需要反復修改的流程,需要將這些孤立的能力整合起來。
為了打破這一瓶頸,新加坡管理大學,香港中文大學,斯坦福大學等,提出一個名為UniVA(Universal Video Agent)的開源全能多智能體框架。

它的設計目標致力于將視頻的理解、分割、編輯和生成能力無縫地統一到一個連貫的工作流中。按指令自主規劃一鍵式生成完整故事視頻,主體始終保持一致。

一個能思考、會記憶的AI導演誕生了
UniVA的核心是一種被稱為Plan-and-Act(規劃與行動)的雙智能體架構,它驅動著高度自動化和主動性的工作流程。

這套架構里有兩個關鍵角色:規劃智能體(planner agent)和執行智能體(executor agents)。
規劃智能體就像一個項目總監。
它首先解讀用戶的意圖,哪怕這個意圖很模糊,比如“給我做一個關于我的狗的卡通視頻”。
然后,它會將這個籠統的目標分解成一系列結構清晰、可以執行的視頻處理步驟。
比如,它會規劃出這樣的流程:
- 第一步,找到用戶素材里狗的圖像;
- 第二步,根據圖像生成一個卡通風格的視頻;
- 第三步,修改視頻的背景;
- 第四步,為視頻配上合適的音頻。
執行智能體則像是一群技術精湛的專家團隊。
它們接收來自規劃智能體下達的每一個具體指令,然后通過一個名為MCP(Model Context Protocol,模型上下文協議)的工具服務接口,去調用最合適的工具來完成任務。
它們會填充好所有必需的參數,比如具體的視頻片段、需要摳出的圖像蒙版、或者生成畫面的提示詞,然后執行調用。
當一個工具完成它的工作后,執行智能體會收集好輸出的結果,再反饋給規劃智能體,以便進行下一步的規劃或調整。
這種分工讓規劃智能體可以保持輕量化,專注于宏觀的策略和流程,而執行智能體則專注于如何可靠且高效地使用工具。
在一個漫長且包含多個步驟的視頻創作流程中,如何保持上下文的連貫性是一個巨大的挑戰。
人類創作者會自然地記住之前的操作和想法,但AI需要一個專門的系統來做到這一點。
UniVA通過一個分層的三級內存機制解決了這個問題。

第一層是全局內存(Global Memory)。
它存儲的是持久化的知識和可以重復使用的資源,比如預先計算好的數據嵌入、關于視頻制作的通用常識,或者不同工具的使用頻率統計。
這層內存為AI提供了宏觀的背景知識,幫助它在不同的任務之間進行泛化和遷移。
第二層是任務內存(Task Memory)。
它負責維護當前工作流程中的所有中間產物,比如工具處理后的視頻片段、生成的字幕、或者分割出的對象蒙版。
這層內存確保了在多個步驟之間的連續性,讓后續的任務可以重復利用之前的結果,而不需要從頭再來一遍。
任務內存還保證了整個工作流程的完全可追溯性,使得每一步操作都清晰透明,可以復現。
第三層是用戶內存(User Memory)。
它用來追蹤特定用戶的偏好和歷史交互記錄,比如用戶喜歡的視頻風格、重復使用的編輯模式,或者一些個性化的限制要求。
這讓UniVA的行為能夠自適應,比如在未來的任務中,它會自動應用用戶偏好的分辨率或編輯風格,變得越來越懂用戶。
通過這樣的設計,全局內存和用戶內存共同構成了長期的歷史記錄,為規劃智能體的決策提供了豐富的上下文。
任務內存則動態地維護著當前任務的狀態和所有產物。
一個AI智能體的能力,最終取決于它能使用的工具集有多豐富。為了實現最大的靈活性和可擴展性,UniVA的工具集被設計成完全開放的。
UniVA通過MCP協議來統一管理所有的工具。
MCP服務器模塊像一個統一的網關,連接著執行智能體和所有不同的工具服務器。
這個服務器維護著一個可用功能的注冊表,通過標準化的應用程序接口(API)來驗證和執行工具調用,并記錄下所有的輸出以備追溯。
這種設計的好處是,當需要增加一個新功能,或者替換掉一個舊工具時,只需要在服務器上注冊一下新工具即可。
規劃智能體和執行智能體的代碼完全不需要改變。這使得整個系統高度模塊化,可以像搭積木一樣輕松地擴展和升級。
整個工作流程就像一場精心編排的決策過程。

面對任何一個任務,規劃智能體會觀察當前的狀態和用戶的最終目標,制定出一個計劃。
然后,執行智能體會調用各種工具,將這個計劃轉變為一系列具體的動作。
內存系統會記錄下每一個動作產生的結果,并持續更新歷史記錄和當前狀態,為后續的步驟提供依據。
規劃智能體通過利用全局內存(歷史跟蹤)和用戶內存(存儲的材料)將用戶輸入(文本、圖像或視頻)分解為子任務。
執行智能體檢索特定任務的內存,通過MCP協議執行子任務,并與外部MCP服務器(視頻、AI和非AI工具)協調。系統生成多模態輸出,包括文本、圖像、視頻和音頻。
為了將這個框架落地,研發團隊在一個基于網頁的交互式視頻編輯應用中實例化了UniVA智能體。

界面結合了傳統的非線性時間軸和預覽畫布與對話助手(左),為UniVA智能體提供了用戶友好的入口點。
這種設計支持一站式、基于提示的生成和多輪、交互式編輯工作流程。
在這個應用中,用戶可以通過對話助手用自然語言下達指令。
UniVA智能體在后臺運行,解析這些請求,制定計劃,并執行必要的工具調用。
處理的結果會直接反映在視頻時間軸和預覽窗口上。
這種緊密的集成創造了一個流暢、可迭代的創作循環,讓用戶可以在一個統一的平臺內,輕松地在高階的AI驅動創作和傳統的手動精細編輯之間切換。
新的基準是檢驗能力的唯一標準
現實中的視頻創作是一個迭代的、多階段的過程,用戶常常在一個工作流中混合使用理解、生成、編輯、分割和音頻組合等多種操作。

然而,現有的絕大多數AI評測基準都只關注孤立的單一任務和單一模型,這嚴重低估了長期、多步驟視頻制作的真實難度,也忽視了對AI的規劃、記憶和工具編排能力的需求。
因此,研發團隊引入了一個全新的、統一的、面向智能體的基準測試套件,名為UniVA-Bench。
它的核心思想是將評估的重點從孤立的單模型任務,轉移到端到端的、需要多種工具增強的視頻智能上,從而讓評估標準與真實的用戶工作流程和視頻智能體的實際需求保持一致。
為了全面評估一個智能體的能力范圍和智能水平,這個基準被組織成兩個互補的軌道。
第一個軌道是功能模塊。
它評估智能體在各個核心功能上的性能,涵蓋了理解(比如長視頻問答)、生成(比如從長文本、圖像或實體、或另一個視頻生成新視頻)、編輯(比如在保持跨鏡頭一致性的前提下編輯長視頻)和分割(比如在有多個實體和遮擋情況下的長視頻分割)。
第二個軌道是智能體探測。
它專門用來評估智能體的“大腦”——也就是它的規劃和記憶能力。它使用結構化的計劃級別指標來評估計劃的質量、依賴關系的滿足程度以及在遇到問題時重新規劃的穩健性。它還會分析內存(包括歷史軌跡、用戶偏好和任務故事板)的使用情況及其對最終結果的影響。
具體來說,這些評估任務被設計得非常貼近真實場景。
在理解任務中,它要求AI回答關于長視頻的美學和敘事導向的問題,比如鏡頭轉換、視覺風格和故事線索,而不僅僅是識別實體和動作。這要求AI能理解一個長視頻中多個相互關聯的問題。
在生成任務中,它分成了三個子類型:
- 長文本到視頻,處理那些需要預先規劃故事板的冗長或包含噪聲的文本提示;
- 圖像或實體到視頻,要求AI使用一到三張參考圖像來保證主角身份和跨場景的一致性;
- 視頻到視頻,要求AI以一個源視頻為基礎進行創作,同時確保人和物的參考穩定性。
在編輯任務中,它定義了涉及多步驟的編輯操作,比如跨鏡頭的物體替換、屬性修改和風格轉換,同時還要保持敘事邏輯的完整和參考對象的一致性。
要高效完成這類任務,需要AI結合推理和工具調用,例如先進行參考分割,再進行修復或合成,最后合并。
在分割任務中,它專門針對有多個實體和頻繁遮擋的長視頻片段,評估AI在檢測和分割時的時間一致性和面對鏡頭切換時的穩健性。
為了評估智能體在UniVA-Bench上的表現,研發團隊采用了一套全面的指標體系。這套體系針對三個關鍵領域。
第一個是任務特定質量。它使用行業內公認的指標,比如用CLIP分數來評估AI對指令的遵循程度,用DINO分數來評估生成內容的主題一致性。
第二個是整體用戶偏好。它通過一個強大的“多模態大語言模型充當評委”(MLLM-as-a-Judge)進行成對比較判斷,來捕捉更接近主觀感受的優劣。
第三個是智能體規劃能力。它使用研發團隊專門為此設計的全新指標,包括wPED、DepCov和ReplanQ,來衡量計劃的質量、邏輯的正確性和從故障中恢復的穩健性。
協同作戰的威力遠超單打獨斗
為了在真實的、端到端的工作流程中全面評估UniVA系統的能力,所有實驗都在新引入的UniVA-Bench上進行。
在視頻生成場景中,UniVA與三個代表性的端到端模型進行了基準測試。

在長文本到視頻的任務中,UniVA表現出色,獲得了最高的CLIP分數(0.2814)和MLLM評委分數(3.333)。
這直接歸功于它的智能體框架。與那些直接將長文本輸入模型的端到端方法不同,UniVA的規劃智能體會首先解析冗長且可能包含噪聲的文本,從中提煉出用戶最核心的意圖,并將其轉化為最優的提示詞。這克服了傳統端到端模型的一個常見弱點。
在實體到視頻的任務中,測試的是智能體從參考圖像中維護主體身份的能力。像Seedance這樣的專業模型在主題一致性(DINO分數)上表現強勁,但UniVA仍然保持了競爭力。
在視頻到視頻的任務中,盡管UniVA在自動化指標上并不領先,但它獲得了壓倒性的4.068的MLLM評委分數。
這種明顯的差異表明,UniVA的規劃智能體在解釋和執行復雜指令方面表現卓越,例如“修改故事情節同時保留原有風格”。
這通常需要先理解原始視頻,然后給出一個簡潔的提示來生成新視頻,這自然會降低嚴格的幀級別相似度(DINO分數),但最終產出的視頻更好地滿足了用戶的整體意圖。
在理解任務中,UniVA與包括GPT-4o、Gemini 2.5 Pro在內的幾個領先的大型多模態模型進行了比較。

結果顯示,UniVA智能體達到了最高的0.76的準確率。這證明了智能體將一個長視頻和復雜的查詢分解成可管理的子任務的能力,相比于基礎模型的一次性推理,能帶來更準確和更全面的理解。
在長視頻編輯任務中,UniVA與視頻編輯領域的強大基線模型Vace進行了比較。
可以觀察到,在傳統的非統一設置中,編輯模型與對視頻的深度、連續的理解是脫節的。
UniVA彌合了這一差距。它的智能體首先通過探測工具利用集成的理解模塊,建立起一個持久的語義上下文。
這使得智能體能夠在長時程、跨鏡頭的視頻中精準定位到要編輯的對象,并應用其編輯動作。
在具有挑戰性的長視頻分割任務中,UniVA在所有指標上都超越了最佳分數。
因為它能夠查詢與之協同定位的理解模塊,來解決在像素級別上不可能解決的模糊問題。
例如,當一個物體被遮擋時,智能體可以向探測工具提問:“根據敘事上下文,在時間戳X處重新出現的物體,是否與時間戳Y處的‘藍色汽車’是同一個物體?”
這種動態利用強大的理解模塊來為像分割這樣的感知任務提供信息的能力,是這種集成設計的獨特優勢。

為了給框架選擇一個最佳的規劃者,研發團隊在關鍵的智能體指標上評估了三個領先的大語言模型。
結果顯示,Claude-Sonnet-4在任務依賴性識別(DepCov)和從故障中恢復(ReplanQ)方面表現出卓越的性能。由于這兩點對于一個可靠的智能體至關重要,因此它被選為所有后續實驗的規劃者。
與單智能體框架相比,Plan-Act框架的成功率(即智能體能產生結構有效的計劃的測試用例百分比)翻了一倍以上(45.0%對20.0%),這意味著災難性的規劃失敗率要低得多。
不僅如此,其成功計劃的質量也高出兩倍多(wPED分數0.117對0.050)。這證實了引入一個明確的規劃階段,不僅能輸出有效的計劃,更能輸出高質量的計劃。
而且三種內存機制幫助智能體構建持久的上下文,使其行為更穩健,更能理解用戶意圖,并在生成的視頻中保持更好的一致性。
為了補充自動評估并驗證MLLM評委的可靠性,研發團隊還進行了一項正式的人類評估研究。
他們收集了UniVA系統和基線模型生成的視頻結果,并要求人類標注者根據與MLLM評委相同的標準來判斷每個視頻。

結果顯示,UniVA成為了明顯的領先者,在五個評估維度中的四個維度上獲得了最高的人類偏好分數。這種強烈的人類偏好與在自動指標中觀察到的模式高度一致,證實了MLLM評委是真實人類感知的可靠智能體。
UniVA的能力遠不止于此
下面的一系列定性案例研究,可以更直觀地理解這些量化結果。

UniVA準確地生成了一個制作陶器的順序過程。它展示了強大的時間一致性和對象持久性,一個碗從一塊粘土演變為最終的成品,過程連貫自然。

UniVA在截然不同的場景、光照條件(夜晚與白天)和相機角度下,完美地保持了主角的身份。這展示了其先進且強大的長視頻角色保持能力。

UniVA解釋抽象提示以生成復雜敘事的能力。它編排了一個非線性的故事弧,證明了其作為一個由復雜規劃驅動的智能故事講述者的能力。

UniVA生成了一個連貫的20秒廣告。它準確地遵循了一個結構化的需求序列——從揉面團、展示顧客反應,到最后應用品牌標志,一氣呵成。
UniVA提供的是一種高度自動化、主動且交互式的創作體驗。
它不僅能通過多輪共同創作和深度記憶上下文來迭代故事,還能主動規劃步驟,理解用戶隱含的意圖并提出優化建議。
同時,作為一個工業級的通用視頻框架,UniVA展示了其強大的可擴展性。
它可以處理任何條件的輸入,例如從視頻中分析角色和風格,或者從圖像中維護多個實體的參考。
它可以管理復雜的敘事,例如精確遵循長指令和編排多機位場景,最終實現端到端的、電影質量的視頻制作。
UniVA代表了視頻智能生成領域的一次重要進步。
通過全能的多智能體框架,它成功地將視頻的理解、分割、編輯和生成統一到了一個連貫的工作流程中。



































