剛剛，AI視頻的天花板被掀翻！測完SkyReels后飄了：我亦有成為專業導演的潛質

2025-11-04 16:04:26

相較于國外同行，很多國內玩家還有一個明顯的不同：不滿足于只做 AI 視頻產品，也傾向于實現覆蓋圖像、音視頻、數字人、Agent 等全模態的全鏈路創作，通過模板化配置和流程化指引降低創作門檻，打造更宏大的內容共創平臺，突破 AI 視頻的應用邊界。

視頻生成快速演進的腳步仍未停歇，就在今天，昆侖萬維的新動作又一次突破行業想象。

上個月，AI 視頻賽道風起云涌，業界資深玩家紛紛拋下「重磅炸彈」。國外 OpenAI 祭出 Sora 2、馬斯克 xAI 推出 Imagine v0.9、谷歌更新 Veo 3.1，國內生數科技推出 Vidu Q2、MiniMax 發布海螺 2.3，這些新模型無一不在質量、速度、時長等方面下足了功夫，音畫同步、20 秒時長等亮點功能對于創作者來說已經波瀾不驚了。

這種「模型 + 平臺」并行演進的模式更能加速 AI 視頻創作的普及，昆侖萬維剛剛官宣上線的全新 SkyReels 便是這一思路的集中體現。作為一個一站式、零門檻的多模態 AI 視頻創作平臺，SkyReels 為 AI 創作者帶來了更多的創意玩法。

此次全新 SkyReels 同步發布了多模態視頻生成模型 SkyReels V3，并對圖片、音頻和視頻參考等能力進行全方位優化。平臺本身還提供無限畫布、數字人口播、多模板生成與 Agent 等多種創作模式，供創作者使用。

我們先來欣賞一下官方 demo，AI 視頻生成的表現可謂是花樣百出、趣味性十足，比如多數字人。

在拿到全新 SkyReels 的內測資格之后，我們馬上對它來了一波實測。

一手實測

AI 視頻生成被玩出花

在測試環節，我們著重體驗了 SkyReels 的畫布、Agent、視頻模板、數字人和視頻編輯等亮點功能。這個集多花樣玩法于一身的 AI 視頻生成平臺究竟能帶來哪些驚喜？我們接著往下看。

官網地址：https://www.skyreels.ai

無限畫布

SkyReels 本次的最大亮點之一，全部 AI 功能和多個全球頂尖 AI 模型都集成于同一個創作空間，一張無限畫布，它即是所有 AI 工具，也是圖片、視頻、音樂等多模態的融合載體。

在無限畫布上，你看到的每一個內容，都是一個活的、可交互的積木 —— 所見即所得，效果實時呈現。

你可以在畫布上使用任何你想要的全球頂尖的模型，也可以使用任何你想要的 AI 創作功能，更可以添加任何素材到 Chat ，與「超級智能體」（Super Agent）一起完成創作。

整個創作工作是流動的，比如讓靜態的中國名畫《清明上河圖》動起來，只需要將原圖上傳到畫布，拖拽原圖到圖生視頻功能，即可在畫布生成視頻。

輸入的原圖

我們將圖片從畫布拖到 Video 功能模塊下，然后簡單輸入要求（讓圖中的人物動起來），點擊生成就可以了：

短短幾秒，會動的《清明上河圖》就完成了：

看到上面的《清明上河圖》視頻后，如果你也有一些靈感，想生成更具有年代感和寫實的《清明上河圖》，可隨時添加生成的視頻到 Chat，與「超級智能體」（Super Agent）對話，一起頭腦風暴，激發更多靈感。

智能體就會從主題、設定、構圖、色彩等多角度思考，生成另一個版本的《清明上河圖》：如下是生成陶土風格的《清明上河圖》。同時利用 AI 音頻功能為這個視頻配上古風古韻的 BGM，并能精細地將視頻分辨率提升到 4K：

以上所有操作，都是在畫布上實現的。在無限的多模態畫布上，靈感不再沿著單一路徑生長，而是在多個空間中自由碰撞。每一個素材都可以被無限的連接與重組。圖片、視頻、音頻、文字在同一平面上實時互動，創意由此具備了空間感與生命力。昆侖萬維希望，用戶不必學習如何掌握 AI，只需自然地去使用它。而 AI 的使命，正是讓創作變得更自由、更高效、更簡單。

Agent

在前面的畫布中，我們已經感受過 Super Agent（全能創意助手）的功能。此外，Agent 模塊還包括 Expert Agents，其覆蓋四大核心領域的專業團隊，當你需要市場營銷策略、電子商務運營、虛擬形象塑造或創意故事編寫時，都能在 Agent 庫中找到對應的專家，高效完成專業任務。

在 Super Agent 的對話框中，你可以自由輸入任何想法 —— 無論是生成圖片、分析視頻，還是進行多模態創作，都能輕松實現。下面這張圖片，正是 Super Agent 根據提示自動生成的結果。

An elegant necklace with an 18K yellow gold chain and a white gold pendant shaped like a detailed laurel leaf. The leaf is studded with small round diamonds resembling stars. The pendant's reverse side features a moon silhouette cutout. Displayed on a navy blue velvet neck form. Soft, diffused lighting, ultra-high definition product photography, 8K

如果你對這條項鏈有了新的靈感 —— 比如想看看模特佩戴后的效果，不妨試試 Expert Agents，系統內置了 28 位行業專家，以專業視角和創意審美為你打造專屬造型方案。

這里我們選擇了「Virtual Styling Images」這個 Expert Agent，它擅長將時尚單品轉化為風格鮮明、極具視覺沖擊力的造型照片。然后給出簡單指令 —— 以暗黑風格搭配這條項鏈。

Expert Agent 思考了一會，然后輸出 6 張暗黑哥特風格的虛擬試戴圖。

我們挑選了其中一張效果如下：從結果可以看出，系統自動調整了光影與膚色匹配，使配飾與人物完美融合，毫無違和感。成品像是出自時尚大片現場，兼具視覺沖擊力與藝術構成感。

如果你覺得僅看圖片還不過癮，可以將其轉換為視頻。只需選擇「Multi Script Avatar」，系統就能自動為畫面生成帶語音解說的視頻。

值得一提的是，整個過程我們只是上傳了圖片、簡單輸入要求，視頻配音、字幕等都是智能體自動生成的。過程如下：

最終效果：

這樣，一條項鏈從生成到最終展示，整個過程都一氣呵成。從靈感構思到造型搭配，再到視頻呈現，每一步都由智能 Agent 完成，幾乎無需人工干預，就能獲得雜志級的成片效果。

在測試中，我們還發現，用戶無需輸入復雜的提示詞，簡單描述一下要求，Agent 即可自動執行多步驟的復雜任務，一鍵生成可直接交付的完整成果，而非零散的半成品。

而這，僅僅是一個開始。可以想象，不久的將來，這些 Agent 之間將不再是孤立的個體，而是能夠相互理解、主動協作的智能網絡。屆時，創作者只需提出一個想法，系統就能自動組織一支虛擬團隊，從策劃到產出全流程閉環完成。

模版

SkyReels 模板庫迎來全面升級，現已收錄近 10 大類、150 余種專業模板，覆蓋從視覺設計到智能視頻生成的全流程創作需求。

無論是圖片生成還是視頻制作，用戶都能一鍵完成，從海報設計、電商服裝圖，到商品演示視頻、數字人口播講解等多種主流場景。

話不多說直接測試。我們上傳了一張隨手拍攝的圖片，畫面看起來平平無奇，沒有精致的布光，也沒有特別的構圖。

但你別急，在 SkyReels 模板功能的處理下，這張普通的圖片瞬間「活」了起來。

模板庫預設了很多熱門設計，選擇自己心儀的模板，上傳圖片點擊生成就可以了。

最后效果是這樣的：

測試下來，和原圖一對比，是不是檔次一下子就上來了？以后在做商品展示等任務上，原本普通的照片，在這些模版的加持下，整體質感直接提升了好幾個層次。不需要專業攝影，也不需要繁瑣修圖，就能做出「英雄鏡頭」。

除了商品靜態展示上效果突出，模版功能還支持人物動態視頻，我們就拿虛擬試衣來講吧，模板支持多件服飾（如上衣、褲子、帽子）同時試穿，這里我們上傳了帽子和裙子。

然后再加上一個在產品畫布中制作出的品牌 LOGO，選擇品牌廣告模板，就會得到這樣極富高級感的結果：

如果還想要更有故事感的廣告片，選擇創意剪輯模板，把剛用過的草帽圖片上傳就能一鍵將普通的草帽拍出大片感：

數字人

SkyReels 實現了全場景數字人對口型生成，同時支持單人數字人與單鏡頭多人多輪對話兩種模式，可生成最長 4 分鐘連續對口型視頻。

其中，單人數字人生成模型既支持單人的圖片驅動，也支持視頻驅動。最多支持 32 種運鏡組合與鏡頭運動選項，可靈活適配不同敘事需求與畫面風格，讓生成視頻更具鏡頭語言與電影質感。

這里我們輸入一張圖片（或者上傳視頻都可以）：

接下來，只需挑選一位配音員即可。SkyReels 內置了豐富的配音資源庫，用戶可自由選擇配音員的語言、性別、年齡與音色風格，輕松匹配不同場景與角色氣質。如果你不想使用內置的配音，也可以本地上傳配音。

最后，輸入你想讓數字播報的內容，點擊生成就可以了。

播報內容：Equipped with the latest Bluetooth 5.3 technology, SonicAir Pro delivers ultra-stable connections and crystal-clear audio with virtually zero delay. Whether you’re taking calls, listening to music.

在多人對口型模式下，用戶只需上傳一張包含多位人物的圖片，系統即可自動識別并區分不同角色。

隨后，用戶可根據需要自定義角色編號（男為 Character 1，女為 Character 2），并為每個角色分別選擇配音員與輸入臺詞內容。整個流程簡潔直觀，輕松實現多角色對話的精準控制與個性化創作。

最后，點擊生成就可以了。

Character 1：Ladies and gentlemen, prepare to be amazed! Character 2：Because what you’re about to see will change everything! Character 1：It’s bold, it’s brilliant, it’s absolutely unforgettable! Character 2：And trust us—you won’t want to miss a single second!

這幾個示例測試下來，我們發現 SkyReels 無論是單人口播、還是多人交流，模型都能準確識別角色、平滑銜接語音節奏，生成的視頻對話自然流暢、幾乎無延遲感。同時，在單人場景中，新增的 32 種運鏡組合讓畫面表現更具層次與動感。

這也意味著，SkyReels 的出現極大降低了多鏡頭拍攝與后期配音的制作成本。創作者只需輸入音頻或腳本，即可快速生成具備完整表演與鏡頭語言的視頻內容。無論是影視級對話拍攝、電商雙人口播，還是游戲劇情素材創作，SkyReels 都能在保持高質量表現的同時，實現創意表達與制作效率的雙重提升。

視頻編輯

最后，我們測試了 SkyReels 的視頻編輯功能，特別是視頻延長和風格化功能。

首先是視頻延長，這項能力要求智能預測下一個鏡頭的合理延續與場景內容。SkyReels 支持了 Cut-In、Cut-Out、Reverse Shot、Multi-Angle 以及 Cut Away 等切鏡方式，生成的延展片段在敘事邏輯與視覺連貫性上高度一致，使畫面語言更豐富、更具層次感。

提示：the camera shifts to the back left, focusing on the arched building behind her, and zooms in

至于視頻風格轉換，SkyReels 目前支持了剪紙、辛普森、鉤針毛線、樂高、動森、像素、梵高等風格。先來一個辛普森風格：

再來一個鉤針毛線風格：

總的來說，這番測試帶給我們的直觀感受是：無論是可玩性、互動性，還是整體表現力，SkyReels 都超過了以往體驗過的同類產品。并且，該平臺將 AI 視頻功能的延展性和創作自由度提升到了前所未有的新高度。

昆侖萬維還預告了更多「正在路上」的玩法，比如可 prompt 控制，通過自然語言精準調度鏡頭、驅動角色。從此以后，在 AI 視頻生成領域，工具不再是限制你發揮的最大因素，想象力才是。

多模態統一進化

打通圖像、音頻與視頻邊界

全新 SkyReels 讓我們看到了一站式 AI 視頻創作平臺的各種新奇和實用玩法，生成的視頻在物理運動真實性、鏡頭連續一致性、聲音口型同步性和人物表情細膩度上不可同日而語，觀感上無限接近真實。

取得現在的效果，基礎模型 SkyReels V3 功不可沒。該系列模型基于同一個多模態上下文學習框架進行預訓練，并通過子任務精調實現了進一步訓練適配優化。

首先是基于多主體參考圖像的視頻生成，需要解決一系列挑戰：多主體容易出現形變與身份漂移、背景元素在鏡頭運動或場景切換中常出現重復、難以同時保持參考圖像特征與提示詞的語義約束。SkyReels V3 依據多主體與背景參考圖像，并結合用戶輸入的提示詞，從而生成符合組合關系與情節發展的視頻片段。

這里有兩大創新點值得關注：一是對參考圖像具備很強的內容保持能力，為此構建了一整套數據處理流程，采用跨幀配對策略從連續視頻中選擇參考幀，借助圖像編輯模型提取主體圖像，并同步完成背景補全與語義改寫，從而有效規避「復制粘貼」效應。二是訓練階段引入圖像 - 視頻混合訓練機制，支持多分辨率聯合訓練，顯著提升模型泛化性能。

最終，SkyReels V3 在實現主體與背景一致性二者兼得的同時，可以精準響應用戶指令要求，并在多項評估基準測試中得到驗證，取得了業界閉源 SOTA。

其次是基于音頻參考的視頻生成。在今年 8 月發布的音頻驅動數字人模型 SkyReels-A3 基礎上，SkyReels V3 進一步優化了音畫對齊和畫面質量，并在業內首次支持單鏡頭多人多輪對話。前文實測中栩栩如生的數字人視頻正是基于這項能力生成。

做到這一點需要更好地解決時序與語義同步、多主體空間分配與身份保持、鏡頭連貫性與視覺協調等層面的技術挑戰，為此昆侖萬維引入了區域路由機制，讓用戶可以自由指定畫面中的若干角色說話，并將含有角色標簽的多段音頻按對話順序拼接，從而實現自然流暢的多輪對話。

為了進一步提升生成視頻的整體質量，SkyReels V3 在保持高精準音畫同步之外強化了運鏡控制，對多種復雜運鏡組合的嫻熟運用增強了觀賞性與藝術表現力。具體來講，通過輸入相機運動參數的監督學習，模型實現了同一時間多個運鏡組合控制以及不同時間運鏡的絲滑切換。同時，SkyReels V3 利用關鍵幀插幀方法支持不同的動作幅度，并做到分鐘級高質量視頻生成。

昆侖萬維表示，在相同分辨率生成場景下，SkyReels V3 的音畫同步效果和整體畫面質量接近主流閉源 SOTA 視頻模型，比開源競品更是強了一大截。

最后是基于視頻參考的視頻生成，這正是 SkyReels V3 同時支持視頻延長、視頻風格化與視頻編輯等多任務的能力根基。面對它們存在的條件理解差異，昆侖萬維進行了系統性優化：引入基于參考視頻和生成視頻關系的空間位置編碼和任務特定嵌入，實現統一的任務理解與表征；通過結合 token concat 的靈活性和 channel concat 的高效性，顯著減少了 token 數量并保持生成質量；借助歷史增強機制實現分鐘級視頻延長。

其中針對視頻延長，SkyReels V3 基于視頻語義和用戶提示詞智能預測后續鏡頭銜接，支持單鏡頭延長以及 Cut-In、Cut-Out、Reverse Shot 等多種切鏡延長，并在單鏡頭與切鏡延長兩類任務上達到業界 SOTA。針對視頻風格化，自研一套端到端自動化的風格化數據生成與篩選流程，結合 ControlNet 的可控生成能力與多模態模型的過濾機制，從數據層面確保視頻風格化的規模化訓練與藝術可控性。針對視頻編輯，支持編輯指令、遮罩區域與參考圖聯合控制，實現增刪改替等靈活操作，功能即將上線。

這套連招下來，SkyReels V3 在技術上統一了圖像、音頻與視頻的多模態生成體系，從理解內容到生成畫面、掌控敘事全面進化。

人人皆可專業創作

正在加速到來

從大約兩年前 Pika、Sora 將人們的目光引入到 AI 視頻賽道開始，國內外的玩家們進入到了狂飆模式。每一次模型能力的突破，都在不斷拓寬視頻生成這一概念的邊界。從工具創新到創作方式重塑，這個賽道變得越來越成熟與多元化。

如今的國內廠商，不僅在與谷歌、OpenAI 等國際巨頭的正面競爭中不落下風。并且憑借在創作場景、內容生態上的深厚積累，很多更是走出了差異化的發展路徑 —— 一邊著力提升產品表現，一邊押注生態布局。

以昆侖萬維為例，其自去年 8 月推出 SkyReels 之后，便開始了在該賽道的突飛猛進。今年以來，昆侖萬維先后發布并開源了視頻生成模型 SkyReels V1、V2 以及 SkyReels A1、A2、A3，每一次都能在國內外創作者圈中留下不錯的口碑。

依托這些強大的基礎模型，SkyReels 逐漸形成了集圖片生成、口播講解、故事音樂、戲劇、對口型數字人等于一身的 AI 視頻創意矩陣，一站式地為媒體、電商、教育、音樂、游戲等各行各業提供高質量、多樣性的內容輸出。

此次全新 SkyReels 重磅上線，將進一步鞏固昆侖萬維全球 AI 視頻第一梯隊的地位，并加速「人人皆可專業視頻創作」愿景的到來。

而作為昆侖萬維堅定推進人工智能戰略、聚焦 AGI 與 AIGC 的核心業務之一，AI 視頻與 AI 智能助手、AI 音樂與音頻、AI 短劇、AI 社交以及 AI 游戲共同構筑多元矩陣，并成為新時代下營收增長的重要引擎之一。昆侖萬維數天前發布的 2025 第三季度報告顯示：前三季度，公司實現營業收入 58 億元，同比增長 52%，公司 AI 相關業務收入同比大幅增長，證明了其多模態一體化戰略的前瞻性與商業落地能力。

未來，AI 視頻賽道還將解鎖怎樣的新玩法，期待一波昆侖萬維給出的答案。

責任編輯：張燕妮來源：機器之心

AI 視頻生成模型