超越Sora、Veo和Wan!開源生成式AI新里程碑Kandinsky 5.0重磅發布:從2B到19B全覆蓋!

- 論文鏈接 (arXiv):??https://arxiv.org/abs/2511.14993??
- 開源代碼 (GitHub):??https://github.com/kandinskylab/kandinsky-5??
- Hugging Face:??https://huggingface.co/kandinskylab??
- 項目官網:??https://kandinskylab.ai/??
? 亮點直擊
- Kandinsky 5.0,是一套專為高分辨率圖像和視頻合成設計的 SOTA基礎模型家族。
- 全套模型開源陣容:(1) Kandinsky 5.0 Image Lite (6B):用于圖像生成和編輯。(2) Kandinsky 5.0 Video Lite (2B):輕量級文本/圖像生成視頻模型,速度快。(3) Kandinsky 5.0 Video Pro (19B):超大規模視頻生成模型,追求極致質量。
- 技術創新:引入了NABLA 注意力機制,在保持質量的同時顯著降低了計算復雜度。
- 訓練流程升級:采用多階段訓練,特別是引入了基于強化學習(RL)的后訓練和針對性的監督微調。
? 解決的問題
當前視頻生成領域面臨的主要挑戰包括:
- 計算復雜度高:處理隨時間變化的三維視頻數據會導致計算量呈指數級增長,難以擴展到高分辨率和長時長(如 >5秒)。
- 數據質量與篩選:如何從海量數據中清洗出高質量、無水印、美學評分高的數據用于訓練。
- 生成質量與可控性:在生成高動態視頻時,往往難以兼顧動作的一致性、物理真實感和對文本提示詞的精準遵循。
- 推理速度:高質量模型通常推理緩慢,難以滿足實際應用需求。
??? 提出的方案與應用的技術
本工作提出了一套完整的解決方案,涵蓋架構、數據和訓練策略:
- 核心架構 (CrossDiT & Flow Matching):
- 所有模型均基于流匹配(Flow Matching)范式和潛在擴散管道(Latent Diffusion Pipeline)。
- 核心骨干網絡為 **CrossDiT (Cross-Attention Diffusion Transformer)**,融合了 Qwen2.5-VL 的文本嵌入和 FLUX.1-dev/HunyuanVideo VAE 的視覺潛在特征。
- 注意力機制優化 (NABLA):
- 為了解決長視頻生成的計算瓶頸,提出了NABLA。這是一種稀疏注意力機制,通過塊級降維、基于 CDF 閾值的自適應稀疏化以及滑動瓦片(Sliding-Tile)模式,實現了 2.7倍 的訓練/推理加速,并保持了 90% 的稀疏率。
- 數據pipeline :
- 構建了極其詳盡的數據處理流程,包括水印檢測、美學評分(TOPIQ, Q-Align)、文本過濾和合成描述生成(使用 InternVL2, Qwen2.5-VL 等多模態大模型)。
- 構建了專門的Instruct Image Editing 數據集和 SFT 數據集。
- 訓練策略:
- 多階段訓練 :預訓練 SFT(使用高質量篩選數據) 蒸餾 RL 后訓練。
- RLHF (基于人類反饋的強化學習) :在圖像生成中,訓練了一個獎勵模型(Reward Model),并使用 DRaFT-K 算法進行微調,以提升視覺質量和提示詞對齊度。
- 蒸餾 (Distillation) :結合了 CFG 蒸餾、軌跡分段一致性蒸餾 (TSCD) 和對抗性后訓練,將推理步數(NFE)從 100 降低至 16(Flash 版本)。
?? 達到的效果
- 生成質量:
- 在人工評估(Side-by-Side)中,Kandinsky 5.0 Video Pro 在視覺質量和動作動態性上優于或持平于Veo 3和Wan 2.2 A14B。
- Kandinsky 5.0 Video Lite 在與Sora的對比評估中,在特定維度上也展現了競爭力。
- 性能效率:
- 通過 NABLA 和 Flash 蒸餾技術,Video Lite Flash 模型生成 5秒視頻(512x768)僅需35秒 (NFE=16),顯存占用低至 21GB。
- Video Pro 模型支持生成 10秒、1408px 分辨率的高清視頻。
- 開源貢獻:提供了完整的權重和代碼,支持 Hugging Face
diffusers庫,極大地降低了社區的研究門檻。
引言
在過去幾年中,擴散模型及其后續的流匹配方法在圖像生成領域引發了質的飛躍,實現了前所未有的合成質量和多樣性。這一基礎促使了商業和開源系統的快速發展,為用戶提供了從文本到圖像 (T2I) 合成到復雜編輯的廣泛生成能力。迄今為止,圖像生成模型不僅達到了高質量水平,而且還在積極改進,不斷提高真實感和可控性的標準,如 Stable Diffusion 3、Flux、Seedream 3 & 4和 Hunyuan Image 3等模型所示。
這一進展的自然延伸是對視頻生成的興趣日益增長,導致了許多調整和擴展圖像成功架構的方法,如[13, 14, 15, 16]等的出現。然而,由于處理隨時間變化的三維視頻數據時計算復雜度呈指數增長,這些方法的直接轉化面臨著根本性的可擴展性問題。通過積極采用像 Diffusion Transformer (DiT)這樣的架構,部分解決了這些限制,DiT 提供了必要的可擴展性和效率,同時配合一系列針對視頻數據處理的注意力機制修改。
如今,許多視頻生成模型展示了高水平的質量,例如 Sora和 Veo。這一進展的很大一部分是由開源計劃推動的。諸如 HunyuanVideo、Mochi、CogVideoX、Wan和 VACE等項目,通過普及基礎架構和預訓練權重,加速了研究和開發,并展示了接近專業級視頻制作的結果。所有這一切為視頻模型的應用開辟了廣闊的機會,并為創建多媒體生成系統、“世界模型” 和基礎視覺模型奠定了基礎,這些模型的重要性類似于自然語言處理 (NLP) 中的大語言模型 (LLMs)。
盡管發展迅速,但視頻生成仍面臨嚴峻挑戰。除了處理海量數據外,創建此類系統還需要對訓練過程和后續推理進行復雜的多階段優化。因此,高效地創建高質量、連貫且可控的視頻仍然是生成式 AI 中最具挑戰性的任務之一。
在本工作中,旨在解決視頻生成領域的一些關鍵挑戰。提出了 Kandinsky 5.0 —— 一個用于高分辨率圖像和視頻合成的基礎生成模型家族,旨在實現最先進的質量和運行效率。Kandinsky 5.0 套件包含三個模型陣容:
- Kandinsky 5.0 Video Pro:高能的 19B 參數模型,用于文本到視頻和圖像到視頻生成,可創建長達 10 秒的高分辨率視頻。
- Kandinsky 5.0 Video Lite:輕量級的 2B 參數模型,用于文本到視頻和圖像到視頻生成,可制作長達 10 秒的剪輯。
- Kandinsky 5.0 Image Lite:6B 參數模型,用于高分辨率的文本到圖像生成和圖像編輯。

本技術報告的主要貢獻如下:
- 提供了數據收集和處理管線的全面描述,包括為指導性圖像編輯微調以及視頻和圖像模態的自監督微調 (SFT) 準備數據。
- 詳細介紹了所有六個模型的多階段訓練管線,包括用于學習視覺世界通用模式的預訓練階段和用于增強視覺質量的 SFT 階段。本文還介紹了基于 RLHF 的對抗性后訓練方法,該方法基于比較生成圖像與 SFT 數據集中的圖像。此方法實現了更優越的真實感、視覺質量和提示詞對齊。
- 展示了核心 CrossDiT 模型的架構,重點介紹了針對時長超過 5 秒的高分辨率視頻(超過 512 px)的關鍵注意力機制優化——NABLA 方法。這克服了標準時空注意力的二次復雜度,在保持生成視頻質量的同時,以 90% 的稀疏率實現了2.7倍的訓練和推理時間縮減,這一結果已通過 FVD、VBench、CLIP-score和人工側對側(Side-by-Side)測試得到證實。
- 描述了在整個管線中實施的多種優化措施,以加速推理、訓練并減少內存消耗。這些技術包括變分自編碼器 (VAE) 優化、文本編碼器量化,以及使用全分片或混合分片數據并行 (F/HSDP)、激活檢查點 (Activation Checkpointing)等進行的 CrossDiT 訓練優化。
- 對于視頻模型蒸餾,本文采用了一種組合方法,整合了無分類器指導蒸餾 (Classifier-Free Guidance Distillation)、軌跡分段一致性蒸餾 (TSCD)和隨后的對抗性后訓練以增強視覺質量。這將函數評估次數 (NFE) 從 100 減少到 16,同時保持了視覺質量,這一點已通過人工側對側評估結果得到證明。
- 本文將最終模型與幾種最先進的方法進行了評估,并通過在來自 MovieGen [45] 的提示詞集上進行的人工評估,展示了卓越的視頻生成質量。
- 最后,本文開源了所有模型在各個訓練階段的代碼和權重,并通過?
?diffusers?? 庫提供訪問。
報告概覽
本報告的結構旨在提供對模型設計、訓練和評估的全面理解:



- 第 3 節:背景:Kandinsky 模型的演變。追溯 Kandinsky 模型家族的歷史,從早期的基于自回歸的模型到當前最新版本的 Kandinsky 5.0。
- 第 4 節:數據處理pipeline。描述用于整理和標注數據集的大規模多階段管線,這些數據集用于文本到圖像和文本到視頻的預訓練、自監督微調、圖像指令微調以及特定于俄羅斯多元文化數據的收集。本文強調了該方法中的質量控制和可擴展性。
- 第 5 節:Kandinsky 5.0 架構。介紹了 Kandinsky 5.0 模型的架構,該架構對家族中的所有模型通用。核心組件包括交叉注意力擴散 Transformer (CrossDiT)、相應的 CrossDiT 塊方案以及鄰域自適應塊級注意力 (NABLA) 機制,這對于優化訓練和推理至關重要。
- 第 6 節:訓練階段。概述了多階段訓練過程,從大規模數據集上的預訓練到自監督微調、蒸餾以及專為圖像和視頻模型定制的基于 RL 的后訓練。
- 第 7 節:優化。涵蓋了諸如 VAE 編碼器加速、CrossDiT 訓練優化和 GPU 內存高效利用等技術。
- 第 8 節:結果。展示了不同訓練階段視覺質量的增長以及人工側對側 (SBS) 評估,證明了與現有模型相比在動作一致性、視覺質量和提示詞對齊方面的卓越性能。
- 第 9 節:用例。通過視覺示例和技術提示詞,重點介紹了在文本到圖像、圖像編輯、文本到視頻和圖像到視頻生成方面的實際應用。
- 第 10 節:相關工作。將 Kandinsky 5.0 置于更廣泛的生成模型背景下,涵蓋文本到圖像和文本到視頻生成、蒸餾、后訓練技術和生成模型評估方法方面的進展。
- 第 11 節:局限性與未來工作。討論了尚存的挑戰,指引未來的研究方向。
- 第 12 節:邊界影響與倫理考量。詳述了實施的負責任 AI 框架,包括數據管理、運行時保障和倫理使用準則,以確保安全部署。
- 第 13-14 節:結論、貢獻者與致謝。總結貢獻并感謝參與的團隊和合作者。
結論
本報告介紹了 Kandinsky 5.0,這是一個用于高分辨率圖像和視頻生成的通用且可擴展的基礎模型家族。該框架包括三個核心模型陣容:Kandinsky 5.0 Image Lite(6B 參數)、Kandinsky 5.0 Video Lite(2B 參數)和 Kandinsky 5.0 Video Pro(19B 參數),每個模型都針對特定的生成任務和效率要求進行了優化。
Kandinsky 5.0 樹立了開源生成式 AI 的新里程碑,提供了:
- 具有強大美學和構圖控制力的高保真文本到圖像及圖像編輯能力。
- 強大的文本到視頻和圖像到視頻合成能力,支持高達 1408p 分辨率、時長達 10 秒的視頻片段。
- 高效的蒸餾變體 (Video Lite/Pro Flash),在保持質量的同時大幅縮短了推理時間。
盡管取得了這些進展,本文也承認在文本-視覺對齊、長期時間建模以及跨所有視覺領域的泛化能力等方面仍存在局限性。這些挑戰將指導本文正在進行的研究,朝著更統一、高效和符合倫理的生成模型邁進。
相信 Kandinsky 5.0 代表了向高質量生成媒體大眾化邁出的重要一步,并為多模態 AI 的未來發展奠定了堅實基礎。
本文轉自AI生成未來 ,作者:AI生成未來

















