美團視頻生成模型來了!一出手就是開源SOTA
美團,你是跨界上癮了是吧!(doge)
沒錯,最新開源SOTA視頻模型,又是來自這家“送外賣”的公司。
模型名為LongCat-Video,參數13.6B,支持文生/圖生視頻,視頻時長可達數分鐘。

從官方釋出的demo來看,模型生成的視頻不僅更加真實自然,而且懂物理的能力又雙叒增強了。
無論是空中滑板:

還是一秒特效變身:

抑或是第一視角下,全程需要保持畫面一致的騎車視頻(時長整整有4分多種):

仔細看,視頻的AI味兒濃度確實降低不少。
而且從測評成績來看,其表現也相當亮眼——文生視頻能力在開源模型中處于頂尖水平,整體質量優于PixVerse-V5和Wan2.2-T2V-A14B,部分核心維度甚至可與谷歌最新、最強閉源模型Veo3媲美。


而且由于采用的是允許商用的MIT協議,連Hugging Face高級主管也用三連問來表示驚嘆。
中國團隊竟然發布了一個MIT協議的基礎視頻模型???

以及其長視頻生成能力(穩定輸出5分鐘)也被視為,“我們離視頻AI的終極形態又更進一步”。

so,一家外賣公司出品的視頻模型究竟如何?來看更多案例。
文生/圖生視頻開源SOTA,還能像制作連續劇一樣生成長視頻!
整體而言,美團這次發布并開源的LongCat-Video具備以下功能:
- 文生視頻:可生成720p、30fps高清視頻,語義理解與視覺呈現能力達開源SOTA級別;
- 圖生視頻:能夠保留參考圖像的主體屬性、背景關系與整體風格等;
- 視頻延長:核心差異化能力,可基于多幀條件幀續接視頻內容。
文生視頻方面,從官方提供的案例來看,這個模型尤為強調對真實世界的理解能力。
一眼看去,主頁上一溜的足球、體操、跳舞等視頻:

僅以其中的“水上芭蕾”來看,模型面臨的挑戰不可謂不艱難——既需要具備高度的細節捕捉能力,還需要能夠處理復雜的光影效果、環境模擬和動態場景。
而LongCat-Video幾乎都考慮到了,整體完成度be like:
圖生視頻方面,這不雙十一到了,所以各大商家也能拿來做一些更實用的宣傳視頻了:

當然,由于提供了原始參考圖,所以圖生視頻上通常我們更看重模型是否能保持前后一致。
而當給了LongCat-Video一張機器人正在工作的圖片后,它直接立馬生成了機器人“居家辦公”的日常vlog。
一會兒拿桌上的小熊、一會兒拿水杯、甚至下班關電腦……不同動作下,桌面及周圍的環境均未發生“異變”,扛住了一致性挑戰。

當搞定了一致性這個“老大難”后,LongCat-Video的玩法也就更多了。
白天當壁畫,晚上出來打游戲可還行(誰說不是真·破壁呢?)。
還能制作動畫大電影:
此外,LongCat-Video最核心的能力還在于視頻延長,它能像制作連續劇一樣生成分鐘級長視頻。
一個視頻搞定后,只需接著續寫提示詞,最終就能生成一個完整情節或片段。
比如下面這個接近半分鐘的視頻,就是通過以下提示詞一步步實現的(中譯版):
1、廚房明亮通風,白色櫥柜和木質臺面交相輝映。一塊新鮮出爐的面包放在砧板上,旁邊放著一個玻璃杯和一盒牛奶。一位身著碎花圍裙的女士站在木質臺面旁,熟練地用鋒利的刀切著一塊金黃色的面包。面包放在砧板上,她切的時候,面包屑四處飛濺。
2、鏡頭拉遠,女人放下手中的刀,伸手去拿牛奶盒,然后將其倒入桌上的玻璃杯中。
3、女人放下牛奶盒。
4、女人拿起牛奶杯,抿了一口。

怎么樣?是不是有拍電影電視劇的感jio了~
敲黑板,由于LongCat-Video本身就經過視頻連續任務的預訓練,所以它能夠制作長達數分鐘的視頻,而不會出現顏色漂移或質量下降的情況(一般可穩定輸出5分鐘級別的長視頻,且無質量損失)。
美團表示,之所以推出LongCat-Video,核心瞄準的還是世界模型這一前沿領域:
作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力。而視頻生成模型有望成為構建世界模型的關鍵路徑——通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。
而為了構建視頻模型LongCat-Video,美團這次在技術方面也是進行了一系列創新和突破。
背后技術原理
LongCat-Video只有13.6B,但集成了文生視頻、圖生視頻和視頻續生三大任務于一體。

具體來說,整個模型以Diffusion Transformer (DiT)為框架設計,其中每個Transformer塊都由3D自注意力層、交叉注意力層,以及采用SwiGLU激活函數的前饋網絡組成。
并使用AdaLN-Zero調制機制,將每個Transformer塊均集成為專用的調制多層感知機,再在自注意力和交叉注意力模塊中,采用RMSNorm歸一化以提升訓練穩定性,另外還對視覺token的位置編碼使用3D RoPE。

然后將所有任務都定義為視頻續生任務,通過條件幀數量進行區分:
- 文本到視頻:0幀條件。
- 圖像到視頻:1幀條件。
- 視頻續生:多幀條件。
統一混合輸入后,將無噪聲的條件幀和待去噪的噪聲幀沿著時間軸拼接,結合時序步配置,以實現單模型原生支持多任務。
而為了適配這類輸入,研究團隊還在架構中設計了一種帶鍵值緩存(KVCache)的塊注意力機制,該設計可以確保條件token不受噪聲token的影響,且后續可以緩存并復用條件token的KV特征,提升長視頻生成效率。
其中最矚目的長視頻生成能力,主要通過原生預訓練設計和交互式生成支持兩大核心特性實現。
首先LongCat-Video摒棄了傳統的“先訓練基礎視頻生成能力,再針對長視頻任務微調”的訓練路徑,而是直接在視頻續生任務上預訓練。
這樣做可以直接從源頭解決長視頻生成中的累積誤差問題,在生成分鐘級視頻的同時,避免色彩漂移和質量下降。
另外LongCat-Video還支持交互式長視頻生成,允許用戶為不同片段設置獨立指令,進一步擴展了長視頻創作的靈活性。

為了提高視頻生成的推理效率,團隊提出了一種從粗到精的生成范式,先是讓模型生成480p、15fps的低分辨率低幀率視頻,再通過三線性插值將分辨率升級至720p、30fps,同時由一個LoRA訓練的精煉專家模型進行細節優化。
再引入塊稀疏注意力,將注意力計算量降至原始的10%以下,配合上下文并行的環形塊稀疏注意力,進一步優化高分辨率生成效率。

結合CFG蒸餾和一致性模型(CM)蒸餾,將采樣步數從50步縮減至16步,實現在單H800 GPU上,單個720p、30fps視頻生成可在分鐘內完成,效率提升超10倍。
另外針對視頻生成場景,使用組相對策略優化 (GRPO)算法,提升GRPO在視頻生成任務中的收斂速度與生成質量。

在訓練過程中,分別采用三類專用獎勵模型:
- 視覺質量 (VQ):結合HPSv3-general和HPSv3-percentile進行評估。
- 運動質量 (MQ):基于VideoAlign模型微調,并使用灰度視頻訓練避免色彩偏好。
- 文本-視頻對齊度 (TA):同樣基于VideoAlign模型微調,但保留原始的彩色輸入。
然后進行多獎勵加權融合訓練,避免單一獎勵的過擬合和獎勵欺騙問題,實現視覺、運動、對齊能力的均衡提升。

在完成數據構建和模型訓練后,研究團隊首先對其進行內部基準測試,主要評估文生視頻和圖生視頻性能。
其中文生視頻,包含文本對齊、視覺質量、運動質量、整體質量四個維度。
實驗結果表明,LongCat-Video在整體質量得分中超越PixVerse-V5和Wan2.2-T2V-A14B,視覺質量接近Wan2.2-T2V-A14B,僅略遜于閉源模型Veo3。
圖生視頻則在此基礎上,新增圖像對齊維度評估,最終結果中LongCat-Video的視覺質量得分最高(3.27),說明整體質量具有競爭力,但圖像對齊與運動質量仍有提升空間。

另外研究團隊還進行了VBench 2.0的公開基準測試,LongCat-Video總得分位列第三(62.11%),僅次于Veo3(66.72%)和Vidu Q1(62.7%)。

值得注意的是,LongCat-Video在常識性維度(運動合理性、物理定律遵循)上處于第一的領先優勢,凸顯出該模型優秀的物理世界建模能力。
One More Thing
而這已經不是這家外賣公司第一次“不務正業”了……
從八月底開始,美團龍貓大模型就在不停地發發發,先是端出來了最經典的開源基礎模型LongCat-Flash-Chat。
總參數560B,可以在僅激活少量參數的前提下,實現性能比肩市面上的主流模型,尤其是在復雜的Agent任務中表現突出。
而且現已登陸API平臺使用~

一個月不到,又上新了LongCat-Flash-Thinking,在邏輯、數學、編碼、Agent多任務中均達成SOTA水平,是國內首個同時具備“深度思考+工具調用”和“非形式化+形式化”推理能力的LLM,可以實現更低成本、更優性能。

隨后又專為語音LLM推出了LongCat-Audio-Codec,可以同時對語義和聲學token以低幀速率(16.7Hz/60ms)并行提取,實現高效離散化,并能夠在極低的比特率中保持高清晰度。
以及專為復雜現實生活場景(外賣送餐、餐廳點餐、旅游出行)打造的Agent評測基準——VitaBench,可以系統性衡量Agent在推理、工具使用和自適應交互方面的能力。(淚目,終于回歸老本行.jpg)
……
最后再到今天的視頻生成模型,毫無疑問,“跨界”AI正在成為這家外賣公司的新常態。
開源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video



































