外賣巨頭變身AI黑馬!美團開源視頻大模型,性能比肩谷歌Veo3 原創
美團開源首個視頻大模型,一出手就是SOTA級別。
?
今天,“送外賣”的美團正式發布了名為LongCat-Video的開源視頻生成模型。
?

?
作為美團首個開源視頻大模型,LongCat-Video擁有136億參數,在文生視頻、圖生視頻兩大核心任務中綜合性能達到了當前開源領域的SOTA級別。其部分核心維度表現甚至可與谷歌最新、最強的閉源模型Veo3相媲美。
?
技術突破:從短視頻到5分鐘長視頻的跨越
?
LongCat-Video的突出能力在于其出色的長視頻生成表現。該模型能夠穩定輸出5分鐘級別的長視頻,且無質量損失,達到了行業頂尖水平。
?
長視頻生成一直是行業的難點問題。傳統方法在生成長視頻時往往面臨色彩漂移、畫質降解、動作斷裂等痛點。而LongCat-Video通過原生視頻續寫任務預訓練,從根源上規避了這些問題,保障了跨幀時序一致性與物理運動合理性。
?
模型采用Diffusion Transformer(DiT)架構,創新性地通過“條件幀數量”實現任務區分。這一設計使單個模型原生支持三大核心任務:文生視頻無需條件幀、圖生視頻輸入1幀參考圖、視頻續寫依托多幀前序內容,形成了完整的任務閉環。
?
在效率優化方面,研究團隊通過“二階段粗到精生成+塊稀疏注意力+模型蒸餾”三重優化策略,將視頻推理速度提升至10.1倍,實現了效率與質量的最佳平衡。
?

?
美團對LongCat-Video的定位遠不止于一個視頻生成工具。官方表示,此次發布的視頻生成模型是為探索“世界模型”邁出的第一步。
?
世界模型因其能讓AI真正理解、預測甚至重構真實世界,被業界視作通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型能賦予人工智能“看見”世界運行本質的能力。
?
美團LongCat團隊認為,視頻生成模型有望成為構建世界模型的關鍵路徑。通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識,AI得以在數字空間中模擬、推演乃至預演真實世界的運行。
?
性能表現
?
根據技術報告,LongCat-Video的評估圍繞內部基準測試和公開基準測試展開,覆蓋文本生成視頻、圖像生成視頻兩大核心任務。
?
在VBench等公開基準測試中,LongCat-Video在參評模型中整體表現優異。具體數據顯示,該模型在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢,僅次于Veo3和Vidu Q1。
?

?
值得注意的是,LongCat-Video在常識性維度(運動合理性、物理定律遵循)上處于第一的領先優勢,凸顯了優秀的物理世界建模能力。
?
對于用戶而言,這意味著生成的視頻內容不僅視覺上逼真,在物理規律遵循方面也更加符合真實世界的運行邏輯。
?
例如,模型生成的“水上芭蕾”視頻,既需要具備高度的細節捕捉能力,還需要能夠處理復雜的光影效果、環境模擬和動態場景。
?

?
LongCat-Video采用的是MIT開源協議,商業使用的高自由度使得Hugging Face高級主管甚至用三連問來表示驚嘆:“中國團隊竟然發布了一個MIT協議的基礎視頻模型???”
?

?
對于整個視頻生成領域,LongCat-Video的開源意味著什么?有評論認為,其長視頻生成能力(穩定輸出5分鐘)表明“我們離視頻AI的終極形態又更進一步”。
?
一個“送外賣”的公司為何要研發視頻大模型?
?
其實,這已經不是美團第一次“不務正業”了。從八月底開始,美團龍貓大模型就在不停地發布新品,先是推出了開源基礎模型LongCat-Flash-Chat,隨后又上線了LongCat-Flash-Thinking,在邏輯、數學、編碼、Agent多任務中均達成SOTA水平。
?

?
美團CEO王興曾在財報電話會議中闡述AI戰略:“AI將顛覆所有行業,我們的策略是主動進攻而非被動防御。” 據王興當時披露,美團對于AI的部署分為三個層面:分別是AI在工作中的應用、AI在產品中的應用以及構建美團內部大語言模型。
?
隨著AI技術在視頻領域的不斷融合,未來視頻創作或許會迎來一場新的變革。
?
美團的這次跨界創新也提供了一個有趣案例:當AI技術日益成熟,行業邊界正在變得模糊。
?
在這個快速演進的AI時代,美團的LongCat-Video或許只是一個開始。

















