外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3 原創

算家計算

發布于 2025-10-27 18:45

瀏覽

0收藏

美團開源首個視頻大模型，一出手就是SOTA級別。

今天，“送外賣”的美團正式發布了名為LongCat-Video的開源視頻生成模型。
?

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區

?
作為美團首個開源視頻大模型，LongCat-Video擁有136億參數，在文生視頻、圖生視頻兩大核心任務中綜合性能達到了當前開源領域的SOTA級別。其部分核心維度表現甚至可與谷歌最新、最強的閉源模型Veo3相媲美。
?

技術突破：從短視頻到5分鐘長視頻的跨越

LongCat-Video的突出能力在于其出色的長視頻生成表現。該模型能夠穩定輸出5分鐘級別的長視頻，且無質量損失，達到了行業頂尖水平。

長視頻生成一直是行業的難點問題。傳統方法在生成長視頻時往往面臨色彩漂移、畫質降解、動作斷裂等痛點。而LongCat-Video通過原生視頻續寫任務預訓練，從根源上規避了這些問題，保障了跨幀時序一致性與物理運動合理性。

模型采用Diffusion Transformer（DiT）架構，創新性地通過“條件幀數量”實現任務區分。這一設計使單個模型原生支持三大核心任務：文生視頻無需條件幀、圖生視頻輸入1幀參考圖、視頻續寫依托多幀前序內容，形成了完整的任務閉環。

在效率優化方面，研究團隊通過“二階段粗到精生成+塊稀疏注意力+模型蒸餾”三重優化策略，將視頻推理速度提升至10.1倍，實現了效率與質量的最佳平衡。

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區

美團對LongCat-Video的定位遠不止于一個視頻生成工具。官方表示，此次發布的視頻生成模型是為探索“世界模型”邁出的第一步。

世界模型因其能讓AI真正理解、預測甚至重構真實世界，被業界視作通往下一代智能的核心引擎。作為能夠建模物理規律、時空演化與場景邏輯的智能系統，世界模型能賦予人工智能“看見”世界運行本質的能力。

美團LongCat團隊認為，視頻生成模型有望成為構建世界模型的關鍵路徑。通過視頻生成任務壓縮幾何、語義、物理等多種形式的知識，AI得以在數字空間中模擬、推演乃至預演真實世界的運行。
?

性能表現

根據技術報告，LongCat-Video的評估圍繞內部基準測試和公開基準測試展開，覆蓋文本生成視頻、圖像生成視頻兩大核心任務。

在VBench等公開基準測試中，LongCat-Video在參評模型中整體表現優異。具體數據顯示，該模型在文本對齊度、運動連貫性等關鍵指標上展現顯著優勢，僅次于Veo3和Vidu Q1。

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區

值得注意的是，LongCat-Video在常識性維度（運動合理性、物理定律遵循）上處于第一的領先優勢，凸顯了優秀的物理世界建模能力。

?
對于用戶而言，這意味著生成的視頻內容不僅視覺上逼真，在物理規律遵循方面也更加符合真實世界的運行邏輯。

例如，模型生成的“水上芭蕾”視頻，既需要具備高度的細節捕捉能力，還需要能夠處理復雜的光影效果、環境模擬和動態場景。
?
外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區

LongCat-Video采用的是MIT開源協議，商業使用的高自由度使得Hugging Face高級主管甚至用三連問來表示驚嘆：“中國團隊竟然發布了一個MIT協議的基礎視頻模型？？？”

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區
?
對于整個視頻生成領域，LongCat-Video的開源意味著什么？有評論認為，其長視頻生成能力（穩定輸出5分鐘）表明“我們離視頻AI的終極形態又更進一步”。

?
一個“送外賣”的公司為何要研發視頻大模型？

其實，這已經不是美團第一次“不務正業”了。從八月底開始，美團龍貓大模型就在不停地發布新品，先是推出了開源基礎模型LongCat-Flash-Chat，隨后又上線了LongCat-Flash-Thinking，在邏輯、數學、編碼、Agent多任務中均達成SOTA水平。
?

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3-AI.x社區
?

美團CEO王興曾在財報電話會議中闡述AI戰略：“AI將顛覆所有行業，我們的策略是主動進攻而非被動防御。” 據王興當時披露，美團對于AI的部署分為三個層面：分別是AI在工作中的應用、AI在產品中的應用以及構建美團內部大語言模型。

隨著AI技術在視頻領域的不斷融合，未來視頻創作或許會迎來一場新的變革。
?

美團的這次跨界創新也提供了一個有趣案例：當AI技術日益成熟，行業邊界正在變得模糊。

在這個快速演進的AI時代，美團的LongCat-Video或許只是一個開始。

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-10-27 18:47:50修改

贊

回復

舉報

社區頭條

回復

相關推薦

端側實時運行、3B媲美7B！美團、浙大等提出MobileVLM V2：更快、更強的端側視覺語言模型

kcoufee ? 8596瀏覽 ? 0回復
AI大模型搜索之戰開啟，勝出黑馬竟是ta？

duhorse ? 3665瀏覽 ? 0回復
谷歌開源專業代碼模型：對硬件要求低，性能超強！

Aceryt ? 4698瀏覽 ? 0回復
谷歌發布Veo：文生超1分鐘、1080P視頻，媲美Sora

Aceryt ? 6039瀏覽 ? 0回復
性能超Llama 3，可商用！開源大模型Falcon 2

Aceryt ? 4678瀏覽 ? 0回復
性能秒殺SD3、DALL·E-3，開源文生圖模型殺出大黑馬

Aceryt ? 4369瀏覽 ? 0回復
比肩Sora！快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 3757瀏覽 ? 0回復
開源最大AI視頻模型，130億參數，性能媲美閉源，擊敗Runway Gen-3、Luma 1.6

51CTO技術棧 ? 4155瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 8005瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優化

amei2000go ? 4909瀏覽 ? 0回復
Google 發布了用于視頻生成的最先進的“Veo 2”和用于圖像創建的“Improved Imagen 3”

Halo咯咯 ? 3690瀏覽 ? 0回復
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領先 20-32 倍

AIPaperDaily ? 4641瀏覽 ? 0回復
比肩可靈視頻生模型；改善視覺Tokenizer性能；高壓縮潛在表示；像素空間擴散生成

AI研究前瞻 ? 3435瀏覽 ? 0回復
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 3077瀏覽 ? 0回復
性能比肩Claude4! 阿里開源4800億參數編程大模型Qwen3-Coder

AI博物院 ? 8859瀏覽 ? 0回復
美團開源5600億參數MoE大模型的效率革命

柏企閱文 ? 3579瀏覽 ? 0回復
美團龍貓再開源LongCat-Flash-Thinking模型，細節滿滿！

NLP工作站 ? 2541瀏覽 ? 0回復
國產開源LLM大爆發，Qwen、Minimax、美團、騰訊~

PaperAgent ? 2214瀏覽 ? 0回復
視頻生成的下一站？港中文&字節開源VAP：用視頻作提示詞，性能新SoTA，比肩天價商用

zhangyannni ? 1222瀏覽 ? 0回復

算家計算

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

外賣巨頭變身AI黑馬！美團開源視頻大模型，性能比肩谷歌Veo3 原創

技術突破：從短視頻到5分鐘長視頻的跨越

性能表現

目錄