國產(chǎn)開源LLM大爆發(fā),Qwen、Minimax、美團、騰訊~
近期除了DeepSeek-OCR開源帶來的一波OCR關注熱潮之外,Qwen、Minimax、美團、騰訊也持續(xù)開源。

一、Qwen3-VL-2B/32B
Qwen3-VL家族新增2B和32B兩個密集模型尺寸,提供Instruct和Thinking兩種版本,覆蓋視覺語言理解場景,其中32B模型在多個領域表現(xiàn)優(yōu)異,2B模型則適合輕量級部署,目前共開源24個模型版本,均可免費下載商用。

- Interleaved-MRoPE:在時序、寬度、高度三個維度全頻段分配魯棒位置編碼,長視頻推理能力顯著提升。
- DeepStack:融合多層 ViT 特征,捕捉細粒度細節(jié),強化圖文對齊。
- Text–Timestamp Alignment:超越 T-RoPE,實現(xiàn)基于時間戳的精準事件定位,視頻時序建模更強。

https://hf-mirror.com/deepseek-ai/DeepSeek-V3.1-Terminus
https://hf-mirror.com/deepseek-ai/DeepSeek-V3.2-Exp二、MiniMax-M2
MiniMax-M2,這是一個為最大編碼和代理工作流程構(gòu)建的迷你模型。

MiniMax-M2 重新定義了代理的效率。它是一個緊湊、快速且成本效益高的專家混合(MoE)模型(總參數(shù)量為2300億,其中活躍參數(shù)量為100億),專為編碼和代理任務中的精英性能而構(gòu)建,同時保持強大的通用智能。僅使用100億激活參數(shù),MiniMax-M2 提供了當今領先模型所期望的復雜、端到端工具使用性能,但以簡化的形式提供了部署和擴展,使其比以往任何時候都更容易。

https://hf-mirror.com/MiniMaxAI/MiniMax-M2三、LongCat-Video/Audio
LongCat-Video,這是一個基礎的視頻生成模型,擁有13.6億參數(shù),在文本到視頻、圖像到視頻和視頻延續(xù)生成任務中表現(xiàn)出色。它特別擅長高效且高質(zhì)量的長視頻生成,這代表了我們向世界模型邁出的第一步。

LongCat-Audio-Codec,這是一個為語音大型語言模型設計的音頻標記器和去標記器解決方案。它通過并行生成語義和聲學標記來工作,能夠在極低比特率下實現(xiàn)高保真音頻重建,并為語音LLM提供出色的后端支持。

https://hf-mirror.com/meituan-longcat/LongCat-Audio-Codec
https://hf-mirror.com/meituan-longcat/LongCat-Video四、HunyuanWorld-Mirror
混元世界-鏡像是一個多功能的前饋模型,用于全面的3D幾何預測。它整合了多種幾何先驗(相機姿態(tài)、校準內(nèi)參、深度圖),并能夠在單次前向傳遞中同時生成各種3D表示(點云、多視圖深度、相機參數(shù)、表面法線、3D高斯)。

混元世界-鏡像由兩個關鍵組件組成:
(1) 多模態(tài)先驗提示:一種將包括校準內(nèi)參、相機姿態(tài)和深度在內(nèi)的多種先驗模態(tài)嵌入前饋模型的機制。給定任何可用先驗的子集,我們使用幾個輕量級編碼層將每種模態(tài)轉(zhuǎn)換為結(jié)構(gòu)化標記。
(2) 通用幾何預測:一個統(tǒng)一的架構(gòu),能夠處理從相機和深度估計到點圖回歸、表面法線估計和新視角合成的全譜3D重建任務。

https://hf-mirror.com/tencent/HunyuanWorld-Mirror本文轉(zhuǎn)載自??PaperAgent??

















