DeepSeek新模型上線!引入DSA新稀疏注意力,還又狙了CUDA一槍
剛發V3.1“最終版”,DeepSeek最新模型又來了!
DeepSeek-V3.2-Exp剛剛官宣上線,不僅引入了新的注意力機制——DeepSeek Sparse Attention。
還開源了更高效的TileLang版本GPU算子!

目前,官方App、網頁端、小程序均已同步更新,同時還有API大減價:5折起。

這波DeepSeek國慶大禮包,屬實有點驚喜了。
新注意力機制
DeepSeek-V3.2-Exp基于上周剛更新的DeepSeek-V3.1-Terminus打造,核心創新是引入了DeepSeek Sparse Attention(DSA)稀疏注意力機制。
DSA首次實現了細粒度注意力機制,能在幾乎不影響模型輸出效果的前提下,實現長文本和推理效率大幅提升。

與前不久更新的DeepSeek-V3.1-Terminus對比,在各領域公開測評集上,DeepSeek-V3.2-Exp和V3.1-Terminus基本持平。
V3.1-Terminus是在 DeepSeek-V3.1基礎上的一個強化版本,在穩定性、工具調用能力、語言一致性、錯誤修正等方面進行迭代改進。

另外,論文提到,使用DSA的模型在處理128K長上下文時,推理成本顯著低于DeepSeek-V3.1-Terminus,尤其在解碼階段。

TileLang & CUDA雙版本算子開源
DeepSeek還表示,在新模型研發過程中,需要設計和實現很多新的GPU算子。
他們使用高級語言TileLang進行快速原型開發,并在最后階段,以TileLang作為精度基線,逐步使用底層語言實現更高效的版本。
因此,V3.2開源的主要算子包括TileLang和CUDA兩種版本。
官方還附上一句:
我們建議社區在進行研究性實驗時,使用基于TileLang的版本以方便調試和快速迭代。
官方API的價格也順勢來了個5折起,新價格即刻生效。
這還等什么…朋友們國慶整起來吧。
指路↓
HuggingFace:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
ModelScope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp
論文:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
One More Thing
除了DeepSeek-V3.2之外,據說智譜的GLM-4.6也在路上了。

從下拉菜單可以看到,他們已經把GLM-4.5標成了“上一代旗艦模型”。
下午還剛在GitHub上刷到這張“國慶是休息日,請給我們關注的同學一點時間”的圖:

好好好,為了放假,都打算在節前卷了是吧(手動狗頭)。


































