DeepSeek發布新模型!采用全新稀疏注意力架構設計,與國產芯片協同優化 原創
昨天,DeepSeek正式發布并開源了DeepSeek-V3.2-Exp模型,新模型引入的稀疏注意力架構不僅帶來了計算效率的顯著提升,更實現了API價格的大幅下調。同時,新架構還與國產芯片深度協同,適配多家國產芯片廠商。
?

?
DeepSeek-V3.2-Exp作為一個實驗性版本,在其前代模型V3.1-Terminus的基礎上引入了DeepSeek Sparse Attention稀疏注意力機制。這一架構創新突破了傳統Transformer架構的限制,讓模型在處理每個字符時能夠只關注那些與它最相關的少數關鍵信息,從而大幅提升長文本訓練和推理效率。
?
效率提升直接體現在成本變化上。DeepSeek宣布官方API價格相應下調,在新的價格政策下,開發者調用DeepSeek API的成本將降低50%以上。具體來看,輸入價格在緩存命中時從0.5元/百萬tokens降至0.2元/百萬tokens,輸出價格則從12元/百萬tokens大幅降到了3元/百萬tokens。這種幅度的降價使得高性能AI模型的使用門檻顯著降低。
?

?
技術層面,DeepSeek采用全新的稀疏注意力機制。新架構用一個更精簡的128維FP8精度Lightning Indexer替代了過去相對臃腫的注意力機制。這個索引器本身不攜帶復雜信息,只作為快速查找工具,查找過程使用低成本的FP8精度,而進行核心計算的重要信息則依然保持完整的FP16全精度處理。這種在不影響最終質量的地方極致壓縮成本的思路,是能夠將注意力成本降低近9倍的關鍵。
?
官方數據顯示,在與V3.1-Terminus嚴格對齊的比較中,V3.2-Exp在各項核心能力上都保持了基本持平的水準。在代碼生成、數學推理和通用知識等多個公開評測集上,二者的得分都非常接近,差距基本控制在1%以內。這表明稀疏注意力機制在提升效率的同時,確實實現了性能的穩定保持。
?

?
此次發布的最大亮點是國產芯片的即時適配。DeepSeek-V3.2發布當天,寒武紀與昇騰均已實現適配。
?

?
全新DeepSeek Sparse Attention機制疊加國產芯片的計算效率,可大幅降低長序列場景下的訓練推理成本。
?
這種軟硬協同設計支持國產算力的深度協同不僅體現在算法與芯片的配合上,還延伸到了開發工具層面。DeepSeek開源了新模型研究中設計和實現的GPU算子,包括TileLang和CUDA兩種版本。TileLang作為一種由北大團隊研發的新型編程語言,專為簡化高難度的GPU算子開發而設計,能夠極大地降低底層優化的門檻和研發成本。
?
目前,模型已在Huggingface與魔搭平臺開源,官方App、網頁端、小程序均已同步更新。
?
V3.2-Exp代表著DeepSeek向下一代架構邁進的關鍵一步。官方將其定位為一次針對長文本訓練與推理效率的探索性優化和驗證。
?
隨著上下文窗口越來越長,傳統注意力機制可能會遭遇性能上的注意力懸崖,即在某個長度節點之后,模型處理信息的能力會突然大幅下降。
?
稀疏注意力機制的應用,正是為未來更長的上下文場景探索一種能從根本上避免這個問題的架構解決方案。
?
DeepSeek-V3.2-Exp的發布,展示了AI模型發展的一條可行路徑——通過底層架構創新實現效率突破,進而推動整個應用生態的繁榮。
?
隨著開源模型的不斷進步和國產算力協同的深化,AI技術正在以前所未有的速度走向普及和應用。DeepSeek-V3.2-Exp的開源,所代表的不只是一次技術迭代,更是整個AI產業生態成熟和深化的體現。

















