DeepSeek深夜發布新模型,但不是R2
昨晚,DeepSeek 宣布其線上模型版本已升級至 V3.1。此次更新雖非市場期待的 R2 系列,但在長文本處理能力上實現顯著突破,將上下文窗口從 64K 擴展至 128K,相當于可處理 10 萬至 13 萬漢字內容。
?

?
新模型采用稀疏混合專家架構(MoE)與多頭潛在注意力機制(MLA),總參數量達到 685B,激活參數量為 37B per token,在保持高性能的同時控制計算成本。關鍵技術創新包括分塊注意力機制和旋轉位置編碼優化,有效降低長序列處理的顯存占用。
?
總的來說,新模型與 DeepSeek-V3-0324 相比,在參數量等方面沒有明顯變化。
?
媒體與社區信息顯示,線上網頁、App與小程序入口已切換到新版本,API 調用方式保持不變;開源側則上傳了 Base 權重。
?
目前,該模型已經沖上了 Hugging Face 熱門模型榜第 2 位:
?

?
值得注意的是,將 Base 權重放到平臺而不急于公布一長串基準分數,意味著團隊更看重把“可復現與可部署”的閾值拉低,讓社區先行試跑,收集真實場景反饋,再補齊系統性的評測材料。對于希望做私有化適配的團隊,這樣的節奏反而更友好:先驗證推理鏈路、量化與張量格式,再決定是否大規模遷移。
?
當然,V3.1 并不等于 R2。后者背負的外界預期更多在新范式與更高上限,而前者強調的是當下可用性。在上游硬件與供應鏈仍有不確定性的時候,模型路線的快與穩很難兼得。
?
V3.1 是一個強調可用性的版本,它不會解決所有對 R2 的期待,卻能在當下把體驗拉齊,維持產品與生態的活躍。
?
回顧 DeepSeek 今年的幾次更新,基本都是變動不大的小更新,這里我整理了 DeepSeek-R1 發布以來的一系列模型更新的時間節點:
?

?
盡管 V3.1 有一定改進,市場關注的 R2 模型仍未公布具體發布時間。大家認為 R2 將會在哪些方面實現新突破?歡迎交流討論!

















