玩轉DeepSeek V3.1更新引爆國產芯片發展新機遇 原創
寒武紀股價封死20%漲停,市值沖破5200億;中芯國際單日暴漲14%,創十個月最佳紀錄;半導體板塊指數飆升7.31%,這一切,始于8月21日DeepSeek官微上那行短短的文字:“UE8M0FP8是為即將發布的下一代國產芯片設計”。

資本市場用真金白銀為國產AI芯片的未來投票,這場狂歡的核心,正是DeepSeek-V3.1模型與國產芯片的深度綁定。它用一次技術升級,撕開了國產算力長期被“卡脖子”的裂縫。
DeepSeek-V3.1最顛覆性的動作,是拋棄國際通用的FP16/FP32精度標準,改用全新設計的UE8M0FP8格式。這是一種專為國產芯片架構優化的8位浮點數精度,指數占8位、尾數為0位,像為國產GPU量身定制的“加速引擎”。

傳統AI模型部署在國產芯片上時,常因適配不足導致性能損耗。FP8通過壓縮數據精度,將顯存占用降低50%,計算資源需求銳減,同時通過動態范圍調整維持高精度。實測顯示,國產芯片運行效率提升300%以上,專家模塊利用率從30%飆升至85%。這意味著國產芯片即便算力絕對值低于國際巨頭,也能通過深度適配實現性能躍遷。
DeepSeek 官宣 V3.1 的時候提到,這次模型用了 UE8M0 FP8 Scale 的參數精度,同時對分詞器和 chat template 也做了不小的調整,所以和之前的 V3 有明顯區別。FP8 就是把普通浮點數壓縮成 8 位來存,既省空間又省算力。

加上 MXFP8 的“塊縮放”思路:把數據分塊,每塊用自己的縮放系數,這樣既不會丟太多信息,又能節省更多資源。名字里的 U、E、M 可以理解為“無符號 + 指數 + 尾數”。UE8M0 里所有 8 位都用來表示指數,沒有尾數和符號位,這讓處理器復原數據時非常輕松:只要移動指數位就行,不用做復雜乘法,速度快、路徑短。
目前大部分國產 AI 加速器還是 FP16/INT8 方案,沒有完整的 FP8 單元。新一代芯片,比如摩爾線程 MUSA 3.1 GPU、芯原 VIP9000 NPU,都開始支持原生 FP8,DeepSeek V3.1 的 UE8M0 格式正好匹配這些硬件,讓模型在新一代國產芯片上跑得更省空間、更快、更穩,同時保持精度。

V3.1首次采用混合推理架構,一個模型同時支持兩種模式:
非思考模式:面對簡單指令瞬間響應,如問答、翻譯;
思考模式:啟動長鏈路推理,用于代碼修復、學術研究等復雜任務。
用戶只需點擊“深度思考”按鈕即可自由切換。
這種設計讓模型像人類一樣靈活分配腦力資源,避免“殺雞用牛刀”。在終端命令行測試中,其響應速度達到前代模型的5倍以上。V3.1架構能同時支持思考模式和非思考模式,用戶可以隨時切換,想慢慢分析就慢慢分析,想快速出結果也沒問題。

以前 DeepSeek 的產品線里,分工很清楚:V3 模型擅長通用對話,R1 模型更偏深度思考。這種分離式架構好處是,各個模型都能在自己擅長的領域表現不錯,但用戶來回切換很麻煩。
現在,V3.1 打破了這種壁壘,把通用對話、復雜推理、專業編程等多種核心功能集成在同一個模型里,讓使用體驗更靈活,效率更高。
不僅如此,V3.1 的推理效率也大幅提升。官方數據顯示,思考模式下,它在各項任務的平均表現和前代頂級 R1-0528 持平,但輸出的 token 數量減少了 20% 到 50%。非思考模式下,輸出長度也更短,但性能不打折。

這背后其實是“思維鏈壓縮”在起作用:模型在訓練階段學會生成更簡潔、高效的推理路徑,同時保證答案準確。簡單理解,就是算法更聰明了。
模型上下文窗口從64K擴展至128K,可一口氣處理整本學術論文或超長代碼文檔。在工業質檢場景中,長文檔解析效率提升4倍,徹底釋放國產芯片潛能。
國產芯片與模型的深度協同,直接擊穿AI應用的成本天花板。DeepSeek-V3.1完成單次編程任務成本僅1.01美元,同等任務在專有系統(如GPT-4Turbo)上需耗費60美元。在AiderPolyglot多語言編程測試中,它以71.6%的得分超越Claude4Opus等國際模型,成本卻僅為對手的1/60。
這種性價比優勢來自全鏈路優化:FP8精度降低芯片算力消耗,混合架構減少冗余計算,國產硬件進一步壓縮部署成本。華為昇騰910B實測推理成本僅0.27美元/百萬token,是英偉達方案的1/8。技術突破迅速傳導至產業端。
為加速國產化閉環,DeepSeek祭出關鍵一招:全面開源。V3.1的Base模型與后訓練版本已在HuggingFace和魔搭平臺開放,開發者可自由調取代碼,針對華為昇騰、寒武紀等芯片進行二次優化。
開源直接刺激硬件廠商加速迭代。這種“模型開源—硬件適配—場景落地”的正循環,首次打通國產AI全棧鏈條。政府端反應迅速:多省市政府將國產芯片采購補貼提至30%,要求2025年國產算力占比超50%。
技術狂歡中,DeepSeek悄然調整了商業策略。
自9月6日起,其API調用價格將上調:輸入價格緩存未命中時從2元/百萬token漲至4元,輸出價格從8元漲至12元。官方解釋稱,因模型訓練成本增加(V3.1額外訓練840Btokens)。漲價看似冒險,實則推動用戶轉向私有化部署。通過開源模型+國產芯片的組合,企業可自建低成本AI平臺。
這場由一行代碼引發的風暴,正在重塑中國AI的基因。當模型主動彎下腰適配芯片,當資本用漲停板為國產算力投票,當每一次API調用都在降低對西方技術的依賴,軟硬協同的生態革命已呼嘯來。它不承諾“彎道超車”,卻用成本、效率與自主性,為國產芯片劈開一條實實在在的生路。
本文轉載自??數智飛輪?? 作者:天涯咫尺TGH

















