沒必要二選一:DeepSeek-V3.1 把“思考模式”和“效率模式”裝進同一模型 原創
當大家還在為“要不要開思維鏈”爭論不休時,DeepSeek-V3.1 直接把答案寫進了模型:一個模型,同時支持“思考(Thinking)”與“非思考(Non-Thinking)兩種生成范式,按需切換。這不是簡單的開關,而是一整套從 chat template 到 工具調用、從 代碼代理 到 搜索代理 的系統工程。更重要的是,它依舊延續了 DeepSeek 系列“以極高性價比逼近頂級性能”的口碑,為企業和開發者打開了新的成本—性能平衡點。
下面,我們把這次升級拆解清楚:它究竟升級了什么、為什么重要、怎么用、適合誰。
1、定位與升級:把“混合思維模式”變成可控生產力
如果你關注過 V3,就知道它已經能打;而 DeepSeek-V3.1 在此基礎上進一步“補齊思考與效率的兩端”。
- 混合思維模式:一套chat template即可在Thinking 與 Non-Thinking之間切換。Non-Thinking更快、更適合對延遲敏感的線上業務;Thinking更穩、更適合需要嚴謹推理的復雜任務(如數學、編碼、工具組合調用)。兩種模式統一到一個模型里,避免了環境切換和權重維護的額外成本。(輔關鍵詞:混合思維模式、長上下文)
- 工具調用與智能代理:V3.1 對tool calling做了后訓練優化,嚴格結構化的調用格式、更穩定的agent 軌跡模板,同時支持代碼代理(Code Agent)與搜索代理(Search Agent)等復雜場景。對于業務系統意味深長:從“會回答”到“會辦事”。(輔關鍵詞:工具調用、代碼代理)
- 思考效率更高:在思考模式下,V3.1 的回答質量可比肩 R1-0528,但響應速度更快。面對“效率與質量”這對老難題,它選擇了“減少浪費的思考”。(輔關鍵詞:混合思維模式、MoE 架構)
一句話總結:DeepSeek-V3.1 把“如何思考、何時思考、思考到什么程度”交還給開發者,可控、穩定、能落地。
2、架構與訓練:671B 參數總量的 MoE,推理只激活 37B
性能從何而來?答案藏在MoE 架構 + 長上下文訓練。
- MoE 架構:模型總參數 671B,但每個 token 僅激活 37B專家,做到了“容量與成本解耦”。這意味著:保持大模型的表達能力,同時顯著降低單次推理開銷。(輔關鍵詞:MoE 架構、長上下文)
- 128K 上下文:上下文直接拉到128K tokens,對代碼審閱、長文檔分析、合同比對、技術檢索都更加友好。(輔關鍵詞:長上下文、工具調用)
- 兩階段長上下文擴展:
a.32K 階段:在 630B tokens 上訓練,是 V3 的 10 倍;
b.128K 階段:在 209B tokens 上訓練,是 V3 的 3.3 倍。 這不是“把窗口調大”的簡單工程,而是系統性地讓模型學會理解長文本的組織與結構。(輔關鍵詞:長上下文、混合思維模式)
- FP8(UE8M0)微縮標度:以FP8 microscaling進行效率優化,匹配新一代硬件的算力特征,讓大規模訓練與推理都更經濟。(輔關鍵詞:MoE 架構)
這套工程讓 DeepSeek-V3.1 在大容量、低成本、長上下文這三項傳統“不可兼得”的指標上找到了現實解。
3、混合思維模式:一個模板,兩種“大腦”,隨用隨切
DeepSeek-V3.1 通過 chat template 控制模式,非常直觀:
- 非思考(Non-Thinking)首輪前綴示例(關鍵信號:?
?</think>??):
<|begin▁of▁sentence|>{system prompt}<|User|>{query}<|Assistant|></think>多輪對話會在上下文中**保留 ??</think>??**,并以
<|User|>{query}<|Assistant|></think>作為前綴繼續。(輔關鍵詞:混合思維模式)
- 思考(Thinking)首輪前綴示例(關鍵信號:?
?<think>??):
<|begin▁of▁sentence|>{system prompt}<|User|>{query}<|Assistant|><think>多輪與非思考類似,但**歷史輪次中保留 ??</think>???**,最后一輪用 ??<think>?? 觸發思考。(輔關鍵詞:混合思維模式、長上下文)
如何取舍?
- 做實時問答、在線客服、檢索式問詢:優先Non-Thinking,延遲更低;
- 做數學推理、復雜代碼生成與調試、跨工具流水線:優先Thinking,質量收益顯著;
- 做場景混合:在一個系統里按路由策略動態選擇模式,比如“低風險問題走 Non-Thinking,高風險問題走 Thinking”。(輔關鍵詞:工具調用、代碼代理)
4、工具調用與智能代理:把“會說”升級為“會做”
ToolCall 在 非思考模式 下支持,格式嚴格、穩定可編排。模板要求示例(節選):
## Tools
You have access to the following tools:
### {tool_name1}
Description: {description}
Parameters: {json.dumps(parameters)}
IMPORTANT: ALWAYS adhere to this exact format for tool use:
<|tool▁calls▁begin|><|tool▁call▁begin|>tool_call_name<|tool▁sep|>tool_call_arguments<|tool▁call▁end|>{{additional_tool_calls}}<|tool▁calls▁end|>這意味著你可以把 DeepSeek-V3.1 直接塞進腳本化工作流里:先調用外部 API 拉數據 → 生成代碼 → 執行 → 調試,形成一條可回放的“代理軌跡”。(輔關鍵詞:工具調用、代碼代理)
- 代碼代理(Code Agent):官方提供了軌跡模板,定義了生成—執行—調試的交互協議;在SWE-bench(Agent 模式)這類評測里,V3.1 展現出明顯優勢。對于日常工程,這意味著它不只是“寫個函數”,而是能圍繞目標持續迭代。(輔關鍵詞:代碼代理、工具調用)
- 搜索代理(Search Agent):在需要時效信息的任務(商業、財經、技術研究)里,可通過多輪工具調用接入外部搜索工具,逐步查證、整合。對企業場景而言,這是從“閉卷答題”邁向“開卷辦事”。(輔關鍵詞:工具調用、長上下文)
5、性能速覽:編碼與數學強勢,代理類任務拉開差距
DeepSeek-V3.1 的評測覆蓋 通識、代碼、數學、工具使用、代理任務 等多個維度。以下摘取官方提供的關鍵數據(同一來源,僅重排):
5.1 代表性對比(與 R1-0528 等同類版本參照)

結論很清晰:在編碼與數學兩大高門檻任務上,Thinking 模式的 V3.1 追平或反超強基線;而在代理型任務上,結構化工具調用 + 軌跡模板帶來了顯著領先。(輔關鍵詞:代碼代理、工具調用、Benchmark)
這些數據印證了“思考模式更適合高難度、結構化強依賴的任務”,而非思考模式依舊是追求延遲/吞吐的理想選擇。(輔關鍵詞:混合思維模式、Benchmark)
6、部署與許可:MIT 開源,兼容 V3 生態
好用還得好落地。DeepSeek-V3.1 在這兩點上給得很足:
- MIT 許可:權重與代碼在 Hugging Face / ModelScope 全量開放,研究與商用都可直接使用。(輔關鍵詞:開源、工具調用)
- 與 V3 結構兼容:本地推理說明已給出,遷移成本低;當然,受制于模型規模,需要較強 GPU 資源,但社區生態與工具鏈正在持續降低門檻。(輔關鍵詞:長上下文、MoE 架構)
7、上手即用:官方用法與 Chat Template 速查
Transformers 直接調用示例(原文示例保留):
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "<think>Hmm</think>I am DeepSeek"},
{"role": "user", "content": "1+1=?"}
]
tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
# '<|begin▁of▁sentence|>You are a helpful assistant<|User|>Who are you?<|Assistant|></think>I am DeepSeek<|end▁of▁sentence|><|User|>1+1=?<|Assistant|><think>'
tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)
# '<|begin▁of▁sentence|>You are a helpful assistant<|User|>Who are you?<|Assistant|></think>I am DeepSeek<|end▁of▁sentence|><|User|>1+1=?<|Assistant|></think>'要點提示:
- ?
?thinking=True/False?? 直接切換混合思維模式; - 模板里 ?
?<think>??? 與 ??</think>?? 是觸發/標記信號; - 多輪對話會在上下文中**保留 ?
?</think>??**,保持推理可追蹤。(輔關鍵詞:混合思維模式、長上下文)
ToolCall 基礎格式(原文節選保留):
<|tool▁calls▁begin|><|tool▁call▁begin|>tool_call_name<|tool▁sep|>tool_call_arguments<|tool▁call▁end|>{{additional_tool_calls}}<|tool▁calls▁end|>實踐建議:
- 強約束 JSON:提前用 Schema 校驗參數,防止“半結構化”導致流水線中斷;
- 冪等與重試:網絡/外部 API 不可控,給代理鏈路加重試 + 超時 + 兜底;
- 安全與審計:代碼代理/搜索代理建議全鏈路日志留檔,對企業合規非常關鍵。(輔關鍵詞:工具調用、代碼代理)
8、業務落地怎么選:三條實用路線
1)檢索與問答一體化(Non-Thinking 為主)適合在線客服、知識庫、SOP 問答。Non-Thinking 輸出更快;需要時再局部切換 Thinking 處理“疑難問答”。(輔關鍵詞:混合思維模式、長上下文)
2)研發效能與數據工程(Thinking + Code Agent)面向代碼生成—執行—調試閉環,結合 SWE-bench 這類代理評測的表現,選擇 Thinking 做復雜改動,再交由 CI 執行驗證。適合單測修復、腳手架生成、日志分析。(輔關鍵詞:代碼代理、工具調用)
3)研究與分析工作臺(Search Agent + 長上下文)財經研報、技術情報、合規審查等場景,把搜索代理接入后,配上128K 上下文進行多源整合、證據鏈梳理。對于“從數據到結論”的流程,是生產力級別的升級。(輔關鍵詞:搜索代理、長上下文)
9、你可能關心的幾個細節
- V3.1 與 V3 的關系:結構兼容,V3.1-Base在 V3 基礎上通過兩階段長上下文擴展繼續訓練,數據量級顯著增加(32K:630B;128K:209B)。(輔關鍵詞:長上下文、MoE 架構)
- 模型下載與版本:DeepSeek-V3.1-Base / DeepSeek-V3.1兩個權重可用,總參數 671B、激活 37B、上下文 128K。
- 本地部署:建議先在推理服務層做模式路由與調用速率治理,再考慮更重的Agent 鏈路與數據治理;否則容易把“會做事”的模型,拖進“會卡住”的系統。(輔關鍵詞:工具調用、代碼代理)
10、一句話結論
DeepSeek-V3.1 把“能深度思考”與“能快速響應”同時放進一個開源、可商用的包里。對于正在尋找“高質量 + 低成本 + 好落地”組合拳的團隊,這是一個非常務實的選擇。(輔關鍵詞:混合思維模式、MoE 架構、工具調用)
本文轉載自??Halo咯咯?? 作者:基咯咯

















