效率與性能的平衡：DeepSeek-V3.2-Exp 用稀疏注意力將長上下文成本砍掉85%

作者：肆零柒 2025-10-06 01:00:00

DeepSeek AI推出V3.2-Exp，以稀疏注意力技術(shù)重構(gòu)長上下文處理范式，在性能持平下實現(xiàn)推理成本驟降，為大模型高效落地提供創(chuàng)新方案。

大家好，我是肆〇柒。就在昨日，Deepseek 團隊推出了DeepSeek-V3.2-Exp實驗性模型，通過創(chuàng)新的稀疏注意力技術(shù)，在幾乎不損失性能的前提下，將128K長上下文的推理成本大幅降低。

大語言模型在處理長上下文任務(wù)時面臨嚴峻挑戰(zhàn)。傳統(tǒng)注意力機制的計算復(fù)雜度為O(L2)，其中L代表序列長度。當(dāng)上下文長度擴展至128K甚至更高時，計算成本和內(nèi)存需求急劇上升，使得訓(xùn)練和推理變得極其昂貴。這一瓶頸不僅限制了模型的實際應(yīng)用范圍，也阻礙了長上下文AI能力的進一步發(fā)展。

想象一下，如果讓一個精通128,000字長篇巨著的AI助手為你解答問題，卻要等待數(shù)分鐘才能得到回復(fù)，這種體驗是否令人沮喪？這正是當(dāng)前長上下文大語言模型（LLM）面臨的效率困境。DeepSeek-V3.2-Exp模型，通過創(chuàng)新性的DeepSeek Sparse Attention（DSA，稀疏注意力）技術(shù)，成功將128K長上下文處理的推理成本降低近85%，同時幾乎保持了原始模型的性能水平。這一突破不僅解決了實際應(yīng)用中的關(guān)鍵瓶頸，也為長上下文模型的發(fā)展提出了新的行業(yè)啟示。下面我們一起來了解一下這一創(chuàng)新成果，如何在效率與性能之間取得平衡，揭示其背后的科學(xué)原理與工程智慧。

模型架構(gòu)與DSA

DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus的核心區(qū)別在于引入了DeepSeek Sparse Attention（DSA）技術(shù)。這一架構(gòu)改進通過繼續(xù)訓(xùn)練實現(xiàn)，而非從頭訓(xùn)練，確保了模型性能的平穩(wěn)過渡。

DeepSeek-V3.2-Exp的注意力架構(gòu)，其中DSA在MLA下實現(xiàn)

為確保與DeepSeek-V3.1-Terminus的兼容性，DSA基于Multi-Head Latent Attention（MLA）實現(xiàn)。考慮到內(nèi)核級實現(xiàn)的計算效率，研究團隊選擇了Multi-Query Attention（MQA）模式的MLA，其中每個潛在向量（MLA的key-value條目）將在所有查詢頭之間共享。如下圖所示，MLA框架下MHA（多頭注意力）與MQA（多查詢注意力）模式存在本質(zhì)區(qū)別。

圖示了MLA的MHA模式和MQA模式

對于DeepSeek-V3.1-Terminus，MHA模式用于訓(xùn)練和預(yù)填充，而MQA模式用于解碼。但在DeepSeek-V3.2-Exp中，DSA基于MQA模式實現(xiàn)，這是因為內(nèi)核級實現(xiàn)中鍵值條目必須在多個查詢間共享才能確保計算效率。這一設(shè)計選擇是DSA技術(shù)成功的關(guān)鍵基礎(chǔ)，也是理解模型效率提升的重要視角。

上文中第一張圖（DeepSeek-V3.2-Exp的注意力架構(gòu)）詳細展示了基于MLA的DSA架構(gòu)，綠色部分展示了DSA如何根據(jù)索引器選擇top-k key-value條目。圖中"partially apply RoPE"模塊表明旋轉(zhuǎn)位置編碼僅部分應(yīng)用，""操作則整合了不同來源的查詢向量，共同構(gòu)成了高效稀疏注意力機制的實現(xiàn)基礎(chǔ)。

這種架構(gòu)設(shè)計使得DSA技術(shù)能夠?qū)⒑诵淖⒁饬?fù)雜度從O(L2)降低到O(Lk)，其中k（遠小于L）是所選token的數(shù)量。雖然lightning indexer仍具有O(L2)的復(fù)雜度，但由于其計算量遠小于DeepSeek-V3.1-Terminus中的MLA，結(jié)合優(yōu)化實現(xiàn)，DSA實現(xiàn)了顯著的端到端加速效果。這一設(shè)計選擇確保了模型在引入稀疏注意力機制后仍能保持高質(zhì)量性能，為后續(xù)訓(xùn)練方法奠定了堅實基礎(chǔ)。

激活函數(shù)的變化

除了上面稀疏注意力和與檢索機制的創(chuàng)新調(diào)整以外，在技術(shù)報告中，沒有很多篇幅來說Deepseek 3.2 在激活函數(shù)上的變化。我在這里多做一些闡述吧。在Deepseek昨日開源的 3.2 版本之前，Deepseek 的激活函數(shù)是SiLU，而剛開源的 3.2 版本則適用了 ReLU。

我們先看 SiLU。SiLU（Sigmoid Linear Unit）是一種激活函數(shù)，也被稱為 Swish 函數(shù)。其數(shù)學(xué)表達式為：

SiLU（Sigmoid Linear Unit）激活函數(shù)具有以下優(yōu)勢：

平滑性與非單調(diào)性：SiLU是連續(xù)可微的函數(shù)，其輸出值是連續(xù)且可導(dǎo)的，這有助于梯度下降算法在優(yōu)化過程中穩(wěn)定更新參數(shù)。此外，SiLU在負值區(qū)域存在小的負值輸出，有助于梯度傳播。
緩解梯度消失問題：SiLU在負數(shù)部分也有一定的響應(yīng)，這使得它在深度神經(jīng)網(wǎng)絡(luò)中能夠更好地緩解梯度消失問題。其導(dǎo)數(shù)包含線性項，在輸入較大時導(dǎo)數(shù)接近1，避免了Sigmoid在深層網(wǎng)絡(luò)中的梯度衰減問題。
避免死神經(jīng)元問題：與ReLU不同，SiLU在負輸入時也有非零的輸出，使得所有神經(jīng)元都可以參與訓(xùn)練，避免了ReLU的“死神經(jīng)元”現(xiàn)象。
增加網(wǎng)絡(luò)的表達能力：與ReLU相比，SiLU具有更多的非線性，能夠?qū)W習(xí)更復(fù)雜的特征。
硬件友好：SiLU的計算僅涉及指數(shù)運算和乘法，GPU通過Tensor Core可高效實現(xiàn)。

在3.2之前版本的DeepSeek前饋網(wǎng)絡(luò)（FFN）采用了SiLU激活函數(shù)。這種激活函數(shù)在負值部分也有響應(yīng)，避免了梯度消失問題，同時提升了模型的非線性表達能力。此外，SiLU的平滑性有助于優(yōu)化過程中的穩(wěn)定更新，其非單調(diào)性能夠捕捉更復(fù)雜的模式，增強模型的表達能力。這些特性使得SiLU在處理大規(guī)模語言數(shù)據(jù)時表現(xiàn)出色，因此之前DeepSeek選擇了SiLU作為其激活函數(shù)。

ReLU（Rectified Linear Unit）相對于silu 的優(yōu)勢有哪些？

ReLU 是目前使用較為廣泛的激活函數(shù)之一。它定義為 f(x) = max(0,x)。ReLU 的優(yōu)點有很多。它計算簡單，只需要一個閾值判斷和一個線性操作。并且，它能夠有效緩解梯度消失問題。在深度神經(jīng)網(wǎng)絡(luò)中，如果使用像 Sigmoid 這樣的激活函數(shù)，隨著網(wǎng)絡(luò)層數(shù)的增加，梯度會逐漸變小，導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練。而 ReLU 在 x>0 時，梯度是 1，這使得信號能夠很好地在神經(jīng)網(wǎng)絡(luò)中傳播。不過，ReLU 也存在一些問題，比如“死亡 ReLU”現(xiàn)象，當(dāng)輸入為負時，ReLU 的輸出和梯度都是 0，如果網(wǎng)絡(luò)中大量神經(jīng)元處于這種狀態(tài)，就會導(dǎo)致這些神經(jīng)元不再學(xué)習(xí)。

ReLU 在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時能夠顯著加快訓(xùn)練速度。因為它的梯度在正區(qū)間是恒定的。例如，在訓(xùn)練一個深度卷積神經(jīng)網(wǎng)絡(luò)（CNN）進行圖像識別時，使用 ReLU 作為隱藏層激活函數(shù)，可以讓網(wǎng)絡(luò)更快地收斂，得到更好的分類準(zhǔn)確率。而且，ReLU 的稀疏激活特性也有一定的優(yōu)勢。它只在輸入為正時有輸出，這使得神經(jīng)網(wǎng)絡(luò)的激活是稀疏的，減少了神經(jīng)元之間的相互作用，一定程度上提高了模型的泛化能力。不過，如前面提到的“死亡 ReLU”問題，如果輸入數(shù)據(jù)的分布不合理，或者學(xué)習(xí)率設(shè)置不當(dāng)，可能會導(dǎo)致一些神經(jīng)元永遠不被激活。

計算效率

ReLU：計算簡單，僅需進行一次閾值操作，計算復(fù)雜度低。在硬件上，ReLU的實現(xiàn)非常高效，尤其是在GPU等并行計算設(shè)備上，其計算速度更快。
SiLU：需要計算Sigmoid函數(shù)，涉及指數(shù)運算和乘法，計算復(fù)雜度較高。在高性能硬件上，雖然這種差異可以忽略不計，但在大規(guī)模數(shù)據(jù)和復(fù)雜網(wǎng)絡(luò)中，ReLU的計算效率優(yōu)勢仍然明顯。

梯度傳播

ReLU：在正區(qū)間梯度恒為1，避免了梯度消失問題。這使得ReLU在訓(xùn)練過程中能夠快速傳播梯度，加速模型的收斂。
SiLU：雖然SiLU的梯度在正負區(qū)間均有非零值，緩解了梯度消失問題，但其梯度計算更為復(fù)雜，且在某些情況下可能會導(dǎo)致梯度爆炸。

神經(jīng)元死亡問題

ReLU：雖然ReLU存在“神經(jīng)元死亡”問題，即在訓(xùn)練過程中某些神經(jīng)元的輸出始終為0，從而導(dǎo)致無法更新其權(quán)重。但通過適當(dāng)?shù)某跏蓟椒ê蛯W(xué)習(xí)率調(diào)整，可以有效減少這種情況的發(fā)生（下文有提到訓(xùn)練步驟）。
SiLU：SiLU不會出現(xiàn)“神經(jīng)元死亡”問題，因為其在負輸入時仍然有非零輸出。然而，ReLU的“神經(jīng)元死亡”問題在實際應(yīng)用中并不總是導(dǎo)致嚴重后果，且可以通過一些變體（如Leaky ReLU）來解決。

適用場景

ReLU：廣泛用于早期CNN（如VGG、ResNet），因其計算高效，適合圖像特征提取。在RNN中，ReLU雖然易導(dǎo)致梯度爆炸，但通過適當(dāng)?shù)臋?quán)重初始化和梯度裁剪等技術(shù)，也可以有效使用。
SiLU：在一些對精度要求較高的任務(wù)中，如語音識別、NLP等，SiLU表現(xiàn)更好。在Transformer架構(gòu)中，SiLU常用于前饋網(wǎng)絡(luò)（FFN）的激活函數(shù)，提升模型性能。

綜上所述，ReLU在計算效率和梯度傳播方面具有明顯優(yōu)勢，而SiLU則在平滑性和非線性建模能力方面表現(xiàn)更強。至此，大家應(yīng)能理解 deepseek 在算法上做的極致稀疏化的優(yōu)化目的，是指向?qū)λ懔Φ墓?jié)約、對吞吐的提升，并通過下文所提到的訓(xùn)練方法，來盡量消弭極致稀疏化帶來的模型性能下降以及精度損失等問題。

訓(xùn)練方法的科學(xué)設(shè)計

基于上述架構(gòu)設(shè)計，DeepSeek-V3.2-Exp的訓(xùn)練方法同樣經(jīng)過精心規(guī)劃，確保模型能夠有效適應(yīng)稀疏注意力模式。訓(xùn)練從已擴展至128K上下文長度的DeepSeek-V3.1-Terminus基礎(chǔ)檢查點開始，采用繼續(xù)預(yù)訓(xùn)練加后訓(xùn)練的策略。這一方法確保了模型在引入稀疏注意力機制后仍能保持高質(zhì)量性能。

繼續(xù)預(yù)訓(xùn)練分為兩個精心設(shè)計的階段，且兩個階段的訓(xùn)練數(shù)據(jù)分布完全與用于DeepSeek-V3.1-Terminus的128K長上下文擴展數(shù)據(jù)保持一致，這一設(shè)計確保了模型能力的平穩(wěn)過渡。

在稀疏訓(xùn)練階段，研究團隊將索引器輸入從計算圖中顯式分離（detached），實現(xiàn)了訓(xùn)練信號的嚴格隔離：索引器的優(yōu)化僅依賴于KL散度損失L_I，而主模型的參數(shù)更新則完全基于語言建模損失。這一設(shè)計確保了兩個組件能夠獨立高效地收斂，避免了相互干擾，是DSA技術(shù)成功實施的關(guān)鍵工程細節(jié)。此階段采用7.3×10??的學(xué)習(xí)率，為每個查詢token選擇2048個key-value token，訓(xùn)練15000步（每步包含480個128K token序列，總計943.7B tokens）。

后訓(xùn)練階段保持與DeepSeek-V3.1-Terminus相同的流程和算法。Specialist Distillation環(huán)節(jié)針對五個專業(yè)領(lǐng)域開發(fā)專門模型：數(shù)學(xué)、競爭性編程、通用邏輯推理、智能體編碼和智能體搜索。所有專家模型均從同一DeepSeek-V3.2基礎(chǔ)檢查點微調(diào)而來，這一設(shè)計確保了各專家模型具有相同的基礎(chǔ)能力，使后續(xù)生成的領(lǐng)域特定訓(xùn)練數(shù)據(jù)保持一致性。

在Specialist Distillation環(huán)節(jié)，研究團隊發(fā)現(xiàn)了一個重要現(xiàn)象："在蒸餾數(shù)據(jù)上訓(xùn)練的模型，其性能水平僅略低于領(lǐng)域特定專家模型，且通過后續(xù)RL訓(xùn)練可以有效消除性能差距。"這一發(fā)現(xiàn)對模型訓(xùn)練策略具有重要指導(dǎo)意義，表明通過合理的數(shù)據(jù)蒸餾和強化學(xué)習(xí)，單一模型可以達到接近專業(yè)模型的性能水平，為模型能力的均衡發(fā)展提供了理論支持。每個專家模型都經(jīng)過大規(guī)模強化學(xué)習(xí)（Reinforcement Learning, RL）訓(xùn)練，并用于生成特定領(lǐng)域的訓(xùn)練數(shù)據(jù)。研究還采用不同模型為長鏈?zhǔn)剿季S推理（思維模式）和直接響應(yīng)生成（非思維模式）生成訓(xùn)練數(shù)據(jù)。

混合RL訓(xùn)練采用Group Relative Policy Optimization（GRPO）算法，創(chuàng)新性地將推理、智能體和人類對齊訓(xùn)練合并為一個RL階段。這種方法有效平衡了不同領(lǐng)域間的性能，同時避免了多階段訓(xùn)練中常見的災(zāi)難性遺忘問題。對于推理和智能體任務(wù)，采用基于規(guī)則的結(jié)果獎勵、長度懲罰和語言一致性獎勵；對于一般任務(wù)，則使用生成式獎勵模型，每個prompt都有其特定的評估標(biāo)準(zhǔn)。這種獎勵設(shè)計精心平衡了兩個關(guān)鍵權(quán)衡：(1)長度與準(zhǔn)確性；(2)語言一致性與準(zhǔn)確性。

通過后續(xù)評估可見（見下圖），DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在強化學(xué)習(xí)訓(xùn)練過程中展現(xiàn)出高度一致的訓(xùn)練曲線，證實了DSA技術(shù)不會破壞模型的訓(xùn)練穩(wěn)定性。

DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 BrowseComp 和 SWE Verified 上的強化學(xué)習(xí)訓(xùn)練曲線

這種兩階段訓(xùn)練策略確保了lightning indexer的有效初始化和模型對稀疏注意力模式的全面適應(yīng)，為后續(xù)性能評估奠定了堅實基礎(chǔ)。同時，訓(xùn)練數(shù)據(jù)分布的一致性保證了模型能力的平穩(wěn)過渡，使DeepSeek-V3.2-Exp能夠在保持原始模型性能的同時，實現(xiàn)顯著的效率提升。

全面性能評估：數(shù)據(jù)說話

DeepSeek-V3.2-Exp在多個基準(zhǔn)測試上的表現(xiàn)令人印象深刻。下表展示了該模型與DeepSeek-V3.1-Terminus的詳細對比，揭示了其在保持性能的同時實現(xiàn)效率提升的實質(zhì)。

DeepSeek-V3.1-Terminus 與 DeepSeek-V3.2-Exp 的評估

在通用能力方面，DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus基本持平：MMLU-Pro（EM）保持85.0%，GPQA-Diamond（Pass@1）從80.7%微降至79.9%，Humanity's Last Exam（Pass@1）從21.7%降至19.8%。上表數(shù)據(jù)顯示，DeepSeek-V3.2-Exp在GPQA-Diamond、Humanity's Last Exam和HMMT 2025三項測試中的性能略低于DeepSeek-V3.1-Terminus，原因在于DeepSeek-V3.2-Exp生成的推理token數(shù)量較少。在技術(shù)報告中顯示，DeepSeek-V3.2-Exp在2025年的GPQA、HLE和HMMT上的表現(xiàn)不如DeepSeek-V3.1-Terminus，原因是DeepSeek-V3.2-Exp生成的推理Token數(shù)量較少。然而，當(dāng)使用生成相當(dāng)數(shù)量Token的中間check point時，這種性能差距就會消失。這一發(fā)現(xiàn)準(zhǔn)確地解釋了性能差異的原因。

在搜索智能體能力方面，DeepSeek-V3.2-Exp展現(xiàn)了小幅提升：BrowseComp（Acc.）從38.5%增至40.1%，BrowseComp_zh（Acc.）從45.0%提升至47.9%，SimpleQA（Acc.）保持高位穩(wěn)定在97.1%（原為96.8%）。這些改進表明DSA技術(shù)不僅沒有削弱模型的搜索能力，反而可能通過更高效的注意力機制增強了某些任務(wù)的表現(xiàn)。

代碼能力評估呈現(xiàn)了略有不同的情況。LiveCodeBench（2408-2505）（Pass@1）從74.9%微降至74.1%，而Codeforces-Div1評級則從2046顯著提升至2121，Aider-Polyglot（Acc.）從76.1%降至74.5%。這種不一致的表現(xiàn)表明，稀疏注意力機制對不同類型代碼任務(wù)的影響可能有所差異。

在代碼智能體能力方面，模型表現(xiàn)高度穩(wěn)定：SWE Verified（智能體模式）保持在67.8%（原為68.4%），SWE-bench Multilingual（智能體模式）甚至從57.8%微增至57.9%，Terminal-bench（Terminus 1框架）從36.7%提升至37.7%。這些結(jié)果證實了DSA技術(shù)在復(fù)雜代碼推理任務(wù)中的可靠性。

數(shù)學(xué)推理能力評估顯示了有趣的趨勢：AIME 2025（Pass@1）從88.4%提升至89.3%，而HMMT 2025（Pass@1）則從86.1%降至83.6%。研究團隊將HMMT 2025性能下降歸因于推理token數(shù)量減少，再次驗證了token生成數(shù)量與復(fù)雜推理任務(wù)表現(xiàn)之間的相關(guān)性。

整體而言，DeepSeek-V3.2-Exp在絕大多數(shù)基準(zhǔn)測試中與DeepSeek-V3.1-Terminus的表現(xiàn)相當(dāng)，性能差異通常在1-2個百分點以內(nèi)。這種輕微的性能折衷與顯著的效率提升相比，具有極高的性價比。同時，RL訓(xùn)練曲線的高度一致性（見下圖）進一步證實了DSA技術(shù)的穩(wěn)定性，表明稀疏注意力機制不會破壞模型的訓(xùn)練動態(tài)或收斂特性。

效率革命：量化分析

在確認DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在模型性能上基本持平后，計算效率的提升成為評估該模型價值的核心維度。尤其在長上下文場景中，傳統(tǒng)注意力機制的O(L2)復(fù)雜度已成為實際應(yīng)用的主要瓶頸，而DeepSeek Sparse Attention技術(shù)正是解決這一問題的關(guān)鍵創(chuàng)新。以下將通過量化分析，深入探討DSA技術(shù)如何實現(xiàn)效率革命。

DeepSeek-V3.2-Exp最引人注目的優(yōu)勢在于其顯著提升的計算效率，尤其是在長上下文場景中。下圖直觀展示了這一優(yōu)勢，基于H800 GPU集群的實際服務(wù)基準(zhǔn)測試，以每GPU小時2美元的租賃價格計算。

DeepSeek-V3.1-Terminus和DeepSeek-V3.2-Exp在H800集群上的推理成本

在預(yù)填充階段，隨著序列位置從0K增加到128K，DeepSeek-V3.2-Exp的成本優(yōu)勢逐漸顯現(xiàn)。上圖(a)中橫軸表示序列中的token位置（0K-128K），縱軸表示每百萬token的成本（美元）。當(dāng)序列位置達到128K時，DeepSeek-V3.2-Exp的成本約為0.35美元/百萬token，而DeepSeek-V3.1-Terminus則高達0.65美元/百萬token，成本降低近50%。

在解碼階段，這一差距更為顯著，上圖(b)顯示，從序列開始處的約0.4美元差距擴大到128K位置的約2.0美元以上。具體而言，在128K序列位置，DeepSeek-V3.2-Exp的解碼成本約為0.35美元/百萬token，而DeepSeek-V3.1-Terminus高達2.35美元/百萬token，差距接近6.7倍。這一指數(shù)級差異凸顯了DSA技術(shù)在實際長上下文應(yīng)用中的巨大價值，特別是在需要持續(xù)生成長文本的場景中。上圖(b)解碼階段成本曲線揭示了一個關(guān)鍵現(xiàn)象：隨著序列長度增加，兩種模型的成本差距不斷擴大。這表明DSA技術(shù)在長序列處理中具有越來越顯著的優(yōu)勢。

值得注意的是，針對短序列預(yù)填充，研究團隊特別實現(xiàn)了masked MHA模式來模擬DSA，從而在短上下文條件下實現(xiàn)更高效率。這一優(yōu)化使得模型在各種序列長度下都能保持優(yōu)異的性能表現(xiàn)，體現(xiàn)了DeepSeek團隊對實際應(yīng)用場景的全面考慮，確保模型在各種使用條件下都能提供卓越的用戶體驗。

訓(xùn)練穩(wěn)定性驗證

模型訓(xùn)練的穩(wěn)定性是評估新技術(shù)可行性的重要指標(biāo)。下圖展示了DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus在強化學(xué)習(xí)訓(xùn)練過程中的性能對比，為DSA技術(shù)的穩(wěn)定性提供了有力證據(jù)。

在BrowseComp訓(xùn)練曲線中，兩條模型的準(zhǔn)確率曲線高度一致，均隨著訓(xùn)練步數(shù)增加而穩(wěn)步提升。實線和虛線分別表示準(zhǔn)確率和平均輸出token數(shù)，表明模型在提升性能的同時保持了合理的輸出長度。特別值得注意的是，兩條曲線從初始階段到1400步訓(xùn)練結(jié)束始終保持高度重合，差異幾乎不可見。SWE訓(xùn)練曲線同樣展示了相似的趨勢，兩條曲線在整個14000步訓(xùn)練過程中幾乎完全重疊，從9000步到14000步的訓(xùn)練過程中，準(zhǔn)確率曲線的差異微乎其微。

這些結(jié)果明確表明，引入DSA技術(shù)后，模型的訓(xùn)練過程保持了高度穩(wěn)定性，性能提升軌跡與原始模型幾乎一致。這對于驗證稀疏注意力機制的可行性至關(guān)重要，因為它證明了DSA不會破壞模型的訓(xùn)練動態(tài)或收斂特性。

上圖中的訓(xùn)練曲線對比不僅是技術(shù)可行性的證明，更是對DSA架構(gòu)設(shè)計合理性的驗證。在BrowseComp訓(xùn)練曲線中，兩條模型的準(zhǔn)確率從初始的約0.32穩(wěn)步提升至約0.40，平均輸出token數(shù)也從約10,000增加到約12,000，顯示出模型在提升能力的同時保持了合理的推理長度。SWE訓(xùn)練曲線則展示了從約0.64到約0.68的準(zhǔn)確率提升，同樣伴隨著輸出token數(shù)的穩(wěn)步增長。

這種高度一致的訓(xùn)練曲線表明，DSA技術(shù)不僅在推理階段有效，在訓(xùn)練過程中也能保持與原始模型相當(dāng)?shù)膬?yōu)化動態(tài)。這一發(fā)現(xiàn)對于稀疏注意力技術(shù)的實際應(yīng)用具有重要意義，因為它消除了對稀疏注意力可能影響模型學(xué)習(xí)能力的擔(dān)憂。

優(yōu)勢與局限的客觀評估

綜合評估顯示，DeepSeek-V3.2-Exp在長上下文場景中展現(xiàn)出顯著優(yōu)勢。在訓(xùn)練和推理效率方面，特別是在128K長上下文處理中，DSA技術(shù)帶來了實質(zhì)性的性能提升，使長上下文AI應(yīng)用變得更加可行和經(jīng)濟。

模型性能方面，DeepSeek-V3.2-Exp與DeepSeek-V3.1-Terminus相比沒有顯著下降。在大多數(shù)基準(zhǔn)測試中，性能差異在1-2個百分點以內(nèi)，且研究團隊已準(zhǔn)確歸因于推理token數(shù)量的減少。這一輕微性能折衷與顯著的效率提升相比，具有極高的性價比。

然而，技術(shù)報告中的評估結(jié)果也存在一定局限性。所有測試均在內(nèi)部環(huán)境中進行，可能無法完全反映真實世界場景中的表現(xiàn)。此外，短上下文與長上下文場景下的性能表現(xiàn)可能存在差異，需要進一步驗證。研究團隊也坦誠指出，某些復(fù)雜推理任務(wù)（如HMMT 2025）的性能略有下降，盡管這一差異可通過調(diào)整推理token數(shù)量來彌補。

從技術(shù)角度看，稀疏注意力機制可能在某些需要全局上下文理解的任務(wù)上存在局限性。例如，當(dāng)關(guān)鍵信息分散在整個長序列中，而非集中在某些局部區(qū)域時，稀疏選擇機制可能遺漏重要信息。不過，從評估結(jié)果看，這種潛在問題在實際測試中并未導(dǎo)致顯著的性能下降，表明DSA的設(shè)計有效平衡了效率與信息保留。

真實世界驗證

盡管內(nèi)部評估結(jié)果令人鼓舞，DeepSeek團隊依然保持謹慎態(tài)度，并且正在積極規(guī)劃更大規(guī)模的真實場景測試。正如技術(shù)報告中明確提及：“Deepseek正在積極進行更大規(guī)模的真實場景測試（開源），以發(fā)現(xiàn)稀疏注意力架構(gòu)的潛在局限性”，研究團隊正致力于通過這些測試來揭示稀疏注意力架構(gòu)可能存在的限制。

稀疏注意力架構(gòu)的潛在局限性可能體現(xiàn)在特定任務(wù)類型上，例如需要全局上下文理解的任務(wù)，或?qū)﹂L距離依賴關(guān)系高度敏感的場景。此外，在極端長序列（如遠超128K）條件下，稀疏模式是否仍能保持性能穩(wěn)定性，以及在高并發(fā)服務(wù)場景下的表現(xiàn)，都是需要通過大規(guī)模真實測試驗證的關(guān)鍵問題。這些驗證不僅關(guān)乎DeepSeek-V3.2-Exp的實用性，也將為下一代稀疏注意力模型的設(shè)計提供寶貴指導(dǎo)。

真實世界驗證將重點關(guān)注稀疏注意力架構(gòu)在多樣化應(yīng)用場景中的表現(xiàn)，包括但不限于：不同領(lǐng)域文本的處理能力、極端長序列的穩(wěn)定性、以及在高并發(fā)場景下的服務(wù)性能。這些測試將幫助識別DSA可能存在的邊緣情況問題，并為未來模型迭代提供方向。這種主動探索不僅針對稀疏注意力架構(gòu)在多樣化應(yīng)用場景中的表現(xiàn)，更著眼于發(fā)現(xiàn)可能存在的邊緣情況問題，為未來模型迭代提供方向。這種嚴謹?shù)目茖W(xué)態(tài)度，正是推動AI技術(shù)穩(wěn)健發(fā)展的關(guān)鍵所在。

此外，研究團隊可能探索DSA技術(shù)的進一步優(yōu)化，例如動態(tài)調(diào)整所選token數(shù)量k，或針對特定任務(wù)定制稀疏模式。這些方向有望在保持效率優(yōu)勢的同時，進一步提升模型性能。

總結(jié)：效率與性能的平衡

DeepSeek-V3.2-Exp代表了長上下文AI發(fā)展與算力推理平衡的重要里程碑。通過創(chuàng)新的DeepSeek Sparse Attention技術(shù)，該模型成功實現(xiàn)了效率與性能的精妙平衡：在保持與原始模型相當(dāng)?shù)男阅芩降耐瑫r，顯著提升了長上下文場景中的計算效率。

DSA技術(shù)的核心價值在于將注意力機制的計算復(fù)雜度從O(L2)降低到O(Lk)，同時通過lightning indexer和細粒度token選擇機制確保關(guān)鍵信息不被遺漏。這種設(shè)計不僅解決了實際應(yīng)用中的計算瓶頸，也為未來長上下文AI的發(fā)展提供了新范式。

對行業(yè)而言，DeepSeek-V3.2-Exp的突破具有深遠啟示。它證明了在不犧牲性能的前提下大幅提高效率的可能性，為大語言模型在實際應(yīng)用中的部署鋪平了道路。在AI技術(shù)快速迭代的今天，效率與性能的平衡已成為決定技術(shù)能否落地的關(guān)鍵因素。DeepSeek-V3.2-Exp通過創(chuàng)新的算法設(shè)計和嚴謹?shù)墓こ虒崿F(xiàn)，我們完全可以在兩者之間找到最優(yōu)解，為AI技術(shù)的廣泛應(yīng)用創(chuàng)造更多可能性。這一探索不僅關(guān)乎技術(shù)本身，更關(guān)乎如何讓AI真正服務(wù)于人類，成為我們工作和生活中的高效助手，而非資源消耗的負擔(dān)。

經(jīng)過深夜閱讀 Deepseek 的技術(shù)報告，我內(nèi)心是充滿敬意的，從報告里我看到了一個精益求精的團隊在拼盡全力通過算法來優(yōu)化算力，拼盡全力適配、支持國產(chǎn)卡。算力“卡脖子”，那些殺不死的必將強大！

責(zé)任編輯：龐桂玉來源：覺察流

DeepSeek V3.2-Exp

相似話題