DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

文章标题:DeepSeek-V3.2-Exp:利用 DeepSeek 稀疏注意力提升长上下文效率
作者/机构:DeepSeek-AI

A1 主要贡献

本文介绍了 DeepSeek-V3.2-Exp,这是一个实验性的稀疏注意力模型。该模型通过在 DeepSeek-V3.1-Terminus 的基础上进行持续训练,并引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)机制。

核心问题:标准自注意力机制在处理长序列时,其计算和内存复杂度为序列长度的二次方($O(N^2)$),这在长上下文场景下导致训练和推理效率低下。

研究目标:在不显著牺牲模型性能的前提下,通过引入稀疏注意力机制,大幅提升模型在长上下文场景下的训练和推理效率。

核心创新点(DSA):本文提出的 DeepSeek 稀疏注意力(DSA)是一个细粒度的稀疏注意力机制,其主要由两个创新组件构成:
1. 闪电索引器(Lightning Indexer):这是一个高效的组件,用于计算每个查询令牌(query token)与所有先前令牌(preceding tokens)之间的相关性得分。该索引器具有少量头(heads)并可使用 FP8 格式实现,计算效率极高。
2. 细粒度令牌选择机制(Fine-grained Token Selection):根据闪电索引器计算出的得分,该机制为每个查询令牌选择得分最高的 top-k 个键值对(key-value entries)。随后,注意力计算仅在这部分稀疏选择的键值对上进行,从而将注意力计算的复杂度从 $O(N^2)$ 降低到 $O(N \cdot k)$(其中 k 为选定令牌数,远小于序列长度 N)。

通过这种设计,DeepSeek-V3.2-Exp 在长上下文场景中实现了显著的效率提升,同时在多项基准测试中保持了与原始密集注意力模型(DeepSeek-V3.1-Terminus)相当的性能水平。

A2 方法细节

1. 架构

DSA的引入:与 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2-Exp 唯一的架构修改是在持续训练中引入了 DeepSeek 稀疏注意力(DSA)。

DSA原型构成:DSA 的原型主要包含两个组件:一个闪电索引器(lightning indexer)和一个细粒度的令牌选择机制(fine-grained token selection mechanism)。

闪电索引器工作原理:闪电索引器计算查询令牌 $h_t \in R^{d}$ 和前序令牌 $h_{s} \in R^{d}$ 之间的索引分数 $I_{t,s}$,以决定查询令牌应选择哪些令牌:


其中,$H^I$ 表示索引器头的数量;$q_{t,j}^I \in R^{d_{I}}$、$w_{t,j}^I \in R$ 从查询令牌 $h_t$ 导出;$k_{s}^I \in R^{d_{I}}$ 从前序令牌 $h_{s}$ 导出。出于吞吐量的考虑,我们选择 ReLU 作为激活函数。鉴于闪电索引器头部数量少且可以 FP8 格式实现,其计算效率非常出色。

细粒度令牌选择与注意力计算:对于每个查询令牌 $h_t$,我们的细粒度令牌选择机制根据索引分数 $\{I_{t,s}\}$ 仅检索与 top-k 索引分数相对应的键值条目 $\{c_s\}$。然后,通过在查询令牌 $h_t$ 和稀疏选择的键值条目 $\{c_s\}$ 之间应用注意力机制来计算注意力输出 $u_t$:



图1 | DeepSeek-V3.2-Exp 的注意力架构,其中 DSA 在 MLA 下实例化。绿色部分说明了 DSA 如何根据索引器选择 top-k 键值条目。

在MLA下实例化DSA:为了能够从 DeepSeek-V3.1-Terminus 进行持续训练,我们在 DeepSeek-V3.2-Exp 中基于 MLA(多头注意力,【DeepSeek-AI,Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model,2024】)来实例化 DSA。在核函数层面,为了计算效率,每个键值条目必须在多个查询之间共享(【Yuan et al., Native sparse attention: Hardware-aligned and natively trainable sparse attention, 2025, ACL】)。因此,我们基于 MLA 的 MQA(多查询注意力,【Shazeer, Fast transformer decoding: One write-head is all you need, 2019】)模式实现 DSA,其中每个潜在向量(MLA 的键值条目)将在查询令牌的所有查询头之间共享。基于 MLA 的 DSA 架构如图 1 所示。我们还提供了一个 DeepSeek-V3.2-Exp 的开源实现来明确地说明细节。

2. 训练

我们从 DeepSeek-V3.1-Terminus 的一个基础检查点开始,其上下文长度已扩展到 128K。我们首先进行持续预训练,然后进行后训练,以创建 DeepSeekV3.2-Exp。

2.1. 持续预训练

DeepSeek-V3.2-Exp 的持续预训练包括两个训练阶段。在这两个阶段,训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。

密集预热阶段:我们首先使用一个简短的预热阶段来初始化闪电索引器。在此阶段,我们保持密集的注意力机制,并冻结除闪电索引器之外的所有模型参数。为了将索引器的输出与主注意力分布对齐,对于第 $i$ 个查询令牌,我们首先通过对所有注意力头求和来聚合主注意力分数。然后,这个总和在序列维度上进行 L1 归一化,以产生一个目标分布 $p_{i,:} \in R^i$。基于 $p_{i,:}$,我们将 KL 散度损失设置为索引器的训练目标:

预热参数:在预热阶段,我们使用 $10^{-3}$ 的学习率。我们仅对索引器训练 1000 步,每步包含 16 个 128K 令牌的序列,总计处理了 21 亿个令牌。

稀疏训练阶段:在索引器预热之后,我们引入细粒度令牌选择机制,并优化所有模型参数以使模型适应 DSA 的稀疏模式。在此阶段,我们仍然将索引器输出与主注意力分布对齐,但仅考虑选定的令牌集 $S_i = \{j | s_{i,j} \in \text{Top-k}_j s_{i,:}\}$:

稀疏训练优化细节:值得注意的是,我们将索引器的输入从计算图中分离出来进行独立优化。索引器的训练信号仅来自 $L_{KL}$ 损失,而主模型的优化仅根据语言建模损失进行。在这个稀疏训练阶段,我们使用 $7.3 \times 10^{-6}$ 的学习率,并为每个查询令牌选择 2048 个键值令牌。我们对主模型和索引器共训练了 15000 步,每步包含 480 个 128K 令牌的序列,总计处理了 9437 亿个令牌。

2.2. 后训练

在持续预训练之后,我们进行后训练以创建最终的 DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp 的后训练也采用与稀疏持续预训练阶段相同的方式使用稀疏注意力。为了严格评估引入 DSA 的影响,我们为 DeepSeek-V3.2-Exp 保持了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据,具体细节如下。

专家蒸馏:对于每个任务,我们首先开发一个专门针对该领域的专业模型,所有专业模型都从同一个预训练的 DeepSeek-V3.2 基础检查点进行微调。除了写作任务和通用问答,我们的框架还涵盖了五个专业领域:数学、算法竞赛编程、通用逻辑推理、智能体编程和智能体搜索。每个专家模型都通过大规模强化学习(RL)进行训练。此外,我们采用不同模型为长思维链推理(思考模式)和直接响应生成(非思考模式)生成训练数据。一旦专家模型准备就绪,它们就被用来为最终的检查点生成特定领域的数据。实验结果表明,在蒸馏数据上训练的模型的性能仅略低于领域专家模型,并且通过随后的 RL 训练可以有效消除这一性能差距。

混合RL训练:对于 DeepSeek-V3.2-Exp,我们仍然采用组相对策略优化(Group Relative Policy Optimization, GRPO)(【DeepSeek-AI, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】; 【Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024】)作为 RL 训练算法。与之前的 DeepSeek 模型采用多阶段强化学习不同,我们将推理、智能体和人类对齐训练合并到一个 RL 阶段。这种方法有效地平衡了不同领域的性能,同时避免了多阶段训练范式中常见的灾难性遗忘问题。对于推理和智能体任务,我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务,我们采用一个生成式奖励模型,其中每个提示都有其自己的评估标准。我们的奖励设计仔细平衡了两个关键的权衡:(1)长度与准确性,以及(2)语言一致性与准确性。

A3 实验环境

  • 基础模型:从 DeepSeek-V3.1-Terminus 的一个检查点开始,该检查点已支持 128K 的上下文长度。
  • 模型架构参数
    • 上下文长度:128K 令牌。
    • 稀疏注意力(DSA)参数:在稀疏训练阶段,为每个查询令牌选择 2048 个(top-k, k=2048)键值令牌。
  • 硬件配置:推理成本评估在 H800 GPU 集群上进行。
  • 软件配置
    • 训练算法:持续预训练(密集预热 + 稀疏训练)、后训练(专家蒸馏 + 混合 RL 训练)。
    • RL 算法:组相对策略优化(GRPO)。
  • 数据集/基准
    • 训练数据:训练数据分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。后训练数据与 V3.1-Terminus 保持一致。
    • 评估基准:模型能力在多个基准上进行评估,包括 GPQA、HLE、HMMT 2025、IFEval、HumanEvalPack、LiveCodeBench、MT-Bench、Alpaca-Eval 2、Long-Needle-Haystack 等(详见表1)。训练稳定性在 BrowseComp 和 SWE Verified 上进行了评估。

A4 实验结果

模型能力评估
- 实验内容:在多个专注于不同能力的基准测试上,将 DeepSeek-V3.2-Exp 与其前身 DeepSeek-V3.1-Terminus 进行比较。
- 实验结果:如表1所示,DeepSeek-V3.2-Exp 在显著提升长序列计算效率的同时,在短上下文和长上下文任务上均未观察到与 DeepSeek-V3.1-Terminus 相比的显著性能下降。
- 分析结论:在 GPQA、HLE 和 HMMT 2025 等基准上,DeepSeek-V3.2-Exp 的性能略低于 V3.1-Terminus,原因是 V3.2-Exp 生成的推理令牌较少。然而,当使用能够生成相当数量令牌的中间检查点时,这一性能差距会消失。这表明性能差异主要源于生成策略而非模型核心能力的下降。

表1 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 的评估。总的来说,与 DeepSeek-V3.1-Terminus 相比,DeepSeekV3.2-Exp 并未表现出明显的性能下降。DeepSeek-V3.2-Exp 在 GPQA、HLE 和 HMMT 2025 上的性能低于 DeepSeek-V3.1-Terminus,因为 DeepSeek-V3.2-Exp 生成的推理令牌较少。然而,当使用生成相当数量令牌的中间检查点时,这一性能差距会缩小。

训练稳定性评估
- 实验内容:比较 DeepSeek-V3.2-Exp 和 DeepSeek-V3.1-Terminus 在 BrowseComp 和 SWE Verified 基准上的强化学习(RL)训练曲线。
- 实验结果:如图2所示,两个模型在整个训练过程中的性能(准确率)都稳步提升,且它们的训练曲线高度吻合。
- 分析结论:这反映了 DSA 架构具有良好的训练稳定性,引入稀疏注意力并未对复杂的 RL 训练过程造成负面影响。


图2 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 BrowseComp 和 SWE Verified 上的 RL 训练曲线。实线和虚线分别表示准确率和平均输出令牌数。

推理成本评估
- 实验内容:分析 DSA 带来的计算复杂度和端到端推理速度提升。
- 实验结果:DSA 将主模型的核心注意力复杂度从 $O(N^2)$ 降低到 $O(N \cdot k)$。虽然闪电索引器的复杂度仍为 $O(N^2)$,但其计算量远小于 MLA。结合优化的实现,DSA 在长上下文场景中实现了显著的端到端加速。图3展示了在 H800 GPU 集群上(以每 GPU 小时 2 美元的租用价格估算),两个模型的令牌成本随序列位置的变化。
- 分析结论:DSA 显著降低了长序列的推理成本。此外,对于短序列预填充(prefilling),团队专门实现了一种掩码 MHA(Masked Multi-Head Attention)模式来模拟 DSA,以在短上下文条件下实现更高的效率。


图3 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 H800 集群上的推理成本。

A5 结论

本文提出的 DeepSeek-V3.2-Exp 模型,通过引入 DeepSeek 稀疏注意力(DSA),在保持与密集模型 DeepSeek-V3.1-Terminus 相当性能的同时,显著提升了长上下文场景下的训练和推理效率。内部评估结果显示了其巨大潜力。

未来工作展望:尽管内部评估结果令人鼓舞,但团队正在积极寻求在真实世界场景中进行更进一步的大规模测试,以发现稀疏注意力架构可能存在的潜在局限性。

A6 附录

A. MLA 的 MHA 和 MQA 模式

MLA的两种模式图示:图4展示了 MLA 的两个方面——MHA(多头注意力)和 MQA(多查询注意力)模式,以及它们之间的转换。


图4 | MLA 的 MHA 和 MQA 模式图示。对于 DeepSeek-V3.1-Terminus,MHA 模式用于训练和预填充,而 MQA 模式用于解码。

在DeepSeek-V3.1-Terminus中的应用:对于 DeepSeek-V3.1-Terminus,MHA 模式用于训练和预填充(prefilling)阶段,而 MQA 模式则用于解码(decoding)阶段。

引用文献详情

  1. 【DeepSeek-AI, 2024】 Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. CoRR, abs/2405.04434. URL: https://doi.org/10.48550/arXiv.2405.04434.

    • 引用位置: A2 方法细节,第1节架构,第5段。
    • 引用内容: 引用了 MLA (Multi-head Latent Attention) 的概念,说明 DSA 是基于 MLA 来实例化的。
  2. 【DeepSeek-AI, 2025】 Deepseek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081):633–638.

    • 引用位置: A2 方法细节,第2.2节后训练,第3段。
    • 引用内容: 引用了 GRPO (Group Relative Policy Optimization) 算法,作为模型 RL 训练所采用的核心算法。
  3. 【Shao et al., 2024】 Deepseekmath: Pushing the limits of mathematical reasoning in open language models. CoRR, abs/2402.03300. URL: https://doi.org/10.48550/arXiv.2402.03300.

    • 引用位置: A2 方法细节,第2.2节后训练,第3段。
    • 引用内容: 与上一篇文献共同作为 GRPO 算法的来源被引用。
  4. 【Shazeer, 2019】 Fast transformer decoding: One write-head is all you need. CoRR, abs/1911.02150. URL: http://arxiv.org/abs/1911.02150.

    • 引用位置: A2 方法细节,第1节架构,第5段。
    • 引用内容: 引用了 MQA (Multi-Query Attention) 模式,说明 DSA 是基于 MLA 的 MQA 模式来实现的。
  5. 【Yuan et al., 2025】 Native sparse attention: Hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2025. URL: https://aclanthology.org/2025.acl-long.1126/.

    • 引用位置: A2 方法细节,第1节架构,第5段。
    • 引用内容: 引用其观点,即在核函数(kernel)层面,为了计算效率,每个键值条目必须在多个查询之间共享。这是将 DSA 基于 MQA 模式实现的原因。