DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

文章标题：DeepSeek-V3.2-Exp：利用 DeepSeek 稀疏注意力提升长上下文效率
作者/机构：DeepSeek-AI

A1 主要贡献

本文介绍了 DeepSeek-V3.2-Exp，这是一个实验性的稀疏注意力模型。该模型通过在 DeepSeek-V3.1-Terminus 的基础上进行持续训练，并引入了 DeepSeek 稀疏注意力（DeepSeek Sparse Attention, DSA）机制。

核心问题：标准自注意力机制在处理长序列时，其计算和内存复杂度为序列长度的二次方（$O(N^2)$），这在长上下文场景下导致训练和推理效率低下。

研究目标：在不显著牺牲模型性能的前提下，通过引入稀疏注意力机制，大幅提升模型在长上下文场景下的训练和推理效率。

核心创新点（DSA）：本文提出的 DeepSeek 稀疏注意力（DSA）是一个细粒度的稀疏注意力机制，其主要由两个创新组件构成：
1. 闪电索引器（Lightning Indexer）：这是一个高效的组件，用于计算每个查询令牌（query token）与所有先前令牌（preceding tokens）之间的相关性得分。该索引器具有少量头（heads）并可使用 FP8 格式实现，计算效率极高。
2. 细粒度令牌选择机制（Fine-grained Token Selection）：根据闪电索引器计算出的得分，该机制为每个查询令牌选择得分最高的 top-k 个键值对（key-value entries）。随后，注意力计算仅在这部分稀疏选择的键值对上进行，从而将注意力计算的复杂度从 $O(N^2)$ 降低到 $O(N \cdot k)$（其中 k 为选定令牌数，远小于序列长度 N）。

通过这种设计，DeepSeek-V3.2-Exp 在长上下文场景中实现了显著的效率提升，同时在多项基准测试中保持了与原始密集注意力模型（DeepSeek-V3.1-Terminus）相当的性能水平。

A2 方法细节

1. 架构

DSA的引入：与 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2-Exp 唯一的架构修改是在持续训练中引入了 DeepSeek 稀疏注意力（DSA）。

DSA原型构成：DSA 的原型主要包含两个组件：一个闪电索引器（lightning indexer）和一个细粒度的令牌选择机制（fine-grained token selection mechanism）。

闪电索引器工作原理：闪电索引器计算查询令牌 $h_t \in R^{d}$ 和前序令牌 $h_{s} \in R^{d}$ 之间的索引分数 $I_{t,s}$，以决定查询令牌应选择哪些令牌：

其中，$H^I$ 表示索引器头的数量；$q_{t,j}^I \in R^{d_{I}}$、$w_{t,j}^I \in R$ 从查询令牌 $h_t$ 导出；$k_{s}^I \in R^{d_{I}}$ 从前序令牌 $h_{s}$ 导出。出于吞吐量的考虑，我们选择 ReLU 作为激活函数。鉴于闪电索引器头部数量少且可以 FP8 格式实现，其计算效率非常出色。

细粒度令牌选择与注意力计算：对于每个查询令牌 $h_t$，我们的细粒度令牌选择机制根据索引分数 $\{I_{t,s}\}$ 仅检索与 top-k 索引分数相对应的键值条目 $\{c_s\}$。然后，通过在查询令牌 $h_t$ 和稀疏选择的键值条目 $\{c_s\}$ 之间应用注意力机制来计算注意力输出 $u_t$：

图1 | DeepSeek-V3.2-Exp 的注意力架构，其中 DSA 在 MLA 下实例化。绿色部分说明了 DSA 如何根据索引器选择 top-k 键值条目。

在MLA下实例化DSA：为了能够从 DeepSeek-V3.1-Terminus 进行持续训练，我们在 DeepSeek-V3.2-Exp 中基于 MLA（多头注意力，【DeepSeek-AI，Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model，2024】）来实例化 DSA。在核函数层面，为了计算效率，每个键值条目必须在多个查询之间共享（【Yuan et al., Native sparse attention: Hardware-aligned and natively trainable sparse attention, 2025, ACL】）。因此，我们基于 MLA 的 MQA（多查询注意力，【Shazeer, Fast transformer decoding: One write-head is all you need, 2019】）模式实现 DSA，其中每个潜在向量（MLA 的键值条目）将在查询令牌的所有查询头之间共享。基于 MLA 的 DSA 架构如图 1 所示。我们还提供了一个 DeepSeek-V3.2-Exp 的开源实现来明确地说明细节。

2. 训练

我们从 DeepSeek-V3.1-Terminus 的一个基础检查点开始，其上下文长度已扩展到 128K。我们首先进行持续预训练，然后进行后训练，以创建 DeepSeekV3.2-Exp。

2.1. 持续预训练

DeepSeek-V3.2-Exp 的持续预训练包括两个训练阶段。在这两个阶段，训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。

密集预热阶段：我们首先使用一个简短的预热阶段来初始化闪电索引器。在此阶段，我们保持密集的注意力机制，并冻结除闪电索引器之外的所有模型参数。为了将索引器的输出与主注意力分布对齐，对于第 $i$ 个查询令牌，我们首先通过对所有注意力头求和来聚合主注意力分数。然后，这个总和在序列维度上进行 L1 归一化，以产生一个目标分布 $p_{i,:} \in R^i$。基于 $p_{i,:}$，我们将 KL 散度损失设置为索引器的训练目标：

预热参数：在预热阶段，我们使用 $10^{-3}$ 的学习率。我们仅对索引器训练 1000 步，每步包含 16 个 128K 令牌的序列，总计处理了 21 亿个令牌。

稀疏训练阶段：在索引器预热之后，我们引入细粒度令牌选择机制，并优化所有模型参数以使模型适应 DSA 的稀疏模式。在此阶段，我们仍然将索引器输出与主注意力分布对齐，但仅考虑选定的令牌集 $S_i = \{j | s_{i,j} \in \text{Top-k}_j s_{i,:}\}$：

稀疏训练优化细节：值得注意的是，我们将索引器的输入从计算图中分离出来进行独立优化。索引器的训练信号仅来自 $L_{KL}$ 损失，而主模型的优化仅根据语言建模损失进行。在这个稀疏训练阶段，我们使用 $7.3 \times 10^{-6}$ 的学习率，并为每个查询令牌选择 2048 个键值令牌。我们对主模型和索引器共训练了 15000 步，每步包含 480 个 128K 令牌的序列，总计处理了 9437 亿个令牌。

2.2. 后训练

在持续预训练之后，我们进行后训练以创建最终的 DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp 的后训练也采用与稀疏持续预训练阶段相同的方式使用稀疏注意力。为了严格评估引入 DSA 的影响，我们为 DeepSeek-V3.2-Exp 保持了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据，具体细节如下。

专家蒸馏：对于每个任务，我们首先开发一个专门针对该领域的专业模型，所有专业模型都从同一个预训练的 DeepSeek-V3.2 基础检查点进行微调。除了写作任务和通用问答，我们的框架还涵盖了五个专业领域：数学、算法竞赛编程、通用逻辑推理、智能体编程和智能体搜索。每个专家模型都通过大规模强化学习（RL）进行训练。此外，我们采用不同模型为长思维链推理（思考模式）和直接响应生成（非思考模式）生成训练数据。一旦专家模型准备就绪，它们就被用来为最终的检查点生成特定领域的数据。实验结果表明，在蒸馏数据上训练的模型的性能仅略低于领域专家模型，并且通过随后的 RL 训练可以有效消除这一性能差距。

混合RL训练：对于 DeepSeek-V3.2-Exp，我们仍然采用组相对策略优化（Group Relative Policy Optimization, GRPO）（【DeepSeek-AI, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】; 【Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024】）作为 RL 训练算法。与之前的 DeepSeek 模型采用多阶段强化学习不同，我们将推理、智能体和人类对齐训练合并到一个 RL 阶段。这种方法有效地平衡了不同领域的性能，同时避免了多阶段训练范式中常见的灾难性遗忘问题。对于推理和智能体任务，我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务，我们采用一个生成式奖励模型，其中每个提示都有其自己的评估标准。我们的奖励设计仔细平衡了两个关键的权衡：（1）长度与准确性，以及（2）语言一致性与准确性。

A3 实验环境

基础模型：从 DeepSeek-V3.1-Terminus 的一个检查点开始，该检查点已支持 128K 的上下文长度。
模型架构参数：
- 上下文长度：128K 令牌。
- 稀疏注意力（DSA）参数：在稀疏训练阶段，为每个查询令牌选择 2048 个（top-k, k=2048）键值令牌。
硬件配置：推理成本评估在 H800 GPU 集群上进行。
软件配置：
- 训练算法：持续预训练（密集预热 + 稀疏训练）、后训练（专家蒸馏 + 混合 RL 训练）。
- RL 算法：组相对策略优化（GRPO）。
数据集/基准：
- 训练数据：训练数据分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。后训练数据与 V3.1-Terminus 保持一致。
- 评估基准：模型能力在多个基准上进行评估，包括 GPQA、HLE、HMMT 2025、IFEval、HumanEvalPack、LiveCodeBench、MT-Bench、Alpaca-Eval 2、Long-Needle-Haystack 等（详见表1）。训练稳定性在 BrowseComp 和 SWE Verified 上进行了评估。

A4 实验结果

模型能力评估：
- 实验内容：在多个专注于不同能力的基准测试上，将 DeepSeek-V3.2-Exp 与其前身 DeepSeek-V3.1-Terminus 进行比较。
- 实验结果：如表1所示，DeepSeek-V3.2-Exp 在显著提升长序列计算效率的同时，在短上下文和长上下文任务上均未观察到与 DeepSeek-V3.1-Terminus 相比的显著性能下降。
- 分析结论：在 GPQA、HLE 和 HMMT 2025 等基准上，DeepSeek-V3.2-Exp 的性能略低于 V3.1-Terminus，原因是 V3.2-Exp 生成的推理令牌较少。然而，当使用能够生成相当数量令牌的中间检查点时，这一性能差距会消失。这表明性能差异主要源于生成策略而非模型核心能力的下降。

表1 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 的评估。总的来说，与 DeepSeek-V3.1-Terminus 相比，DeepSeekV3.2-Exp 并未表现出明显的性能下降。DeepSeek-V3.2-Exp 在 GPQA、HLE 和 HMMT 2025 上的性能低于 DeepSeek-V3.1-Terminus，因为 DeepSeek-V3.2-Exp 生成的推理令牌较少。然而，当使用生成相当数量令牌的中间检查点时，这一性能差距会缩小。

训练稳定性评估：
- 实验内容：比较 DeepSeek-V3.2-Exp 和 DeepSeek-V3.1-Terminus 在 BrowseComp 和 SWE Verified 基准上的强化学习（RL）训练曲线。
- 实验结果：如图2所示，两个模型在整个训练过程中的性能（准确率）都稳步提升，且它们的训练曲线高度吻合。
- 分析结论：这反映了 DSA 架构具有良好的训练稳定性，引入稀疏注意力并未对复杂的 RL 训练过程造成负面影响。

图2 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 BrowseComp 和 SWE Verified 上的 RL 训练曲线。实线和虚线分别表示准确率和平均输出令牌数。

推理成本评估：
- 实验内容：分析 DSA 带来的计算复杂度和端到端推理速度提升。
- 实验结果：DSA 将主模型的核心注意力复杂度从 $O(N^2)$ 降低到 $O(N \cdot k)$。虽然闪电索引器的复杂度仍为 $O(N^2)$，但其计算量远小于 MLA。结合优化的实现，DSA 在长上下文场景中实现了显著的端到端加速。图3展示了在 H800 GPU 集群上（以每 GPU 小时 2 美元的租用价格估算），两个模型的令牌成本随序列位置的变化。
- 分析结论：DSA 显著降低了长序列的推理成本。此外，对于短序列预填充（prefilling），团队专门实现了一种掩码 MHA（Masked Multi-Head Attention）模式来模拟 DSA，以在短上下文条件下实现更高的效率。

图3 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 在 H800 集群上的推理成本。

A5 结论

本文提出的 DeepSeek-V3.2-Exp 模型，通过引入 DeepSeek 稀疏注意力（DSA），在保持与密集模型 DeepSeek-V3.1-Terminus 相当性能的同时，显著提升了长上下文场景下的训练和推理效率。内部评估结果显示了其巨大潜力。

未来工作展望：尽管内部评估结果令人鼓舞，但团队正在积极寻求在真实世界场景中进行更进一步的大规模测试，以发现稀疏注意力架构可能存在的潜在局限性。

A6 附录

A. MLA 的 MHA 和 MQA 模式

MLA的两种模式图示：图4展示了 MLA 的两个方面——MHA（多头注意力）和 MQA（多查询注意力）模式，以及它们之间的转换。

图4 | MLA 的 MHA 和 MQA 模式图示。对于 DeepSeek-V3.1-Terminus，MHA 模式用于训练和预填充，而 MQA 模式用于解码。

在DeepSeek-V3.1-Terminus中的应用：对于 DeepSeek-V3.1-Terminus，MHA 模式用于训练和预填充（prefilling）阶段，而 MQA 模式则用于解码（decoding）阶段。

引用文献详情

【DeepSeek-AI, 2024】 Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. CoRR, abs/2405.04434. URL: https://doi.org/10.48550/arXiv.2405.04434.
- 引用位置: A2 方法细节，第1节架构，第5段。
- 引用内容: 引用了 MLA (Multi-head Latent Attention) 的概念，说明 DSA 是基于 MLA 来实例化的。
【DeepSeek-AI, 2025】 Deepseek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081):633–638.
- 引用位置: A2 方法细节，第2.2节后训练，第3段。
- 引用内容: 引用了 GRPO (Group Relative Policy Optimization) 算法，作为模型 RL 训练所采用的核心算法。
【Shao et al., 2024】 Deepseekmath: Pushing the limits of mathematical reasoning in open language models. CoRR, abs/2402.03300. URL: https://doi.org/10.48550/arXiv.2402.03300.
- 引用位置: A2 方法细节，第2.2节后训练，第3段。
- 引用内容: 与上一篇文献共同作为 GRPO 算法的来源被引用。
【Shazeer, 2019】 Fast transformer decoding: One write-head is all you need. CoRR, abs/1911.02150. URL: http://arxiv.org/abs/1911.02150.
- 引用位置: A2 方法细节，第1节架构，第5段。
- 引用内容: 引用了 MQA (Multi-Query Attention) 模式，说明 DSA 是基于 MLA 的 MQA 模式来实现的。
【Yuan et al., 2025】 Native sparse attention: Hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2025. URL: https://aclanthology.org/2025.acl-long.1126/.
- 引用位置: A2 方法细节，第1节架构，第5段。
- 引用内容: 引用其观点，即在核函数（kernel）层面，为了计算效率，每个键值条目必须在多个查询之间共享。这是将 DSA 基于 MQA 模式实现的原因。

PaperCache

DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention

A1 主要贡献