DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention
作者/机构: DeepSeek-AI
A1 主要贡献
本文介绍了 DeepSeek-V3.2-Exp,一个实验性的稀疏注意力模型。该模型通过在 DeepSeek-V3.1-Terminus 的基础上进行持续训练,引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)机制。DSA 是一种由闪电索引器(lightning indexer)驱动的细粒度稀疏注意力机制。核心目标是解决长上下文场景下的计算效率问题。通过采用 DSA,DeepSeek-V3.2-Exp 在训练和推理过程中,尤其是在处理长序列时,实现了显著的效率提升,同时在各项基准测试中与密集的 V3.1-Terminus 模型相比没有出现明显的性能下降。模型的关键创新点在于 DSA 的设计,它通过一个轻量级的索引器预先计算查询(query)与键(key)之间的相关性得分,然后仅为每个查询选择得分最高的 top-k 个键值对进行注意力计算,从而将注意力计算的复杂度从二次方级降低到近似线性级。
A2 方法细节
1. 架构
与 DeepSeek-V3.1-Terminus 的架构差异
相较于 DeepSeek-V3.1 的最终版本 DeepSeek-V3.1-Terminus,DeepSeek-V3.2-Exp 唯一的架构修改是通过持续训练引入了 DeepSeek 稀疏注意力(DSA)。
DSA 原型
DSA 的原型主要由两个组件构成:一个闪电索引器(lightning indexer)和一个细粒度令牌选择机制(fine-grained token selection mechanism)。
闪电索引器
闪电索引器计算查询令牌 $h_t \in \mathbb{R}^d$ 与其前面的一个令牌 $h_s \in \mathbb{R}^d$ 之间的索引得分 $I_{t,s}$,从而决定查询令牌将选择哪些令牌:
其中 $H^I$ 表示索引器头的数量;$q^I_{t,j} \in \mathbb{R}^{d_h}$ 和 $w^I_{t,j} \in \mathbb{R}$ 来自查询令牌 $h_t$;而 $k^I_s \in \mathbb{R}^{d_h}$ 来自前面的令牌 $h_s$。考虑到吞吐量,我们选择 ReLU 作为激活函数。鉴于闪电索引器的头数较少,并且可以用 FP8 格式实现,其计算效率非常出色。
细粒度令牌选择与注意力计算
对于每个查询令牌 $h_t$,给定索引得分 $\{I_{t,s}\}$,我们的细粒度令牌选择机制仅检索与 top-k 索引得分相对应的键值对 $\{c_s\}$。然后,通过在查询令牌 $h_t$ 和稀疏选择的键值对 $\{c_s\}$ 之间应用注意力机制来计算注意力输出 $u_t$:
在 MLA 框架下实例化 DSA
为了能够从 DeepSeek-V3.1-Terminus 进行持续训练,我们为 DeepSeek-V3.2-Exp 在 MLA(Multi-head Latent Attention)【引用 DeepSeek-AI, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model, 2024】的基础上实例化了 DSA。在核函数(kernel)层面,为了计算效率,每个键值对必须被多个查询共享【引用 Yuan et al., Native sparse attention: Hardware-aligned and natively trainable sparse attention, 2025】。因此,我们基于 MLA 的 MQA(Multi-Query Attention)【引用 Shazeer, Fast transformer decoding: One write-head is all you need, 2019】模式实现了 DSA,其中每个潜在向量(MLA 的键值对)将被查询令牌的所有查询头共享。基于 MLA 的 DSA 架构如图 1 所示。我们还提供了一个 DeepSeek-V3.2-Exp 的开源实现来明确地阐述细节。
2. 训练
我们从 DeepSeek-V3.1-Terminus 的一个基础检查点开始,其上下文长度已扩展到 128K。我们首先进行持续预训练,然后进行后训练,以创建 DeepSeek-V3.2-Exp。
2.1. 持续预训练
DeepSeek-V3.2-Exp 的持续预训练包括两个训练阶段。在这两个阶段中,训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。
密集预热阶段(Dense Warm-up Stage)
我们首先使用一个简短的预热阶段来初始化闪电索引器。在此阶段,我们保持密集的注意力机制,并冻结除闪电索引器之外的所有模型参数。为了使索引器的输出与主注意力分布对齐,对于第 $t$ 个查询令牌,我们首先通过对所有注意力头进行求和来聚合主注意力得分。然后,这个总和沿着序列维度进行 L1 归一化,以产生一个目标分布 $p_{t,:} \in \mathbb{R}^t$。基于 $p_{t,:}$,我们将 KL 散度损失设置为索引器的训练目标:
在预热阶段,我们使用 $10^{-3}$ 的学习率。我们仅对索引器训练 1000 步,每步包含 16 个 128K 令牌的序列,总计处理了 21 亿个令牌。
稀疏训练阶段(Sparse Training Stage)
在索引器预热之后,我们引入了细粒度令牌选择机制,并优化所有模型参数以使模型适应 DSA 的稀疏模式。在此阶段,我们仍然将索引器的输出与主注意力分布对齐,但只考虑被选中的令牌集 $S_t = \{ s | I_{t,s} \in \text{Top-k}(I_{t,:}) \}$:
值得注意的是,为了进行独立优化,我们将索引器的输入从计算图中分离出来。索引器的训练信号仅来自损失 $\mathcal{L}^I$,而主模型的优化仅根据语言建模损失进行。在这个稀疏训练阶段,我们使用的学习率为 $7.3 \times 10^{-6}$,并为每个查询令牌选择 2048 个键值令牌。我们对主模型和索引器共训练了 15000 步,每步包含 480 个 128K 令牌的序列,总计处理了 9437 亿个令牌。
2.2. 后训练
在持续预训练之后,我们进行后训练以创建最终的 DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp 的后训练也采用了与稀疏持续预训练阶段相同的方式使用稀疏注意力。为了严格评估引入 DSA 的影响,对于 DeepSeek-V3.2-Exp,我们保持了与 DeepSeek-V3.1-Terminus 相同的后训练流程、算法和数据,具体细节如下。
专家蒸馏(Specialist Distillation)
对于每个任务,我们首先开发一个专门针对该特定领域的专家模型,所有专家模型都从同一个预训练的 DeepSeek-V3.2 基础检查点进行微调。除了写作任务和通用问答,我们的框架还涵盖了五个专业领域:数学、算法竞赛、通用逻辑推理、代码智能体和搜索智能体。每个专家都通过大规模强化学习(RL)计算进行训练。此外,我们采用不同的模型来为长思维链推理(思考模式)和直接响应生成(非思考模式)生成训练数据。一旦专家模型准备就绪,它们就被用来为最终的检查点生成特定领域的数据。实验结果表明,在蒸馏数据上训练的模型所达到的性能水平仅略低于领域专家模型,并且通过随后的 RL 训练可以有效消除性能差距。
混合强化学习训练(Mixed RL Training)
对于 DeepSeek-V3.2-Exp,我们仍然采用组相对策略优化(Group Relative Policy Optimization, GRPO)【引用 DeepSeek-AI, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025; Shao et al., Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024】作为强化学习训练算法。与以往的 DeepSeek 模型采用多阶段强化学习训练不同,我们将推理、智能体和人类对齐训练合并到一个 RL 阶段。这种方法有效地平衡了不同领域的性能,同时避免了多阶段训练范式中常见的灾难性遗忘问题。对于推理和智能体任务,我们采用了基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务,我们采用一个生成式奖励模型,其中每个提示都有其自己的评估标准。我们的奖励设计仔细平衡了两个关键的权衡:(1) 长度与准确性,以及 (2) 语言一致性与准确性。
A4 实验环境
- 模型架构: DeepSeek-V3.2-Exp 是在 DeepSeek-V3.1-Terminus(上下文长度扩展至 128K 的版本)的基础上,通过持续训练集成的 DeepSeek 稀疏注意力(DSA)机制得到的。在稀疏训练阶段,为每个查询令牌选择 2048 个键值令牌。
- 硬件配置: 推理成本的基准测试在 H800 GPU 集群上进行。
- 软件配置: 官方提供了模型的开源实现,但未指明具体的软件库。
- 数据集:
- 持续预训练: 使用的训练数据分布与 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。
- 后训练: 专家蒸馏和混合强化学习阶段使用的数据与 DeepSeek-V3.1-Terminus 相同,涵盖数学、算法竞赛、通用逻辑推理、代码智能体、搜索智能体、写作和通用问答等多个领域。
A4 实验结果
模型能力评估
- 综合性能: 在一系列涵盖不同能力的基准测试中,与 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2-Exp 在显著提升长序列计算效率的同时,在短上下文和长上下文任务上均未观察到明显的性能下降。具体结果如表 1 所示。
- 性能差异分析: 在 GPQA、HLE 和 HMMT 2025 等基准上,DeepSeek-V3.2-Exp 的性能低于 DeepSeek-V3.1-Terminus,原因是前者生成的推理令牌较少。然而,当使用能产生相当数量令牌的中间检查点时,这一性能差距会消失。
- 训练稳定性: 如图 2 所示,DeepSeek-V3.2-Exp 和 DeepSeek-V3.1-Terminus 在 BrowseComp 和 SWE Verified 任务上的强化学习训练曲线非常接近,表明两个模型在整个训练过程中的性能都稳步提升,这反映了 DSA 机制的训练稳定性。
推理成本分析
- 复杂度降低: DSA 将主模型的核心注意力复杂度从 $O(N^2)$ 降低到 $O(Nk)$,其中 $k$ 是被选中的令牌数量且 $k \ll N$。尽管闪电索引器的复杂度仍为 $O(N^2)$,但其计算量远小于 DeepSeek-V3.1-Terminus 中的 MLA。
- 端到端加速: 结合优化的实现,DSA 在长上下文场景中实现了显著的端到端加速。如图 3 所示,该图展示了在 H800 GPU 上部署的实际服务中,两种模型的令牌成本随序列中令牌位置的变化情况(以每 GPU 小时 2 美元的租用价格估算)。
- 短序列优化: 对于短序列的预填充(prefilling),特别实现了一种掩码 MHA 模式来模拟 DSA,这在短上下文条件下能实现更高的效率。
未来验证
尽管内部评估显示了 DeepSeek-V3.2-Exp 的良好结果,但团队正在积极寻求在真实世界场景中进行更大规模的测试,以发现稀疏注意力架构的潜在局限性。
A5 结论
本文成功地通过引入 DeepSeek 稀疏注意力(DSA)机制,将 DeepSeek-V3.1-Terminus 模型升级为 DeepSeek-V3.2-Exp。DSA 作为一个由闪电索引器驱动的细粒度稀疏注意力机制,在不显著牺牲模型性能的前提下,极大地提升了长上下文场景下的训练和推理效率,并显著降低了推理成本。实验结果验证了该方法的有效性和训练稳定性。未来的工作将聚焦于在真实世界场景中进行大规模测试,以进一步验证和发掘稀疏注意力架构的潜力与局限。
A6 附录
A. MLA 的 MHA 和 MQA 模式
MLA 的两种模式及其转换
图 4 展示了 MLA 的两个方面——MHA(Multi-Head Attention)和 MQA(Multi-Query Attention)模式——以及它们之间的转换。对于 DeepSeek-V3.1-Terminus,MHA 模式用于训练和预填充(prefilling),而 MQA 模式用于解码(decoding)。
方法细节中的引用汇总
-
引用文献: DeepSeek-AI. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. CoRR, abs/2405.04434, 2024. doi: 10.48550/ARXIV.2405.04434. URL https: //http://doi.org/10.48550/arXiv.2405.04434.
- 引用位置: 方法细节 -> 架构 -> 在 MLA 框架下实例化 DSA
- 引用描述: 该文献被引用以说明本文实现的 DSA 所基于的 MLA 框架。原文描述为 "we instantiate DSA based on MLA (DeepSeek-AI, 2024) for DeepSeek-V3.2-Exp"。
-
引用文献: Yuan, J., Gao, H., Dai, D., Luo, J., Zhao, L., Zhang, Z., Xie, Z., Wei, Y., Wang, L., Xiao, Z., Wang, Y., Ruan, C., Zhang, M., Liang, W., & Zeng, W. (2025). Native sparse attention: Hardware-aligned and natively trainable sparse attention. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (pp. 23078–23097). Association for Computational Linguistics. https://aclanthology.org/2025.acl-long.1126/
- 引用位置: 方法细节 -> 架构 -> 在 MLA 框架下实例化 DSA
- 引用描述: 引用此文献以支持“在核函数层面,为了计算效率,每个键值对必须被多个查询共享”这一设计原则。原文描述为 "At the kernel level, each key-value entry must be shared across multiple queries for computational efficiency (Yuan et al., 2025)"。
-
引用文献: Shazeer, N. (2019). Fast transformer decoding: One write-head is all you need. CoRR, abs/1911.02150. http://arxiv.org/abs/1911.02150
- 引用位置: 方法细节 -> 架构 -> 在 MLA 框架下实例化 DSA
- 引用描述: 该文献被引用以说明本文实现的 DSA 所基于的 MLA 的 MQA 模式。原文描述为 "Therefore, we implement DSA based on the MQA (Shazeer, 2019) mode of MLA"。
-
引用文献: DeepSeek-AI. Deepseek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081):633–638, 2025.
- 引用位置: 方法细节 -> 训练 -> 后训练 -> 混合强化学习训练
- 引用描述: 与 Shao et al., 2024 一同被引用,以说明本文采用的强化学习算法是 GRPO。原文描述为 "we still adopt Group Relative Policy Optimization (GRPO) (DeepSeek-AI, 2025; Shao et al., 2024) as the RL training algorithm"。
-
引用文献: Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., Li, Y. K., Wu, Y., & Guo, D. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. CoRR, abs/2402.03300. https://doi.org/10.48550/arXiv.2402.03300
- 引用位置: 方法细节 -> 训练 -> 后训练 -> 混合强化学习训练
- 引用描述: 与 DeepSeek-AI, 2025 一同被引用,以说明本文采用的强化学习算法是 GRPO。原文描述为 "we still adopt Group Relative Policy Optimization (GRPO) (DeepSeek-AI, 2025; Shao et al., 2024) as the RL training algorithm"。
💬 评论讨论
欢迎在这里分享您的想法和见解!