DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

文章标题和作者/机构

文章标题：DeepSeek-V3.2：推动开放大语言模型的前沿
作者/机构：DeepSeek-AI

A1 主要贡献

本文介绍了 DeepSeek-V3.2 模型，该模型旨在协调高计算效率与卓越的推理和智能体性能。

核心问题：
开源大型语言模型（LLM）在复杂任务上的能力受到三个关键缺陷的限制：
1. 架构效率：主要依赖于 vanilla attention 机制，严重限制了长序列处理的效率，成为可扩展部署和有效后训练的障碍。
2. 资源分配：开源模型在后训练阶段的计算投入不足，限制了其在困难任务上的性能。
3. 智能体能力：在泛化和指令遵循能力方面，开源模型明显落后于专有模型，影响了它们在实际部署中的效果。

研究目标和创新点：
为了解决上述问题，本文提出了以下创新：
1. DeepSeek 稀疏注意力 (DSA)：引入了一种高效的注意力机制 DSA，旨在大幅降低计算复杂性，同时在长上下文场景中保持模型性能，有效解决了效率瓶颈。
2. 可扩展的强化学习框架：开发了一个稳定且可扩展的强化学习（RL）协议，允许在后训练阶段大幅增加计算投入。该框架分配的后训练计算预算超过预训练成本的10%，从而解锁了模型的高级能力。
3. 大规模智能体任务合成流水线：为将推理能力融入工具使用场景，本文提出了一种新颖的流水线。该流水线首先利用 DeepSeek-V3 的方法进行冷启动，将推理和工具使用统一在单个轨迹中；然后，进行大规模智能体任务合成，生成超过1800个不同环境和85000个复杂提示。这些合成数据用于驱动 RL 过程，显著增强了模型在智能体上下文中处理复杂交互环境时的泛化和指令遵循能力。

主要成果：
- DeepSeek-V3.2 在多个推理基准测试中达到了与 Kimi-k2-thinking 和 GPT-5 相当的性能。
- 在智能体能力方面，DeepSeek-V3.2 显著提升了开源模型的水平，尤其在 EvalSys 等引入的长尾智能体任务上表现出色，成为一种高性价比的替代方案。
- 为了探索极限，开发了高算力变体 DeepSeek-V3.2-Speciale，其性能与顶尖的闭源系统 Gemini-3.0-Pro 持平，并在2025年国际数学奥林匹克（IMO）、国际信息学奥林匹克（IOI）、ICPC世界总决赛和中国数学奥林匹克（CMO）中取得了金牌水平的成绩。

图1 | DeepSeek-V3.2及其对应模型的基准测试。对于HMMT 2025，我们报告了2月份的竞赛成绩，与基线保持一致。对于HLE，我们报告了纯文本子集。

A2 方法细节

2. DeepSeek-V3.2 架构

2.1. DeepSeek 稀疏注意力

与先前版本的关系：DeepSeek-V3.2 使用与 DeepSeek-V3.2-Exp 完全相同的架构。与 DeepSeek-V3.1 的最终版本 DeepSeek-V3.1-Terminus 相比，唯一的架构修改是通过持续训练引入了 DeepSeek 稀疏注意力（DSA）。

DSA原型：闪电索引器与细粒度令牌选择：DSA 的原型主要由两个组件构成：一个闪电索引器（lightning indexer）和一个细粒度令牌选择机制。闪电索引器计算查询令牌 $h_t \in \mathbb{R}^d$ 和前一个令牌 $h_s \in \mathbb{R}^d$ 之间的索引得分 $I_{t,s}$，以决定查询令牌应选择哪些令牌：

$$I_{t,s} = \sum_{j=1}^{H^I} w_{t,j}^{I} \cdot \text{ReLU} \left( \mathbf{q}_{t,j}^{I} \cdot \mathbf{k}_{s}^{I} \right),$$

其中，$H^I$ 表示索引器头的数量；$q_{t,j}^I \in \mathbb{R}^{d_k}$ 和 $w_{t,j}^I \in \mathbb{R}$ 来自查询令牌 $h_t$；而 $k_s^I \in \mathbb{R}^{d_k}$ 来自前一个令牌 $h_s$。出于吞吐量考虑，我们选择 ReLU 作为激活函数。由于闪电索引器头数较少且可用 FP8 实现，其计算效率非常高。

注意力输出计算：对于每个查询令牌 $h_t$，给定索引得分 $\{I_{t,s}\}$，我们的细粒度令牌选择机制仅检索与 top-k 索引得分相对应的键值对 $\{c_s\}$。然后，通过在查询令牌 $h_t$ 和稀疏选择的键值对 $\{c_s\}$ 之间应用注意力机制来计算注意力输出 $u_t$：

$$ \mathbf{u}_t = \text{Attn}(\mathbf{h}_t, \{ \mathbf{c}_s | I_{t,s} \in \text{Top-k}(I_{t,:}) \}) . $$

基于MLA的DSA实例化：考虑到从 DeepSeek-V3.1-Terminus 进行持续训练，我们基于 MLA（【7，Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model，2024，CoRR】）为 DeepSeek-V3.2 实例化了 DSA。在内核级别，为了计算效率，每个键值对必须在多个查询之间共享（【31，Native sparse attention: Hardware-aligned and natively trainable sparse attention，2025，ACL】）。因此，我们基于 MLA 的 MQA（【25，Fast transformer decoding: One write-head is all you need，2019，CoRR】）模式实现 DSA，其中每个潜在向量（MLA 的键值对）将被查询令牌的所有查询头共享。基于 MLA 的 DSA 架构如图2所示。我们还提供了一个 DeepSeek-V3.2 的开源实现来明确指定细节。

图2 | DeepSeek-V3.2的注意力架构，其中DSA在MLA下实例化。绿色部分说明了DSA如何根据索引器选择top-k个键值对。

2.1.1. 持续预训练

训练起点：我们从 DeepSeek-V3.1-Terminus 的一个基础检查点开始，其上下文长度已扩展到128K。我们进行持续的预训练，然后是后训练，以创建 DeepSeek-V3.2。

训练阶段和数据：DeepSeek-V3.2 的持续预训练包括两个训练阶段。在这两个阶段中，训练数据的分布与用于 DeepSeek-V3.1-Terminus 的 128K 长上下文扩展数据完全一致。

密集预热阶段：我们首先使用一个短暂的预热阶段来初始化闪电索引器。在此阶段，我们保持密集的注意力机制，并冻结除闪电索引器外的所有模型参数。为了使索引器的输出与主注意力分布对齐，对于第 $t$ 个查询令牌，我们首先通过对所有注意力头求和来聚合主注意力得分。然后，这个总和在序列维度上进行 L1 归一化，以产生目标分布 $p_{t,:} \in \mathbb{R}^s$。基于 $p_{t,:}$，我们设置一个 KL 散度损失作为索引器的训练目标：

$$ \mathcal{L}^I = \sum_t \mathbb{D}_{\text{KL}}(p_{t,:}\| \text{Softmax}(I_{t,:})). $$

在预热阶段，我们使用 $10^{-3}$ 的学习率。我们仅训练索引器1000步，每步包含16个128K令牌的序列，总计21亿个令牌。

稀疏训练阶段：在索引器预热之后，我们引入细粒度令牌选择机制，并优化所有模型参数以使模型适应 DSA 的稀疏模式。在此阶段，我们仍然将索引器的输出与主注意力分布对齐，但只考虑选定的令牌集 $S_t = \{ s' | I_{t,s'} \in \text{Top-k}(I_{t,:}) \}$：

$$\mathcal{L}^{\mathrm{I}}=\sum_{t} \mathbb{D}_{\mathrm{KL}}\left(p_{t}, s_{t} \| \operatorname{Softmax}\left(I_{t}, s_{t}\right)\right).$$

值得注意的是，我们将索引器输入从计算图中分离出来进行独立优化。索引器的训练信号仅来自 $L^I$，而主模型的优化仅根据语言建模损失。在这个稀疏训练阶段，我们使用 $7.3 \times 10^{-6}$ 的学习率，并为每个查询令牌选择2048个键值令牌。我们对主模型和索引器都训练了15000步，每步包含480个128K令牌的序列，总计9437亿个令牌。

2.2. 等效性评估

标准基准测试：在2025年9月，我们在关注多种能力的基准测试套件上评估了 DeepSeek-V3.2-Exp，并将其与 DeepSeek-V3.1-Terminus 进行了比较，两者表现出相似的性能。尽管 DeepSeek V3.2 Exp 在长序列上的计算效率显著提高，但与 DeepSeek-V3.1-Terminus 相比，无论是在短上下文还是长上下文任务上，我们都没有观察到明显的性能下降。

人类偏好：考虑到直接的人类偏好评估本质上容易产生偏见，我们采用 ChatbotArena 作为间接评估框架来近似用户对新开发的基础模型的偏好。DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2-Exp 共享相同的后训练策略，它们在2025年11月10日进行的评估中获得的 Elo 分数非常接近。这些结果表明，尽管引入了稀疏注意力机制，新基础模型的性能与前一版本相当。

长上下文评估：在 DeepSeek-V3.2-Exp 发布后，使用先前未见的测试集进行了几次独立的长上下文评估。一个代表性的基准是 AA-LCR3，其中 DeepSeek-V3.2-Exp 在推理模式下比 DeepSeek-V3.1-Terminus 高出四分。在 Fiction.liveBench 评估中，DeepSeek-V3.2-Exp 在多项指标上持续优于 DeepSeek-V3.1-Terminus。这些证据表明，DeepSeek-V3.2-Exp 的基础检查点在长上下文任务上没有出现性能退化。

2.3. 推理成本

复杂度与效率提升：DSA 将主模型的核心注意力复杂度从 $O(n^2)$ 降低到 $O(nk)$，其中 $k$ (远小于 $n$) 是所选令牌的数量。虽然闪电索引器的复杂度仍为 $O(n^2)$，但与 DeepSeek-V3.1-Terminus 中的 MLA 相比，它需要的计算量要少得多。结合我们优化的实现，DSA 在长上下文场景中实现了显著的端到端加速。图3展示了 DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 的令牌成本如何随序列中令牌位置的变化而变化。这些成本是根据部署在 H800 GPU 上的实际服务进行基准测试估算的，GPU 租用价格为每小时2美元。值得注意的是，对于短序列的预填充（prefilling），我们专门实现了一种掩码 MHA 模式来模拟 DSA，这在短上下文条件下可以实现更高的效率。

图3 | DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 在 H800 集群上的推理成本。

3. 后训练

后训练流程：在持续预训练之后，我们进行后训练以创建最终的 DeepSeek-V3.2。DeepSeek-V3.2 的后训练也采用与稀疏持续预训练阶段相同的方式使用稀疏注意力。对于 DeepSeek-V3.2，我们保持与 DeepSeek-V3.2-Exp 相同的后训练流水线，包括专家蒸馏和混合 RL 训练。

专家蒸馏：对于每个任务，我们首先开发一个专门针对该特定领域的专业模型，所有专业模型都从同一个预训练的 DeepSeek-V3.2 基础检查点进行微调。除了写作任务和通用问答，我们的框架还涵盖了六个专业领域：数学、编程、通用逻辑推理、通用智能体任务、智能体编码和智能体搜索，所有领域都支持思考和非思考模式。每个专家都通过大规模强化学习（RL）计算进行训练。此外，我们使用不同的模型为长思维链推理（思考模式）和直接响应生成（非思考模式）生成训练数据。一旦专业模型准备就绪，它们就被用来为最终的检查点生成特定领域的数据。实验结果表明，在蒸馏数据上训练的模型的性能水平仅略低于领域专家模型，并且通过随后的 RL 训练可以有效消除性能差距。

混合RL训练：对于 DeepSeek-V3.2，我们仍然采用组相对策略优化（Group Relative Policy Optimization, GRPO）（【9，Deepseek-r1 incentivizes reasoning in llms through reinforcement learning，2025，Nature】；【23，Deepseekmath: Pushing the limits of mathematical reasoning in open language models，2024，CoRR】）作为 RL 训练算法。与 DeepSeek-V3.2-Exp 一样，我们将推理、智能体和人类对齐训练合并到一个 RL 阶段。这种方法有效地平衡了不同领域的性能，同时避免了多阶段训练范式中常见的灾难性遗忘问题。对于推理和智能体任务，我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务，我们采用一个生成式奖励模型，其中每个提示都有其自己的评估标准。

DeepSeek-V3.2 与 DeepSeek-V3.2-Speciale：DeepSeek-V3.2 整合了从专家那里蒸馏出的推理、智能体和人类对齐数据，经过数千步的持续 RL 训练达到最终的检查点。为了研究扩展思考的潜力，我们还开发了一个实验性变体，DeepSeek-V3.2-Speciale。该模型仅在推理数据上进行训练，并在 RL 期间减少了长度惩罚。此外，我们还结合了 DeepSeekMath-V2（【24，Deepseekmath-v2: Towards self-verifiable mathematical reasoning，2025】）的数据集和奖励方法，以增强其在数学证明方面的能力。

重点介绍：我们将在第3.1节中重点介绍我们如何创建一个稳定的配方来扩展 RL 计算，并在第3.2节中介绍如何将思考融入智能体任务。

3.1. 扩展 GRPO

GRPO目标函数回顾：我们首先回顾 GRPO 的目标。GRPO 通过在给定每个问题 $q$ 的情况下，对从旧策略 $\pi_{\text{old}}$ 采样的一组响应 $\{o_1, \dots, o_G\}$ 最大化以下目标来优化策略模型 $\pi_\theta$：

$$ \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}\left(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{i,t} \right) - \beta \mathbb{D}_{\text{KL}} \left( \pi_{\theta}(o_{i,t}) \| \pi_{\text{ref}}(o_{i,t}) \right) \right], $$

其中

$$r_{i,t}(\theta) = \frac{\pi_\theta(o_{i,t}|q, o_{i,<t})}{\pi_\text{old}(o_{i,t}|q, o_{i,<t})}$$</div> 是当前策略和旧策略之间的重要性采样比率。$\epsilon$ 和 $\beta$ 是控制裁剪范围和 KL 惩罚强度的超参数。$\hat{A}_{i,t}$ 是 $o_{i,t}$ 的优势，通过在每个组内对结果奖励进行归一化来估计。具体来说，一组奖励模型用于为组中的每个输出 $o_i$ 打分一个结果奖励 $R_i$，从而分别得到 $G$ 个奖励 $\mathcal{R} = \{R_1, \dots, R_G\}$。$o_{i,t}$ 的优势是通过从输出 $o_i$ 的奖励中减去该组的平均奖励来计算的，即 $\hat{A}_{i,t} = R_i - \text{mean}(\mathcal{R})$。

稳定RL扩展的策略：接下来，我们概述了直接基于 GRPO 算法稳定 RL 扩展的其他策略。

无偏KL估计：给定 $o_{i,t}$ 是从旧策略 $\pi_{\text{old}}(\cdot|q, o_{i,<t})$ 中采样的，我们修正了 K3 估计器（【22，Approximating KL divergence，2020】）以获得一个无偏的 KL 估计，使用了当前策略 $\pi_\theta$ 和旧策略 $\pi_{\text{old}}$ 之间的重要性采样比率。<br />

$$ \mathbb{D}_{\mathrm{KL}}(\pi_{\theta}(o_{i,t}) \| \pi_{\mathrm{ref}}(o_{i,t})) = \frac{\pi_{\theta}(o_{i,t}|q, o_{i,<t})}{\pi_{\mathrm{old}}(o_{i,t}|q, o_{i,<t})} \left( \frac{\pi_{\mathrm{ref}}(o_{i,t}|q, o_{i,<t})}{\pi_{\theta}(o_{i,t}|q, o_{i,<t})} - \log \frac{\pi_{\mathrm{ref}}(o_{i,t}|q, o_{i,<t})}{\pi_{\theta}(o_{i,t}|q, o_{i,<t})} - 1 \right). $$ <p>
作为此调整的直接结果，该 KL 估计器的梯度变为无偏的，从而消除了系统性的估计误差，促进了稳定的收敛。这与原始的 K3 估计器形成鲜明对比，特别是当采样到的令牌在当前策略下的概率远低于参考策略时，即 $\pi_\theta \ll \pi_{\text{ref}}$。在这种情况下，K3 估计器的梯度会分配不成比例的、无界的巨大权重来最大化这些令牌的可能性，导致梯度更新充满噪声，这些噪声在后续迭代中累积，降低了样本质量，并导致不稳定的训练动态。在实践中，我们发现不同领域受益于不同强度的 KL 正则化。对于某些领域，如数学，应用相对较弱的 KL 惩罚甚至完全省略它可以产生更好的性能。

离策略序列掩码：为了提高 RL 系统的效率，我们通常会生成一大批 rollout 数据，然后将其分成多个 mini-batch 用于几个梯度更新步骤。这种做法本身就引入了离策略（off-policy）行为。此外，用于高效数据生成的推理框架通常是高度优化的，可能在实现细节上与训练框架不同。这种训练-推理的不一致性进一步加剧了离策略的程度。为了稳定训练并提高对离策略更新的容忍度，我们掩盖了那些引入显著策略散度的负序列，该散度由数据采样策略 $\pi_{\text{old}}$ 和当前策略 $\pi_\theta$ 之间的 KL 散度来衡量。更具体地说，我们在 GRPO 损失中引入了一个二元掩码 $M$：

$$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot|q)} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}\left(r_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon\right) \hat{A}_{i,t} \right) M_{i,t} - \beta \mathbb{D}_{\text{KL}}\left(\pi_\theta(o_{i,t}) \| \pi_{\text{ref}}(o_{i,t})\right) \right],$$

其中

$$\begin{aligned} M_{i,t}=\left\{\begin{array}{ll} 0 & \hat{A}_{i,t}<0, \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \log \frac{\pi_{\text {old }}\left(o_{i,t} \mid q, o_{i,<t}\right)}{\pi_{\theta}\left(o_{i,t} \mid q, o_{i,<t}\right)}>\delta \\ 1 & \text { otherwise, } \end{array}\right. \end{aligned}$$

且 $\delta$ 是一个控制策略散度阈值的超参数。请注意，这里的 $\pi_{\text{old}}$ 表示推理框架直接返回的采样概率，因此旧策略和当前策略之间的 KL 散度考虑了上述两种离策略来源。同样值得注意的是，我们只掩盖具有负优势的序列。直观地说，模型从自己的错误中学习受益最大，而高度离策略的负样本可能是有害的，可能会误导或破坏优化过程。我们凭经验观察到，这种离策略序列掩码操作在某些原本会表现出不稳定性的训练场景中提高了稳定性。

保持路由（Keep Routing）：混合专家（MoE）模型通过在推理过程中仅激活一部分专家模块来提高计算效率。然而，推理和训练框架之间的差异，再加上策略更新，可能导致即使对于相同的输入，在推理和训练期间的专家路由也不一致。这种不一致性会导致活动参数子空间的突然变化，从而破坏优化稳定性并加剧离策略问题。为了缓解这种情况，我们保留在推理框架中采样时使用的专家路由路径，并在训练期间强制执行相同的路由路径，确保相同的专家参数得到优化。我们发现这种保持路由操作对于 MoE 模型的 RL 训练稳定性至关重要，并自 DeepSeek-V3-0324 起已在我们的 RL 训练流水线中采用。

保持采样掩码（Keep Sampling Mask）：Top-p 和 top-k 采样是广泛使用的采样策略，用于提高 LLM 生成响应的质量。在 RL 训练中采用这些策略也是有利的，因为它避免了采样那些极低概率的令牌作为优化目标。虽然这种截断保留了样本质量，但它在 $\pi_{\text{old}}$ 和 $\pi_\theta$ 的动作空间之间引入了不匹配，这违反了重要性采样的原则并破坏了训练的稳定性。为了解决这个问题，我们保留从 $\pi_{\text{old}}$ 采样时的截断掩码，并在训练期间将其应用于 $\pi_\theta$，确保两个策略共享相同的动作子空间。根据经验，我们发现将 top-p 采样与保持采样掩码策略相结合，能有效地在 RL 训练期间保持语言的一致性。

3.2. 工具使用中的思考

3.2.1. 思考上下文管理

问题与动机：DeepSeek-R1 已经证明，引入思考过程可以显著增强模型解决复杂问题的能力。基于这一洞见，我们旨在将思考能力整合到工具调用场景中。我们观察到，复制 DeepSeek-R1 的策略——在第二轮消息到达时丢弃推理内容——会导致严重的令牌效率低下。这种方法迫使模型在每次后续工具调用时都冗余地重新推理整个问题。

解决方案：定制化的上下文管理：为了缓解这个问题，我们开发了一种严格为工具调用场景量身定制的上下文管理策略，如图4所示：
- 只有当新的用户消息被引入对话时，历史推理内容才会被丢弃。如果只追加了与工具相关的消息（例如，工具输出），推理内容将在整个交互过程中被保留。
- 当推理轨迹被移除时，工具调用及其结果的历史记录仍会保留在上下文中。

特定框架的注意事项：值得注意的是，某些智能体框架，如 Roo Code 或 Terminus，通过用户消息模拟工具交互。由于上述上下文管理规则，这些框架可能无法完全从我们增强的推理持久性中受益。因此，我们建议使用非思考模型以在这些架构中获得最佳性能。

3.2.2. 冷启动

核心思想：鉴于我们拥有推理数据（非智能体）和非推理的智能体数据，一个整合这两种能力的直接策略是通过精心设计的提示。我们假设模型拥有足够的能力来准确遵循明确的指令，从而能够将工具执行无缝地融入推理过程中。

实现示例：为了展示冷启动机制的操作，我们选择性地抽样了训练数据，如附录表6-8所示。需要注意的是，不同的任务提示与不同的系统提示相关联。表6-8展示了一个对应于竞争性编程提示的说明性示例。
- 表6 展示了我们的推理数据示例，它使用一个系统提示明确要求模型在给出最终答案之前进行推理，并使用特殊标签 <think></think> 来标记推理路径。
- 表7 展示了非推理智能体数据的提示，其中系统提示包含了工具调用的指导。
- 表8 展示了我们设计的系统提示，用于指示模型在其推理过程中整合多个工具调用。

通过这种方式，尽管在工具使用中的推理模式可能不够鲁棒，但模型偶尔能够生成期望的轨迹，从而为后续的强化学习阶段提供了基础。

3.2.3. 大规模智能体任务

任务多样性与环境：一组多样化的 RL 任务对于增强模型鲁棒性至关重要。对于搜索、代码工程和代码解释等任务，我们使用真实世界的工具，包括实际的网络搜索 API、编码工具和 Jupyter Notebooks。虽然这些 RL 环境是真实的，但所使用的提示要么是从互联网资源中提取的，要么是合成生成的，而不是从实际用户交互中获得的。对于其他任务，环境和提示都是合成构建的。我们使用的智能体任务如表1所示。

表1 | 不同智能体任务的描述，包括任务数量、环境类型（真实或合成）以及提示来源（提取或合成）。

搜索智能体：我们采用基于 DeepSeek-V3.2 的多智能体流水线来生成多样化、高质量的训练数据。首先，我们从大规模网络语料库中采样不同领域的信息丰富的长尾实体。然后，一个问题构建智能体使用具有可配置深度和广度参数的搜索工具探索每个实体，将发现的信息整合成问答对。具有异构配置（不同检查点、系统提示等）的多个答案生成智能体为每个提出的问答对生成多样化的候选响应。一个具备搜索能力的验证智能体通过多轮验证所有答案，只保留那些基准答案正确且所有候选答案都可验证为不正确的样本。这些数据跨越多种语言、领域和难度级别。为了补充这些可验证的样本并更好地反映真实世界的使用情况，我们还用现有有帮助的 RL 数据集中经过筛选的实例来增强数据集，其中搜索工具提供了可衡量的益处。然后，我们跨多个质量维度制定详细的评估标准，并使用生成式奖励模型根据这些标准对响应进行评分。这种混合方法使得优化能够同时兼顾事实可靠性和实际帮助性。

代码智能体：我们通过从 GitHub 挖掘数百万个 issue-Pull Request (PR) 对，为软件问题解决构建了大规模、可执行的环境。该数据集经过启发式规则和基于 LLM 的判断进行了严格筛选，以确保高质量，要求每个条目都包含合理的问题描述、相关的黄金补丁和用于验证的测试补丁。一个由 DeepSeek-V3.2 驱动的自动化环境设置智能体被用来为这些对构建可执行环境。该智能体处理包安装、依赖解析和测试执行。测试结果以标准的 JUnit 格式输出，确保在不同编程语言和测试框架之间的一致解析。只有当应用黄金补丁导致非零数量的假到正（F2P）测试用例（表明问题已修复）和零数量的通过到失败（P2F）测试用例（表明没有回归）时，环境才被视为成功构建。使用这个流水线，我们成功构建了数万个可复现的问题解决环境，涵盖了多种编程语言，包括 Python、Java、JavaScript、TypeScript、C、C++、Go 和 PHP。

代码解释器智能体：我们利用 Jupyter Notebook 作为代码解释器来解决复杂的推理任务。为此，我们策划了一组多样化的问题，涵盖数学、逻辑和数据科学，每个问题都要求模型利用代码执行能力来得出解决方案。

通用智能体：为了在 RL 中扩展智能体环境和任务，我们采用了一个自动环境合成智能体，它合成了1827个面向任务的环境。这些任务难以解决但易于验证。合成工作流主要包括环境和工具集构建、任务合成和解决方案生成。具体工作流程如下：
1. 数据生成：给定一个任务类别（例如，规划旅行行程）和一个配备了 bash 和搜索工具的沙箱，智能体首先使用这些工具从互联网生成或检索相关数据，并将其存储在沙箱数据库中。
2. 工具合成：然后，智能体合成一组特定于任务的工具，每个工具都实现为一个函数。
3. 任务与验证生成：为了创建既具挑战性又可自动验证的任务，智能体首先根据当前数据库提出一个简单的任务，及其解决方案和用 Python 实现的验证函数。解决方案函数被限制为只能调用工具函数或执行逻辑计算，不能调用其他函数或直接访问数据库，以确保任务只能通过工具接口解决。此外，解决方案函数产生的结果必须由验证函数验证。如果解决方案未通过验证，智能体将修改解决方案或验证函数，直到解决方案的输出通过验证。然后，智能体迭代地增加任务的难度，并更新相应的解决方案和验证函数。在此迭代过程中，如果当前的工具集不足以解决任务，智能体将增强工具集。

遵循此工作流程，我们获得了数千个 <环境, 工具, 任务, 验证器> 元组。然后，我们使用 DeepSeek-V3.2 在此数据集上执行 RL，并仅保留 pass@100 非零的实例，最终得到1827个环境及其相应的任务（总共4417个）。下面展示了一个合成的旅行规划示例。这个例子突显了，虽然在巨大的组合空间中搜索满足所有约束的旅行计划是具有挑战性的，但检查一个给定的候选解决方案是否满足这些约束相对简单。

旅行规划任务示例：

我计划从2025年10月1日到10月3日从杭州出发，进行为期三天的旅行，需要帮助创建一个行程。一些重要要求：在整个旅行中，我不想重复任何城市、酒店、景点或餐厅。另外，请确保你推荐的每个酒店、餐厅和景点都确实位于我当天所在的城市。关于第二天还有一件事——我正在努力控制预算。如果我最终预订了每晚花费800元或以上的豪华酒店，那么我需要对其他开销更加小心：午餐和晚餐的总花费应保持在350元以下，两家餐厅的评分都至少为4.0星，下午的景点门票需要低于120元。如果第二天的酒店是中高档（500-800元），那么我会有更多的灵活性——我只需要确保至少有一家餐厅的评分在4.0或以上，并且景点门票应低于180元。对于更实惠的酒店（200-500元范围），我只需要确保至少有一家餐厅的评分在3.2或以上。你能帮我制定这个行程吗？

提交结果格式：

[
  { "time": "2025-10-01", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name" },
  { "time": "2025-10-02", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name" },
  { "time": "2025-10-03", "city": "city_name", "hotel": "hotel_name", "afternoon_restaurant": "restaurant_name", "afternoon_attraction": "attraction_name", "evening_restaurant": "restaurant_name" }
]

旅行规划工具集：

A4 实验环境

数据集/基准：
- 通用与推理：MMLU-Pro (【28，Mmlu-pro: A more robust and challenging multi-task language understanding benchmark，2024，CoRR】), GPQA Diamond (【21，GPQA: A graduate-level google-proof q&a benchmark，2023，arXiv】), Human Last Exam (HLE) Text-only (【19，Humanity’s last exam，2025，arXiv】)。
- 代码：LiveCodeBench (2024.08-2025.04), Codeforces, Aider-Polyglot, SWE-Verified (【17，Introducing SWE-bench verified we’re releasing a human-validated subset of swebench that more，2024b】), SWE Multilingual (【30，Swe-smith: Scaling data for software engineering agents，2025】)。
- 数学：AIME 2025, HMMT Feb 2025, HMMT Nov 2025 (【3，Matharena: Evaluating llms on uncontaminated math competitions，2025，NeurIPS Datasets and Benchmarks】), IMOAnswerBench (【13，Towards robust mathematical reasoning，2025，EMNLP】)。
- 智能体与工具使用：Terminal Bench 2.0, BrowseComp (【29，Browsecomp: A simple yet challenging benchmark for browsing agents，2025，arXiv】), BrowseComp-Zh (【33，Browsecomp-zh: Benchmarking web browsing ability of large language models in chinese，2025，arXiv】), $\tau^2$-bench (【4，τ2-bench: Evaluating conversational agents in a dual-control environment，2025】), MCP-Universe (【12，Mcp-universe: Benchmarking large language models with real-world model context protocol servers，2025，arXiv】), MCP-Mark (【10，Mcpmark leaderboard，2025】), and Tool-Decathlon (【11，The tool decathlon: Benchmarking language agents for diverse, realistic, and long-horizon task execution，2025，arXiv】)。

模型架构：
- DeepSeek-V3.2 采用 DeepSeek Sparse Attention (DSA) 架构，基于 Multi-Latency Attention (MLA) 的 MQA 模式实现。
- 上下文窗口长度设置为 128K tokens。

硬件配置：
- 推理成本和基准测试基于部署在 H800 GPU 集群上的实际服务进行。

软件与评估配置：
- 工具使用基准测试采用标准的函数调用格式，模型配置为思考模式。
- MCP-Universe 和 MCP-Mark 使用内部环境进行评估。
- 生成温度设置为 1.0。
- 对于数学相关任务，使用特定模板 "{question}\nPlease reason step by step, and put your final answer within \boxed{}."。

A4 实验结果

表2 | DeepSeek-V3.2 与闭源/开源模型的比较。对于开源模型，我们只与支持在工具使用中思考的模型进行比较。粗体数字表示每个模型类别（开源和闭源）中的最高分。τ2-Bench 的结果由每个类别的平均值计算得出。关于 BrowseComp，带有上下文管理技术的性能用 * 标注。

1. 主要结果分析 (表2)
- 推理能力：DeepSeek-V3.2 在推理任务上与 GPT-5-high 性能相似，但略逊于 Gemini-3.0-Pro。与 K2-Thinking 相比，DeepSeek-V3.2 以显著更少的输出 token 达到了相当的分数（详见表3），这得益于在 RL 训练中投入的更多计算资源。
- 代码智能体：在 SWE-bench Verified 和 Terminal Bench 2.0 上，DeepSeek-V3.2 显著优于其他开源 LLM。在 Terminal Bench 2.0 上，由于上下文管理策略与 Terminus 框架不兼容，使用 Claude Code 框架取得了46.4分；在非思考模式下使用 Terminus 框架得分为39.3分。
- 搜索智能体：在 BrowseComp 评估中，由于128K上下文长度限制，约20%的测试用例超出了限制。通过上下文管理方法，最终得分为51.4分（有上下文管理为67.6分）。
- 工具使用：DeepSeek-V3.2 大幅缩小了开源与闭源 LLM 在工具使用上的性能差距，但在 $\tau^2$-bench、MCP-Universe 和 MCP-Mark 等基准上仍落后于顶尖模型。一个限制因素是模型在长轨迹中容易超出128K上下文长度限制。结果表明，模型能将其推理策略泛化到训练期间未见过的领域外智能体场景。

2. DeepSeek-V3.2-Speciale 性能 (表3, 表4)
- 性能与效率：如表3所示，通过增加推理 token 的使用，DeepSeek-V3.2-Speciale 在多个基准测试中超越了顶尖的 Gemini-3.0-Pro。然而，其 token 效率显著低于 Gemini-3.0-Pro。为了平衡性能与成本，正式版的 DeepSeek-V3.2 在训练中施加了更严格的 token 约束。
- 竞赛表现：如表4所示，这个通用模型在未经特定训练的情况下，在2025年国际信息学奥林匹克（IOI）和 ICPC 世界总决赛中达到了金牌水平。通过结合特定技术，该模型在2025年国际数学奥林匹克（IMO）和中国数学奥林匹克（CMO）中也达到了金牌水平。

表3 | 推理模型的基准性能和效率。对于每个基准，单元格显示准确率和输出token数（千）。每个基准的最高准确率用粗体表示；第二高用下划线表示。

表4 | DeepSeek-V3.2-Speciale 在顶级数学和编程竞赛中的表现。对于 ICPC WF 2025，我们报告了每个成功解决问题的提交次数。DeepSeek-V3.2-Speciale 在 ICPC WF 2025 中排名第2，在 IOI 2025 中排名第10。

3. 合成智能体任务消融实验 (表5, 图5)
- 任务挑战性：如表5所示，随机抽样的50个通用合成智能体任务对用于合成的模型 DeepSeek-V3.2-Exp (pass@1 仅12%) 和顶尖闭源模型 (最高62%) 都构成了挑战，证明了合成数据的难度。
- 泛化能力：如图5所示，仅在合成智能体数据上进行 RL 训练的 DeepSeek-V3.2-SFT 模型，在 Tau2Bench、MCP-Mark 和 MCP-Universe 等基准上取得了显著的性能提升。相比之下，仅在代码和搜索场景中进行 RL 训练并没有带来提升，这突显了合成数据的泛化潜力。

表5 | 不同模型在通用合成任务上的准确率。
图5 | 使用纯合成通用智能体数据对 DeepSeek-V3.2-SFT 进行 RL 训练。

4. 搜索智能体的上下文管理 (图6)
- 问题：即使有128k的上下文窗口，智能体工作流（尤其是在搜索场景中）也常常因达到最大长度限制而中断。
- 策略与结果：为解决此问题，引入了三种上下文管理策略：(1) 总结 (Summary)，(2) 丢弃75%历史 (Discard-75%)，(3) 丢弃全部历史 (Discard-all)。如图6所示，在 BrowseComp 基准上，这些策略通过扩展测试时计算，显著提升了性能。例如，"Discard-all" 策略在效率和可扩展性上表现良好，得分达到67.6，与并行扩展基线相当，但使用的步数显著减少。
- 结论：测试时计算可以通过串行（上下文管理）或并行方式扩展，但不同策略的效率和可扩展性不同，需要在评估模型性能时考虑实际计算成本。

A5 结论

工作总结：
本文介绍了 DeepSeek-V3.2，一个有效平衡计算效率和高级推理能力的框架。
1. 通过引入 DeepSeek 稀疏注意力 (DSA)，在不牺牲长上下文性能的前提下解决了计算复杂度问题。
2. 通过增加后训练阶段的计算预算，DeepSeek-V3.2 在推理基准上达到了与 GPT-5 相当的性能。
3. 通过大规模智能体任务合成流水线，显著增强了模型的工具使用能力，为开源 LLM 构建鲁棒和泛化的 AI 智能体开辟了新可能。
4. 其高算力变体 DeepSeek-V3.2-Speciale 在 IMO 和 IOI 等顶级竞赛中取得金牌，为开源 LLM 树立了新的里程碑。

局限性：
与 Gemini-3.0-Pro 等顶尖闭源模型相比，仍存在以下局限性：
1. 世界知识广度不足：由于总训练 FLOPs 较少，DeepSeek-V3.2 的世界知识广度落后于领先的专有模型。
2. Token 效率有待提高：DeepSeek-V3.2 通常需要更长的生成轨迹（即更多 token）才能达到与 Gemini-3.0-Pro 相当的输出质量。
3. 复杂任务解决能力：在解决复杂任务方面仍劣于顶尖模型。

未来工作：
1. 计划通过扩大预训练计算来弥补知识差距。
2. 将专注于优化模型推理链的智能密度，以提高 token 效率。
3. 将进一步优化基础模型和后训练配方，以提升复杂任务的解决能力。

A6 附录

A. MLA 的 MHA 和 MQA 模式

模式说明：图7展示了多延迟注意力（MLA）的两个方面——多头注意力（MHA）模式和多查询注意力（MQA）模式，以及它们之间的转换。对于 DeepSeek-V3.1-Terminus，MHA 模式用于训练和预填充（prefilling），而 MQA 模式用于解码（decoding）。

图7 | MLA的MHA和MQA模式图示。对于DeepSeek-V3.1-Terminus，MHA模式用于训练和预填充，而MQA模式用于解码。

B. 冷启动模板

推理数据模板：表6展示了一个推理数据系统提示的例子。系统提示要求模型在标签 <think></think> 内输出推理过程。

表6 | 推理数据系统提示的一个例子。系统提示要求模型在标签 <think></think> 内输出推理过程。

非推理智能体数据模板：表7中的 {TOOL-DESCRIPTIONS} 和 {TOOLCALL-FORMAT} 将被替换为具体的工具和我们设计的工具调用格式。

表7 | {TOOL-DESCRIPTIONS} 和 {TOOLCALL-FORMAT} 将被替换为具体的工具和我们设计的工具调用格式。

推理与工具调用结合模板：表8展示了模型在思考过程中执行工具调用的模板。

C. 非思考模式 DeepSeek-V3.2 智能体评估

性能对比：如表9所示，非思考模式的性能略低于思考模式，但仍然具有竞争力。表中的 Terminal Bench 分数是使用 Claude Code 框架评估的。使用 Terminus 框架的 Terminal Bench 2.0 非思考模式分数为39.3。

表9 | DeepSeek-V3.2 非思考模式与思考模式的比较。表中的 Terminal Bench 分数是使用 Claude Code 框架评估的。使用 Terminus 框架的 Terminal Bench 2.0 非思考模式分数为39.3。

D. IOI, ICPC 世界总决赛, IMO, 和 CMO 的评估方法

通用设置：对于所有竞赛，模型的最大生成长度设置为128k。不使用任何工具或互联网接入，测试严格遵守比赛的时间和尝试次数限制。

IOI 评估策略：我们根据官方比赛规则设计了提交策略，规则允许每个问题最多提交50次，并根据所有子任务中获得的最高分对每次提交进行评分。具体来说，我们首先为每个问题采样500个候选解决方案，然后应用一个多阶段过滤流水线。在初始阶段，我们淘汰了未能通过提供的样本测试用例或超过长度限制的无效提交。随后，我们使用 DeepSeek-V32-Exp 模型来识别并移除模型明确表示无法或拒绝解决问题的样本。从剩余的有效候选中，我们选择了50个具有最长思考轨迹的样本进行最终提交。

ICPC 评估策略：我们采用了相同的过滤方法，但初始样本量较小。我们为每个问题生成32个候选解决方案，并应用相同的过滤标准来选择提交。

IMO 和 CMO 评估策略：在 IMO 和 CMO 任务中，我们采用了一个生成-验证-精炼的循环。模型迭代地改进其解决方案，直到它达到完美的自我评估或达到最大修订上限，这与 Shao 等人（2025）【24，Deepseekmath-v2: Towards self-verifiable mathematical reasoning，2025】中的过程相同。

E. 作者列表

研究与工程团队：Aixin Liu, Aoxue Mei, Bangcai Lin, 等众多研究人员。
数据标注团队：Bei Feng, Hui Li, J.L. Cai, 等数据标注专家。
商业与合规团队：Dongjie Ji, Jian Liang, Jianzhong Guo, 等相关人员。
作者按其名字首字母顺序排列。标有*的姓名表示已离开团队的个人。

引用文献汇总

【3】Matharena: Evaluating llms on uncontaminated math competitions (2025, NeurIPS Datasets and Benchmarks) by M. Balunovi´c et al. 引用位置：A4 实验环境。原文描述：引用为数学竞赛基准测试之一。
【4】τ2-bench: Evaluating conversational agents in a dual-control environment (2025) by V. Barres et al. 引用位置：A4 实验环境。原文描述：引用为工具使用基准测试之一。
【7】Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model (2024, CoRR) by DeepSeek-AI. 引用位置：A2 方法细节 - 2.1. DeepSeek 稀疏注意力。原文描述：引用MLA架构作为DSA实例化的基础。
【9】Deepseek-r1 incentivizes reasoning in llms through reinforcement learning (2025, Nature) by DeepSeek-AI. 引用位置：A2 方法细节 - 3. 后训练。原文描述：引用GRPO作为RL训练算法。
【10】Mcpmark leaderboard (2025) by EvalSys. 引用位置：A1 主要贡献, A4 实验环境。原文描述：引用为智能体能力落后的证据来源及工具使用基准测试之一。
【11】The tool decathlon: Benchmarking language agents for diverse, realistic, and long-horizon task execution (2025, arXiv) by J. Li et al. 引用位置：A1 主要贡献, A4 实验环境。原文描述：引用为智能体能力落后的证据来源及工具使用基准测试之一。
【12】Mcp-universe: Benchmarking large language models with real-world model context protocol servers (2025, arXiv) by Z. Luo et al. 引用位置：A1 主要贡献, A4 实验环境。原文描述：引用为智能体能力落后的证据来源及工具使用基准测试之一。
【13】Towards robust mathematical reasoning (2025, EMNLP) by T. Luong et al. 引用位置：A4 实验环境。原文描述：引用为数学推理基准测试之一。
【17】Introducing SWE-bench verified we’re releasing a human-validated subset of swebench that more (2024b) by OpenAI. 引用位置：A4 实验环境。原文描述：引用为代码基准测试之一。
【19】Humanity’s last exam (2025, arXiv) by L. Phan et al. 引用位置：A4 实验环境。原文描述：引用为通用推理基准测试之一。
【21】GPQA: A graduate-level google-proof q&a benchmark (2023, arXiv) by D. Rein et al. 引用位置：A4 实验环境。原文描述：引用为通用推理基准测试之一。
【22】Approximating KL divergence (2020) by J. Schulman. 引用位置：A2 方法细节 - 3.1. 扩展 GRPO。原文描述：引用其K3估计器并进行修正以获得无偏KL估计。
【23】Deepseekmath: Pushing the limits of mathematical reasoning in open language models (2024, CoRR) by Z. Shao et al. 引用位置：A2 方法细节 - 3. 后训练。原文描述：引用GRPO作为RL训练算法。
【24】Deepseekmath-v2: Towards self-verifiable mathematical reasoning (2025) by Z. Shao et al. 引用位置：A2 方法细节 - 3. 后训练, A6 附录 - D. 评估方法。原文描述：引用其数据集和奖励方法来增强数学证明能力，并引用其评估流程。
【25】Fast transformer decoding: One write-head is all you need (2019, CoRR) by N. Shazeer. 引用位置：A2 方法细节 - 2.1. DeepSeek 稀疏注意力。原文描述：引用其MQA模式作为实现DSA的基础。
【27】Attention is all you need (2017, NeurIPS) by A. Vaswani et al. 引用位置：A1 主要贡献。原文描述：引用其vanilla attention机制作为开源模型架构效率低下的根源。
【28】Mmlu-pro: A more robust and challenging multi-task language understanding benchmark (2024, CoRR) by Y. Wang et al. 引用位置：A4 实验环境。原文描述：引用为通用推理基准测试之一。
【29】Browsecomp: A simple yet challenging benchmark for browsing agents (2025, arXiv) by J. Wei et al. 引用位置：A4 实验环境。原文描述：引用为搜索智能体基准测试之一。
【30】Swe-smith: Scaling data for software engineering agents (2025) by J. Yang et al. 引用位置：A4 实验环境。原文描述：引用为代码基准测试之一。
【31】Native sparse attention: Hardware-aligned and natively trainable sparse attention (2025, ACL) by J. Yuan et al. 引用位置：A2 方法细节 - 2.1. DeepSeek 稀疏注意力。原文描述：引用其关于键值对共享以提高计算效率的观点。
【33】Browsecomp-zh: Benchmarking web browsing ability of large language models in chinese (2025, arXiv) by P. Zhou et al. 引用位置：A4 实验环境。原文描述：引用为搜索智能体基准测试之一。

PaperCache

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

文章标题和作者/机构

A1 主要贡献