Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

作者/机构: Tong Wu∗†, Yang Liu*, Jun Bai*, Zixia Jia†, Shuyi Zhang, Ziyong Lin, Yanting Wang, Song-Chun Zhu, and Zilong Zheng† (NLCo Lab, Beijing Institute for General Artificial Intelligence (BIGAI))

A1 主要贡献

本文介绍了原生并行推理器(Native Parallel Reasoner, NPR),一个无需教师模型的框架,能使大型语言模型(LLM)自我演进出真正的并行推理能力。NPR旨在解决现有并行推理实现的三个关键缺陷:算法与架构不兼容、低效的手工并行化以及对监督式蒸馏的依赖。核心创新点在于通过一个三阶段的渐进式训练范式,将模型从顺序模拟转变为原生并行认知。
1. 统一且无需教师模型的NPR构建范式:本文提出了一个集自蒸馏数据构建、并行SFT和并行RL于一体的无教师框架。该方法能内在地学习自适应分解、多样化的并行计划和KV缓存复用的执行策略,建立了一个可复用的认知基元。
2. 并行感知策略优化(PAPO)算法:专门为优化并行解码策略而设计的强化学习算法。分析证实,PAPO能引导出真正的并行行为,模型会主动利用独立的注意力分支进行探索和自我修正。
3. 鲁棒且可扩展的并行推理引擎:本文重新设计了NPR引擎,改进了并行执行的核心组件,包括基于SGLang的radix-cache内存管理、输出长度控制和并行状态分支。这消除了标准引擎中固有的不稳定性,为原生并行RL训练提供了实用的后端支持。
4. 在多样化推理基准上实现显著的准确性和效率提升
* NPR-4B在Qwen3-4B-Instruct上微调后,在AIME 25上达到50.4%,AIME 24上达到63.3%,显著超越了基于蒸馏数据训练的Multiverse-4B(+14.9%)和Multiverse-32B(+12.5%)。在Qwen3-4B(非思考模式)上训练时,NPR的平均性能提升超过24.5%。
* NPR在推理效率上实现了高达4.6倍的时钟速度提升,并实现了100%的真正并行推理,没有出现伪并行或回退到自回归生成的情况。

图1 | 原生并行推理器(NPR)通过一个自蒸馏的渐进式训练范式,将基础模型从顺序的思维链(CoT)转变为原生并行推理。与之前的SOTA相比,NPR在AIME25基准测试中实现了高推理准确性、真正的并行性和token加速。
图1 | 原生并行推理器(NPR)通过一个自蒸馏的渐进式训练范式,将基础模型从顺序的思维链(CoT)转变为原生并行推理。与之前的SOTA相比,NPR在AIME25基准测试中实现了高推理准确性、真正的并行性和token加速。

A3 方法细节

2. 原生并行推理器

本研究提出了原生并行推理器(NPR),一个使语言模型能够并行生成和评估多个推理分支的框架。如图2所示,NPR通过一个三阶段课程进行开发,逐步引导、巩固和放大这种能力。首先,NPR-ZERO使用强化学习在没有外部标注的情况下引导出一种结构化的并行格式。接着,NPR-BETA通过在自蒸馏的轨迹上进行监督微调来稳定这些新兴的并行基元。最后,NPR应用一种并行感知的强化学习程序,直接优化模型执行原生并行推理的能力。这些阶段共同构成了一条从初始格式引导到完全优化的并行推理的连贯路径。

图2 | NPR训练框架概述。阶段1:使用RL引导结构化的并行格式,无需标注。阶段2:在自蒸馏的并行轨迹上进行监督微调。阶段3:使用并行感知的RL直接增强原生并行推理能力。
图2 | NPR训练框架概述。阶段1:使用RL引导结构化的并行格式,无需标注。阶段2:在自蒸馏的并行轨迹上进行监督微调。阶段3:使用并行感知的RL直接增强原生并行推理能力。

2.1. 预备知识

并行推理。并行推理(Parallel Reasoning, PR)放宽了自回归(AR)推理中严格的从左到右的依赖关系,允许模型在可能的情况下独立生成多个推理步骤。形式上,一个由$T$个推理步骤$\{s_t\}_{t=1}^T$组成的推理样本$\hat{y}$的联合概率可以根据步骤上的依赖图$G$进行分解:

$$P(\hat{y} \mid q; \theta) = \prod_{t=1}^{T} P(s_t \mid \text{Pa}(s_t), q; \theta),$$


其中,$Pa(s_t)$表示在图$G$中$s_t$直接依赖的父步骤集合,$\theta$是模型参数。这种形式化使得模型能够并发处理没有相互依赖关系的推理步骤。

语言模型的策略优化。为了在我们的强化学习框架内优化策略模型,我们采用了基于DAPO【索引16, DAPO: An open-source LLM reinforcement learning system at scale, 2025, NeurIPS】的目标函数。我们首先介绍原始的DAPO更新过程。对于每个问题-答案对$(q, y) \sim D$,策略模型$\pi_{\theta_{\text{old}}}$首先生成一组响应$\{\hat{y}_i\}_{i=1}^G$。然后,目标函数$J(\theta)$被形式化为:

$$\mathcal{J}(\theta)=\mathbb{E}_{(q,y) \sim \mathcal{D},\left\{\hat{y}_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{\text{old}}}(\cdot|q)} \left[ -\frac{1}{\sum_{i=1}^{G}|\hat{y}_{i}|} \sum_{i=1}^{G} \sum_{t=1}^{|\hat{y}_{i}|} \left[ \min \left( r_{i,t}(\theta) \hat{A}_{i,t}, \text{clip}\left(r_{i,t}(\theta), 1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}}\right) \hat{A}_{i,t} \right) \right] \right].$$

$$\text{s.t.} \quad 0 < |\{\hat{y}_i \mid \text{is\_equivalent}(y, \hat{y}_i)\}| < G$$
其中,$r_{i,t}(\theta)$表示当前策略与旧策略在响应$\hat{y}_i$中第$t$个token上的概率比,而$\hat{A}_{i,t}$表示从该组中所有生成响应的奖励$\{R_1, R_2, \ldots, R_G\}$计算出的该token的标准化优势:
$r_{i,t}(\theta) = \frac{\pi_{\theta}(\hat{y}_{i,t} \mid q, \hat{y}_{i,<t})}{\pi_{\theta_{\text{old}}}(\hat{y}_{i,t} \mid q, \hat{y}_{i,<t})}$, $\hat{A}_{i,t} := \frac{R_i - \text{mean}(\{R_1, R_2, \ldots, R_G\})}{\text{std}(\{R_1, R_2, \ldots, R_G\})}.$<br /> 这种形式通过裁剪极端的概率比来确保策略更新的稳定性,同时通过组级别的优势归一化来鼓励探索。它有效地平衡了利用高奖励响应和维持生成输出多样性之间的关系。

表1 | NPR的结构化模式

并行推理的输出格式示例
<guideline>
<plan>1: [一句话的独立策略]</plan>
<plan>2: [一句话的独立策略]</plan>
</guideline>
<step>1: [计划1的独立详细分析]</step>
<step>2: [计划2的独立详细分析]</step>
<takeaway>[比较步骤,综合发现,确定下一步行动]</takeaway>
<guideline>
<plan>1: [一句话的策略]</plan>
...
</guideline>
<step>1: [独立的详细分析]</step>
<takeaway>[最终综合和结论]</takeaway>
[最终面向用户的总结。对于明确的简短答案,请包含 \boxed{answer}。]

2.2. 阶段1:格式遵循强化学习

NPR结构化模式。为了在生成过程中支持自适应分解和并行推理,我们采用了一种简化的“Map-Process-Reduce”模式,该模式受到Multiverse【索引8, Multiverse: Your language models secretly decide how to parallelize and merge generation, 2025, arXiv】的启发,但结构更精简。每个并行块以<guideline> ... </guideline>开始,其中包含一组定义了Map阶段的<plan> ... </plan>条目。接着是Process阶段:每个<step> ... </step>块独立并并行地执行一个映射的子任务。所有<step>块完成后,一个Reduce阶段将其输出整合到一个由<takeaway> ... </takeaway>包裹的最终摘要中。这种基于显式标签的格式使得分解、独立处理和最终聚合在下游的训练和评估中易于解析和验证。

数据获取挑战。虽然这种模式为并行推理提供了一个清晰、可学习的格式,但为其获取大规模、高质量的训练数据仍然具有挑战性。先前的工作,如Multiverse【索引8, Multiverse: Your language models secretly decide how to parallelize and merge generation, 2025, arXiv】,构建了大型、多步骤的合成管道,并聚合了来自多个最先进教师模型(例如Deepseek R1【索引17, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】和Gemini 2.5 Pro【索引18, Gemini 2.0 flash thinking mode (gemini-2.0-flash-thinking-exp-1219), 2025, blog】)的输出来克服数据稀缺问题。虽然这种方法有效,但这些多教师管道增加了操作复杂性,需要访问强大的外部教师模型,并产生了巨大的维护成本。

自改进方法。我们采用了一种更简单、自改进的方法。从单个预训练的LLM开始,我们应用DAPO【索引16, DAPO: An open-source LLM reinforcement learning system at scale, 2025, NeurIPS】来引导目标原生并行推理的生成格式,而无需配对监督或外部教师模型。我们的奖励函数结合了格式和准确性信号。对于格式:通过格式检查的输出获得0.0的奖励;未通过的输出获得(0.0, -2.0]范围内的惩罚。对于准确性:当格式检查通过时,正确答案产生+1.0的奖励,错误答案产生-1.0的奖励。此过程产生的检查点(表示为NPR-ZERO)因此主要被优化以学习所需的结构化格式;然后我们使用其生成的内容进行大规模自蒸馏,以构建用于下游监督微调(SFT)的合成语料库。

方法优势。该流程消除了对多个外部教师模型的依赖,并生成了一个可扩展的、结构化的数据集,为后续的SFT阶段提供支持。

2.3. 阶段2:拒绝采样与并行预热

通过拒绝采样收集结构化轨迹。为了在不依赖外部标注的情况下获得高质量的结构化推理轨迹,我们采用了一种简单的自蒸馏程序。对于数据集中每个问题$q_i \in {q_1, q_2, \ldots, q_N}$,模型通过重复采样生成$K$个候选推理轨迹和相应的答案${(r_{ij}, \hat{a}_{ij})}^K$。这些样本构成了我们提取正向监督信号的池。

拒绝采样过滤器。我们应用了一个旨在模仿NPR-ZERO中使用的自举设置的拒绝采样过滤器。每个采样轨迹都使用两个轻量级的指示性约束进行评估:

  • 结果正确性:预测答案$\hat{a}$与真实答案$a_i$不匹配的轨迹将被丢弃。此规则由指示函数$\mathbf{1}_{\text{correct}}(\hat{a})$表示。
  • 结构化并行性:为确保并行生成的监督信号纯净,我们移除了任何未能遵循所需结构化输出格式(表1)的轨迹。此约束编码为$\mathbf{1}_{\text{format}}(r)$。

样本接受标准。只有当样本同时满足这两个标准时才会被接受:

$$\mathbb{1}_{\text{accept}}(r, \hat{a}) = \mathbb{1}_{\text{correct}}(\hat{a}) \cdot \mathbb{1}_{\text{format}}(r).$$


应用此过滤器可以得到蒸馏数据集:

$$ \mathcal{D}_{\text{accept}} = \{ ((q_i, r_j^i, a_j^i) \mid i \leq N, j \leq K, \text{s.t. } (r_j^i, a_j^i) \sim \pi_{\theta}(\cdot|q_i), \mathbb{1}_{\text{accept}}(r_j^i, \hat{a}_j^i) = 1) \}. $$
这些被接受的轨迹作为后续监督微调阶段的训练语料库,为§2.4中描述的并行RL程序提供了稳定的初始化。

算法1 并行注意力掩码
输入: 序列: $I := {t_1, \ldots, t_L}$;
标签tokens: ${\tau_{\pm\text{parallel}}, \tau_{\pm\text{step}}, \tau_{\pm\text{plan}}}$.
输出: 注意力掩码: $M \in \mathbb{R}^{L \times L}$.
1: procedure CONSTRUCT NPR ATTN MASK
2: $M \leftarrow \text{tril}(\mathbf{1}_{L \times L})$ ▷ 因果掩码
3: $S \leftarrow \emptyset$ ▷ 初始化结构栈
4: for $i = 1 \ldots L$ do
5: if $t_i \in \{\tau_{+\text{parallel}}, \tau_{+\text{step}}, \tau_{+\text{plan}}\}$then
6: $S.\text{push}({\text{type}(t_i), i})$
7: else if $t_i \in {\tau_{-\text{step}}, \tau_{-\text{plan}}}$ then
8: $b \leftarrow S.\text{pop}()$
9: 在父块中保存跨度 $(b.\text{start}, i)$
10: else if $t_i = \tau_{-\text{parallel}}$ then
11: $b \leftarrow S.\text{pop}()$
12: ${P_j = [s_j, e_j)}_{j=1}^n \leftarrow b.\text{steps}$
13: for $(j, k) \in [1, n]^2$ where $j \neq k$ do
14: $I_j \leftarrow {s_j, \ldots, e_j - 1}$
15: $I_k \leftarrow {s_k, \ldots, e_k - 1}$
16: $M[I_j, I_k] \leftarrow 0$ ▷ 隔离步骤
17: $M[I_k, I_j] \leftarrow 0$
18: $M \leftarrow \begin{cases} 0 & \text{if } M[i, j] = 1 \ -\infty & \text{if } M[i, j] = 0 \end{cases}$
19: return M

并行注意力掩码与位置编码。为了支持结构化的并行生成,我们在构建并行注意力掩码和相应的位置编码时,采用了Multiverse Attention【索引8, Multiverse: Your language models secretly decide how to parallelize and merge generation, 2025, arXiv】的核心设计(算法1和算法2)。这种设计使得多个推理路径能够在单次前向传播中并存,同时仅需少量样本即可实现快速适应。它还允许在NPR引擎(§2.5)内部对共享上下文进行高效的KV缓存复用,从而减少了推理开销。此外,为确保模型能够发出所需的结构化标签,我们初始化了一组与这些标签对应的特殊token,并在冷启动训练阶段将它们暴露出来。

算法2 并行位置编码
图片

并行预热。在并行掩码和位置编码方案就位后,我们在蒸馏数据集$D_{\text{accept}}$上执行一个监督预热步骤。模型使用标准的负对数似然进行训练。这个阶段产生了NPR-BETA,它为后续的并行强化学习阶段提供了稳定的初始化。

2.4. 阶段3:原生并行强化学习

原生并行强化学习的必要性。虽然并行SFT教会了模型原生并行推理的基本原语,但仅靠监督模仿是不够的。SFT蒸馏出的轨迹往往缺乏结构多样性,并且某些推理模式无法泛化到训练分布之外。为了放大和泛化这些能力,我们引入了一个专门的原生并行RL阶段,如图3所示。由于NPR-BETA已经学习了一致的并行模式,它成为直接进行RL的可靠初始化。

修改概述。下面我们总结了为了遵循并行语义并稳定训练,我们对标准RL【索引16, DAPO: An open-source LLM reinforcement learning system at scale, 2025, NeurIPS】所做的实际修改。

使用并行推理引擎进行并行Rollout。(1) 现有的推理引擎【索引11, Efficient memory management for large language model serving with pagedattention, 2023, SOSP】、【索引10, SGLang: Efficient execution of structured language model programs, 2024, NeurIPS】不强制执行严格的并行语义,因此可能产生格式错误的轨迹。因此,我们使用我们的NPR-Engine(§2.5)来采样rollouts,这保证了每个生成的轨迹都遵循预期的Map-Process-Reduce流程。

Rollout期间的结构化过滤。(2) 即使有结构化的引擎,偶尔也会发生格式违规。为了防止格式错误的序列进入优化过程,我们在rollout期间进行模式级别的过滤。我们不单纯依赖基于文本的格式检查器,而是使用SFT构建的、能精确表示并行模式的注意力掩码和位置ID编码。过滤后,所有保留的rollouts都严格遵守目标结构;因此,奖励函数简化为仅考虑准确性。

图3 | GRPO风格的RL(Shao等人,2024)与并行感知策略优化的比较。
图3 | GRPO风格的RL(Shao等人,2024)与并行感知策略优化的比较。

批量级优势归一化。(3) 由于违反格式的样本在优化前被移除,组级方差会崩溃,这使得相对(组)优势失效。我们采用了一种类似于Lite-PPO【索引19, Part i: Tricks or traps? a deep dive into rl for llm reasoning, 2025, arXiv】的优势计算方式,但用批次级方差替代了组级方差。对于每个样本$i$和token$t$,我们计算:

$$\hat{A}_{i,t} := \frac{R_i - \text{mean}(\{R_1, R_2, \dots, R_G\})}{\text{std}(\{R_1, R_2, \dots, R_G, \dots, R_{N*G}\})}'$$


其中$N$是批次大小,$G$是组大小,$R$是上文描述的准确性奖励。

保留特殊Token的梯度。(4) 特殊token对于维持并行语义至关重要。抑制这些token梯度的token级裁剪会破坏学习到的结构,因此我们移除了裁剪掩码,并确保特殊token总能接收到梯度。然而,移除裁剪掩码会使PPO【索引20, Proximal policy optimization algorithms, 2017, arXiv】中的重要性采样比率不稳定。为避免不稳定的重加权,我们取消了重要性采样,并采用严格的on-policy目标。这既稳定了训练,又因为我们不需要重新计算历史对数概率而加快了训练速度。

PAPO目标函数。综合这些选择,我们得到了我们的并行感知策略优化(PAPO)目标函数:

$$ \mathcal{J}(\theta)=\mathbb{E}_{(q, \boldsymbol{y}) \sim \mathcal{D},\left\{\hat{\boldsymbol{y}}_{i}\right\}_{i=1}^{G} \sim \pi_{\theta}(\cdot | q)}-\frac{1}{\sum_{i=1}^{G}\left|\hat{\boldsymbol{y}}_{i}\right|} \sum_{i=1}^{G} \sum_{t=1}^{\left|\hat{\boldsymbol{y}}_{i}\right|}\left[\frac{\pi_{\theta}\left(\hat{\boldsymbol{y}}_{i, t} | q, \hat{\boldsymbol{y}}_{i,<t}\right)}{\operatorname{sg}\left[\pi_{\theta}\left(\hat{\boldsymbol{y}}_{i, t} | q, \hat{\boldsymbol{y}}_{i,<t}\right)\right]} \hat{A}_{i, t}\right]. $$ <p>
其中$sg[\cdot]$表示停止梯度。在实践中,停止梯度部分的作用是保留on-policy的梯度流,同时避免不稳定的重要性重加权。

2.5. 工程增强:NPR引擎

NPR引擎的背景和动机。Multiverse的并行生成引擎【索引8, Multiverse: Your language models secretly decide how to parallelize and merge generation, 2025, arXiv】基于SGLang为大规模rollout提供了强大的基础,但在生产规模下使用时,它暴露了一系列脆弱的实现角落,这些问题破坏了正确性和RL的稳定性。我们实现了一套紧凑的引擎级缓解措施,以在高吞吐量的并行rollouts中恢复确定性行为、内存安全和正确的长度计算,这些措施共同构成了我们并行RL流程中使用的NPR-Engine。

KV缓存双重释放和内存损坏。在重度并行分支下,当缓存超出其容量时,共享的radix-tree KV路径有时会被回收一次以上;这种情况的发生率随分支因子增加而增加,并导致上下文损坏,在病态情况下还会导致GPU内存泄漏。

解决方案。我们用一个明确的、预算感知的回收策略取代了机会主义的回收:当观察到的KV使用量将超过预分配的预算时,我们立即执行缓存刷新和受影响块的确定性重新分配。

全局Token预算低估。并行解码使总token消耗量大约乘以分支数,但原始的计算只跟踪了最长的单个分支——这导致运行可能超过配置的max_new_tokens。

解决方案。我们将长度计算扩展为分支感知:引擎现在记录每次扩展时的活动分支因子,并相应地更新全局token账本。

非法并行模式导致的未定义状态。某些并行分支布局超出了引擎的条件逻辑范围,在罕见的边缘情况下产生未定义状态。

解决方案。我们增加了一个轻量级的预分支格式验证器,在任何扩展之前强制执行一小组结构不变量。这些检查故意设计得廉价且保守,只允许结构上有效的分支,因此它们以可忽略的运行时成本防止了非法状态。

<step>块内的局部重复。在并行采样下,细粒度的步骤流倾向于表现出局部重复,这降低了步骤轨迹的清晰度。

解决方案。我们对在<step>...</step>上下文中生成的token应用一个温和的、选择性的重复惩罚(系数=1.02),同时保持<guideline><takeaway>流的惩罚中性(1.0)。

集成后的效果。在将这些修复集成到verl rollout框架后,NPR-Engine在大型并行RL工作负载下表现出显著改善的确定性、内存稳定性和正确性。经验性的训练和评估表明,这些引擎级的补救措施至关重要:它们防止了微妙的off-policy伪影,并在以生产级并行RL所需的吞吐量运行时稳定了优化过程。

A4 实验环境

  • 数据集:实验基于ORZ数据集【索引21, Open-reasoner-zero: An open source approach to scaling up reinforcement learning on the base model, 2025, Training】,该数据集包含57k个问题-答案对。为了保证所有阶段的一致性,从中采样了一个固定的8k样本子集用于所有三个训练阶段。
  • 模型架构:模型基于Qwen3-4B-Instruct-2507和Qwen3-4B(非思考模式)【索引22, Qwen3 technical report, 2025, CoRR】。特意避免了思考模式的变体,因为它无法通过标准的监督微调进行训练。
  • 软件配置
    • 阶段1:遵循DAPO【索引16, DAPO: An open-source LLM reinforcement learning system at scale, 2025, NeurIPS】设置,最大生成长度为30,000个token。
    • 阶段2:学习率从1e-6开始,衰减到5e-7,权重衰减为0.1。
    • 阶段3:采用本文提出的PAPO算法和NPR引擎。最大生成长度仍为30,000个token,学习率设置为1e-7。

A5 实验结果

评估设置

  • 评估指标:使用avg@k来衡量准确性,定义为每个问题k个生成解中正确答案的预期比例。如果模型生成k个候选解,其中c个是正确的,则指标简化为 $avg@k = c/k$。
  • 评估基准

    • 对于AIME24/25、HMMT25和AMC23等小规模数据集,报告avg@8。
    • 对于OlympiadBench、Minerva-Math、ZebraLogic和MATH500等较大或异构基准,报告avg@1。
  • 对比基线

    • 开放顺序推理器:Qwen2.5-32B-Instruct、Qwen3-4B(非思考模式)和Qwen3-4B-Instruct-2507。
    • 近期并行推理器:Multiverse-32B和复现的Multiverse-4B。
    • 顺序变体:SR-BETA和SR,均采用纯顺序推理范式训练。

整体推理性能

表2 | 顺序和并行推理器在推理基准上的性能
图片
如表2所示,NPR在所有基准上都显示出比强基线(Qwen3-4B-Instruct-2507和Qwen3-4B非思考模式)显著的提升,并持续优于Multiverse-32B和Multiverse-4B。

  • 训练数据优势:使用自蒸馏的orz-8k数据集替换Multiverse的s1.1-8k训练语料库,带来了显著的性能提升。尽管两个流程在实现细节上略有不同,但都依赖于并行式SFT,使得比较有意义。在AIME24上性能从46.7提升到50.8(+4.1),ZebraLogic从60.2提升到76.1(+15.9),平均分从50.1提升到59.0(+8.9)。这表明自蒸馏语料库产生了更准确和多样化的候选解,而从顺序推理轨迹构建的Multiverse数据集对真正并行推理模式的覆盖有限。

  • 并行SFT优势:从顺序SFT(SR-BETA)切换到并行SFT(NPR-BETA),在多个推理基准上带来了一致的改进。并行SFT使模型在训练中接触到结构化的并行轨迹,从而实现更独立的子问题探索。例如,AIME25从37.1提升到42.9(+5.8),OlympiadBench从56.3提升到60.1(+3.8)。总体性能从58.2提升到59.0(+0.8),表明并行格式的监督能鼓励更具适应性和结构多样性的推理行为。

  • 并行RL优势:在NPR-BETA的基础上应用并行RL算法(NPR),相比顺序RL(SR)取得了进一步的提升。例如,AIME24从57.1提升到63.3(+6.2),HMMT25从26.3提升到30.8(+4.5)。总体平均分从62.0提升到65.0(+3.0),证实了并行RL能更有效地放大并行SFT阶段学到的高回报推理模式。

分析与讨论

推理加速与效果提升
表3 | 在选定基准上的每秒token数(TPS)和加速比评估结果
图片
如表3所示,NPR在所有五个基准测试中均实现了最佳效率,性能优于Multiverse(1.3倍至2.4倍)和自回归基线。加速比随着任务难度的增加而提升,在更难的问题上(AIME25:4.6倍;HMMT25:4.1倍)增益更大,这表明当需要更深层次的解决方案路径探索时,NPR的优势愈发明显。

并行推理触发分析
本文使用并行推理触发率来量化模型产生并行推理的倾向,其定义为:

$$ \text{parallel\_rate} = \frac{N_{\text{parallel}}}{N_{\text{total}}} \times 100\% $$


表4 | NPR和MultiVerse在不同数据集上的并行推理触发率比较
图片
如表4所示,MV-32B的并行率在不同数据集上变化很大,表明其并行策略的采用高度依赖于数据集。相比之下,NPR模型在所有八个数据集上均达到100.0%的并行率,这表明端到端的NPR训练流程更可靠地将并行推理制度化为模型的默认问题解决模式,与数据集领域或复杂性无关。

测试时可扩展性
表5 | SFT和RL检查点在Instruct和Non-thinking Qwen3-4B骨干模型上的性能
图片
表5中的avg@8和best@8分数显示,NPR在测试时可靠地增加了预言机覆盖率,尤其是在基础模型较弱时增益最大。例如,对于Non-thinking骨干模型,在AIME25上,SFT将best@8从36.7提高到70.0,而NPR进一步提高到76.7。总体而言,NPR放大了SFT带来的覆盖率优势,将样本多样性的适度增加转化为best@8的显著增益。

向NPR的演化动态
图4 | 在AIME 2025上的评估学习动态。
如图4所示,向原生并行推理的演化是渐进且结构化的。最初强行实施并行生成格式会导致性能严重下降。因此,采用了三阶段流程:阶段1通过格式遵循RL稳定格式并产生可靠轨迹;阶段2通过并行预热(SFT)教授独立分支,这会导致短暂的性能下降;阶段3使用原生并行RL恢复并增强推理质量,最终超越自回归基线。这表明NPR是格式、并行结构和自适应策略学习逐步对齐的结果。

定性案例研究
表6 | 将问题分解为多个子问题独立解决,然后在<takeaway>块中进行反思性推理的示例。

案例 #1

问题:函数$f(x) = \frac{2-x}{\log(2-\log(x-2))}$的定义域是什么,其中log是以10为底的对数函数?用区间表示法表示你的答案。
NPR 生成:
<guideline>
<plan>1: 通过确定分母有定义且非零以及对数表达式有效的所有x值来确定定义域。</plan>
<plan>2: 分解内层对数$\log(x-2)$和外层对数$\log(2-\log(x-2))$以找到所需的定义域约束。</plan>
<plan>3: 确保每个对数的参数为正,并且整个分母不为零。</plan>
</guideline>
<step>1: …,因此,$x=12$必须从定义域中排除。</step>
<step>2: …,所以定义域是$(2, 102) \setminus {12}$,即$(2, 12) \cup (12, 102)$。</step>
<step>3: …,因此,条件$x \neq 12$没有引入任何新的限制,因为$x=12$已经被$x<10$排除了。所以不需要从定义域中移除额外的点。</step>
<takeaway>…,得到$x-2 < 100$,所以$x < 102$,但是等等——这并不严谨。等等——重新检查:我们说过$\log(x-2) < 2 \Rightarrow x-2 < 100 \Rightarrow x < 102$,这是正确的。但这是唯一的约束吗?实际上,$x-2 > 0 \to x>2$,并且$x < 102$,所以定义域是$(2, 102)$,…,但是等等——内层对数呢?我们需要$x > 2$,这已经覆盖了。…,因此,定义域是$(2, 12) \cup (12, 102)$。</takeaway>
<guideline>
<plan>1: 通过在建议的区间内测试数值来验证定义域。</plan>
<plan>2: 确认所有条件(对数定义域,非零分母)都已完全捕获。</plan>
</guideline>
<step>1: …,所有测试都确认定义域是$(2, 12) \cup (12, 102)$。</step>
<step>2: …,没有其他点导致问题。对数函数在这些区间内有定义,并且没有其他值使分母为零。因此,定义域被完全描述了。</step>
<takeaway>所有约束都已通过代数推理和数值测试得到验证。…</takeaway>
函数$f(x) = \frac{2-x}{\log(2-\log(x-2))}$的定义域是$(2, 12) \cup (12, 102)$。

表7 | 探索不同方法独立解决问题并在<step>中进行反思性推理的示例。
图片
表6和表7展示了两个代表性案例。系统的关键特性是其自适应性:更具挑战性的问题会自动触发更广泛的探索,而较简单的问题则只引发少量集中的分支。并行性以两种互补的方式运作:一是同时探索多个独立的解决方案策略,二是在一个问题中分解出多个子问题并行解决。通过探索多样化的轨迹和应用轻量级的一致性检查,并行架构提供了比单一顺序推理路径更强的鲁棒性。

A7 补充细节

4.6. 初步探索

初始探索总结。在确定最终设计之前,我们进行了一系列广泛的初步探索,以了解如何实际学习并行推理。我们展示这些尝试的目的不是声称它们有根本缺陷,而是为了说明最终方法是在多次迭代和经验性的死胡同之后才出现的。

在"thinking"模型上的尝试失败。我们最初希望一个“思考”风格的模型可以通过在<think></think>块内学习直接获得原生并行推理能力。然而,由于这类模型已经接受了大量的RL训练,我们在SFT期间观察到糟糕的学习动态:特殊token经常被碎片化(例如,<conclusion>退化为<con>),增加它们的损失权重也无济于事。尽管多次尝试稳定这些token,模型仍未能可靠地学习<think>块内的并行结构。

保留thinking内容的尝试。接下来,我们尝试保留原始的<think></think>内容,只训练其后的部分。这需要在损失计算中排除内部的思考区域,我们通过在块内注入随机无意义的token并将其屏蔽来实现。然而,这种策略仍然产生了不稳定的行为,表明思考模型的内部推理空间很难在不破坏RL先验的情况下进行修改。

转向instruct模型。这些失败促使我们完全放弃了“思考”格式,转而使用一个带有简化输出模板的指令模型。我们开始时将Multiverse的多分支输出展开为独立的单分支,并测量它们的编辑距离;差异微乎其微。在任一版本上进行SFT都产生了几乎相同的结果,这促使我们移除了不必要的分支复杂性。

发现伪并行问题。在此过程中,我们发现Multiverse的一些“并行”成功实际上是通过顺序AR生成产生的,因为其格式包含了非并行的外部内容,并且训练计划是逐渐从顺序过渡到并行的。这促使我们设计了一个更清晰的模板,只保留对真正并行推理至关重要的特殊标签。

在其他模型上的尝试。最后,我们尝试在Qwen2.5系列模型(如Qwen2.5-7B-Instruct)和普通的Base LLM上复制该方法。它们较差的指令遵循能力和较弱的推理能力导致第一阶段的自蒸馏在AIME级别的问题上严重失败。这些观察结果坚定了我们在Qwen3-4B-Instruct和Qwen3-4B Non-Thinking之上构建NPR的决定。

A6 结论

本文提出了一个简单且可扩展的框架,用于构建一个无需依赖外部教师模型的原生并行推理器,该推理器能学习自适应分解、多样化的并行规划和可靠的聚合。通过将自蒸馏的并行SFT与代理式的并行RL相结合,我们的方法产生了真正的并行推理策略,而非模拟或脚本化的策略。在八个推理基准上的实验显示,与Multiverse数据集、自回归训练和直接RL相比,我们的方法取得了持续的改进。我们的分析进一步证明了其有意义的推理加速、更强的测试时可扩展性以及没有伪并行行为。案例研究说明了模型如何根据问题难度调整其并行性,从而实现结构化探索和鲁棒验证。这些结果表明,原生并行推理是朝着更通用和可扩展智能发展的一个有前途的方向。