Scaling Speculative Decoding with Lookahead Reasoning
Scaling Speculative Decoding with Lookahead Reasoning
作者/机构: Yichao Fu (UCSD), Rui Ge (Shanghai Jiao Tong University), Zelei Shao (UIUC), Zhijie Deng (Shanghai Jiao Tong University), Hao Zhang (UCSD)
A1 主要贡献
大型推理模型(LRMs)通过生成长的思想链(CoT)来解决复杂问题,但这导致解码数千个token的过程非常缓慢。核心问题在于,现有的token级推测解码(SD)方法虽然能提供帮助,但其收益存在上限。具体来说,一个包含γ个token的草稿序列完全正确的概率会随着γ的增长而指数级下降,同时验证成本却线性增长。这导致SD的加速效果会很快达到一个瓶颈(例如,实际测试中上限为1.4倍),并且这个瓶颈是算法层面的,无法通过增加硬件计算资源(如更多FLOPs)来有效提升,因此其加速效果无法跟上未来加速器的发展。
为了突破这一瓶颈,本文提出了LOOKAHEAD REASONING,利用了第二个、更粗粒度的并行层次——步骤级并行。研究的关键洞察是,推理模型的生成过程是分步骤的,而每个步骤只需要在语义上正确,而不需要与目标模型生成完全相同的token序列。实验表明,即使用小型模型替换大型模型(DeepSeek-R1 32B)超过50%的推理步骤,只要语义等价,对最终任务准确率的影响也微乎其微。
基于此洞察,LOOKAHEAD REASONING的核心工作流程如下(如图1所示):
1. 草稿步骤生成:一个轻量级的草稿模型自回归地生成多个未来的推理步骤(例如,$\{\hat{s}_1, \hat{s}_2, \hat{s}_3\}$)。
2. 并行目标步骤扩展:目标LRM以批处理方式,并行地基于草稿步骤序列的前缀生成对应的后续步骤(例如,$s_1$基于前文, $s_2$基于前文+$\hat{s}_1$, $s_3$基于前文+$\hat{s}_1$+$\hat{s}_2$)。
3. 语义验证与接受:一个轻量级验证器(如LLM-as-a-Judge)逐一比较草稿步骤与目标模型生成的步骤是否语义等价(如$s_1 \approx \hat{s}_1$)。
4. 输出构建:验证器保留所有语义正确的草稿步骤,一旦发现不匹配(如$s_3 \not\approx \hat{s}_3$),则丢弃该草稿步骤及其后续,并采用目标模型生成的修正步骤。
本文的主要创新点和贡献可以总结为:
1. 提出LOOKAHEAD REASONING:这是一种新颖的步骤级推测解码方法,为扩展推测解码提供了一个与现有token级方法正交的新维度。
2. 实现双层并行:LOOKAHEAD REASONING在步骤级进行推测,而传统的token级SD仍然可以在每个步骤的生成内部运行,实现了两种并行性的乘法叠加效应,从而更有效地利用硬件资源。
3. 提升加速上限:理论和实验均证明,该方法显著提升了SD的峰值加速比。例如,在GSM8K基准测试上,它将SD的加速比从1.4倍提升至2.1倍(如图2所示),并且随着GPU吞吐量的增加,其加速效果扩展性更好。
4. 保持答案质量:通过灵活的语义验证器设计,该方法能够在显著提升速度的同时,保持与原始目标模型相当的任务准确率。
图 1: LOOKAHEAD REASONING 的一个周期。草稿模型提出 γ = 3 个步骤 {sˆ1, sˆ2, sˆ3}。目标模型随后分别基于前缀和 {sˆ1, sˆ2, sˆ3} 生成 {s1, s2, s3}。验证器检查草稿步骤和目标步骤是否语义等价(例如,s1 ≈ sˆ1)。如果前两个步骤等价但第三个不等价,LOOKAHEAD REASONING 输出已验证的草稿步骤 (sˆ1, sˆ2),后跟目标的修正 (s3)。这允许以较低的延迟(例如,2t + T)接受多个步骤,而自回归解码中的顺序目标调用则需要(例如,3T),其中 t 是草稿步骤时间,T 是目标步骤时间。
图 2: 加速比与草稿Token数的关系。与自回归解码相比的加速比,比较了LOOKAHEAD REASONING结合token级SD(基于NGram)(红线)与单独使用SD(蓝线)。我们的方法与token级SD正交,并将最大加速比从1.4倍提高到2.1倍。
A3 背景知识
推测解码(Speculative Decoding)
基本原理。LLM通过自回归方式一次生成一个token,即下一个token $x_{t+1}$从分布$P(x_{t+1} | x_{1:t})$中采样。这种顺序依赖性是推理速度的根本瓶颈。推测解码【索引3,Fast inference from transformers via speculative decoding,2023,ICML】通过一种“猜测-验证”策略来缓解这一问题,该策略使用两个模型:一个轻量级的草稿模型 $q$ 和一个强大的目标模型 $p$。给定上下文$x_{1:t}$,$q$首先自回归地提出一个包含 $\gamma$ 个候选token的序列$x̂_{t+1:t+γ}$及其草稿概率 $Q$。随后,$p$ 在一次并行的前向传播中验证这 $\gamma$ 个token,得到目标概率 $P$。一个拒绝采样过程会顺序处理每个提议的token $x̂_{t+i}$。如果一个token被接受,它就被附加到输出中;如果被拒绝,过程停止,并根据最后一个被接受的token从 $p$ 的分布中采样一个最终的token。这使得在比标准自回归更少的步骤中接受 $n \leq \gamma$ 个token成为可能。
理论加速比与局限性。假设验证开销(除了目标模型单次传递外)可以忽略不计,推测解码实现的理论加速比可以表示为:
$$g(\gamma)=\frac{1-\alpha^{\gamma+1}}{(1-\alpha)(1+c \gamma)},$$其中,$\alpha$ 代表由 $q$ 草拟的每个token的平均接受率(假设序列中每个token的接受是独立的)。值得注意的是,一个长度为 $\gamma$ 的完整序列被接受的概率通常随着 $\gamma$ 的增加而指数级下降,因为错误会累积。$c = T_q / T_p$ 是草稿模型生成单个token相对于目标模型的延迟比率,其中 $T_q$ 和 $T_p$ 分别是 $q$ 和 $p$ 的单步时间。此外,对于所有 $c \geq 0$ 和 $\gamma \geq 0$,加速比 $g(\gamma)$ 的上界为 $1/(1-\alpha)$,这个极限只有在 $c=0$ 的理想情况下才能接近。这个固有的上界意味着一个关键的限制:超过一个最优点后,通过增加推测长度($\gamma$)来投入更多的计算资源,只会带来递减甚至负的加速回报。因此,这个算法上的瓶颈意味着,token级推测解码的加速增益不会随着硬件(如更强大的GPU)的改进而扩展。对于具有更长思想链(CoT)的推理模型,token级推测解码能提供的有限加速凸显了对更强力加速策略的迫切需求。
LLM推理
大型推理模型(LRMs)的特点。像【索引2,Openai o1 system card,2024】和【索引4,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv】这样的大型推理模型(LRMs)在数学问题解决和编码等复杂任务中日益重要。这些模型通常通过生成“思想链”(CoT)来产出解决方案——这是一个中间推理步骤的序列,表示为 $s$,通过一步步推导得出最终答案【索引1,Chain-of-thought prompting elicits reasoning in large language models,2022,NeurIPS】。每个推理步骤($s_i$)通常以前一个步骤($s_{i-1}$)为条件,形成了一种类似于token级自回归的顺序依赖,但处于更高的概念粒度。我们观察到,这种分步结构本身为加速提供了重要机会。具体来说,整个推理步骤可以由一个草稿模型进行推测性地提出,表示为 $\hat{s}$。我们的初步实验(§4.1)显示了这种潜力。一个小的1.5B草稿模型可以生成与一个大得多的32B目标模型的超过50%的真实步骤 $s$ 在语义上对齐的推测步骤 $\hat{s}$。此外,这在保持相当的任务准确率的同时得以实现。
A2 方法细节
本节详细阐述了LOOKAHEAD REASONING的实现细节,并提供了其性能优势的理论分析。此外,由于步骤级和token级推测生成都依赖于增加并发性,我们证明了在现实世界中,当这两种方法竞争有限的并发资源时,只有将两种推测策略结合起来才能实现峰值性能增益。
3.1 LOOKAHEAD REASONING:步骤级推测生成方案
核心思想与同步实现。LOOKAHEAD REASONING的核心思想是在整个步骤(steps)而不是单个token上执行推测和验证。为了清楚地说明,我们首先在算法1中展示了该方法的同步版本,然后在图1中概念性地阐述了一个优化的异步变体。
同步版本流程(算法1)。如算法1(同步版本)所示,LOOKAHEAD REASONING的一个周期按以下步骤进行:
1. 草稿步骤生成:给定token前缀 $x_{1:t}$,草稿模型 $q$ 首先自回归地生成一个包含 $\gamma$ 个候选步骤的序列,表示为 $\hat{s}_0, \ldots, \hat{s}_{\gamma-1}$。每个步骤 $\hat{s}_j$ 都是在由前缀和所有先前草稿步骤拼接而成的基础上生成的:$x_{1:t} \oplus \sum_{k=0}^{j-1} \hat{s}_k$。在实践中,我们简单地使用 \n\n 作为步骤分隔符,因为我们发现在各种推理模型中这是一个常见的步骤切分标志【索引5,Openai o3 and o4-mini system card,2025,OpenAI】、【索引4,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,2025,arXiv】、【索引6,Qwen3 technical report,2025,Qwen Team】。
2. 并行目标步骤生成:与标准推测解码【索引3,Fast inference from transformers via speculative decoding,2023,ICML】中一样,一旦所有 $\gamma$ 个草稿步骤都可用,目标模型 $p$ 会相应地并行生成后续步骤 $s_0, \ldots, s_\gamma$。
3. 验证与输出构建:算法接着确定被接受的草稿步骤的最长前缀。每个草稿步骤 $\hat{s}_j$ 与其对应的目标步骤 $s_j$ 之间的验证由一个验证器 $V(s_j, \hat{s}_j)$ 执行,该验证器评估 $\hat{s}_j$ 是否是 $s_j$ 的可接受替代品,即它们是否在语义上相似。
算法 1 Lookahead Reasoning(同步版本)
输入:草稿模型 q,目标模型 p,前缀 x_{1:t},最大前瞻步骤 γ,验证器 V(·, ·) → {True, False}
1: 初始化空步骤序列 ŝ₀, ..., ŝγ₋₁, s₀, ..., sγ
2: x_current = x_{1:t}
3: for j = 0 to γ − 1 do ▷ 顺序生成 γ 个草稿步骤
4: ŝⱼ = q.GenerateStep(x_current); x_current = x_current ⊕ ŝⱼ
5: in parallel do for j = 0 to γ: ▷ 基于草稿前缀并行计算目标步骤 sⱼ
6: 令 x'ⱼ .= x_{1:t} ⊕ Σ_{k=0}^{j-1} ŝₖ 若 j ≥ 1,否则为 x_{1:t}。▷ 草稿步骤 j 之前的前缀
7: sⱼ = p.GenerateStep(x'ⱼ)
8: end parallel
9: j* .= min({j ∈ {0..γ − 1} | V(sⱼ, ŝⱼ) == False} ∪ {γ}) ▷ 使用 V 找到第一个未被接受的步骤
10: OutputSequence .= (Σ_{k=0}^{j*-1} ŝₖ) ⊕ sⱼ* ▷ 附加已验证的草稿 + 决定性的目标步骤
验证器选择。验证器(V)的选择是LOOKAHEAD REASONING中的一个关键设计考量。虽然理想的语义验证器能确保没有准确性损失,但实际实现面临着判断精度和计算开销之间的主要权衡;此外,验证的严格性(例如,一个阈值)带来了次要的权衡,可能会以牺牲任务准确性(由于错误接受的步骤)为代价来提高草稿接受率和加速比。我们探索了三种常见的语义评估范式——用于细致评估的LLM-as-a-Judge【索引7,Judging llm-as-a-judge with mt-bench and chatbot arena,2023,NeurIPS】,用于高效相似性比较的基于嵌入的验证器【索引8,Sentence-bert: Sentence embeddings using siamese bertnetworks,2019,EMNLP】,以及目标模型评分【索引9,Specreason: Fast and accurate inference-time compute via speculative reasoning,2025,arXiv】——每种都有不同的成本-精度特性,并在§4.3中对其影响进行了实证评估。
异步生成(如图1所示)。在算法1中,并行的验证步骤仅在所有 $\gamma$ 个草稿步骤 $\hat{s}j$(其中 $j \in {0 \ldots \gamma-1}$)生成之后才启动。一个优化的异步实现,概念上如图1所示,可以在其所需的前缀(包含 $x}, \hat{s0, \ldots, \hat{s}$)从草稿模型可用时,立即开始生成目标步骤 $s_j$。这种异步执行使得草稿/目标生成和验证阶段可以重叠,从而与同步版本相比,可以显著减少端到端的延迟。需要注意的是,在这种异步模式实现中,草稿模型和目标模型都将“前瞻” $\gamma$ 个步骤,确保并行处理的最大化利用。这与同步版本不同,同步版本中草稿模型生成 $\gamma$ 个草稿,而目标模型在每个周期生成 $\gamma+1$ 个步骤。
多分支草稿。为了进一步增加被接受的推理步骤数量,我们探索了树状结构生成,其中草稿模型在每个推测位置提出多个候选步骤。具体来说,草稿模型 $q$ 不再生成单一的候选链,而是在草稿序列的每个位置 $j$ 提出一组包含 $W$ 个备选步骤。一旦一个步骤生成,草稿模型接着为后续位置 $j+1$ 并行地提出 $W$ 个子候选。这个分支过程最多持续 $\gamma$ 步,导致探索的候选序列总数呈指数级增长,即 $W^\gamma$。然而,目标模型 $p$ 仍然为每个位置 $j$(基于草稿前缀)生成一个单一的候选延续步骤。然后,验证器 $V$ 会检查为该位置 $j$ 提出的 $W$ 个草稿分支中是否有任何一个与目标模型的步骤在语义上对齐。如果找到这样的匹配,该分支被接受,其他分支被丢弃。这种多分支策略旨在提高推测成功的可能性,尽管代价是增加了草稿阶段的计算量。我们在§4.3中讨论了其权衡。
3.2 LOOKAHEAD REASONING的理论加速比分析
分析设定。我们现在分析LOOKAHEAD REASONING的潜在性能增益。为了清晰起见,我们做了一些简化假设:验证开销可忽略不计,生成步骤的成本是恒定的,并且每个阶段只有一个草稿分支。
符号定义。令 $\gamma_1$ 为顺序生成的最大草稿步骤数,令 $k_1 = \gamma_1$ 为并行生成的目标步骤数。令 $T$ 为目标模型 $p$ 生成一个步骤所需的时间成本,而 $c_1 T$ 为草稿模型 $q$ 的成本($0 < c_1 < 1$)。令 $\alpha_1 \in (0, 1)$ 为一个草稿步骤被接受的概率。
同步版本的步骤级加速比。同步LOOKAHEAD REASONING的延迟加速比为:
$$f_{sync}(k_1) = \frac{1 - \alpha_1^{k_1}}{(1 - \alpha_1)(1 - c_1 + c_1 k_1)}.$$异步版本的步骤级加速比。加速比取决于草稿生成是受最大深度 $k_1$ 的限制,还是受相对成本 $c_1$ 的限制。设 $X_i$ 为阶段 $i$ 中连续接受的草稿步骤数。在一次拒绝发生前,预期接受的步骤数为 $E[X_i] = \alpha_1 / (1 - \alpha_1)$。我们将渐进加速比 $S$ 定义为在相同的墙上时间内,LOOKAHEAD REASONING生成的步骤数与仅使用目标的基线方法生成的步骤数之比。存在两种情况:
1. $k_1 \geq \lceil 1/c_1 \rceil$:草稿模型相对较慢,生成 $k_1$ 个草稿所需时间超过一个目标步骤的时间。深度限制 $k_1$ 实际上不起作用。加速比收敛于:
- $k_1 < \lceil 1/c_1 \rceil$:草稿模型足够快,可以在时间 $T$ 内生成 $k_1$ 个步骤。最大深度 $k_1$ 限制了每个周期的推测步骤数。加速比收敛于:
(详细推导见附录B)。我们用 $f_{async}(k_1)$ 表示步骤级加速比,根据具体情况,$f_{async}(k_1)$ 等于 $S_1$ 或 $S_2$。
3.3 并发约束下的最优推测策略
正交性与资源竞争。Token级推测解码【索引3,Fast inference from transformers via speculative decoding,2023,ICML】和步骤级推测解码是相互正交的。如果 $k_2$ 是草稿模型在每个步骤生成中额外推测的token数量(假设草稿和目标模型都使用内部推测),$c_2$ 是推测解码中草稿模型与目标模型的执行时间比,其加速比由 $g(k_2)$ 给出,基于token接受率 $\alpha_2$:
$$g(k_{2})=\frac{1-\alpha_{2}^{k_{2}}}{(1-\alpha_{2})(1-c+ck_{2})}$$组合加速与优化问题。由于这些机制在不同粒度(步骤间 vs. 步骤内)上操作,它们的加速比可以相乘,得到一个组合加速比 $h(k_1, k_2) = f(k_1) \times g(k_2)$。然而,这两个正交的并行维度会竞争计算资源,因此确定最优的资源分配策略以实现最大加速比至关重要。在这项工作中,我们关注一个基本问题:同时使用两种推测方法是否优于只应用一种方法?
预算约束下混合方法的优化。在真实世界的系统中,内存和计算约束要求限制目标模型可用的总并行度(M),即步骤级和token级推测解码方法的并行维度之积 $ParallelDim_g \times ParallelDim_f$。这个约束将我们之前的问题转化为一个资源分配优化问题:给定一个有限的并行预算(M),我们应该将资源分配到两个并行维度上,还是将它们集中在单一方法上?因此,我们的设计目标变为:
$$\max_{ParallelDim_{g} \times ParallelDim_{f} \le M} h(k_{1}, k_{2}) = f(k_{1}) \times g(k_{2}).$$其中,$ParallelDim_g = k_2$,而
$$\begin{aligned} ParallelDim_f = \begin{cases} k_1, & sync \\ \min\{\lceil \frac{1}{c} \rceil, k_1\}, & async \end{cases} \end{aligned}$$很容易看出,如果我们设置 $k_1 = 1$,那么我们使用的是纯粹的token级推测解码;而如果我们设置 $k_2 = 1$,那么我们使用的是纯粹的LOOKAHEAD REASONING。
混合方法最优性定理(异步算法)。在接受率($0.52 < \alpha_1, \alpha_2 < 0.8$)、相当高效的草稿模型($c_1 < 1/3, c_2 < 1/5$)以及足够的并行预算($M \geq 16$)的条件下,最大加速比 $h(k_1, k_2)$ 当且仅当采用混合策略时才能实现,即 $k_1 \geq 2$ 且 $k_2 \geq 2$。
定理的实际意义。这些条件广泛代表了现实世界场景:接受率 $(\alpha_1, \alpha_2)$ 在0.52-0.8范围内在推测解码中很常见【索引10,EAGLE-2: Faster inference of language models with dynamic draft trees,2024,arXiv】以及我们的实验(§4.1);草稿模型效率比率 $c_1$ 低于 $1/3$ 和 $c_2$ 低于 $1/5$ 也很常见;并行预算 $M \geq 16$ 反映了典型的GPU能力。这一分析表明,在固定的并行预算下,纯粹的步骤级或纯粹的token级推测都不是最优的。最高的理论加速比是通过明智地结合两种策略,同时利用步骤间($k_1$)和步骤内($k_2$)的并行性获得的。这推动了能够有效管理和利用两个层面推测执行的架构和系统。这一点在§4.2中得到了经验验证。我们在附录B.1.2中提供了完整的证明。此外,我们详细分析了单一方法(token级或步骤级)优于混合方法的条件,以及反之,何时结合两种方法能产生更优性能(附录B.1.2)。
A4 实验环境
-
模型:
- DeepSeek-R1-Distill系列: 使用1.5B版本作为草稿模型,32B版本作为目标模型。
- Qwen3系列: 使用1.7B模型作为草稿模型,32B模型作为目标模型。
- 评判模型: 默认使用Qwen2.5-7B-Instruct【索引11,Qwen2. 5 technical report,2024,arXiv】。通过精心设计的评判提示模板(见附录A),模型仅需一次预填充(prefill pass)即可评估两个句子的语义对齐性。
-
数据集:
- 代码生成: HumanEval【索引14,Evaluating large language models trained on code,2021】和LiveCodeBench【索引15,Livecodebench: Holistic and contamination free evaluation of large language models for code,2024,arXiv】。
- 数学推理: GSM8K【索引16,Training verifiers to solve math word problems,2021,arXiv】,AIME’24【索引17,Aime problems and solutions,2025】,和AMC12’23【索引18,Amc 12 problems and solutions,2025】。
- 问答: GPQA【索引19,Gpqa: A graduate-level google-proof q&a benchmark,2024,CoLM】和MT-Bench【索引7,Judging llm-as-a-judge with mt-bench and chatbot arena,2023,NeurIPS】。
- 数据采样: 从AMC12’23的50个问题中选取由Qwen2.5 Math【索引20,Qwen2.5-math: The world’s leading open-sourced mathematical llms,2024】挑选的40个;从1.3K的GSM8K测试集中随机采样100个查询;LiveCodeBench选取了2024年8月至2025年1月间收集的268个问题。
-
通用参数:
- DeepSeek-R1-Distill系列: temperature=0.6, top_p=0.95, max_length=32K。
- Qwen3系列: temperature=0.6, top_p=0.95, min_p=0, top_k=20, max_length=37K。
- 推测解码(SD)方法: 使用prompt-lookup decoding (n-gram)【索引21,Prompt lookup decoding,2023】。GSM8K的最大查找token数为1,其他数据集为2。
- 默认推测长度: SD的推测token数为8,LOOKAHEAD REASONING的推测步骤数为6。
-
硬件与软件配置:
- 硬件: 实验在配备八个NVIDIA H100 GPU的服务器上进行。
- 模型部署: 目标模型(32B)使用张量并行部署在两个H100 GPU上。草稿模型(1.5B/1.7B)和默认评判模型(Qwen2.5-7B-Instruct)各部署在一个H100 GPU上。
- 软件: 算法基于vLLM v0.8.3实现。基线和所提方法均使用vLLM【索引22,Efficient memory management for large language model serving with pagedattention,2023,SOSP】进行评估,以模拟真实的LLM服务条件。
A4 实验结果
4.1 LOOKAHEAD REASONING的端到端性能
实验内容: 我们使用DeepSeek-R1-Distill和Qwen3模型对,在多个基准测试上评估了LOOKAHEAD REASONING (LR)的端到端性能,包括任务准确率、步骤接受率和加速比。
实验结果与分析:
详细结果见表1。
- 任务准确率: LR能够持续保持任务准确率。在各种基准测试中,LR的准确率与目标模型的自回归基线相比,波动范围很小,大约在高于基线1.0%到低于基线2.1%之间。这与SpecReason形成对比,后者在某些任务上表现出明显的准确率下降(例如,在GSM8K上使用Deepseek-R1时,准确率从91.8%降至85.9%,下降了约6%)。这突显了LR通过鲁棒的语义验证来保持输出质量的设计原则。
- 步骤接受率: LR在保持高准确率的同时,实现了很高的步骤接受率,通常超过50%,最高可达63%。这些显著的接受率从经验上证实了我们的初始洞察,即一个较小的草稿模型可以有效地为一个较大的目标模型预测语义正确的推理步骤。
- 加速比: LR带来了显著的效率提升。其步骤级并行性与token级推测解码正交,两者的协同作用产生了可观的加速。单独使用LR时,在各种基准和模型对上实现了1.04倍至1.71倍的加速。当与n-gram SD结合时,总加速比进一步放大,最高可达2.11倍。这种组合方法始终优于单独使用n-gram SD,证明了步骤级推测的附加价值。这些结果在Deepseek-R1和Qwen3系列中都具有一致性,突显了LR的可推广加速效益。
表 1: LOOKAHEAD REASONING在不同数据集上的性能。加速比是相对于相应目标模型的自回归解码。
注意:LR(我们的)指我们提出的Lookahead Reasoning方法。SD表示token级推测解码(基于N-gram)。Acc.表示准确率(%),Apt.表示接受率。对于MT-Bench(标有*),报告的指标是其标准得分(0-9分制)而非准确率。“–”表示数据不适用。加速比是相对于相应目标模型的自回归解码。
4.2 LOOKAHEAD REASONING与推测解码的结合
实验内容: 为了经验性地验证LOOKAHEAD REASONING (LR)与推测解码(SD)的正交性,我们在AIME数据集上使用了prompt-lookup decoding (n-gram)方法进行了实验。我们分别改变LR的草稿步骤数和SD的推测Token数,观察单独使用和组合使用时的加速比变化。
实验结果与分析:
如图3所示,LR和SD具有明显的正交性。
- 图3(a) 显示,当单独使用LR时,随着草稿步骤数的增加,其加速比在1.4倍左右达到平台期。然而,当加入SD后,整体加速比被提升至约1.9倍。
- 图3(b) 显示了类似趋势,单独使用SD时,随着推测Token数的增加,加速比在1.55倍左右达到峰值。而与LR结合后,最高加速比同样达到了1.9倍。
结论: 这些结果共同表明,尽管两种方法在单独使用时所能带来的增益都有限,但它们的结合始终能够产生最显著的性能提升,这与我们在§3.2中的理论分析相符。
图 3: Lookahead Reasoning与推测解码的正交性。当单独使用时,LR和SD的加速比都受限于它们的草稿长度(γ)。然而,它们的组合持续地提高了可实现的最大加速比。
4.3 消融研究
验证器的有效性
实验内容: 我们进行了一项消融研究,以评估不同验证器机制对任务准确率的影响。实验在GSM8K和AIME’24数据集上,使用DeepSeek-R1-Distill 32B作为目标模型,1.5B模型作为草稿模型。我们比较了四种验证器:
1. 随机接受 (Random) 草稿。
2. LLM-as-a-Judge (LLM-J),使用Qwen2.5 7B/32B【索引11,Qwen2. 5 technical report,2024,arXiv】。
3. 基于嵌入的验证 (Emb.),使用all-mpnet-base-v2模型【索引8,Sentence-bert: Sentence embeddings using siamese bertnetworks,2019,EMNLP】,相似度阈值为0.85/0.95。
4. 推理模型评分 (Score)【索引9,Specreason: Fast and accurate inference-time compute via speculative reasoning,2025,arXiv】,使用目标模型打0-9分,接受阈值为7/9。
实验结果与分析:
结果如表2所示。
- LLM-J验证器(7B和32B)在两个数据集上都表现出强大的准确率保持能力,且两种大小的验证器性能差异微乎其微。在GSM8K上,其性能与基线几乎一致;在AIME上,准确率也与原始基线非常接近,偏差在1-2%以内。
- 随机接受策略导致了严重的准确率下降(GSM8K下降约3.5%,AIME下降约11%),尽管其接受率与其他方法相当或更低。这突显了鲁棒验证机制的必要性。
- 基于嵌入的验证器显示出一种权衡:在GSM8K上,更严格的0.95阈值以较低的接受率(0.37)为代价保持了准确率(92.3%),而0.85的阈值虽然接受率更高(0.56),但导致了约2%的准确率下降(89.8%)。
- 推理模型评分在准确率保持方面表现最差。即使使用更严格的阈值9,在GSM8K和AIME上仍导致了约5.9%和12.5%的显著准确率下降。这表明,即使是高质量得分,也不能可靠地确保与目标模型的输出分布对齐,而这对于LOOKAHEAD REASONING的正确性至关重要。
结论: 实验表明,基于与目标模型可能输出的语义等价性的验证器在保持LOOKAHEAD REASONING的准确率方面最为有效。LLM-as-a-Judge在这方面表现出色,而嵌入模型则提供了一种轻量级、可通过调整阈值来平衡性能和成本的替代方案。
表 2: 在GSM8K和AIME数据集上使用不同验证器的性能比较。Apt.: 接受率;Acc.: 准确率(%)。
树宽度的影响
实验内容: 我们研究了推测树的宽度(W)对LOOKAHEAD REASONING的准确率、接受率和加速比的影响,同时保持深度 $\gamma=2$。在LOOKAHEAD REASONING中,候选序列的数量以 $W^\gamma$ 的速度增长。更宽的树(W>1)可以提高接受率,但会增加FLOPs,并且在验证器不完美的情况下,由于错误的接受可能导致准确率下降。我们假设更强的验证器可以缓解这个问题。实验在GSM8K和AIME24上进行,使用Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct作为评判模型。
实验结果与分析:
结果如表3所示。
- 接受率: 增加W在所有数据集和评判模型上都持续提高了接受率(例如,在GSM8K上使用Qwen2.5-7B,接受率从W=1的0.63提高到W=8的0.83)。
- 加速比: 当W超过2时,接受率的提升很少能转化为更好的加速比。进一步加宽树通常会降低加速比(例如,在AIME24上使用Qwen2.5-7B,W=8时没有加速),这可能是因为指数级增长的开销超过了接受率带来的收益。
- 准确率与验证器强度: 准确率的趋势突出了验证器的重要性。使用较弱的Qwen2.5-7B评判模型时,增加W导致了明显的准确率下降,尤其是在AIME24上(从W=1的69.2%降至W=8的64.6%)。而更强的Qwen2.5-32B评判模型表现出更强的鲁棒性:在GSM8K上准确率保持稳定,在AIME24上的下降也较小(从W=1的69.0%降至W=8的67.3%)。
结论: 这表明,对于更宽的树,一个更强的验证器对于管理增加的错误推测风险至关重要。
表 3: 树宽度(W)对性能指标的影响(深度 γ = 2)
注意:Acc.: 准确率(%); Apt.: 接受率; Spd.: 加速比 (相对于目标模型自回归解码)。深度 γ = 2。Qwen2.5- 7B/32B-Instruct 为评判模型。
A5 结论
本文介绍了LOOKAHEAD REASONING,一种用于在长思想链(CoT)推理过程中加速大型推理模型的新颖方法。LOOKAHEAD REASONING增加了一个新的步骤级并行维度,与传统的token级推测解码形成互补。我们的方法利用一个草稿模型来提出未来的推理步骤,然后由目标模型对其进行语义验证。在多个数据集上使用两种开源推理模型的评估表明,结合推测解码,该方法可以实现高达2.1倍的加速比。这凸显了LOOKAHEAD REASONING在提升大型推理模型速度方面的有效性。
局限性与未来工作:
这项工作也存在一些局限性,为未来的改进指明了方向。
1. 步骤切分: 使用\n\n来切分推理步骤虽然简单,但可能错失了最优的切分点;需要更智能的分割方法。
2. 验证器: 当前的验证器在速度和准确性之间存在权衡;开发更快、更轻量级的替代方案仍然是一个开放的挑战。
A6 附录
A 评判提示模板
语义等价性分析提示
<|im_start|>system
You are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>
<|im_start|>user
Evaluate whether the following two reasoning steps (s1 and s2) convey exactly the same meaning. Focus on semantic similarity rather than exact wording.
Compare the main ideas, key points, overall message, logical structure, and numerical calculations/results of both reasoning steps.
If the reasoning steps convey essentially the same meaning and generate same calculation results, respond with [aligned]. If the reasoning steps express different meanings, respond with [unaligned]. If it is too hard to determine, respond with [unaligned]
Please directly provide the final result in [aligned] or [unaligned].
Reasoning step 1 (s1):
<start_s1>
{}
<end_s1>
Reasoning step 2 (s2):
<start_s2>
{}
<end_s2><|im_end|>
<|im_start|>assistant
模板说明。这个提示模板是专门为Qwen2.5 Instruct模型设计的。它引导模型直接输出“aligned”或“unaligned”作为其判断结果。因此,用户只需检查模型的初始输出字符串是否以“ali”(“aligned”的前三个字母)开头,就可以判断两个句子(s1和s2)之间的语义等价性。这样,只需要一次前向传播就能得到结果,从而大大节省了判断延迟。
B 详细加速比分析
B.1 性能增益分析
B.1.1 异步Lookahead Reasoning的加速比分析
分析前提。在接下来的分析中,我们假设所有序列长度相等,草稿树在每一层只有一个分支。此外,我们将验证器的开销视为可忽略不计。
符号定义。
- $\gamma \in \mathbb{N}$: 大型模型并行执行的最大生成数量。
- $T$: 目标模型生成一个句子的成本(墙上时间)。
- $c_1$: 单次草稿模型运行的成本,以 $T$ 为单位(因此草稿成本为 $c_1 T$)。
- $\alpha_1 \in (0, 1)$: 草稿的接受率。
- $X_i$: 在阶段 $i$ 中,第一次拒绝前连续接受的草稿数量。
生成过程。我们将一次完整的生成看作一系列DRAFT STAGE,每个阶段流程如下:
1. 如果大型模型并行执行的生成数量小于 $\gamma$,草稿模型顺序生成草稿。
2. 每次开始生成一个草稿步骤时,我们立即请求目标模型生成一个目标步骤。
3. 目标模型完成生成后,立即请求验证器验证是否应接受该草稿。如果草稿被拒绝,则回退到目标模型的原始句子,并进入下一个DRAFT STAGE。
理论推导。由于每个草稿的接受是独立的,我们有:
$$P(X_{i}=k)=\alpha^{k}(1-\alpha), \quad E[X_{i}]=\frac{\alpha}{1-\alpha}.$$定理1(同步Lookahead Reasoning的延迟加速比)。
$$f_{sync}(\gamma)=\frac{1-\alpha^\gamma}{(1-\alpha)(1-c+c\gamma)}$$证明与【索引3,Fast inference from transformers via speculative decoding,2023,ICML】中的推理相同,不同之处在于我们的 $\gamma$ 代表大型模型并行生成的最大token数,而在他们的表示法中,这对应于 $\gamma+1$。
定理2(异步Lookahead Reasoning的渐近加速比)。令 $S$ 为使用异步Lookahead Reasoning算法的延迟加速比,定义为:
$$S = \frac{\text{total sentences generated by our algorithm in } n \text{ DRAFT STAGE}}{\text{total sentences generated by target-only model in } n \text{ DRAFT STAGE}},$$则:
1. 如果 $\gamma \geq \lceil \frac{1}{c} \rceil$,草稿树永不饱和。目标模型的并行维度为 $\lceil \frac{1}{c} \rceil$,当 $n \rightarrow \infty$ 时,渐近加速比为:
- 如果 $\gamma < \lceil \frac{1}{c} \rceil$,草稿树受深度限制。目标模型的并行维度为 $\gamma$,当 $n \rightarrow \infty$ 时,渐近加速比为:
证明过程通过比较在 $n$ 个阶段中,算法生成的总句子数与基线(仅目标)方法生成的句子数。在情况1中,算法花费时间为 $T+c_1 T X_i$,基线生成句子数为 $1+c_1 X_i$。在情况2中,算法花费时间为 $\lceil \frac{X_i+1}{\gamma} \rceil T + c_1 T (X_i \mod \gamma)$。通过大数定律取期望,可以推导出上述公式。
B.1.2 并发约束下的最优推测策略
问题陈述。本节旨在证明,在固定的并行预算下,通过联合应用步骤级和token级并行总能获得最优的推理加速,而不是单独使用其中任何一种。给定总并行度上限 $M$,即 $\gamma_1 \gamma_2 \le M$,目标是最大化组合加速比 $h(\gamma_1, \gamma_2) = f(\gamma_1) \times g(\gamma_2)$。
定理3(同步Lookahead Reasoning的混合最优性)。在并发预算 $M \geq 4$(M为偶数)和温和的参数约束下,当且仅当条件(7)和(8)同时成立时,结合两种推测技术(即 $\gamma_1 \geq 2, \gamma_2 \geq 2$)严格优于单独使用任一种。
- 条件(7):$\frac{1+\alpha_1}{1+c_1} \geq \frac{(1+\alpha_2^{M/2})(1-c_2+\frac{c_2 M}{2})}{1-c_2+c_2 M}$
- 条件(8):$\frac{1+\alpha_2}{1+c_2} \geq \frac{(1+\alpha_1^{M/2})(1-c_1+\frac{c_1 M}{2})}{1-c_1+c_1 M}$
定理4(异步Lookahead Reasoning的混合最优性)。在异步Lookahead Reasoning下,给定接受率 $0.52 < \alpha_1, \alpha_2 < 0.8$,草稿模型效率 $c_1 < 1/3, c_2 < 1/5$,以及总并行预算 $M \geq 16$(M为偶数),当满足约束 $\min\{\lceil \frac{1}{c} \rceil, \gamma_1\} \times \gamma_2 \leq M$ 时,当且仅当同时采用步骤级和token级并行(即 $\gamma_1 \geq 2$ 且 $\gamma_2 \geq 2$)时,总加速比 $h(\gamma_1, \gamma_2)$ 才达到最大化。
证明概要。证明过程涉及分析组合加速比函数 $h(\gamma_1, \gamma_2)$ 在约束条件下的行为。通过分析其导数和单调性(如引理2、3、5),并利用一系列数值界限(如引理4、6),可以证明在给定条件下,函数的最大值不在边界(即纯粹使用一种方法)上取到,而是在内部(即混合使用两种方法)达到。
D 混合方法图示
图 4: 混合方法的图示。该图展示了步骤级推测如何在较大的文本块(推理步骤)上操作,而token级推测则在这些块内部进行操作。左侧显示了步骤级的接受/拒绝过程,右侧则放大了一个步骤,展示了内部token级的推测和验证过程。
💬 评论讨论
欢迎在这里分享您的想法和见解!