Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning
Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning
文章标题: Seer: 面向快速同步 LLM 强化学习的在线上下文学习
作者/机构: Ruoyu Qin†♢, Weiran He†, Weixiao Huang†, Yangkun Zhang†, Yikai Zhao†, Bo Pang†, Xinran Xu†, Yingdi Shan♢, Yongwei Wu♢, Mingxing Zhang♢1 (†Moonshot AI ♢清华大学)
A1 主要贡献
核心问题: 强化学习(RL)对于大型语言模型(LLM)的发展至关重要,但现有的同步RL系统面临严重的性能瓶颈。占据端到端迭代时间主导地位的Rollout(数据生成)阶段,因固有的工作负载不平衡而遭受严重的长尾延迟和低资源利用率。如表1所示,Rollout阶段消耗约80%的总迭代时间。特别是对于需要长生成能力的应用(如思维链推理),长生成任务会产生不可预测且快速增长的内存占用,导致动态批量大小缩减或昂贵的抢占,从而降低吞吐量。同时,长生成请求的重尾长度分布导致实例内和实例间的严重负载失衡,在迭代末期只有少数长请求活跃,大幅降低了加速器占用率。
研究目标: 本文旨在解决同步RL中Rollout阶段的效率问题,特别是长尾延迟和资源利用率低下的挑战,从而显著加速RL训练迭代。
创新点: 本文提出了Seer,一个新颖的在线上下文学习系统,它利用了以往被忽视的、共享相同提示(prompt)的请求之间在输出长度和生成模式上的相似性。Seer的核心贡献包括:
- 分区Rollout与全局KVCache (Divided Rollout with Global KVCache):Seer打破了传统的按请求组(共享同一提示的所有请求)进行调度的模式。它将请求组不仅拆分为G个独立请求,还进一步分解为多个块(chunks)进行增量调度。这种策略允许整个Rollout过程最大化资源利用率而无需触发昂贵的抢占。为了支持动态负载均衡,Seer利用一个跨实例共享并由DRAM/SSD支持的全局KVCache池,从而在迁移请求时无需重新计算代价高昂的prefill。
- 上下文感知调度 (Context-Aware Scheduling):Seer利用“推测性请求”机制来获取调度信息。通过高优先级生成每个GRPO组中的一个响应,系统可以获得该组预期生成长度和KVCache占用空间的在线估计。这使得全局调度器能够实施一个近似“最长作业优先”(longest-job-first)的策略,优先处理长任务,从而最大化批处理密度并显著减少长尾阶段的时间。
- 自适应分组推测解码 (Adaptive Grouped Speculative Decoding):为了在RL场景下有效利用推测解码,Seer引入了一种基于在线上下文学习的推测机制。Seer部署了一个分布式分组草稿服务器(DGDS),该服务器为每个请求组维护一个压缩后缀树(CST),聚合组内所有请求的令牌序列。这种方法创建了一个与目标模型内在同步的高精度、动态“草稿模型”。此外,DGDS引入了自适应草稿范围机制,以最大化系统吞吐量。
通过这三项关键技术,Seer显著减少了Rollout过程中的长尾延迟,提高了资源效率。
相关图表:
Table 1: 不同工作负载下RL训练各阶段的时间分布。所有模型都作为具有思维链能力的推理模型进行训练,其中Moonlight和Kimi-K2在数学数据集上训练,而Qwen2-VL-72B在使用LLM-as-a-Judge奖励模型的语言-视觉混合推理任务上训练。奖励计算由一个专用的奖励服务器执行,并与Rollout阶段几乎完全重叠。详细的工作负载配置在§6.1中描述。
Figure 1: 长生成Rollout的挑战及Seer的解决方案。传统的组级别Rollout将请求组视为整体单元,导致严重的实例间和实例内负载不平衡。Seer通过分区Rollout实现动态负载均衡并防止抢占。在分区Rollout的基础上,Seer实施在线上下文学习,通过上下文感知调度和自适应分组推测解码进一步减少Rollout时间。
A3 背景知识与关键观察
2.1 面向推理LLM的强化学习
RL训练的迭代过程。大型语言模型的强化学习(RL)训练是一个迭代过程,模型通过自我生成的响应来学习并改进其策略。每个RL迭代包含以下逻辑阶段:(1)Rollout,模型根据给定的提示集生成响应轨迹,在主流算法如组相对策略优化(GRPO)【29, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv:2402.03300】中,每个提示会产生8-16个响应;(2)奖励计算,由奖励服务器(基于规则【10, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】、沙箱【4, Evaluating large language models trained on code, 2021, arXiv preprint arXiv:2107.03374】或LLM-as-a-Judge【34, Llm-as-a-judge & reward model: What they can and cannot do, 2024, arXiv preprint arXiv:2409.11239】)评估生成的响应;(3)经验收集,像GRPO这样的算法计算策略更新所需的训练经验;(4)训练,使用收集到的经验训练模型;以及(5)权重更新,更新后的权重被传播到推理模型,为下一次Rollout迭代做准备。
同步RL训练的瓶颈。尽管近期工作如RLHFuse【52, Optimizing {RLHF} training for large language models with stage fusion, 2025, 22nd USENIX Symposium on Networked Systems Design and Implementation (NSDI 25)】和Kimi-K2【36, Kimi k2: Open agentic intelligence, 2025, arXiv preprint arXiv:2507.20534】优化了同步RL训练流程,但Rollout阶段仍然是主要瓶颈,占总训练时间的63-87%(见表1)。由于推理LLM的输出长度极长且变化极大,Rollout阶段存在严重的资源利用不足问题,使其成为优化的首要目标。
2.2 Rollout中的关键挑战
长思维链(CoT)带来的问题。为推理模型训练思维链是RL的核心【10, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】【37, Kimi k1.5: Scaling reinforcement learning with llms, 2025, arXiv preprint arXiv:2501.12599】,模型被训练生成更长、更详细的推理链。这在Rollout阶段引入了两个关键特性:(1)平均输出长度长;(2)请求间的输出长度方差大。如图2所示,生成长度范围从几百到98K个token,平均长度和方差都极大。长平均输出长度对内存管理构成巨大压力,而高方差则导致长尾效应,即少数极长请求在Rollout后期独占GPU资源。
Figure 2: 三个推理任务在Rollout期间的输出长度分布。生成长度从数百到98K个token不等,显示出高平均长度和极大方差。
长生成序列导致的两大挑战。图3展示了长生成序列在Rollout期间造成的资源浪费,揭示了两个主要挑战:
- 挑战 #1: 变化的内存消耗。对于平均输出数万token的请求,KVCache可能占用数GB内存,在GRPO类算法中这个内存占用还会乘以G倍。巨大的内存消耗可能导致内存耗尽,迫使系统抢占正在运行的请求。最坏情况下,单个实例一次只能执行一个提示组。然而,提前预留KVCache空间以避免抢占会导致严重的资源利用不足。由于内存消耗与总序列长度成正比,处于生成初期的请求(仅数百token)可能会占用整个内存空间数百秒,从而大幅降低吞吐量。
- 挑战 #2: 严重的“长尾效应”。长尾问题是Rollout中的另一个关键问题,先前的工作【9, Rollpacker: Mitigating long-tail rollouts for fast, synchronous rl post-training, 2025, arXiv preprint arXiv:2509.21009】【13, History rhymes: Accelerating llm reinforcement learning with rhymerl, 2025, arXiv preprint arXiv:2508.18588】【53, April: Active partial rollouts in reinforcement learning to tame long-tail generation, 2025, arXiv preprint arXiv:2509.18521】已广泛注意到。如图3所示,长尾阶段可能占总Rollout时间的近50%。这源于两个因素:(1)在GRPO类算法中,同一组内的请求长度相似(见§3.2),当以组为粒度调度时,具有极长平均长度的组会形成“整体”批次,造成实例间的严重负载不平衡。(2)在内存限制下,请求可能被抢占或延迟,导致极长请求被阻塞,进一步加剧调度延迟。
(a) 实例间的KVCache利用率和平均运行请求数。
Figure 3: Qwen2-VL-72B任务在同步Rollout阶段的KVCache利用率、运行请求数和抢占次数。在Rollout初期,KVCache容量不足导致频繁的请求抢占;在后期,少数极长的请求组导致了长尾阶段,占用了近一半的总Rollout时间。
现有解决方案的局限性。为缓解长尾效应,近期工作【6, Areal: A large-scale asynchronous reinforcement learning system for language reasoning, 2025, arXiv preprint arXiv:2505.24298】【9, Rollpacker: Mitigating long-tail rollouts for fast, synchronous rl post-training, 2025, arXiv preprint arXiv:2509.21009】【11, Asyncflow: An asynchronous streaming rl framework for efficient llm post-training, 2025, arXiv preprint arXiv:2507.01663】【13, History rhymes: Accelerating llm reinforcement learning with rhymerl, 2025, arXiv preprint arXiv:2508.18588】【31, Laminar: A scalable asynchronous rl post-training framework, 2025, arXiv preprint arXiv:2510.12633】【51, Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation, 2025, arXiv preprint arXiv:2504.15930】【53, April: Active partial rollouts in reinforcement learning to tame long-tail generation, 2025, arXiv preprint arXiv:2509.18521】提出了异步RL,但它引入了离策略(off-policy)学习,可能损害收敛性和奖励稳定性。推测解码(SD)是另一个有前景的方向,但现有方法在RL场景中存在局限性。基于模型的SD方法,其静态草稿模型难以适应持续更新的目标LLM,导致接受率下降,并且草稿模型本身带来显著的延迟和GPU内存开销。基于模型的无模型SD方法,如n-gram【7, Break the sequential dependency of llm inference using lookahead decoding, 2024, arXiv preprint arXiv:2402.02057】【39, vllm: A high-throughput and memoryefficient inference and serving engine for llms, 2025, https: //http://github.com/vllm-project/vllm, Linear pattern matching algorithms, 1973, 14th Annual Symposium on Switching and Automata Theory (swat 1973)】的分组推测解码,它是一种无模型方法,显著降低了草稿复杂性,并利用同组请求间的模式相似性生成高质量草稿。
总结。在同步LLM RL训练中,由于极长的CoT推理过程,Rollout阶段在内存管理和长尾资源浪费方面面临严峻挑战。这是因为现有RL系统将每个提示组视为一个整体单元,忽略了组内的长度和模式相似性。Seer通过将提示组分解为单个响应乃至更细粒度的块进行调度,并利用组内响应的相似性来优化调度和推测解码,从而实现Rollout阶段的无损加速。
3.1 GRPO类算法的组属性
GRPO算法核心思想。在LLM强化学习实践中,最广泛采用的算法是组相对策略优化(GRPO)【10, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】。GRPO执行基于组的偏好优化,无需价值网络(critic)。其核心思想是:对于每个提示,从当前策略 $\pi_{\theta_{old}}$ 采样G个候选响应 $\{y_i\}_{i=1}^G$,使用奖励模型评估它们得到奖励 $\{r_i\}$,在组内对这些奖励进行归一化以计算优势 $\{A_i\}$,最后用一个带裁剪比率损失和KL正则化的目标函数来更新策略 $\pi_\theta$,使其趋向于一个参考模型 $\pi_{ref}$ 以稳定训练。目标函数可表示为:
$$\mathcal{L}_{\text{GRPO}} = - \mathbb{E}_{x, y_i \sim \pi_{\theta_{\text{old}}}} \left[ \min(\rho_i A_i, \text{clip}(\rho_i, 1 - \varepsilon, 1 + \varepsilon) A_i) \right] + \beta \text{KL}(\pi_{\theta} \| \pi_{\text{ref}}), \rho_i = \frac{\pi_{\theta}(y_i | x)}{\pi_{\theta_{\text{old}}}(y_i | x)}$$其中 $\epsilon$ 和 $\beta$ 是超参数,而 $A_i$ 是优势,使用每个组内G个输出对应的奖励 $\{r_1, r_2, \dots, r_G\}$ 计算得出:
$$A_i = \frac{r_i - \text{mean}(\{r_1, r_2, \ldots, r_G\})}{\text{std}(\{r_1, r_2, \ldots, r_G\})}.$$组属性带来的优化机会。近期的一些工作如【48, Dapo: An open-source llm reinforcement learning system at scale, 2025, arXiv preprint arXiv:2503.14476】【49, Group sequence policy optimization, 2025, arXiv preprint arXiv:2507.18071】改进了GRPO,但都保留了为同一提示生成多个响应的核心原则。甚至有工作提出将G扩展到512或更大以增强探索能力【14, Brorl: Scaling reinforcement learning via broadened exploration, 2025, arXiv preprint arXiv:2510.01180】【21, Knapsack rl: Unlocking exploration of llms via optimizing budget allocation, 2025, arXiv preprint arXiv:2509.25849】。这种训练范式自然地在Rollout期间引入了强大而稳定的上下文信号,因为同一组中的响应在语义、结构模板和生成长度上表现出显著的相似性。然而,现有RL系统通常将每个提示组视为一个整体单元,忽视了利用这种组内相似性作为共享上下文信息的潜力。通过显式利用这种共享上下文,可以实现(i)长度和内存感知的调度,以及(ii)利用同组请求序列加速推理的分组推测解码,从而在不违反在策略训练约束的情况下,缓解长尾效应并提高整体吞吐量。
3.2 用于高效调度的长度上下文
组内响应的长度可预测性。作为从相同输入生成的一组响应,组内响应的生成长度是高度可预测的。通常,模型响应的长度反映了提示的难度。先前的工作【5, Enabling efficient batch serving for lmaas via generation length prediction, 2024, 2024 IEEE International Conference on Web Services (ICWS)】【8, Efficient llm scheduling by learning to rank, 2024, Advances in Neural Information Processing Systems】【51, Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation, 2025, arXiv preprint arXiv:2504.15930】已经尝试使用小模型或基于提示特征的拟合方法来预测生成长度,这表明对于相同的模型和提示,响应长度表现出强相关性。图4展示了RL Rollout中多个提示组的长度相关性,其中大多数组的响应长度表现出一致性。
Figure 4: 响应组内的长度相关性。每列代表GRPO Rollout中的一个提示组,每个单元格对应一个单独的响应。颜色强度表示输出长度。同一组内的响应表现出强烈的长度相关性,大多数组的请求生成长度相似。
利用长度上下文进行调度。这一特性使我们能够通过推测性采样获取长度信息,从而为全局调度决策提供信息。具体来说,为解决长尾问题,最长作业优先(LFS)调度是一种常用策略。在Rollout的背景下,我们可以优先调度较长的请求以最小化长尾延迟。这种调度策略需要知道请求的生成长度。分组Rollout中固有的长度上下文为长度预测提供了更高质量的来源,构成了近似LFS调度算法的基础(详见§4.3)。
3.3 用于高效推理的模式上下文
组内响应的模式相似性。除了利用长度相关性进行调度外,GRPO Rollout的分组特性还提供了另一个优化机会:模式层面的相似性。由于一个组内的所有响应都以相同的提示为条件,它们在生成的内容中自然表现出语义和结构上的相似性。虽然这种相似性不如精确前缀匹配【28, Mooncake: Trading more storage for less computation—a {KVCache-centric} architecture for serving {LLM} chatbot, 2025, 23rd USENIX Conference on File and Storage Technologies (FAST 25)】【50, Sglang: Efficient execution of structured language model programs, 2024, Advances in Neural Information Processing Systems】那样精确,但它提供了足够的信号来构建一个分组模式字典,以进行更有效的基于n-gram的推测解码。
实证研究。为了量化这一直觉,我们在真实的RL工作负载上进行了一项实证研究。我们采样了20个提示组,并使用压缩后缀树(CST)模拟了n-gram推测解码。与传统的前瞻解码仅依赖每个请求自身的生成历史作为n-gram字典不同,我们的方法将同组的其他响应作为参考模式,以衡量跨请求的相似性。表2展示了结果。与基线(n=0)相比,引入分组模式参考将接受的草稿令牌数(不包括奖励令牌)提高了多达119%,而多路径草稿通过每步生成多个候选序列进一步提高了效率。基于这一洞察,Seer集成了一个分布式分组草稿服务器,该服务器使用高效的CST结构聚合组内所有请求的模式上下文,从而实现高质量且高效的推测解码。在实践中,Seer会根据工作负载特性和资源可用性动态调整关键参数,包括最大草稿长度和候选路径数(k),以最大化Rollout吞吐量。
Table 2: 在不同草稿策略下,使用分组模式参考的n-gram推测解码的平均接受长度。我们从Qwen2-VL-72B任务中采样20个提示组,并使用CST进行推测解码模拟(每步最大草稿长度为8个token)。参考计数n表示CST中包含了多少来自同一组的其他响应。Linear表示每步生成一个草稿序列,而multi-path则通过top-k分支生成多个候选序列。数值代表平均接受长度(包括奖励token)。
A2 方法细节
4.1 概述
Seer系统架构。Seer是一个高效的同步RL框架,专为加速Rollout阶段而设计。受§3中工作负载分析的启发,Seer在Rollout期间启用在线上下文学习,以实现高效的调度和推理。除了上下文感知的优化,Seer还集成了高效的内存管理、负载均衡和异步奖励计算。尽管有这些性能增强,Seer在同步RL流水线的所有阶段都保持逻辑一致性,从而实现算法上无损的强化学习过程。图5展示了Seer的Rollout系统架构,它由三个核心模块组成:推理引擎池(Inference Engine Pool)、请求缓冲区(Request Buffer)和上下文管理器(Context Manager)。推理引擎池由推理实例和跨推理节点的分布式KVCache池组成,负责执行具有负载均衡和缓存复用能力的推理请求。请求缓冲区作为所有请求的统一入口,管理它们的输入、输出和运行时状态。上下文管理器维护所有请求的上下文视图,并根据请求上下文提供调度决策。
三大关键技术。为了解决§2.2中确定的挑战,Seer引入了三项关键技术。首先,为解决负载不平衡问题(挑战#1),Seer提出了分区Rollout(Divided Rollout)(§4.2),它利用请求缓冲区和全局KVCache池在子请求级别实现细粒度的负载均衡。其次,为缓解长尾效应(挑战#2),Seer实现了上下文感知调度(Context-Aware Scheduling)(§4.3),利用请求组内的长度上下文来减少长尾延迟。第三,Seer采用自适应分组推测解码(Adaptive Grouped Speculative Decoding)(§4.4),利用请求组内的模式上下文进一步加速推理,特别是对于长请求。
Figure 5: Seer的概览图。
4.2 分区Rollout (Divided Rollout)
传统Rollout系统的局限性。在传统的Rollout系统中,推理实例以组为单位处理请求,无论是离线批处理模式还是在线服务模式。这种方法通常将一大批请求组(每个组包含G个共享相同提示的请求)随机分配给推理实例。一旦一个请求被分配给某个推理实例,它就会绑定在该实例上直到完成。然而,这种设计存在两个关键限制。首先,由于不同请求组的生成长度差异巨大,导致实例间严重的负载不平衡和单个实例内的内存管理挑战,如§2.2所述。其次,这种方法将每个组视为一个整体单元,忽略了同组内请求之间的上下文相似性,而这些相似性本可以被用于§4.3和§4.4中讨论的优化。
Seer的Divided Rollout机制。为了解决这些限制,Seer在请求缓冲区的基础上实现了一种名为“分区Rollout”的细粒度请求和并发控制机制。对于一个所有请求共享相同提示的整体请求组,Seer不仅将其分解为G个独立的请求,还根据生成长度将每个请求进一步划分为多个块(chunks)。这种子请求级别的Rollout由请求缓冲区管理,该缓冲区为每个请求维护全面的元数据,包括其组ID、提示长度、原始max_tokens和当前已生成长度。当一个请求根据调度策略(§4.3描述)从请求缓冲区被分派时,其max_tokens被设置为一个小的块大小(例如,8K tokens)。当前块完成后,该请求被重新排入请求缓冲区,并迭代地重新提交,直到它生成一个<eos>标记或达到其原始的max_tokens。
Divided Rollout带来的优势。通过分区Rollout,Seer在推理实例内部和跨实例之间实现了更高效的调度,如图1b所示:
- 细粒度的内存管理。传统调度方法在Rollout场景中面临权衡:高并发在后期导致抢占,而低并发在早期导致资源利用不足。随着平均输出长度的增加,这种困境变得更加严重。通过分区Rollout,每个请求以显著更小的块生成token,从而在整个生成过程中保持近乎恒定的KVCache占用。Seer的调度器可以动态计算避免触发抢占的最大并发级别,以最大化资源利用率。
- 动态负载均衡。分区Rollout将调度粒度从每个请求组选择单个实例转变为 G × num_chunks 次选择,从而实现了跨实例的动态负载均衡。当一个子请求从请求缓冲区重新提交时,Seer会根据对在途请求并发度和其相应内存占用的实时监控,动态选择负载最轻的推理实例。这显著减少了由跨实例负载不平衡引起的长尾效应。
全局KVCache池的支持。为了支持高效的分区Rollout,同时避免在重新分派期间冗余的KVCache重新计算,Seer基于Mooncake【28, Mooncake: Trading more storage for less computation—a {KVCache-centric} architecture for serving {LLM} chatbot, 2025, 23rd USENIX Conference on File and Storage Technologies (FAST 25)】构建了一个跨推理节点分布的全局共享KVCache池。Seer的分区Rollout作为一种对上层透明的主动式请求迁移和负载均衡机制,专为离线推理工作负载设计。与由抢占触发的被动式KVCache卸载相比,这种方法不会阻塞推理过程。与用于在线服务的实时迁移系统(例如,Llumnix【35, Llumnix: Dynamic scheduling for large language model serving, 2024, 18th USENIX symposium on operating systems design and implementation (OSDI 24)】)相比,由于没有严格的单请求SLO约束,它提供了更大的调度灵活性。基于分区Rollout,Seer实现了更灵活的请求调度,这尤其得益于利用组上下文信息,详见§4.3。
4.3 上下文感知调度 (Context-Aware Scheduling)
解决实例内调度不平衡。除了实例间的负载不平衡,实例内的调度不平衡也导致了Rollout期间的长尾延迟。在单个实例内,内存限制迫使一些请求被延迟。在朴素的调度策略下,长请求可能会被推迟到最后,进一步加剧长尾效应。如§3.2所分析,同一提示组内的请求倾向于表现出高度相关的输出长度。这一观察启发了Seer的调度设计:利用分组请求间的长度上下文来预测输出长度,并实施近似的最长优先调度(LFS)。
利用推测性请求进行在线探测。基于分区Rollout,Seer将每个组的第一个请求指定为推测性请求,它作为一个在线探针,用于估计该组中其余请求的预期工作负载。推测性请求被赋予更高的调度优先级,并遵循最短优先调度(SFS)方法,优先处理已生成长度较短的请求。这种长度过滤方法利用了短请求能快速完成的特点,使Seer能在Rollout早期迅速识别出长尾样本,并实时向上下文管理器动态更新长度信息。基于这些更新的长度估计,Seer使用近似的LFS策略来调度剩余的请求,优先处理预测生成长度较长的组。
调度算法流程。算法1展示了基于分区Rollout构建的上下文感知调度工作流。该算法由Seer的全局调度器连续调用,每次返回一个调度决策 $(r^⋆, i^⋆)$,将选定的请求 $r^⋆$ 分配给一个推理实例 $i^⋆$,直到所有请求完成。从请求组的角度来看,整个调度过程包括三个阶段:
1. 长度过滤:推测性请求被维护在一个高优先级队列 $Q_{spec}$ 中,并使用SFS策略进行调度,该策略总是选择已生成token量最少的请求。这确保了短请求能尽早完成并快速退出队列,而长请求则会留下来,暴露其作为潜在长尾候选者的身份。
2. 长度估计更新:上下文管理器为每个提示组g维护一个估计的输出长度 $L_g$。该值会根据组内所有已完成请求的最大生成长度动态更新。如果一个组中没有任何请求完成,该组被归类为潜在的长尾候选者,其估计输出长度被保守地设置为原始的max_tokens限制。
3. 请求调度:Seer首先优先执行推测性请求以获得长度估计。一旦所有推测性请求都在处理中或已完成,Seer会切换到近似的LFS调度策略,优先处理具有较长预测生成长度 $L_g$ 的组。
需要:按提示g分组的活跃请求 R = {rg,i};组级别长度估计 {Lg};具有KV-usage遥测的推理实例 I。
确保:一个调度决策 (r⋆, i⋆),其中 r⋆ ∈ R 且 i⋆ ∈ I。
1: for all rg,i ∈ R do
2: if rg,i is finished then
3: Lg ← UPDATEESTIMATE(Lg, Lg,i)
4: 从 R 中移除 rg,i
5: else if rg,i 是该组的推测性请求 then
6: 保留在高优先级队列 Qspec 中
7: else
8: 添加到低优先级候选集 Crest 中
9: end if
10: end for
11: r⋆ ← None
12: if ¬ISEMPTY(Qspec) then
13: r⋆ ← PICKSFS(Qspec) ▷ SFS: 最小已生成长度优先
14: else if ¬ISEMPTY(Crest) then
15: r⋆ ← PICKLFS(Crest) ▷ LFS: 最大 Lg 优先
16: else
17: return 所有请求均已完成
18: end if
19: r⋆.max_tokens ← min(chunk_size, r⋆.ori_max_tokens − r⋆.generated_tokens)
20: i⋆ ← SELECTINSTANCE(I, r⋆.max_chunk_tokens, KV-usage)
21: if i⋆ ≠ None then
22: return (r⋆, i⋆)
23: end if
24: return 本周期无可用实例
调度灵活性与鲁棒性。得益于全局KVCache池,请求可以在等待调度时临时存储在请求缓冲区中,而不会在块执行之间丢失状态,从而能够基于持续更新的长度上下文进行更灵活的调度。为减轻长度预测偏差可能带来的负面影响,调度器会随机调度那些执行时间最少的组中的请求,并使用目前观察到的最大生成长度来保守地更新长度估计。§6.4.1中的实验表明,上下文感知调度实现的性能接近于一个预知所有输出长度的理想LFS调度器。此外,§4.4中描述的自适应分组推测解码技术为异常的长尾请求提供了额外的加速。
4.4 自适应分组推测解码 (Adaptive Grouped Speculative Decoding)
设计目标。为了进一步提高Rollout阶段的资源利用率,特别是在长尾阶段,Seer实现了自适应分组推测解码。该技术根据计算强度自适应地调整草稿长度,并利用分组模式上下文(如§3.3分析)来提高接受率。
分布式分组草稿服务器 (DGDS)。Seer引入了分布式分组草稿服务器(DGDS),这是一个在请求和实例间共享推测性上下文的分布式框架。DGDS的核心数据结构是压缩后缀树(CST),它能高效地聚合来自多个序列的上下文统计信息,并以低复杂度提供草稿令牌。DGDS旨在将同一组内跨请求的序列上下文聚合到一个统一的CST中,从而为所有推理实例提供高质量的推测性令牌。
Figure 6: 分布式分组草稿服务器。
工作流程。为了最小化关键路径上的推测解码延迟,DGDS采用了分布式的master-worker架构,如图6所示。系统通过四个关键步骤运行:
1. 异步追加 (Asynchronous Append):每个推理实例运行一个独立进程来处理输出令牌,将新生成的令牌连同group_id发送给DGDS。为减少通信开销,每个请求在发送更新前会批量处理一定数量的令牌,这对草稿令牌质量的影响微乎其微。
2. 全局聚合 (Global Aggregation):DGDS聚合来自同一组请求的令牌更新。为防止跨请求干扰,DGDS通过request_id隔离更新,将每个新令牌仅映射到CST中相应的本地路径。
3. 周期性获取 (Periodic Fetch):每个推理实例都将一个草稿客户端作为库组件嵌入。该客户端定期从DGDS同步最新的CST。为减少通信开销,客户端只获取其当前实例上正在处理的请求所对应的CST,并支持增量同步。
4. 本地推测 (Local Speculation):推理实例基于其本地的CST执行推测。这些CST聚合了同一组中所有请求的路径,使得实例能够共享上下文统计信息并获得更高质量的草稿令牌。
自适应推测范围机制。在推测阶段,DGDS引入了一种自适应推测范围机制,以动态平衡推理延迟和预测准确性。针对不同模型架构,如密集模型和专家混合(MoE)模型,我们根据它们的计算特性预先计算了单个请求和整个批次的推测令牌阈值。根据这些阈值,实例会根据当前的并发级别动态计算最大草稿长度。在生成草稿令牌时,系统还会根据CST提供的令牌出现频率和置信度分数来过滤候选者,以提高接受率。这种自适应控制在保持解码准确性的同时,最大化了分布式Rollout实例上推测解码的整体吞吐量和效率。
对长尾请求的优势。对于长尾请求,自适应分组推测解码提供了两个特别的优势。首先,在长尾阶段,并发度最低,允许使用更大的草稿长度来增加每个请求接受的令牌数。我们还实现了多路径推测解码,以在长尾阶段进一步提高接受长度。其次,随着同一组中更多请求的完成,CST聚合了更丰富的上下文信息。如表2所示,这使得长尾请求能够实现显著更长的接受长度。
A7 补充细节
5 实现
RL基础设施。Seer是一个同步的、同地部署(colocated)的RL系统,旨在显著减少Rollout长尾延迟并提高整体系统吞吐量,同时不影响算法保真度。训练阶段利用Megatron【33, Megatron-lm: Training multi-billion parameter language models using model parallelism, 2019, arXiv preprint arXiv:1909.08053】进行分布式模型训练,而Rollout阶段则采用vLLM【16, Efficient memory management for large language model serving with pagedattention, 2023, Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles】进行高效推理。为了最小化训练和Rollout阶段之间的转换开销,Seer实现了一个内存中的检查点转换机制和一个专用的检查点引擎【1, Checkpoint engine, 2025, https://github. com/MoonshotAI/checkpoint-engine】,支持在集群中高效地分发和更新权重。
异步奖励计算。Seer实现异步奖励计算以进一步提高系统效率。每个Rollout请求完成后,生成的轨迹会立即分派给一个专用的奖励系统进行奖励计算。Rollout和奖励资源可以根据工作负载需求弹性扩展。奖励系统可以与Rollout基础设施共享资源,也可以部署在单独的集群上,并在多个RL实验间共享,以最大化资源利用率。这种模块化设计确保Seer能够动态适应变化的资源可用性,同时保持高吞吐量。
全局KVCache池。Seer利用全局KVCache池来实现高效的分区Rollout。KVCache池采用DRAM/SSD两层架构,为每次Rollout迭代中的所有分区请求提供KVCache存储。为了减少传输开销,KVCache服务器会根据请求缓冲区中的请求队列信息,主动将KVCache预取到目标实例。一旦一个Rollout请求完成,其对应的KVCache会立即被释放,以最大化可用的DRAM存储容量。
推测解码。Seer引入DGDS以实现带有上下文共享的推测解码。DGDS由两个模块组成:分组草稿服务器和草稿客户端。分组草稿服务器作为一个独立的RPC服务器运行,聚合多个Rollout实例的CST。其主要API总结在表3中。为防止通信和存储中的负载不平衡,Seer支持多服务器部署模式,客户端会根据请求组的哈希自动将请求路由到服务器。草稿客户端的主要API总结在表4中。草稿客户端通过fetch_cst异步获取其本地实例上已注册请求的CST,并在本地执行推测。为进一步降低推测开销,草稿客户端作为嵌入式库部署在与推理引擎相同的进程中,并提供零拷贝的批处理接口。
多路径草稿与级联注意力。为了实现更高的接受率和更长的接受长度,Seer实现了多路径草稿,这是树状草稿【41, Opt-tree: Speculative decoding with adaptive draft tree structure, 2025, Transactions of the Association for Computational Linguistics】的一种变体。一个自适应调度算法会根据当前系统负载和每个请求的接受率动态选择最佳的草稿长度和路径数。在后缀树内部,Seer使用后缀概率计算分数来过滤低概率候选者,并通过波束搜索(beam-search)机制返回多个候选路径。在推理引擎端,Seer采用级联注意力(cascade attention)来高效处理具有分组查询注意力(GQA)【2, Gqa: Training generalized multi-query transformer models from multi-head checkpoints, 2023, arXiv preprint arXiv:2305.13245】的多路径草稿。对于具有高算术强度注意力机制的模型,如多头潜在注意力(MLA)【22, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model, 2024, arXiv preprint arXiv:2405.04434】,Seer简单地将它们作为多个注意力操作来处理。
Table 3: 分组草稿服务器API。
Table 4: 草稿客户端API。
7 相关工作
LLM后训练的RL框架。已有许多开源RL框架【15, Openrlhf: An easy-to-use, scalable and high-performance rlhf framework, 2024, arXiv preprint arXiv:2405.11143】【30, Nemo-aligner: Scalable toolkit for efficient model alignment, 2024, arXiv preprint arXiv:2405.01481】【32, Hybridflow: A flexible and efficient rlhf framework, 2025, Proceedings of the Twentieth European Conference on Computer Systems】【40, Trl: Transformer reinforcement learning, 2020, https:// http://github.com/huggingface/trl, Reinforcement learning optimization for large-scale learning: An efficient and user-friendly scaling library, 2025, arXiv preprint arXiv:2506.06122】【47, Deepspeed-chat: Easy, fast and affordable rlhf training of chatgpt-like models at all scales, 2023, arXiv preprint arXiv:2308.01320】【54, slime: An llm post-training framework for rl scaling, 2025, https://github.com/THUDM/slime】致力于实现效率与易用性。这些框架主要关注整体RL训练工作流的编排,但Rollout阶段的长尾问题仍未得到解决 。
在策略(On-Policy)RL优化。一些工作在系统和算法层面优化RL工作流。RealHF【26, Real: Efficient rlhf training of large language models with parameter reallocation, 2024, arXiv preprint arXiv:2406.14088】动态重分配模型参数和内存预算。RLHFuse【52, Optimizing {RLHF} training for large language models with stage fusion, 2025, 22nd USENIX Symposium on Networked Systems Design and Implementation (NSDI 25)】通过阶段融合将奖励和经验计算与Rollout长尾重叠。RLBoost【46, Rlboost: Harvesting preemptible resources for cost-efficient reinforcement learning on llms, 2025, arXiv preprint arXiv:2510.19225】利用可抢占的碎片化GPU资源加速Rollout。然而,这些方法未充分解决长尾延迟问题。对于解码中的长尾问题,推测解码(SD)【17, Fast inference from transformers via speculative decoding, 2023, International Conference on Machine Learning】被认为是一种有效的优化技术。但基于模型的SD在RL场景中因模型漂移和高开销而效果有限。无模型SD方法如RhymeRL【13, History rhymes: Accelerating llm reinforcement learning with rhymerl, 2025, arXiv preprint arXiv:2508.18588】和SPEC-RL【24, Specrl: Accelerating on-policy reinforcement learning via speculative rollouts, 2025, arXiv preprint arXiv:2509.23232】利用历史序列,但这在每次迭代采样不同数据的SOTA模型Rollout中不适用。相比之下,Seer利用同组内请求的相似性,在单次迭代内进行在线上下文学习来提升SD效果。
离策略(Off-Policy)RL优化。近期许多工作【6, Areal: A large-scale asynchronous reinforcement learning system for language reasoning, 2025, arXiv preprint arXiv:2505.24298】【9, Rollpacker: Mitigating long-tail rollouts for fast, synchronous rl post-training, 2025, arXiv preprint arXiv:2509.21009】【11, Asyncflow: An asynchronous streaming rl framework for efficient llm post-training, 2025, arXiv preprint arXiv:2507.01663】【13, History rhymes: Accelerating llm reinforcement learning with rhymerl, 2025, arXiv preprint arXiv:2508.18588】【31, Laminar: A scalable asynchronous rl post-training framework, 2025, arXiv preprint arXiv:2510.12633】【51, Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation, 2025, arXiv preprint arXiv:2504.15930】【53, April: Active partial rollouts in reinforcement learning to tame long-tail generation, 2025, arXiv preprint arXiv:2509.18521】通过牺牲一定程度的离策略行为来提高RL效率,例如尾部裁剪和请求重打包。虽然异步训练提高了效率,但引入了不稳定和精度下降的风险。Seer通过在Rollout阶段内进行在线上下文学习的细粒度调度,显著减少了Rollout尾部延迟,同时保持了与在策略算法的一致性。
A4 实验
实验环境
- 硬件配置:实验平台由32个高性能计算节点组成,每个节点配备8块H800 GPU。根据模型大小和架构,配置不同数量的GPU和并行策略。
-
模型与数据集:实验采用GRPO【29, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv:2402.03300】算法,在三个不同规模和输出特性的模型上进行评估:
- Moonlight【25, Muon is scalable for llm training, 2025, arXiv preprint arXiv:2502.16982】: 32GB大小,使用32个GPU,每个实例1个GPU。
- Qwen2-VL-72B【42, Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution, 2024, arXiv preprint arXiv:2409.12191】: 146GB大小,使用128个GPU,每个实例8个GPU,采用TP8并行。
- Kimi-K2【36, Kimi k2: Open agentic intelligence, 2025, arXiv preprint arXiv:2507.20534】: 1TB大小,使用256个GPU,每个实例32个GPU,采用DP32和EP32并行。
- 具体工作负载特性见下表。
-
软件配置:
- 基线系统: 使用veRL【32, Hybridflow: A flexible and efficient rlhf framework, 2025, Proceedings of the Twentieth European Conference on Computer Systems】,一个同步训练系统,训练和Rollout同地部署。Seer在RL算法逻辑上与同步veRL相同,保证了训练结果的一致性。
- 推理引擎: 为了消除干扰因素,veRL和Seer都使用内部实现的vLLM【16, Efficient memory management for large language model serving with pagedattention, 2023, Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles】作为统一的推理引擎。
Table 5: 模型配置和RL工作负载特性。
实验结果
Rollout吞吐量
- 实验内容:比较Seer与基线同步RL系统veRL的Rollout吞吐量。对每个任务运行10个迭代,测量每个迭代的Rollout完成时间和吞吐量。
- 实验结果:如图7所示,Seer在所有任务上都实现了显著的加速,吞吐量比veRL提高了74%至97%。Seer的完成时间和吞吐量在迭代间的波动性远小于基线系统,这得益于其细粒度的调度和动态负载均衡,减少了资源利用率的随机性。
Figure 7: 三个任务的Rollout吞吐量(每秒输出token数)和完成时间比较。虚线代表10次迭代的平均吞吐量。Seer在不同工作负载下比同步veRL实现了74%到97%的显著吞吐量提升。
长尾时间
- 实验内容:分析Rollout过程中的长尾延迟现象。定义尾部请求为同步系统Rollout中最后完成的10%请求,尾部延迟为专门处理这些请求所花费的时间。
- 实验结果:如图8所示,尾部延迟是Rollout中的一个严重问题,尤其是在内存受限的任务(如Moonlight和Qwen2-VL-72B)中,最后10%的请求消耗了高达50%的总执行时间。Seer通过在线上下文学习和细粒度请求调度,将尾部延迟显著降低了75%至93%。
Figure 8: 三个RL任务的尾部延迟和总时间。
性能提升分解
- 实验内容:通过消融研究量化Seer各优化组件的贡献。从基线开始,逐步增加分区Rollout、上下文感知调度和自适应分组推测解码。
- 实验结果:如表6所示,各组件均有贡献。
- 分区Rollout:通过动态细粒度负载均衡,对内存受限任务提升显著,最高达35%的吞吐量提升。
- 上下文感知调度:利用组内长度信息,采用近似LFS策略,额外带来高达13%的吞吐量提升。如图9所示,Seer在整个Rollout过程中保持了持续高的KVCache内存利用率,并大幅缩短了尾部阶段。
- 自适应分组推测解码:利用模式相似性加速LLM推理,在调度优化的基础上额外贡献了30-44%的性能提升。
Table 6: 三个RL任务的性能提升分解。Context Sched.表示上下文感知调度(§4.3),Grouped SD表示自适应分组推测解码(§4.4)。为最小化迭代间系统方差的影响,我们评估每个任务的第5次迭代(共10次)。
Figure 9: 在Qwen2-VL-72B任务的一次Rollout迭代中,使用Seer的KVCache利用率和平均运行请求数。与基线(图3a)相比,Seer在整个Rollout过程中保持了持续高内存利用率,并大幅缩短了尾部阶段的持续时间。
上下文感知调度有效性
- 实验内容:在Qwen2-VL-72B任务上比较三种调度策略:(1)No-Context(仅分区Rollout),(2)Context-Aware(Seer的策略),(3)Oracle(预知所有请求的真实输出长度并使用精确的LFS策略)。
- 实验结果:如图10所示,仅使用分区Rollout对尾部延迟的改善有限(仅降低6%)。而上下文感知调度将尾部延迟大幅减少了87%,其吞吐量达到了Oracle性能的95%,证明了利用在线预测的长度上下文非常有效。
(a) 归一化的Rollout吞吐量。 (b) 归一化的尾部延迟(定义见§6.2.2)。
Figure 10: 长度上下文对提高吞吐量和减少尾部延迟的影响。No-Context仅应用分区Rollout,不使用长度上下文指导调度。Oracle预先获取所有输出长度并应用LFS策略。
自适应分组推测解码有效性
- 实验内容:通过消融实验回答两个问题:(1)组上下文对SD性能是否有帮助?(2)自适应策略如何增强系统吞吐量?
- 实验结果:如图11所示,与不使用SD的基线相比,Seer的自适应分组SD实现了30%的端到端吞吐量提升。若禁用组上下文共享(No-Context),提升降至19%。若禁用自适应策略(No-Adapt),提升仅为3%。这表明,固定的SD策略在负载变化剧烈的Rollout中效果不佳。如图12所示,Seer的自适应策略能够动态调整草稿长度:在批次大、短请求多时减少草稿,在批次小、长请求多时增加草稿(后期平均接受长度超过3.5),从而优先加速长请求,最大化整体吞吐量。
Figure 11: 在Qwen2-VL-72B任务的第5次Rollout迭代中,不同SD策略的归一化吞吐量。No-SD指禁用推测解码;No-Adapt指禁用自适应调度;No-Context指禁用组内模式上下文共享。
Figure 12: 在Qwen2-VL-72B任务的某个选定实例上,整个Rollout过程中平滑后的平均接受长度(每1分钟平均)的演变。
A5 结论
本文介绍了Seer,一个通过在线上下文学习来加速Rollout过程的同步RL系统。Seer采用分区Rollout这一细粒度且动态负载均衡的调度方法,利用GRPO类算法中同组请求间的相似性,实现了高效的调度和推测解码,同时严格保持与在策略RL算法的一致性。实验结果表明,与基线系统相比,Seer实现了74-97%的吞吐量提升和75-93%的长尾延迟降低。
引用文献汇总
- 【1, Checkpoint engine, 2025, https://github. com/MoonshotAI/checkpoint-engine】: 在第5章“实现”中引用,用于说明Seer中实现高效权重分发和更新的专用检查点引擎。
- 【2, Gqa: Training generalized multi-query transformer models from multi-head checkpoints, 2023, arXiv preprint arXiv:2305.13245】: 在第5章“实现”中引用,用于说明Seer如何使用级联注意力高效处理具有GQA机制的多路径草稿。
- 【4, Evaluating large language models trained on code, 2021, arXiv preprint arXiv:2107.03374】: 在第2.1章“RL for Reasoning LLMs”中引用,作为沙箱奖励模型的一个例子。
- 【5, Enabling efficient batch serving for lmaas via generation length prediction, 2024, 2024 IEEE International Conference on Web Services (ICWS)】: 在第3.2章“Length Context for Efficient Scheduling”中引用,作为先前尝试预测生成长度的工作之一。
- 【6, Areal: A large-scale asynchronous reinforcement learning system for language reasoning, 2025, arXiv preprint arXiv:2505.24298】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,和第7章“Related Work”中引用,作为近期探索异步RL系统以提高硬件利用率的工作之一。
- 【7, Break the sequential dependency of llm inference using lookahead decoding, 2024, arXiv preprint arXiv:2402.02057】: 在第2.2章“Key Challenges in Rollout”和第7章“Related Work”中引用,作为n-gram无模型推测解码方法的例子。
- 【8, Efficient llm scheduling by learning to rank, 2024, Advances in Neural Information Processing Systems】: 在第3.2章“Length Context for Efficient Scheduling”中引用,作为先前尝试预测生成长度的工作之一。
- 【9, Rollpacker: Mitigating long-tail rollouts for fast, synchronous rl post-training, 2025, arXiv preprint arXiv:2509.21009】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,和第7章“Related Work”中引用,作为近期探索(部分)异步RL系统以缓解长尾效应的工作之一。
- 【10, Deepseek-r1 incentivizes reasoning in llms through reinforcement learning, 2025, Nature】: 在第1章“Introduction”,第2.1章“RL for Reasoning LLMs”,第2.2章“Key Challenges in Rollout”和第3.1章“Group Property of GRPO-like Algorithms”中多次引用,作为强化学习在LLM中取得突破的例子,以及GRPO算法的来源文献。
- 【13, History rhymes: Accelerating llm reinforcement learning with rhymerl, 2025, arXiv preprint arXiv:2508.18588】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,和第7章“Related Work”中引用,作为(部分)异步RL和无模型推测解码的工作示例。
- 【14, Brorl: Scaling reinforcement learning via broadened exploration, 2025, arXiv preprint arXiv:2510.01180】: 在第3.1章“Group Property of GRPO-like Algorithms”中引用,作为提议扩大GRPO中组大小(G)以增强探索的工作。
- 【15, Openrlhf: An easy-to-use, scalable and high-performance rlhf framework, 2024, arXiv preprint arXiv:2405.11143】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
- 【16, Efficient memory management for large language model serving with pagedattention, 2023, Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles】: 在第5章“Implementation”和第6.1章“Setup”中引用,作为Seer和基线系统所采用的高效推理引擎vLLM。
- 【17, Fast inference from transformers via speculative decoding, 2023, International Conference on Machine Learning】: 在第1章“Introduction”和第7章“Related Work”中引用,作为推测解码(SD)的开创性工作。
- 【21, Knapsack rl: Unlocking exploration of llms via optimizing budget allocation, 2025, arXiv preprint arXiv:2509.25849】: 在第3.1章“Group Property of GRPO-like Algorithms”中引用,作为提议扩大GRPO中组大小(G)以增强探索的工作。
- 【22, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model, 2024, arXiv preprint arXiv:2405.04434】: 在第5章“实现”中引用,作为具有高算术强度注意力机制(MLA)的模型的例子。
- 【24, Specrl: Accelerating on-policy reinforcement learning via speculative rollouts, 2025, arXiv preprint arXiv:2509.23232】: 在第7章“Related Work”中引用,作为利用历史序列进行无模型推测解码的RL优化工作。
- 【25, Muon is scalable for llm training, 2025, arXiv preprint arXiv:2502.16982】: 在第1章“Introduction”的表1和第6.1章“Setup”的表5中引用,作为实验评估中使用的模型之一。
- 【26, Real: Efficient rlhf training of large language models with parameter reallocation, 2024, arXiv preprint arXiv:2406.14088】: 在第2.1章“RL for Reasoning LLMs”和第7章“Related Work”中引用,作为优化RLHF工作流的系统级工作。
- 【28, Mooncake: Trading more storage for less computation—a {KVCache-centric} architecture for serving {LLM} chatbot, 2025, 23rd USENIX Conference on File and Storage Technologies (FAST 25)】: 在第1章“Introduction”,第3.3章“Pattern Context for Efficient Inference”和第4.2章“Divided Rollout”中引用,Seer的全局KVCache池设计继承自该工作。
- 【29, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv preprint arXiv:2402.03300】: 在第1章“Introduction”,第2.1章“RL for Reasoning LLMs”和第6.1章“Setup”中引用,作为GRPO算法的来源文献。
- 【30, Nemo-aligner: Scalable toolkit for efficient model alignment, 2024, arXiv preprint arXiv:2405.01481】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
- 【31, Laminar: A scalable asynchronous rl post-training framework, 2025, arXiv preprint arXiv:2510.12633】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,和第7章“Related Work”中引用,作为近期提出异步RL工作流的工作之一。
- 【32, Hybridflow: A flexible and efficient rlhf framework, 2025, Proceedings of the Twentieth European Conference on Computer Systems】: 在第6.1章“Setup”和第7章“Related Work”中引用,作为实验的基线系统veRL,也是一个开源RL框架。
- 【33, Megatron-lm: Training multi-billion parameter language models using model parallelism, 2019, arXiv preprint arXiv:1909.08053】: 在第5章“Implementation”中引用,作为Seer训练阶段使用的分布式模型训练框架。
- 【34, Llm-as-a-judge & reward model: What they can and cannot do, 2024, arXiv preprint arXiv:2409.11239】: 在第1章“Introduction”的表1和第2.1章“RL for Reasoning LLMs”中引用,作为LLM-as-a-Judge奖励模型的一个例子。
- 【35, Llumnix: Dynamic scheduling for large language model serving, 2024, 18th USENIX symposium on operating systems design and implementation (OSDI 24)】: 在第4.2章“Divided Rollout”中引用,作为用于在线服务的实时迁移系统,与Seer的离线推理场景进行对比。
- 【36, Kimi k2: Open agentic intelligence, 2025, arXiv preprint arXiv:2507.20534】: 在第1章“Introduction”和“Introduction”的表1,第2.1章“RL for Reasoning LLMs”,以及第6.1章“Setup”的表5中引用,作为实验评估中使用的模型之一,及其在模型卸载和检查点更新方面的优化工作。
- 【37, Kimi k1.5: Scaling reinforcement learning with llms, 2025, arXiv preprint arXiv:2501.12599】: 在第1章“Introduction”和第2.2章“Key Challenges in Rollout”中引用,作为RL在复杂推理中取得突破的例子。
- 【39, vllm: A high-throughput and memoryefficient inference and serving engine for llms, 2025, https: //http://github.com/vllm-project/vllm】: 在第2.2章“Key Challenges in Rollout”中引用,作为n-gram无模型推测解码方法的例子。
- 【40, Trl: Transformer reinforcement learning, 2020, https:// http://github.com/huggingface/trl】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
- 【41, Opt-tree: Speculative decoding with adaptive draft tree structure, 2025, Transactions of the Association for Computational Linguistics】: 在第5章“Implementation”中引用,作为Seer实现的多路径草稿技术的变体来源。
- 【42, Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution, 2024, arXiv preprint arXiv:2409.12191】: 在第1章“Introduction”的表1和第6.1章“Setup”的表5中引用,作为实验评估中使用的模型之一。
- 【43, Reinforcement learning optimization for large-scale learning: An efficient and user-friendly scaling library, 2025, arXiv preprint arXiv:2506.06122】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
- 【45, Linear pattern matching algorithms, 1973, 14th Annual Symposium on Switching and Automata Theory (swat 1973)】: 在第1章“Introduction”和第2.2章“Key Challenges in Rollout”中引用,作为Seer分组推测解码中使用的核心数据结构——压缩后缀树(CST)的来源。
- 【46, Rlboost: Harvesting preemptible resources for cost-efficient reinforcement learning on llms, 2025, arXiv preprint arXiv:2510.19225】: 在第7章“Related Work”中引用,作为优化在策略RL的工作之一。
- 【47, Deepspeed-chat: Easy, fast and affordable rlhf training of chatgpt-like models at all scales, 2023, arXiv preprint arXiv:2308.01320】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
- 【48, Dapo: An open-source llm reinforcement learning system at scale, 2025, arXiv preprint arXiv:2503.14476】: 在第3.1章“Group Property of GRPO-like Algorithms”中引用,作为改进GRPO的工作之一。
- 【49, Group sequence policy optimization, 2025, arXiv preprint arXiv:2507.18071】: 在第3.1章“Group Property of GRPO-like Algorithms”中引用,作为改进GRPO的工作之一。
- 【50, Sglang: Efficient execution of structured language model programs, 2024, Advances in neural information processing systems】: 在第3.3章“Pattern Context for Efficient Inference”中引用,作为精确前缀匹配的例子,与Seer的模式相似性进行对比。
- 【51, Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation, 2025, arXiv preprint arXiv:2504.15930】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,第3.2章“Length Context for Efficient Scheduling”,和第7章“Related Work”中引用,作为近期提出异步RL工作流和预测生成长度的工作之一。
- 【52, Optimizing {RLHF} training for large language models with stage fusion, 2025, 22nd USENIX Symposium on Networked Systems Design and Implementation (NSDI 25)】: 在第2.1章“RL for Reasoning LLMs”和第7章“Related Work”中引用,作为通过阶段融合优化RLHF工作流的系统级工作。
- 【53, April: Active partial rollouts in reinforcement learning to tame long-tail generation, 2025, arXiv preprint arXiv:2509.18521】: 在第1章“Introduction”,第2.2章“Key Challenges in Rollout”,和第7章“Related Work”中引用,作为近期提出(部分)异步RL工作流以解决长尾问题的工作之一。
- 【54, slime: An llm post-training framework for rl scaling, 2025, https://github.com/THUDM/slime 】: 在第7章“Related Work”中引用,作为一个开源RL框架的例子。
💬 评论讨论
欢迎在这里分享您的想法和见解!