ProRL：持续强化学习扩展大型语言模型的推理边界
作者/机构: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong (NVIDIA)

A1 主要贡献

本文探讨了强化学习（RL）在提升大型语言模型（LLM）推理能力方面的核心问题：RL究竟是解锁了模型新的推理能力，还是仅仅优化了基础模型中已存在的解决方案的采样效率。研究者们挑战了“RL无法扩展模型推理边界”的普遍观点，认为以往的结论可能源于方法上的限制，如过度依赖模型已过拟合的特定领域（如数学）以及RL训练时间过短。

为了解决这些限制，本文提出了ProRL（Prolonged Reinforcement Learning，持续强化学习），一种新的训练方法论，其核心贡献和发现如下：

提出ProRL方法: 该方法旨在支持长时间的RL训练，以促进模型对推理策略的深度探索。ProRL整合了三个关键技术：
- KL散度控制 (KL divergence control)：通过KL散度惩罚项来维持训练过程中的熵，防止策略过早崩溃。
- 参考策略重置 (Reference policy resetting)：周期性地将参考策略重置为当前策略的快照，以避免训练停滞并鼓励持续探索。
- 多样化任务套件 (Diverse suite of tasks)：在包括数学、代码、STEM问题、逻辑谜题和指令遵循等多个领域的庞大数据集上进行训练，以增强模型的泛化能力。
开发了高性能的1.5B模型: 基于ProRL，研究者们训练出了Nemotron-Research-Reasoning-Qwen-1.5B模型。该模型在多个基准测试中显著优于其1.5B参数的基础模型，甚至在某些方面能媲美或超越7B参数的模型。具体性能提升如图1（右）所示：在数学基准上pass@1平均提升14.7%，代码提升13.9%，逻辑谜题提升54.8%，STEM推理提升25.1%，指令遵循提升18.1%。
证明RL可以发现新推理路径: 本研究通过详尽的实验分析表明，经过长时间的RL训练，模型能够发现基础模型（即使在大量采样下）完全无法触及的新颖解决方案。特别是在一些基础模型成功率为0的任务上，ProRL训练后的模型可以达到100%的成功率。
揭示RL性能提升与训练时长的关系: ProRL的训练过程显示，模型的性能（pass@1和pass@16）随着训练步数的增加而持续提升（超过2000步），这表明RL训练能够有效地随着计算量的增加而扩展（图1，左）。同时，ProRL训练出的模型在推理轨迹上的新颖性（通过创造力指数衡量）也更高（图1，中），意味着模型在训练中涌现了新的推理模式。
分析了RL有效性的条件: 研究发现，RL对模型推理边界的扩展效果与基础模型在该任务上的初始能力密切相关。在基础模型表现较差的领域，ProRL的效果最显著；而在基础模型已经表现很好的领域，RL带来的增益则较小。

图 1: 持续强化学习（ProRL）的益处。左：pass@1和pass@16随着ProRL训练的进行而扩展。中：ProRL带来了更多新颖的解决方案，这体现在更高的创造力指数【12，AI as Humanity’s Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text，2025】上。右：我们的模型在多样化任务上大大超过了基础模型。

A2 方法细节

2 ProRL: 持续强化学习

本节首先简要概述了GRPO算法，然后通过引入KL散度惩罚和周期性重置参考策略，解决了长时间RL训练中的熵崩溃和不稳定性等关键挑战，从而确保了模型在多个训练周期内稳定训练并持续提升性能。

2.1 背景：组相对策略优化（Group Relative Policy Optimization）

GRPO作为核心RL算法。本文采用组相对策略优化（GRPO）【16，Deepseekmath: Pushing the limits of mathematical reasoning in open language models，2024，arXiv preprint arXiv:2402.03300】作为核心的强化学习算法。与近端策略优化（PPO）【17，Proximal policy optimization algorithms，2017】相比，GRPO移除了价值模型，转而使用基于组得分的基线估计。GRPO最大化的目标函数如下所示：

其中，$\tau$是从当前策略$\pi_{\theta}$中采样的响应。$r_{\theta}(\tau) = \frac{\pi_{\theta}(\tau)}{\pi_{old}(\tau)}$是当前策略与每次actor更新前的旧策略之间的概率比。GRPO中使用的优势函数放弃了PPO的评论家模型，而是从一组得分$\{R_i\}_{i \in G(\tau)}$中估计基线：

2.2 持续强化学习（ProRL）

2.2.1 缓解熵崩溃

熵崩溃是长时间策略优化的关键挑战。在长时间的策略优化中，一个关键挑战是熵崩溃，即模型输出分布在训练早期变得过于尖锐，导致熵急剧下降。当熵崩溃时，策略会过早地锁定在一小组输出上，严重限制了探索。这在GRPO等方法中尤其有害，因为其学习信号依赖于多样的采样输出来有效估计相对优势。没有充分的探索，策略更新会产生偏差，导致训练停滞。

采样温度仅能延迟熵崩溃。一种常见的缓解策略是在rollout期间增加采样温度。然而，我们发现这种方法只能延迟熵崩溃的发生，而不能完全阻止它，因为随着训练的进行，熵仍然会持续下降。尽管如此，我们还是采用了较高的rollout温度，因为它通过增加初始熵来鼓励探索。

2.3 解耦裁剪和动态采样策略优化（DAPO）

采用DAPO组件维持探索。为了解决熵崩溃问题，我们采用了DAPO算法【4，DAPO: An open-source llm reinforcement learning system at scale，2025】中的几个组件，这些组件专门设计用于维持探索和输出多样性。首先，DAPO引入了解耦裁剪（decoupled clipping），其中PPO目标函数中的下限和上限裁剪边界被视为独立的超参数：

通过为$\epsilon_{high}$设置一个较高的值，算法可以促进“更高裁剪”（clip-higher），提升先前不太可能的token的概率，从而鼓励更广泛的探索。我们发现这种修改有助于保持熵，并减少过早的模式崩溃。

动态采样以维持学习信号的多样性。此外，DAPO采用动态采样（dynamic sampling），过滤掉模型持续成功或失败（即准确率为1或0）的提示，因为这些提示不提供学习信号。这种专注于中等难度样本的方法进一步帮助在训练期间维持多样化的学习信号。

2.3.1 KL正则化与参考策略重置

KL散度惩罚作为更稳定的解决方案。尽管DAPO和温度调整有助于减缓熵崩溃，但我们发现通过KL散度惩罚进行显式正则化提供了一个更强大和更稳定的解决方案。具体来说，我们引入了当前策略$\pi_{\theta}$和参考策略$\pi_{ref}$之间的KL惩罚项：

这个惩罚项不仅有助于维持熵，还作为一个正则化器，防止在线策略偏离稳定的参考点太远，从而稳定学习过程并减轻对虚假奖励信号的过拟合。

在特定情境下保留KL惩罚的必要性。近期的一些工作【4，DAPO: An open-source llm reinforcement learning system at scale，2025；7，Deepcoder: A fully open-source 14b coder at o3-mini level，2025；5，Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks，2025；18，Skywork open reasoner series，2025】主张移除KL惩罚，理由是模型在思维链（chain-of-thought）推理任务的训练中会自然发散。我们观察到，这种观点通常适用于未经任何监督微调的基础模型。相比之下，我们从一个已经能够生成连贯CoT输出的良好初始化检查点（DeepSeek-R1-Distill-Qwen-1.5B）开始。在这种情况下，保留KL惩罚对于稳定性和持续的熵都是有益的。

通过参考策略重置避免训练停滞。我们进一步观察到，随着训练的进行，KL项可能会逐渐主导损失函数，导致策略更新减弱。为了缓解这个问题，我们引入了一种简单而有效的技术：参考策略重置（reference policy reset）。我们会周期性地将参考策略$\pi_{ref}$硬重置为在线策略$\pi_{\theta}$的较新快照，并重新初始化优化器状态。这使得模型能够在保持KL正则化益处的同时继续改进。我们在整个训练过程中应用此重置策略，以避免过早收敛并鼓励长时间训练。

3 Nemotron-Research-Reasoning-Qwen-1.5B: 全球最佳的1.5B推理模型

模型介绍与主要成果。我们推出了Nemotron-Research-Reasoning-Qwen-1.5B，这是一个通过强化学习在包含13.6万个问题的多样化、可验证数据集上训练的通用模型，涵盖数学、代码、STEM、逻辑谜题和指令遵循等领域。利用稳定的奖励计算、改进的GRPO和长时间的训练，我们的模型在各个领域都实现了强大的泛化能力。它在数学方面比DeepSeek-R1-Distill-Qwen-1.5B提升了15.7%，代码方面提升了14.4%，STEM方面提升了25.9%，指令遵循方面提升了22.0%，在基于文本的逻辑谜题Reasoning Gym上提升了54.8%。它还超越了领域专门化的基线模型，在数学（+4.6%）和代码（+6.5%）方面都表现更优，证明了通用性长时间RL训练的有效性。

3.1 训练数据集

构建多样化可验证的数据集。我们构建了一个包含13.6万个样本的多样化且可验证的训练数据集，涵盖数学、代码、STEM、逻辑谜题和指令遵循五个任务领域，以便从广泛的推理问题中进行稳健的强化学习。每种任务类型都配有明确的奖励信号（二元或连续），从而在训练期间提供可靠的反馈。这种广泛的任务覆盖范围鼓励模型超越狭窄领域的泛化能力，并能在不同的奖励结构下对RL算法进行有意义的比较。训练数据集的组成细节在附录D中呈现。

3.2 训练设置

详细的训练配置。我们使用verl【19，Hybridflow: A flexible and efficient rlhf framework，2025，EuroSys ’25】进行强化学习训练。我们采用了DAPO【4，DAPO: An open-source llm reinforcement learning system at scale，2025】提出的GRPO【16，Deepseekmath: Pushing the limits of mathematical reasoning in open language models，2024，arXiv preprint arXiv:2402.03300】增强功能，解耦了裁剪超参数，设置$\epsilon_{low} = 0.2$和$\epsilon_{high} = 0.4$，并使用动态采样来过滤过易或过难（准确率为1和0）的提示。在rollout阶段，我们为每个提示采样$n=16$个响应，上下文窗口限制为8096，并使用1.2的高采样温度。我们将批量大小设置为256，小批量大小设置为64（相当于每个rollout步骤进行4次梯度更新）。我们使用AdamW【20，Decoupled weight decay regularization，2019】优化器，学习率恒定为$2 \times 10^{-6}$。我们在4个8 x NVIDIA-H100-80GB节点上进行训练，整个训练过程大约耗时16k GPU小时。

3.3 ProRL训练动态

监控与调整训练过程。为了实现有效的长时程强化学习，我们使用一个从评估基准中衍生的混合验证集来监控训练进展。当验证性能停滞或下降时，我们会对参考模型和优化器进行硬重置。这不仅恢复了训练的稳定性，还促进了策略与基础模型之间更大的差异化。在大部分训练过程中，我们将响应长度限制在8k个token，以保持生成内容的简洁和稳定。在最后阶段（约200步），我们将上下文窗口增加到16k个token，并观察到模型能迅速适应并取得了可观的改进。我们的训练方案详见附录E。

训练动态统计分析。图2展示了在多阶段扩展强化学习过程中关键的训练动态统计数据。应用DAPO【4，DAPO: An open-source llm reinforcement learning system at scale，2025】提出的各种增强功能，以及加入KL散度损失，帮助模型避免了熵崩溃。尽管我们观察到平均响应长度与验证分数之间存在正相关关系，但这个因素似乎并非决定性的，因为在某些训练阶段，性能的提升并不需要更长的响应。与此同时，由pass@1和pass@16衡量的验证性能持续改善，并随着训练计算量的增加而扩展。

图 2: ProRL训练动态。

A4 实验环境

数据集:
- 名称与规模: 训练集共13.6万个样本，覆盖五个领域：数学（40K）、代码（24K）、STEM（25K）、逻辑谜题（37K）和指令遵循。
- 来源与用途:
  - 数学: 来自DeepScaleR【3】，包含各类数学竞赛题，用于训练数学推理。
  - 代码: 来自PRIME【28】，包含编程竞赛题，用于训练代码生成。
  - STEM: 来自SCP-116K【57】，经过筛选的科学问题-解决方案对，用于训练科学推理。
  - 逻辑谜题: 来自Reasoning Gym项目，包含96种逻辑任务，用于训练多种逻辑推理技能。
  - 指令遵循: 来自Llama-Nemotron【58】的合成数据，格式类似IFEval【36】，用于提升模型的指令遵循能力。
- 评估基准: AIME、AMC、MATH、OlympiadBench（数学）；APPS、Codecontests、Codeforces、TACO、HumanevalPlus、LiveCodeBench（代码）；GPQA Diamond（STEM）；IFEval（指令遵循）；Reasoning Gym保留样本（逻辑谜题）。
模型架构:
- 基础模型: DeepSeek-R1-Distill-Qwen-1.5B。
- 训练后模型: Nemotron-Research-Reasoning-Qwen-1.5B。
- 上下文窗口: 训练时大部分为8k，最后阶段扩展到16k；评估时最大长度32k。
硬件配置:
- GPU: 4个节点，每个节点配备8块NVIDIA H100 80GB GPU（共32块）。
- 总计算量: 约16,000 GPU小时。
软件配置:
- 代码实现: 使用verl【19】框架进行强化学习训练。
- 依赖库: 使用vllm【37】作为推理后端。
- 算法: 核心为GRPO【16】，并集成了DAPO【4】的增强功能（解耦裁剪、动态采样）。
- 优化器: AdamW【20】，学习率为$2 \times 10^{-6}$。

A4 实验结果

实验评估在数学、代码、STEM推理、指令遵循和逻辑谜题等多个领域展开，旨在全面评估ProRL训练方法的有效性。

1. 跨领域性能对比
* 实验内容: 将训练后的Nemotron-Research-Reasoning-Qwen-1.5B模型与基础模型DeepSeek-R1-Distill-Qwen-1.5B以及一个更大的DeepSeek-R1-Distill-Qwen-7B模型进行比较。
* 实验结果:
* 数学 (表1): 我们的模型在所有数学基准上均优于基础模型，pass@1平均提升15.7%。
* 代码 (表2): 在竞争性编程任务上，pass@1准确率比基础模型高14.4%。
* STEM、指令遵循和逻辑谜题 (表3): 在GPQA Diamond上提升25.9%，IFEval上提升22.0%，Reasoning Gym逻辑谜题上奖励提升54.8%。
* 与7B模型相比，我们的1.5B模型在多个领域取得了可比甚至更好的性能。
* 分析结论: ProRL训练显著提升了模型在所有评估领域的性能，证明了该方法的通用性和有效性。

2. 泛化到分布外（OOD）任务
* 实验内容: 在模型训练期间未见过的Reasoning Gym任务（acre, boxnet, game_of_life_halting）上进行评估。
* 实验结果 (表3): 我们的模型在三个OOD任务上均表现出显著的性能提升。
* 分析结论: ProRL训练方法能够使模型学习到更抽象的推理模式，从而具备更强的泛化能力，能够适应并解决未见过的挑战。

3. 与领域专用模型的比较
* 实验内容: 与专为数学推理设计的DeepScaleR-1.5B【3】和专为编程设计的DeepCoder-1.5B【7】进行比较。
* 实验结果: 我们的模型在数学（+4.6%）和代码（+6.5%）基准上均取得了更高的pass@1分数。
* 分析结论: ProRL训练的通用模型能够实现强大的泛化能力，其性能甚至超越了在特定领域精调的专用模型。

4. ProRL对推理边界扩展的深入分析
* 实验内容: 通过增加推理采样量（至256次）来评估pass@k，比较基础模型、中间检查点和最终模型在不同任务上的表现。
* 实验结果与分析:
* 增益与初始能力的关系 (图3): RL带来的性能增益与基础模型的初始能力呈负相关。基础模型表现越差的任务，通过ProRL获得的提升越大。反之，对于基础模型已熟练掌握的任务，RL的增益较小，这些任务的创造力指数也较低，表明其与预训练数据高度重叠。
* 推理边界的演化模式 (图4): ProRL对推理边界的影响可分为三种情况：
1. 边界收缩 (Diminish): 在某些数学任务上，虽然pass@1提升，但pass@128下降，表明模型输出分布变窄，牺牲了探索性。
2. 增益停滞 (Plateau): 在一些任务上，性能增益主要在训练早期实现，后续长时间训练带来的好处有限。
3. 持续增益 (Sustained): 在复杂任务（如编程）上，随着训练的延长，推理能力持续提升，表明ProRL成功扩展了推理边界。
* OOD推理与任务难度扩展 (图5, 6):
* 在OOD任务boxnet上，基础模型完全无法解决，而ProRL模型则表现出很强的解决能力，且能力随训练延长而增强（图5）。
* 在增加难度的graph_color任务上（使用比训练时更大的图），ProRL模型在所有难度级别上都保持了显著更高的准确率（图6）。
* pass@1分布的演变 (图7): ProRL训练显著地将pass@1的分布向右移动，尤其是在代码（codeforces）和新颖的逻辑谜题（family_relationships）等任务上，从大部分为零准确率转变为集中在高准确率区域。这解释了为何pass@k能够持续提升。

表 1: 数学领域基准测试的性能（pass@1）比较。最佳结果以粗体突出显示。DeepSeek-R1-Distill-Qwen-7B的结果标记为灰色，并作为参考（在所有后续表格中相同）。

表 2: 代码基准测试的性能（pass@1）比较。我们缩写了基准名称：condecontests (cc)、codeforces (cf)、humanevalplus (human)和livecodebench (LCB)。

表 3: STEM推理（GPQA Diamond）、指令遵循（IFEval）和逻辑谜题（Reasoning Gym）任务的性能比较。我们还展示了OOD任务的结果：acre、boxnet和game_of_life_halting (game)。

图 3: 左：ProRL在基础模型初始表现较差的任务上最有效地扩展了模型的推理边界。右：RL后增益最小的任务（圈中高亮部分）往往具有较低的创造力指数，表明与预训练数据的重叠度较高。

图 4: 基础模型、一个中间检查点和最终RL训练模型的pass@k比较。趋势分为三种模式：（1）减弱（Diminish）：由于输出分布变窄导致多样性降低；（2）停滞（Plateau）：RL早期推理边界增益饱和；（3）持续（Sustained）：随着长时间训练，推理边界持续改善。

图 5: OOD任务boxnet的扩展推理边界。

图 6: ProRL在graph_color任务上泛化到增加的任务难度。

图 7: 在两个代表性任务上，经过长时间RL训练后pass@1准确率的分布变化。该图展示了从代码（a）codeforces和推理领域（b）family_relationships中选定任务的pass@1概率分布的演变。

A5 结论

本文旨在回答强化学习（RL）是否能真正扩展语言模型推理边界的问题。通过引入ProRL（持续强化学习）方法，研究提供了强有力的证据，表明延长且稳定的RL训练能够发展出超越基础模型初始能力的新颖推理模式。

ProRL通过结合KL散度惩罚和周期性的参考策略重置，来维持长时间训练的稳定性。基于此方法，研究者在一个涵盖数学、代码、STEM、逻辑谜题和指令遵循等任务的多样化数据集上，成功训练出一个业界领先的1.5B参数通用推理模型。

分析揭示，ProRL在基础模型初始表现不佳的任务上尤为有效。更重要的是，ProRL能够实现向分布外（OOD）任务和日益复杂问题的强大泛化能力，这表明长时间的RL训练有助于模型内化可迁移的抽象推理模式。

这些发现挑战了先前关于RL局限性的假设，并证实了只要有足够的训练时间和适当的技术，RL就能有意义地扩展模型的推理边界，为开发更强大的推理模型提供了宝贵的方向。

A6 附录

A 局限性

计算资源。尽管ProRL方法取得了令人印象深刻的结果，但其扩展的RL训练过程需要大量的计算资源，这对于小型组织或预算有限的研究人员可能是个障碍。我们的方法涉及多个训练阶段、周期性重置以及长推理链的采样，进一步加剧了这些需求。

可扩展性担忧。虽然我们展示了对1.5B参数模型的有效训练，但该方法能否很好地扩展到更大的模型仍不清楚。随着参数数量的增加，计算需求的增长会更加显著。

训练过程挑战。我们的方法需要周期性地对参考策略和优化器参数进行硬重置以维持训练稳定性。这给训练过程增加了额外的复杂性，并且与更稳定的训练方法相比，可能会导致结果不一致。

有限的任务范围。尽管我们的评估涵盖了不同领域，但训练数据集仍然只代表了所有可能推理任务的一个子集。在某些分布外任务上的表现显示出有希望的泛化能力，但我们不能保证在所有未明确包含在我们训练或评估中的潜在推理领域都能获得类似的改进。

B 社会影响

潜在益处与机遇。ProRL的开发对AI研究社区和整个社会都有重大影响。通过增强语言模型跨领域的推理能力，这种方法既创造了机遇也带来了挑战。ProRL表明，只要有足够的计算资源，当前的RL方法有潜力实现超人的推理能力。我们训练的较小的1.5B参数模型，为资源有限的个人、研究人员和组织提供了获取先进AI能力的机会，尤其在教育领域。该方法通过其成本效益、减少的能耗和较低的计算需求，为更广泛的受众提供了先进的推理能力。如分析所示，初始性能较低的任务通过延长训练往往能获得持续增益，这为解决医疗、气候科学和无障碍技术等关键领域的推理挑战创造了机会。小型但功能强大的模型可以本地部署，增强了安全和隐私保护，适用于金融、法律和医疗等敏感应用。此外，这些模型的适应性和低延迟使其成为AI助教、科研支持和专业问题解决工具等实时应用的理想选择。

伦理考量与挑战。尽管存在这些机遇，ProRL也带来了重要的伦理问题。大量的训练计算需求可能会加剧AI开发中的资源不平等，而增强的推理能力如果部署不当，可能导致更复杂的滥用。随着这些系统在某些推理任务上从无能力过渡到高能力，持续监控变得至关重要。未来的工作应将ProRL技术与明确的价值对齐方法相结合，并开发随模型能力演变的动态评估基准，以确保全面评估不同背景和社区的进展与风险。

C 示例提示

C.1 图着色示例

问题：请为该图提供一种着色方案，使得每个顶点都与其相连的顶点颜色不同。该图具有以下属性：
顶点：[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
边：[(0, 1), (0, 7), (0, 9), (1, 4), (2, 4), (3, 5), (3, 6), (6, 8), (7, 9)]
可选颜色：[1, 2, 3]
请以JSON映射的形式返回您的解决方案（例如：{"0": 1, "1": 2, "2": 3}）。

C.2 家庭关系示例

问题：John与Isabella结婚。他们有一个孩子叫Edward。Edward与Victoria结婚。
Isabella与Edward是什么关系？请仅用描述他们关系的词语回答。

C.3 Boxnet示例

问题：
你是一名中央规划员，任务是指导网格状场地中的智能体将彩色箱子移动到相应颜色的目标位置。每个智能体占据一个1x1的方格，只能与自己方格内的物体互动。智能体可以将箱子移动到相邻方格或直接移动到相同颜色的目标方格。一个方格可以包含多个箱子和目标。方格由其中心坐标标识（例如，square[0.5, 0.5]）。动作格式为：move(box_color, destination)，其中box_color是箱子的颜色，destination是相同颜色的目标或相邻方格。你的目标是创建一系列动作计划，指导每个智能体以最有效的方式将所有箱子匹配到其颜色编码的目标。
在指定你的行动计划时，请遵守以下规则：
1. 每个智能体单个动作：每次只给每个智能体分配一个动作。但最终答案应为多步骤的行动计划列表。
2. 唯一的智能体键：在JSON格式的行动计划中为每个智能体使用唯一的键。键应为智能体的坐标，格式为"Agent[x, y]"。
3. 优先匹配箱子与目标：始终优先选择将箱子匹配到目标的动作，而不是将箱子移动到相邻方格。
4. 顺序行动规划：返回的整个答案应为多步骤的行动计划列表，不要只返回一步计划。
5. 清晰的格式：确保行动计划以JSON格式清晰地呈现，每个智能体的动作都指定为键值对。
6. 冲突解决：确保没有两个智能体被分配的动作会相互干扰。
7. 优化效率：旨在最小化将所有箱子与其目标匹配所需的移动次数。
以下是你的行动计划格式：
请以行动字典列表的形式提供你的最终答案。例如：

[{"Agent[0.5, 0.5]": "move(box_blue, square[0.5, 1.5])",
"Agent[1.5, 0.5]": "move(box_red, target_red)"},
{"Agent[0.5, 1.5]": "move(box_blue, target_blue)",
"Agent[2.5, 0.5]": "move...}, {...}...]

只有当智能体有下一个任务要执行时，才将其包含在行动计划中。
当前剩余的箱子和智能体是：
Agent[0.5, 0.5]: 我在square[0.5, 0.5]，我能观察到 ['box_red', 'target_red', 'box_blue', 'target_blue', 'box_green', 'target_green']，我能做 ['move(box_red, square[0.5, 1.5])', 'move(box_red, target_red)', 'move(box_blue, square[0.5, 1.5])', 'move(box_blue, target_blue)', 'move(box_green, square[0.5, 1.5])', 'move(box_green, target_green)']
Agent[0.5, 1.5]: 我在square[0.5, 1.5]，我能观察到 []，我能做 []

D 训练数据集

多样化任务的设定。我们在广泛的任务上进行训练，这些任务提供可验证的奖励信号，详见表4。这些任务涵盖了从传统的推理领域（如数学问题解决和代码生成）到更复杂和开放的领域（包括STEM相关问题解决、逻辑谜题和指令遵循）。包含如此多样化的任务集有两个关键目的。首先，它拓宽了模型对各种推理模式的接触，鼓励其泛化到狭窄的、特定领域的行为之外。这对于开发能适应新的或未见过的任务表述的模型尤其关键。其次，任务的多样性使得对RL算法的评估更为严格，因为它测试了算法在根本不同的环境和奖励结构下学习稳健决策策略的能力。

表 4: 实验中使用的训练数据概览，按领域、奖励类型（二元或连续）、数据集大小和来源分类。这些数据集涵盖了一系列推理、编码、STEM和指令遵循任务。

D.1 数学

数学数据集的构建与奖励机制。我们使用了由DeepScaleR【3，Deepscaler: Surpassing o1-preview with a 1.5b model by scaling rl，2025，Notion Blog】提供的高质量、社区策划的数据集。训练集包含来自各种国内和国际数学竞赛的4万个数学问题。我们采用了DeepScaleR的原始验证器，并用一个改进的math-verify进行增强。我们通过提示模型“Let's think step by step”并要求其在\boxed{}内输出最终答案来获取LLM的回答。我们使用二元奖励信号，如果LLM的回答通过了原始或增强的math-verify，则得分为1，否则为0（对于不正确或格式错误的答案）。

D.2 代码

代码数据集的构建与奖励机制。我们利用了包含2.4万个编程问题的公开强化学习数据集【28，Process reinforcement through implicit rewards，2025，arXiv preprint arXiv:2502.01456】，这些问题来源于各种编程竞赛。为了支持连续奖励反馈，我们改进了代码执行环境，使其能运行所有测试用例而不是在第一个错误时终止，并根据通过的测试用例比例来分配奖励。未能编译、包含语法错误或总超时超过5秒的提交被分配为零奖励。我们还指示LLM将其最终代码响应包含在三个反引号内。

D.3 STEM

STEM数据集的构建与筛选。我们使用了SCP-116K【57，Scp-116k: A high-quality problem-solution dataset and a generalized pipeline for automated extraction in the higher education science domain，2025】，这是一个大规模数据集，包含27.4万个科学问题-解决方案对，涵盖物理、化学、生物和数学等多个领域。每个问题都附有从原始源文本中提取的相应解决方案，以及由DeepSeek-R1生成的模型响应和推理路径。鉴于SCP-116K是从异构且可能嘈杂的来源自动提取的，我们应用了严格的数据筛选。首先，我们移除了那些无法从源文本中检索到真实解决方案的问题。然后，我们使用GPT-4o作为裁判，评估DeepSeek-R1的响应是否与真实答案一致。只有答案一致的问题被保留，从而将数据集从原始条目减少到2.5万条。

D.4 逻辑谜题 (Reasoning Gym)

Reasoning Gym数据集的适用性与生成。逻辑谜题因其广泛覆盖了不同的推理技能，以及清晰的目标和评估指标，非常适合用于推理模型的训练。我们利用了Reasoning Gym项目，该项目提供了跨越代数、算术、计算、认知、几何、图论、逻辑和流行游戏等多个领域的约100个任务。为了方便模型训练和评估，我们生成了一个大型数据集，包含3.7万个合成训练样本和9600个验证样本，涵盖96个任务。值得注意的是，一些任务有唯一的解决方案，而另一些任务，如魔方和倒计时游戏，则允许多个正确答案。我们使用Reasoning Gym仓库提供的验证器作为模型评估和强化学习训练的信号。我们使用了推荐的默认提示，指示模型将答案包含在<answer> </answer>标签之间。

D.5 指令遵循

指令遵循数据集的构建。为了增强模型的指令遵循能力，我们利用了Llama-Nemotron【58，Nemotron-4 340b technical report，2024】生成的合成数据，其数据格式类似于IFEval【36，Instruction-following evaluation for large language models，2023】。具体来说，该数据集包含将任务与随机选择的指令配对的合成提示。例如，一个提示可能要求模型“写一篇关于机器学习的文章”，而指令则指定“你的回答应包含三段”。我们没有添加关于格式的进一步指令，并在模型思考（ token）后获取其响应。

E 训练方案

训练监控。我们构建了一个混合验证数据集，以在训练过程中密切监控进展。该验证集包括我们评估基准的子集，特别是AIME2024、Codeforces、GPQA-diamond、IFEval，以及来自Reasoning Gym的逻辑谜题graph_color。我们使用与评估设置类似的采样参数来评估模型性能（除了我们使用与训练中相同的上下文窗口）。

参考模型与优化器重置。如2.3.1节所述，我们偶尔会对参考模型和优化器进行硬重置，尤其是在验证指标显著下降或改进停滞时。有趣的是，硬重置不仅恢复了训练的稳定性，还提供了一个调整训练超参数和引入增强功能（如额外的训练数据和奖励塑造）的机会。图8展示了训练过程中的KL散度。最终的训练方案包括以下几个连续阶段。

图 8: 训练过程中的KL散度。我们在训练期间周期性地重置参考策略和优化器状态。

运行 1: 我们从附录D中的四个任务开始训练，最初未包括指令遵循数据。在此阶段，我们将响应长度限制在8k，而基础模型的序列长度为128k，以避免长序列的rollout。如图2所示，模型响应长度先短暂下降，然后随着验证分数的提高而持续增加。在此阶段末期，我们观察到不稳定性及验证性能下降。
运行 2: 我们对参考策略进行硬重置，并以与运行1相同的设置恢复训练。与DeepScaleR【3】提出的增加最大响应长度不同，我们保持最大响应长度为8k，因为我们观察到8k的最大长度足以让模型学习并提高其验证分数。
运行 3: 我们将指令遵循数据加入训练组合中并继续训练。此阶段一直进行到我们观察到响应长度突然增加，这主要是因为模型重复答案并且未能以<eos> token结束。
运行 4 和 5: 我们引入奖励塑造，对未能正确终止的响应进行惩罚。这鼓励了正确的生成行为，导致响应长度适度减少。
运行 6 和 7: 我们将rollout数量从16增加到32，并在此过程中进行了两次硬重置。有趣的是，响应长度随着验证指标的改善再次开始上升。
运行 8: 我们将上下文窗口扩展到16k个token，并将rollout数量减少到16。尽管模型大部分时间是在8k上下文窗口上训练的，但它很快适应了扩展的上下文窗口。我们观察到在像AIME这样的困难数学任务上有边际改进，而更显著的增益来自其他领域。

F 结果详情

F.1 Reasoning Gym

Reasoning Gym 性能分析。对于Reasoning Gym套件中的逻辑谜题，我们采用了官方GitHub仓库定义的96个任务分类。我们在表5中展示了我们模型在各类别上的性能详情。值得注意的是，DeepSeek-R1-Distill-Qwen-1.5B即使在像代数和算术这样相对简单的数学任务上也表现不佳。仔细检查发现，该模型一直使用\boxed{}格式化答案，而不是遵循使用<answer> </answer>标签的指令。尽管初始格式化行为不佳，但经过训练后，模型能够在这些较容易的任务上实现高准确率，这表明格式化是相对容易学习的。我们的模型在更具挑战性的类别上仍有改进空间，包括来自arc、code、cognition和games的任务。在这些情况下，模型常常无法取得有意义的进展。进一步分析表明，这些失败源于要么缺乏解决特定子任务所需的核心推理技能，要么缺乏与问题领域相关的背景知识。解决这些局限性可能需要额外的微调数据来更好地支持模型的冷启动，我们将这些增强功能留给未来的工作。