作者/机构: Qiying Yu (Project Lead), Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue (Algorithm); Weinan Dai, Tiantian Fan, Gaohong Liu, Juncai Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Qiying Yu, Chi Zhang, Mofan Zhang, Ru Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu (Infrastructure); Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Yuxuan Song, Xiangpeng Wei, Qiying Yu (Dataset); Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, Mingxuan Wang (Supervision). 1ByteDance Seed, 2Institute for AI Industry Research (AIR), Tsinghua University, 3The University of Hong Kong, 4SIA-Lab of Tsinghua AIR and ByteDance Seed.

主要贡献

论文的核心问题是大规模强化学习(RL)在大型语言模型(LLM)中的实际算法和关键技巧仍被隐藏,导致社区难以重现现有推理模型的训练结果,如OpenAI o1和DeepSeek R1的技术报告中未公开细节。研究目标是揭示大规模RL训练中的重大障碍,并开源一个可扩展的RL系统,包括算法、训练代码和数据集,以提供行业级别的RL结果并促进可重现性。创新点包括提出Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO)算法,以及四个关键技巧:Clip-Higher(促进系统多样性,避免熵崩溃);Dynamic Sampling(提高训练效率和稳定性);Token-Level Policy Gradient Loss(在长链式思考RL场景中关键);Overlong Reward Shaping(减少奖励噪声,稳定训练)。这些技巧基于对朴素GRPO基线的分析,解决了熵崩溃、奖励噪声和训练不稳定性等问题。实验使用Qwen2.5-32B作为预训练模型,在AIME 2024上达到50分,优于DeepSeek-R1-Zero-Qwen-32B的47分,且仅使用50%的训练步数(如图1所示)。

图1 DAPO在Qwen2.5-32B基础模型上的AIME 2024分数,优于之前的SOTA DeepSeekR1-Zero-Qwen-32B,且仅使用50%的训练步数。x轴表示梯度更新步数。
图1 DAPO在Qwen2.5-32B基础模型上的AIME 2024分数,优于之前的SOTA DeepSeekR1-Zero-Qwen-32B,且仅使用50%的训练步数。x轴表示梯度更新步数。

背景知识/关键Observation/设计原则

近端策略优化(PPO)。 PPO引入了剪裁的代理目标来优化策略。通过使用剪裁将策略更新限制在先前策略的近端区域内,PPO稳定了训练并提高了样本效率。具体而言,PPO通过最大化以下目标来更新策略:


其中$(q, a)$是从数据分布$D$中抽样的问题-答案对,$\epsilon$是重要性采样比率的剪裁范围,$\hat{A}_t$是时间步$t$的优势估计。给定价值函数$V$和奖励函数$R$,$\hat{A}_t$使用广义优势估计(GAE)[22, John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, and Pieter Abbeel. High-dimensional continuous control using generalized advantage estimation, 2018]计算:

其中


图2展示了在应用Clip-Higher策略前后,RL训练过程中演员模型生成概率的AIME测试集准确率和熵。
图2 在应用Clip-Higher策略前后,RL训练过程中AIME测试集准确率和演员模型生成概率的熵。
图2 在应用Clip-Higher策略前后,RL训练过程中AIME测试集准确率和演员模型生成概率的熵。

组相对策略优化(GRPO)。 与PPO相比,GRPO消除了价值函数,并以组相对方式估计优势。对于特定的问题-答案对$(q, a)$,行为策略$\pi_{\theta_{old}}$采样一组$G$个单独响应$\{o_i\}_{i=1}^G$。然后,第$i$个响应的优势通过归一化组级奖励$\{R_i\}_{i=1}^G$计算:


类似于PPO,GRPO采用剪裁目标,并直接施加KL惩罚项:

其中

值得注意的是,GRPO在样本级计算目标。具体而言,GRPO首先计算每个生成序列内的平均损失,然后平均不同样本的损失。正如将在3.3节讨论的,这种差异可能影响算法的性能。

移除KL散度。 KL惩罚项用于调节在线策略与冻结参考策略之间的散度。在RLHF场景[23, Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul F Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems, volume 35, pages 27730–27744. Curran Associates, Inc., 2022]中,RL的目标是使模型行为对齐而不偏离初始模型太远。然而,在训练长链式思考推理模型期间,模型分布可能与初始模型显著偏离,因此这种限制不是必需的。因此,我们将从提出的算法中排除KL项。

基于规则的奖励建模。 使用奖励模型通常会遭受奖励黑客问题[24–29, 包括Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. Concrete problems in ai safety, 2016; Tom Everitt, Victoria Krakovna, Laurent Orseau, Marcus Hutter, and Shane Legg. Reinforcement learning with a corrupted reward channel, 2017 等]。相反,我们直接使用可验证任务的最终准确率作为结果奖励,使用以下规则计算:


其中$y$是真实答案,$\hat{y}$是预测答案。这被证明是激活基础模型推理能力的有效方法,如在自动定理证明[30–33]、计算机编程[34–37]和数学竞赛[2, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025]等多个领域所示。

方法细节

DAPO算法概述。 我们提出Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO)算法。DAPO为每个问题$q$与答案$a$配对采样一组输出$\{o_i\}_{i=1}^G$,并通过以下目标优化策略:


其中

完整算法见算法1。在本节中,我们将介绍与DAPO相关的关键技巧。

提高上限:Clip-Higher。 在使用朴素PPO[21, John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017]或GRPO[38, Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024]的初始实验中,我们观察到熵崩溃现象:随着训练进展,策略的熵迅速下降(如图2b所示)。某些组的采样响应趋于几乎相同。这表明探索有限和早期确定性策略,这可能阻碍扩展过程。我们提出Clip-Higher策略来解决这个问题。重要性采样比率的剪裁在Clipped Proximal Policy Optimization (PPO-Clip)[21]中引入,以限制信任区域并增强RL的稳定性。我们识别出上剪裁可能限制策略的探索,其中使“利用”令牌更可能更容易,但不太可能的“探索”令牌的概率被太紧地限制而无法提升。具体而言,当$\epsilon = 0.2$(大多数算法的默认值)和$\hat{A}_{i,t} > 0$(系统试图增加概率)时,考虑概率$\pi_{\theta_{old}}(o_i | q) = 0.01$和$0.9$的两个动作。增加概率$\pi_{\theta}(o_i | q)$的上界分别为$0.012$和$1.08$($\pi_{\theta_{old}} \cdot (1 + \epsilon)$)。这意味着具有较高概率的“利用”令牌(例如0.9)不受限制地获得甚至极高的概率如0.999。相反,对于低概率“探索”令牌,实现非平凡的概率增加要困难得多。经验上,我们还观察到上剪裁令牌的平均概率较低:$\pi_{\theta}(o_i | q) < 0.2$(图3a)。这一发现支持我们的直觉,即上剪裁阈值确实限制了低概率“探索”令牌的概率增加,从而可能限制系统的探索。遵循Clip-Higher策略,我们将下剪裁范围和上剪裁范围解耦为$\epsilon_{low}$和$\epsilon_{high}$,如方程10突出所示:


我们增加$\epsilon_{high}$的值,为低概率令牌的增加留出更多空间。如图2所示,这种调整有效地增强了策略的熵并促进生成更多样化的样本。我们保持$\epsilon_{low}$不变,因为增加它会将这些令牌的概率抑制到0,导致采样空间崩溃。
图3 上剪裁概率的平均值以及准确率=1的提示比率。
图3 上剪裁概率的平均值以及准确率=1的提示比率。

越多越好:Dynamic Sampling。 现有RL算法在某些提示的准确率为1时遭受梯度减少问题。例如,对于GRPO,如果特定提示的所有输出$\{o_i\}_{i=1}^G$都是正确的并获得相同奖励,则该组的优势为零。零优势导致零策略梯度,缩小批量梯度的幅度并增加噪声敏感性,从而降低样本效率。经验上,准确率为1的样本数量持续增加,如图3b所示。这意味着每个批次中的有效提示数量持续减少,可能导致梯度方差更大并削弱模型训练的梯度信号。为此,我们提出过采样并过滤掉准确率为1和0的提示,如方程11所示,留下批次中所有具有有效梯度的提示,并保持一致的提示数量。每个批次的采样成本是动态的。在训练前,我们持续采样直到批次完全填充准确率既不是0也不是1的样本。


注意,这种策略不一定阻碍训练效率,因为生成时间通常由长尾样本主导,如果RL系统是同步的且生成阶段未管道化。此外,我们发现使用动态采样,实验更快达到相同性能,如图6所示。
图4 演员模型生成概率的熵,以及演员模型生成响应的平均长度。
图4 演员模型生成概率的熵,以及演员模型生成响应的平均长度。

重新平衡:Token-Level Policy Gradient Loss。 原始GRPO算法采用样本级损失计算,这涉及首先在每个样本内按令牌平均损失,然后聚合样本间的损失。在这种方法中,每个样本在最终损失计算中被分配相等的权重。然而,我们发现这种损失减少方法在长链式思考RL场景中引入了几个挑战。由于所有样本在损失计算中被分配相同权重,更长响应(包含更多令牌)中的令牌可能对整体损失的贡献不成比例地较低,这可能导致两个不利影响。首先,对于高质量的长样本,这种影响可能阻碍模型学习其中的推理相关模式。其次,我们观察到过长的样本通常表现出低质量模式,如胡言乱语和重复词。因此,样本级损失计算由于无法有效惩罚长样本中的这些不良模式,导致熵和响应长度不健康增加,如图4a和图4b所示。我们在长链式思考RL场景中引入Token-Level Policy Gradient Loss来解决上述限制:


在这种设置中,更长的序列比更短的序列对整体梯度更新有更多影响。而且,从单个令牌的角度来看,如果特定生成模式会导致奖励增加或减少,它将被平等地促进或抑制,而不管它出现的响应长度。

隐藏与寻找:Overlong Reward Shaping。 在RL训练中,我们通常为生成设置最大长度,过长样本相应截断。我们发现对截断样本的不当奖励整形可能引入奖励噪声并显著干扰训练过程。默认情况下,我们为截断样本分配惩罚奖励。这种方法可能引入训练过程中的噪声,因为一个合理的推理过程可能仅由于其过度长度而被惩罚。这种惩罚可能使模型对推理过程的有效性感到困惑。为了调查这种奖励噪声的影响,我们首先应用Overlong Filtering策略,该策略掩盖截断样本的损失。我们发现这种方法显著稳定了训练并提升了性能,如图5所示。此外,我们提出Soft Overlong Punishment(方程13),一种长度感知的惩罚机制,旨在为截断样本整形奖励。具体而言,当响应长度超过预定义的最大值时,我们定义一个惩罚区间。在此区间内,响应越长,惩罚越大。这个惩罚添加到原始基于规则的正确性奖励中,从而向模型发出信号以避免过长的响应。


图5 在应用Overlong Reward Shaping策略前后,演员模型在AIME上的准确率及其生成概率的熵。
图5 在应用Overlong Reward Shaping策略前后,演员模型在AIME上的准确率及其生成概率的熵。

图6 在基线设置上应用动态采样前后训练进度。
图6 在基线设置上应用动态采样前后训练进度。

算法1概述。 输入初始策略模型$\pi_\theta$;奖励模型$R$;任务提示$D$;超参数$\epsilon_{low}$,$\epsilon_{high}$。
1: 对于step = 1,...,M do
2: 从$D$采样批次$Db$
3: 更新旧策略模型$\pi_{\theta_{old}} \leftarrow \pi_\theta$
4: 对于$Db$中的每个问题$q$,采样$G$个输出$\{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(\cdot|q)$
5: 通过运行$R$为每个采样输出$o_i$计算奖励$\{r_i\}_{i=1}^G$
6: 过滤$o_i$并将剩余添加到动态采样缓冲区(Dynamic Sampling方程(11))
7: 如果缓冲区大小$nb < N$:
8: 继续
9: 对于缓冲区中的每个$o_i$,计算$o_i$的第$t$个令牌的$\hat{A}_{i,t}$(方程(9))
10: 对于iteration = 1, ..., $\mu$ do
11: 通过最大化DAPO目标(方程(8))更新策略模型$\pi_\theta$
输出$\pi_\theta$。

数据集转换。 我们的数据集通过网络抓取和手动标注从网络和官方竞赛主页获取。数学数据集的答案通常以各种格式出现,如表达式、公式和数字,这使得设计全面规则来解析它们具有挑战性。为了使用规则提供准确的奖励信号并最小化公式解析器引入的错误,受AIME启发,我们选择并将答案转换为整数,这易于解析。例如,如果原始答案以$a + b c$形式表达,我们指示LLM修改问题,使得预期答案成为$a + b + c$。经过选择和转换,我们获得了DAPO-Math-17K数据集,该数据集包含17K个提示,每个提示配对一个整数作为答案。

实验环境

数据集包括DAPO-Math-17K(17K个数学提示,每个配对整数答案),用于数学任务训练和评估;评估使用AIME 2024测试集,重复32次报告avg@32以稳定结果。模型架构基于Qwen2.5-32B基础模型,关键参数包括最大生成令牌数20,480(预期最大长度16,384 + 软惩罚缓存4,096);推理超参数为温度1.0和topp 0.7。硬件配置未明确指定,但隐含大规模LLM训练环境(如多GPU设置)。软件配置基于verl框架[20, Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, and Chuan Wu. Hybridflow: A flexible and efficient rlhf framework. arXiv preprint arXiv:2409.19256, 2024]实现;使用AdamW优化器[39, Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In International Conference on Learning Representations, 2019],学习率1e-6,线性预热20 rollout步骤;rollout提示批次大小512,每个提示采样16响应;训练小批次大小512(每个rollout步16梯度更新);Clip-Higher中$\epsilon_{low}=0.2$,$\epsilon_{high}=0.28$。

实验结果

主要结果实验。 在AIME 2024上,DAPO将Qwen2.5-32B基础模型训练成强大推理模型,准确率从近0%提高到50%,优于DeepSeek R1在Qwen2.5-32B上的结果,且仅使用50%的训练步数(如图1所示)。渐进技巧消融实验(表1)显示:朴素GRPO基线仅达30%准确率;添加Clip-Higher提高到35%;添加Dynamic Sampling提高到40%;添加Token-Level Loss提高到42%;添加Overlong Reward Shaping提高到50%。每个技巧贡献几点准确率,Token-Level Loss虽提升较少,但增强训练稳定性和长度健康增加。动态采样虽需更多采样,但整体训练时间未显著增加,且模型收敛更快(如图6所示)。

表1 DAPO渐进技巧的主要结果。
表1 DAPO渐进技巧的主要结果。

训练动态实验。 监控关键指标以识别问题:生成响应长度与训练稳定性和性能密切相关,提供更大探索空间,但可能停滞或下降(如图7a所示);奖励动态通常稳定增加,表示模型稳健拟合训练集分布,但与验证准确率相关性低,表明过拟合(如图7b所示);演员模型熵和生成概率与探索能力相关,Clip-Higher有效解决熵崩溃,缓慢上升趋势有助于性能提升(如图7c和7d所示)。这些指标显示RL训练的复杂系统工程特性,小变化可能导致重大偏差。

图7 DAPO的响应长度、奖励分数、生成熵和平均概率的指标曲线,展示了RL训练动态并作为识别潜在问题的关键监控指标。
图7 DAPO的响应长度、奖励分数、生成熵和平均概率的指标曲线,展示了RL训练动态并作为识别潜在问题的关键监控指标。

案例研究实验。 RL训练中,演员模型的推理模式随时间动态演化,不仅强化现有正确求解模式,还逐渐产生初始不存在的新推理模式。例如,早期的训练几乎没有检查和反思先前推理步骤的行为,但随着训练进展,模型显示出明显的反思和回溯行为(如表2所示)。这揭示了RL算法的适应性和探索能力,为解释RL中推理能力出现提供新洞见,留待未来研究。

结论

论文开源了一个大规模LLM RL的完整系统,包括算法、代码基础设施和数据集,在Qwen2.5-32B预训练模型上达到AIME 50分的SOTA性能。提出的DAPO算法引入四个关键技巧,使RL在长链式思考场景中高效有效。通过开源训练代码和数据集,为更广泛的研究社区提供可扩展RL解决方案,促进未来研究。

附录

数据集转换细节。 这里是一个数据转换示例,展示了原始问题、转换后问题,以及转换过程中模型的输出(原始为Markdown文本,已渲染以提高可读性)。为了确保模型以高准确率完成此任务,我们的目标是让它进行全面推理同时避免幻觉。我们通过提供清晰的思考框架来实现这一点,该框架鼓励彻底推理。具体而言,我们采用链式思考(CoT)推理以及四个明确定义的步骤:提取答案格式、重写问题语句、解决修改后的问题并提供整数作为最终答案。对于每个步骤,我们提供少样本解决方案或详细指南来指导模型的推理。通过这种方法,我们观察到在大多数情况下,LLM可以生成格式和质量都令人满意的重构。
原始问题。 让x和y是实数,使得$x^2 + y^2 - 22x - 16y + 113 = 0$。确定x的最小可能值。答案:$11 - 2 \sqrt{6}$。
转换后问题。 让x和y是实数,使得$x^2 + y^2 - 22x - 16y + 113 = 0$。确定x的最小可能值。原始答案形式为$k - m \sqrt{n}$,其中k, m, n是整数。请找到k + m + n的值。答案:19。
模型输出(Markdown文本)。
转换思考过程。 问题的原始答案是代数表达式$11 - 2 \sqrt{6}$。我们需要将其转换为整数形式。首先,注意答案由整数部分和平方根项组成。根据给定规则,我们用不确定系数替换整数和平方根组件。原始问题使用x和y作为变量,因此我们选择其他字母作为不确定系数。我们将答案表达为$k - m \sqrt{n}$形式,并要求学生找到k + m + n。
答案格式。 $k - m \sqrt{n}$。
转换后问题。 让x和y是实数,使得$x^2 + y^2 - 22x - 16y + 113 = 0$。确定x的最小可能值。原始答案形式为$k - m \sqrt{n}$,其中k, m, n是整数。请找到k + m + n的值。
转换后问题的答案计算。
- 原始答案是:$11 - 2 \sqrt{6}$。
- 所需格式是:$k - m \sqrt{n}$。
- 匹配系数:k = 11, m = 2, n = 6。
- 最终结果是:k + m + n = 11 + 2 + 6 = 19。
最终答案。 19。
另一个问题示例。 在Aimeville的900名居民中,有195人拥有钻石戒指,367人拥有高尔夫球杆套装,562人拥有花园铲。此外,每位居民都拥有一袋糖心糖。有437名居民正好拥有其中两样东西,234名居民正好拥有其中三样东西。找到拥有所有四样东西的Aimeville居民数量。
响应。 逐步解决方案:1. 定义以下变量:让A是拥有钻石戒指的居民集合。让B是拥有高尔夫球杆套装的居民集合。让C是拥有花园铲的居民集合。让D是拥有一袋糖心糖的居民集合。由于所有900名居民都拥有一袋糖心糖,|D| = 900。让$a_i$表示正好拥有4项物品中i项的居民数量。让我们使用4个集合A, B, C, D的包含-排除原理。... $a_4 = -219 - 4 = 219 = 54.75$。由于a4(拥有所有四项物品的人数)必须是整数,我们当前的 Approach 需要在物品A, B, C, D的不同组合的组合计数方面重新考虑。而不是直接使用包含-排除原理,我们可以使用涉及拥有A, B, C物品组合的人数(排除每个人都拥有的D物品)的不同方法。让$x_i$是正好拥有A, B, C中i项物品的人数。然后,总数拥有A, B, C, D中正好k项物品的人数可以分解:...