The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
强化学习用于推理语言模型的熵机制
作者/机构: Ganqu Cui, Yuchen Zhang, Jiacheng Chen, Lifan Yuan, Zhi Wang, Yuxin Zuo, Haozhan Li, Yuchen Fan, Huayu Chen, Weize Chen, Zhiyuan Liu, Hao Peng, Lei Bai, Wanli Ouyang, Yu Cheng, Bowen Zhou, Ning Ding (上海人工智能实验室, 清华大学, 伊利诺伊大学厄巴纳-香槟分校, 北京大学, 南京大学, 香港中文大学)
代码: https://github.com/PRIME-RL/Entropy-Mechanism-of-RL
A1 主要贡献
本文旨在克服在扩展强化学习(RL)以用于大型语言模型(LLMs)推理时的一个主要障碍,即策略熵的崩溃。
核心问题: 在大规模RL实验中,普遍观察到策略熵在训练早期急剧下降,导致策略模型过度自信。这种探索能力的减弱总是伴随着策略性能的饱和。
研究目标与创新点:
1. 揭示经验定律: 本文建立了一个转换方程 $R = -a \exp H + b$,该方程描述了熵 H 和下游性能 R 之间的关系,其中 a 和 b 是拟合系数。这个经验定律有力地表明,策略性能是以策略熵为代价换来的,因此受到熵耗尽的瓶颈限制,其性能上限是完全可预测的(当 $H=0$ 时,$R = -a + b$)。这一发现强调了熵管理对于持续探索以扩展RL计算规模的必要性。
-
理论分析熵动态: 本文从理论和实证上研究了熵的动态变化。
- 理论推导指出,策略熵的变化是由动作概率和对数变化(logit change)之间的协方差驱动的。在使用策略梯度类算法时,该协方差与优势(advantage)成正比。
- 具体来说,一个高概率且高优势的动作会减少策略熵,而一个罕见但高优势的动作会增加策略熵。
- 实证研究表明,协方差项的值与熵的差异完全匹配,支持了理论结论。此外,协方差项在整个训练过程中大多保持为正,这进一步解释了为什么策略熵会单调递减。
-
提出熵控制方法: 通过理解熵动态背后的机制,本文提出了通过限制高协方差词元(token)的更新来控制熵。
- Clip-Cov: 该方法对具有高协方差的词元进行裁剪(clipping)。
- KL-Cov: 该方法对具有高协方差的词元应用KL惩罚。
- 实验表明,这些方法能够鼓励探索,从而帮助策略摆脱熵崩溃的困境,并在下游任务中取得更好的性能。
本文为理解、分析和推进LLM的RL底层机制提供了一个以熵为中心的视角,旨在通过保持探索能力来更好地利用增加的计算资源,从而推动RL的可扩展性。
A3 背景知识与关键观察
TAKEAWAY
在没有干预(例如熵或KL正则化)的情况下,策略熵在RL过程中以可预测的方式被用来换取奖励。验证奖励 R 和策略熵 H 之间的经验量化关系可以表示为 $R = -a \exp(H + b)$。由此可得:
- 这表明策略性能可以从熵中预测;
- 系数 a, b 反映了策略和数据的内在特性;
- 策略的性能上限(当 $H = 0$ 时,$R = -a + b$)极大地限制了LLM推理的RL可扩展性。
本节旨在回答一个研究问题:在LLM的RL过程中,策略熵的典型行为是什么?通过广泛的实验,我们观察到一个一致的“熵崩溃”现象,这在RL中是不利的,因为策略将难以探索新的路径(第2.3节)。我们进一步将其扩展为策略熵和验证性能之间的经验可预测关系(第2.4节),并分析了方程中的系数(第2.5节)。
2.1 预备知识
RL优化目标。我们考虑在可验证任务(如数学和编程)上使用RL微调LLM,以避免奖励被黑客攻击(reward hacking)。给定输入提示x,LLM策略$\pi_{\theta}$自回归地生成一个由T个词元组成的输出序列y,即$\{y_1, \dots, y_t, \dots, y_T\}$。我们使用RL优化LLM策略,以最大化从验证器获得的累积奖励r:
其中D是训练分布。
策略梯度算法。为了优化目标函数,通常使用策略梯度算法【索引95,Simple statistical gradient-following algorithms for connectionist reinforcement learning, Williams, 1992】进行梯度估计:
这里$A_t$是当前动作的优势值,在不同的RL算法中有不同的实现方式。如果我们只有完整轨迹的奖励,那么原始的REINFORCE算法【索引95,Simple statistical gradient-following algorithms for connectionist reinforcement learning, Williams, 1992】直接定义$A_t = r(y)$。为了减少方差,GRPO【索引82,Deepseekmath: Pushing the limits of mathematical reasoning in open language models, Shao et al., 2024】和RLOO【索引3,Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms, Ahmadian et al., 2024;索引48,Buy 4 reinforce samples, get a baseline for free!, Kool et al., 2019】进一步引入了组级别的归一化。例如,GRPO为每个提示采样K个响应,并如下估计优势值:
为了处理离策略数据并约束策略更新的大小,PPO【索引81,Proximal policy optimization algorithms, Schulman et al., 2017b】提出优化一个代理损失函数:
策略熵。策略熵量化了智能体选择动作时固有的可预测性或随机性。给定策略模型$\pi_{\theta}$和训练数据集D,我们测量策略模型在训练数据上的平均词元级熵,定义如下:
这种熵量化了策略在当前提示上的不确定性水平,并在最大熵RL中被广泛用作正则化项【索引34,Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor, Haarnoja et al., 2018;索引33,Reinforcement learning with deep energy-based policies, Haarnoja et al., 2017;索引100,Maximum entropy inverse reinforcement learning, Ziebart et al., 2008】。在实践中,我们为从训练数据集中随机抽样的每批提示计算熵。
2.2 实验设置
统一协议。我们采用了一个统一的协议,涵盖了4个模型家族、11个基础模型(参数范围为0.5B到32B)、在8个公共基准上评估的数学和编程可验证任务领域,以及4种RL算法。
模型。实验中采用的模型跨越4个模型家族和11个广泛使用的开源基础模型。具体包括:Qwen2.5家族(Qwen2.5-0.5B, 1.5B, 3B, 7B, 32B)【索引75,Qwen2.5 technical report, Qwen et al., 2025】、Mistral家族(Mistral-7B-v0.3【索引44,Mistral 7b, Jiang et al., 2023】, Mistral-Nemo-Base-2407【索引61,Mistralai-nemo, MistralAI-NeMo】, Mistral-Small-3.1-24B-Base-2501【索引62,Mistralai-small-3, MistralAI-Small-3】)、LLaMA家族(LLaMA3.2-3B【索引60,Llama 3.2: Revolutionizing edge ai and vision with open, customizable models, Meta-Llama-3.2】, LLaMA3.1-8B【索引59,The llama 3 herd of models, Meta, 2024】)和DeepSeek-Math-7B-Base【索引82,Deepseekmath: Pushing the limits of mathematical reasoning in open language models, Shao et al., 2024】。
任务和数据集。我们主要关注具有可验证奖励的数学和编程问题。由于不同模型家族的初始推理能力存在固有差异,我们使用不同难度级别的数据来训练模型以稳定RL过程,具体细节见附录A。同时,我们在下游性能评估中使用相同的数据以保持一致性。对于数学任务,评估数据集包括MATH500【索引36,Measuring mathematical problem solving with the math dataset, Hendrycks et al., 2021】、AIME 2024【索引55,Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions, Li et al., 2024】、AMC【索引55,Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions, Li et al., 2024】、OlympiadBench【索引35,OlympiadBench: A challenging benchmark for promoting AGI with olympiad-level bilingual multimodal scientific problems, He et al., 2024】和OMNI-MATH【索引28,Omni-math: A universal olympiad level mathematic benchmark for large language models, Gao et al., 2024】。对于代码任务,我们划分了Eurus-2-RL-Code【索引11,Process reinforcement through implicit rewards, Cui et al., 2025】和KodCode【索引97,Kodcode: A diverse, challenging, and verifiable synthetic dataset for coding, Xu et al., 2025】的测试集。
RL训练。我们遵循“Zero”设置【索引12,Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, DeepSeek-AI et al., 2025】,使用veRL框架【索引83,Hybridflow: A flexible and efficient rlhf framework, Sheng et al., 2024】从基础模型开始进行RL。对于RL算法,我们采用了GRPO【索引82,Deepseekmath: Pushing the limits of mathematical reasoning in open language models, Shao et al., 2024】、REINFORCE++【索引40,Reinforce++: A simple and efficient approach for aligning large language models, Hu, 2025】和PRIME【索引11,Process reinforcement through implicit rewards, Cui et al., 2025】。超参数方面,策略模型的学习率为$5 \times 10^{-7}$,PRIME中隐式PRM【索引99,Free process rewards without process labels, Yuan et al., 2025】的学习率为$10^{-6}$。策略和PRM的批大小均为256,微批大小为128。在rollout阶段,收集512个提示,每个提示采样8个响应。默认情况下,我们将参考KL散度系数设为0。策略损失(公式4)中的$\epsilon$为0.2。我们过滤掉所有响应都正确或都不正确的提示。
2.3 初探:熵崩溃与性能饱和
普遍现象。在所有实验中,我们观察到一个一致的模式:策略熵在训练初期急剧下降,并持续单调下降至接近零。与此同时,策略的验证性能呈现相反的趋势,即在训练开始时迅速上升,然后饱和在某个水平。
量化分析。图2展示了在11个不同模型上进行2400个梯度步长的RL运行中,平均归一化熵消耗/性能增益的百分比。我们可以看到,73%的熵消耗和76%的性能增益仅发生在最初的200个梯度步长(占训练的1/12)中,而前800个步长(占训练的1/3)则贡献了超过93%的性能增益和94%的熵损失。这意味着超过2/3的训练步长带来的回报微乎其微。
2.4 拟合熵与性能之间的曲线
指数函数拟合。受观察到的熵崩溃现象的启发,我们进行了更详细的定量分析。通过大量实验,我们发现下游性能(准确率)和熵可以用以下指数函数进行拟合:
其中R表示验证性能,H是熵。不同模型家族使用GRPO的拟合结果如图3和图4所示。值得注意的是,拟合曲线精确地描述了所有实验中性能与熵的关系,这些实验涵盖了各种规模、家族的模型以及不同的任务。拟合超过200个数据点的曲线只需要2个系数,显示出高度的规律性。指令微调模型和在不同数据集上训练的拟合结果见附录B。
从早期阶段预测后期阶段。由于我们可以精确地拟合策略熵和验证性能之间的曲线,这个拟合的一个直接应用就是用高熵数据点的观察来预测低熵时的策略性能。为了验证该函数形式可以在RL训练的早期阶段应用,我们进一步使用有限的训练步数来拟合函数,并用拟合的函数来预测最终性能。
预测实验。以Qwen2.5家族为例,我们仅使用前36个训练步骤的数据来拟合系数a和b的函数形式。使用这个函数,我们对后续的200个训练步骤进行了提前预测。如图5所示,对于数学和编程任务,我们在预测期间的平均均方根误差(RMSE)分别为0.9%和1.2%,对于最终性能的预测误差分别为0.5%和1.9%。这表明策略的后期性能可以在训练早期就被估算出来,无需运行完整的RL过程。此外,我们还可以得到当策略变得静态时的最终性能。当$H = 0$时,$R = -a + b$,这是给定训练数据下策略的性能上限。
2.5 理解系数
系数与算法无关。我们研究了不同的RL算法是否会影响拟合函数。图6绘制了使用GRPO、RLOO和PRIME的拟合曲线。我们发现,尽管这些算法采用不同的优势估计方法,但它们并不影响拟合的熵-性能函数。这表明系数a, b反映了策略模型和训练数据的一些内在属性。
扩展参数时预测系数。仔细观察系数a, b,它们的含义是明确的。通过对该方程求导,我们得到$dR/dH = -a \exp(H)$,这意味着a是模型将熵转化为下游性能的速率。此外,如上所述,$-a + b$是当熵完全耗尽时模型可以达到的最大验证分数。直观上,a, b应该与模型大小相关,即更大的模型可以更有效地用熵换取奖励,并达到更高的性能。
系数与模型规模的log-linear关系。为了验证这一点,我们再次采用Qwen2.5模型家族,因为它们具有相似的架构并经历了相似的训练过程。在图7中,我们绘制了模型参数数量(不包括嵌入层)与数学和编程任务上的a, b的关系。可以观察到,a和b都随着策略规模以对数-线性速率平滑变化。模型大小与系数之间的这种对数-线性关系在【索引29,Scaling laws for reward model overoptimization, Gao et al., 2022】中也观察到。这使我们能够根据较小模型的训练动态来推断较大模型的系数,将可预测性扩展到模型大小的维度。换句话说,一旦我们训练了同一家族中的较小模型并得到了它们的系数,我们就能预测较大LM通过RL训练的最终性能,而无需实际训练它们。图13也说明了系数与训练数据有关。
2.6 讨论
可预测性。到目前为止,我们已经建立了(1)策略性能和熵之间,以及(2)系数(在(1)中)和模型大小之间的可预测性。这种可预测性让我们想起了语言模型的缩放定律(Scaling Laws)【索引38,Training compute-optimal large language models, Hoffmann et al., 2022;索引47,Scaling laws for neural language models, Kaplan et al., 2020】和RLHF【索引29,Scaling laws for reward model overoptimization, Gao et al., 2022】。似乎LLM的RL在整个训练过程中都在用熵换取奖励。然而,其他采用不同策略模型【索引58,Deepscaler: Surpassing o1-preview with a 1.5 b model by scaling rl, Luo et al., 2025】或使用离策略数据【索引98,Learning to reason under off-policy guidance, Yan et al., 2025】的研究观察到了不同的熵模式。因此,这种可预测性并非普遍适用,我们呼吁在不同条件下对熵行为进行更深入的分析。
性能天花板。一个广泛讨论的问题是,RL是否仅仅激发了在预训练中已经学到的潜在行为,因此无法突破基础模型的天花板【索引100,Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model?, Yue et al., 2025】。我们的结果有条件地支持这一说法:如果策略熵减少,天花板不仅存在,而且可以被预测。然而,我们认为,设定天花板的并非RL的内在局限性,而是LLM的熵机制导致了这一结果。尽管LLM为我们提供了强大的策略先验,但它们的输出分布也变窄了,这可能会在RL期间阻碍探索潜力。
A2 方法细节
3. 策略熵的动态分析
TAKEAWAY
(1)对于包括LLM在内的softmax策略,策略熵的变化由动作的对数概率和对数变化(logit change)之间的协方差决定。
(2)对于策略梯度(Policy Gradient)和自然策略梯度(Natural Policy Gradient),对数的变化与动作优势成正比,这意味着高协方差会导致策略熵迅速下降,正如在LLM推理的RL中所观察到的。
背景。我们已经揭示了熵崩溃问题将极大地阻碍LLM推理的RL扩展。为了解决这个问题,我们需要对策略熵的动态有更深入的理解,即熵何时会减少,何时会增加。在本节中,我们关注熵的动态,特别是步间的熵差$H(\pi_{\theta}^{k+1}) - H(\pi_{\theta}^{k})$。我们从理论角度出发,首先在3.1节中推导softmax策略熵的一阶导数,然后在3.2节中将其扩展到策略梯度和自然策略梯度算法。之后,我们在3.3节中通过实验验证我们的结论。
3.1 Softmax策略的熵动态
理论推导。在第k步,我们试图计算一次参数更新前后的熵差,即$H(\pi_{\theta}^{k+1})$和$H(\pi_{\theta}^{k})$。为此,我们首先考虑LLM的一个内在属性,即它们是softmax策略,这意味着策略由以下方式参数化:
这里$s \sim d_{\pi_{\theta}}$和$a \sim \pi_{\theta}^{k}(\cdot|s)$分别代表状态和动作,$z_{s,a}$是给定状态s时动作a的输出logit。对于任何softmax策略,我们有以下引理:
引理1(Softmax策略的熵差)。(证明见附录E.2,改编自【索引56,How does rl policy entropy converge during iteration?, Liu, 2025】)假设策略$\pi_{\theta}$是一个表格型softmax策略,其中每个状态-动作对(s, a)都与一个独立的logit参数$z_{s,a} = \theta_{s,a}$相关联,在一阶近似下,给定状态s的策略熵在连续两个步骤之间的差异满足:
这里$z_{s,a}^{k+1} - z_{s,a}^{k}$是第k步和第k+1步之间输出logit的变化。该引理表明,策略熵的变化约等于动作的对数概率与logit变化之间的负协方差。也就是说,当一个动作a在更新前从策略中获得高概率,并且其对应的logit在更新后也在增加时,它将减少策略熵。
3.2 策略梯度/自然策略梯度算法下的熵动态
熵动态与优势值的关系。根据引理1,输出logit的步间差异$z_{s,a}^{k+1} - z_{s,a}^{k}$对熵的变化有贡献,这在策略梯度【索引95,Simple statistical gradient-following algorithms for connectionist reinforcement learning, Williams, 1992】和自然策略梯度【索引46,A natural policy gradient, Kakade, 2001】算法中有所体现。
策略梯度下的熵动态。假设我们通过策略梯度来更新actor策略,那么$z_{s,a}^{k+1} - z_{s,a}^{k} = -\eta \cdot \nabla_z J(\theta)$,其中$J(\theta)$表示目标函数,$\eta$表示学习率。$\nabla_z J(\theta)$是用公式2计算的,我们有以下命题:
命题1(原始策略梯度中策略logit的差异)。(证明见附录E.3)设actor策略$\pi_{\theta}$是一个表格型softmax策略,并使用公式2通过梯度回溯以学习率$\eta$进行更新,则$z_{s,a}$在连续两个步骤之间的差异满足:
将命题1应用于引理1,我们可以用以下定理进一步描述熵的变化:
定理1(策略梯度下的熵变)。设actor策略$\pi_{\theta}$是一个表格型softmax策略,且$\pi_{\theta}$通过原始策略梯度进行更新,则给定状态s的策略熵在连续两个步骤之间的差异满足:
定理1揭示了在策略梯度方法下策略熵如何变化。直观地,一个动作a同时获得高/低概率和高/低优势会降低熵,反之亦然。在早期阶段,策略在训练数据上表现出高协方差,这意味着策略的置信度得到了很好的校准【索引45,Language models (mostly) know what they know, Kadavath et al., 2022】,因此可以安全地利用高置信度的轨迹,从而加强信念并最小化熵【索引2,The unreasonable effectiveness of entropy minimization in llm reasoning, Agarwal et al., 2025;索引101,Ttrl: Test-time reinforcement learning, Zuo et al., 2025;索引1,On the theory of policy gradient methods: Optimality, approximation, and distribution shift, Zhang et al., 2025】。
自然策略梯度下的熵动态。Liu【索引56,How does rl policy entropy converge during iteration?, Liu, 2025】对自然策略梯度进行了推导。我们在此呈现其结论。
定理2(自然策略梯度下的熵变)。(证明见附录E.4)设actor策略$\pi_{\theta}$是一个表格型softmax策略,且$\pi_{\theta}$通过自然策略梯度【索引46,A natural policy gradient, Kakade, 2001】进行更新,则给定状态s的策略熵在连续两个步骤之间的差异满足:
结论。从定理1和定理2中,我们得出一个直观的见解:原则上,当前策略下的动作概率P(a)与相应优势值A(a)之间的强正相关,平均而言,会导致策略熵的减少。相反,负相关则倾向于增加熵。这种对策略熵动态的更深层次理解,为设计策略优化中熵控制的实用策略提供了理论基础。
3.3 实证验证
验证目标。前述理论分析为通过策略梯度算法优化softmax策略时影响策略熵的因素提供了见解。本节中,我们进行实验以验证理论结论,特别是定理1。
实验设置。我们使用策略梯度在Qwen2.5-7B上应用GRPO,即不使用PPO代理损失的在策略学习。在此背景下,我们采用赌博机(bandit)设置,其中提示x是状态,整个响应y是动作。那么协方差项变为:
在训练期间,我们为每个提示计算组级别的协方差,并在一个批次的提示中取平均。我们进一步通过响应的长度对对数概率进行归一化,得到:
实验结果。我们记录了基于上述推导的两个关键指标Cov(·)
和H(π_θ)
在整个训练期间的变化,并试图分析它们的关系和动态。
- Cov(·)和-d(H)动态的相似性。根据定理1,我们有理论结果$-d(H) \propto Cov(\cdot)$。如图8左侧所示,$-d(H)$和
Cov(·)
的经验曲线表现出高度相似的动态,为该定理提供了强有力的经验支持。特别是在训练的早期阶段,熵H迅速下降,伴随着一个相对较大且为正的Cov(·)
。随着RL训练的进行,熵的衰减变慢,Cov(·)
稳定在一个较低的水平,反映了策略的逐渐收敛。还可以观察到,Cov(·)
在整个训练过程中保持为正,从而导致熵的持续下降。 - 不同难度样本的Cov(·)动态变化。利用我们基于组的采样策略,我们根据准确率将训练样本按难度分类。图8右侧展示了三个难度组的协方差曲线,其中准确率越低表示难度越高。我们观察到,对于较难的样本,
Cov(·)
的量级往往较小,这与直觉相符:当模型学习困难时,高概率的动作并不总是与较高的预期回报相关联。相反,对于较容易的样本,模型更自信且校准得更好,Cov(·)
往往较高,表明动作概率和优势估计之间有更强的对齐。
4. 通过协方差正则化进行熵控制
TAKEAWAY
我们可以通过限制具有高协方差的词元(token)的更新来控制策略熵,例如,进行裁剪(Clip-Cov)或应用KL惩罚(KL-Cov)。这些简单的技术可以防止策略熵崩溃,从而促进探索。
背景。熵动态分析为我们提供了熵控制的指导方针,即对高协方差动作的更新步长进行正则化。在本节中,我们介绍两种简单而有效的技术,KL-Cov和Clip-Cov,它们能够精确地控制熵并取得更好的下游性能。
4.1 熵正则化的效果
传统方法效果不佳。在RL文献中,控制策略熵的一个常用方法是应用熵损失【索引81,Proximal policy optimization algorithms, Schulman et al., 2017b】。我们进行实验以观察它对LLM是否有效。图9展示了添加熵损失的结果。如图所示,熵损失对系数高度敏感,小系数对熵影响不大(0.0001, 0.001),而大系数导致熵爆炸(0.01)。尽管将系数设为0.005成功地稳定了策略熵,但其性能并未超过其他基线。
KL散度正则化效果。我们还尝试通过调整策略模型和参考模型之间的KL惩罚来控制熵。图10报告了结果。尽管参考KL实现了稳定的熵值,但它未能改善策略,反而导致性能下降。
总结。总而言之,简单地采用传统RL中的熵正则化技术难以解决LLM的熵瓶颈问题。这些正则化项要么对超参数敏感【索引36,Skywork open reaonser series, He et al., 2025】,要么降低策略性能。因此,最近的大多数工作也没有包含它们【索引57,Understanding r1-zero-like training: A critical perspective, Liu et al., 2025;索引41,Open-reasonerzero: An open source approach to scaling up reinforcement learning on the base model, Hu et al., 2025;索引11,Process reinforcement through implicit rewards, Cui et al., 2025;索引99,Dapo: An open-source llm reinforcement learning system at scale, Yu et al., 2025】。
4.2 抑制高协方差的词元
动机。将熵和参考KL正则化纳入策略损失的尝试失败,促使我们寻求一种更根本的方法来控制熵。如前所述,我们知道策略熵动态与动作概率和优势之间的协方差密切相关。同时,如表1所示,一小部分词元表现出极高的协方差,远超平均水平。也就是说,这些离群词元在引发熵崩溃中起主导作用。为了减轻它们的不利影响,我们的目标是对它们对策略损失的贡献施加约束。在RL文献中,PPO的两种变体采用裁剪或KL惩罚来约束策略更新【索引81,Proximal policy optimization algorithms, Schulman et al., 2017b】,以防止过于激进的改变。受这些方法的启发,我们提出了两种简单但有效的协方差感知方法Clip-Cov和KL-Cov来实现这一目标。
理论应用。由于二阶优化的耗时性,自然策略梯度很少用于LLM的后训练。但其引入的以KL距离为约束的目标函数与TRPO【索引79,Trust region policy optimization, Schulman et al., 2015】和PPO有相似的思想。因此,我们稍后在本节中将定理2应用于像PPO这样的算法。
定义词元级协方差。假设一个批次中有N个rollout词元,$\pi_{\theta}(y_i)$表示策略模型在给定其对应前缀的情况下,对词元$y_i$的输出概率。根据定理2,我们首先定义对数概率和优势之间的词元级中心化叉积为:
这里的Cov是N中每个词元的协方差。其期望值是定理2中的协方差。
Clip-Cov。在Clip-Cov策略中,我们从策略梯度更新中裁剪掉一小部分高协方差词元。根据公式10计算后,我们根据协方差值随机选择$r \cdot N$个高协方差词元:
其中I是索引的缩写,r表示裁剪比率。$\omega_{low}$和$\omega_{high}$是两个预定义的协方差界限,它们都设置得远高于平均协方差(>500倍)。最后,具有所选索引的词元将从策略梯度中分离出来:
其中t是单个rollout响应中的第t个词元,每个t唯一对应N中的一个索引i。
KL-Cov。KL-Cov策略更简单。具体来说,与Clip-Cov类似,我们首先如公式10计算协方差。然后,我们对协方差进行排序,并选择协方差排在前k比例的词元:
这里的k表示将受到KL惩罚的词元比例,且$k \ll 1$。最后,我们对选定的词元施加KL惩罚(当前策略与rollout策略之间的KL散度),策略损失计算如下:
其中$\beta$是控制KL惩罚权重的系数。我们在代码清单1中展示了伪代码。
4.3 实验
实验设置。我们使用Qwen2.5模型在数学任务上进行训练,以验证Clip-Cov和KL-Cov。我们使用DAPOMATH数据集【索引99,Dapo: An open-source llm reinforcement learning system at scale, Yu et al., 2025】进行训练。在每个rollout步骤中,我们为一批256个提示,每个提示以温度1采样8个响应,随后对收集到的响应进行8次策略更新。我们也过滤掉所有响应全对或全错的提示。测试数据集包括MATH500、AIME 2024、AIME 2025【索引55,Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions, Li et al., 2024】、AMC、OMNI-MATH、OlympiadBench和Minerva【索引54,Solving quantitative reasoning problems with language models, Lewkowycz et al., 2022】。评估时,AIME和AMC的rollout温度设为0.6,其他所有测试集使用贪心解码。基线方法包括原始GRPO,以及GRPO与Clip-higher(将PPO损失中的上阈值$\epsilon$调整为0.28【索引99,Dapo: An open-source llm reinforcement learning system at scale, Yu et al., 2025】)。在Clip-Cov中,裁剪比率r为$2 \times 10^{-4}$,$\omega_{low}$和$\omega_{high}$分别为1和5。对于KL-Cov,Qwen2.5-7B和32B的k分别设为$2 \times 10^{-3}$和$2 \times 10^{-4}$,KL系数$\beta$设为1。最大生成长度为8192。
结果与分析。我们在表2中展示了实验结果,可以看出我们的两种方法在所有基准测试中都取得了显著的改进。与GRPO相比,我们的方法在7B模型上平均性能提升2.0%,在32B模型上平均提升6.4%。
熵、响应长度与性能动态。如图11所示,我们的方法能够在整个训练过程中保持相当高的熵水平。例如,当基线方法的熵达到平台期无法再消耗时,KL-Cov方法仍然能维持超过10倍的熵水平。同时,策略模型的响应长度稳步增加,其在测试集上的性能也持续超越基线。这表明我们的模型能够在训练中更“自由”地探索,通过RL学习到更好的策略。
与Clip-higher对比。与clip-higher技术相比,尽管它也能增加熵并在训练早期带来性能提升,但它逐渐变得不稳定,性能饱和并下降。相比之下,我们的方法在整个训练过程中获得了更稳定的熵曲线,最终在基线方法上取得了显著的改进。
更大模型的收益。此外,我们观察到我们的方法在更大的Qwen2.5-32B上产生了更显著的增益。具体来说,在最具挑战性的基准AIME24和AIME25上,我们的方法相比GRPO分别取得了15.0%和14.6%的改进。我们推断这是因为32B模型相比7B模型拥有更大的预训练潜力。一旦由熵崩溃引起的“探索诅咒”被解除,32B模型便能够探索更多样化和更高质量的策略。
4.4 实现策略熵的控制
熵的可控性。我们还评估了我们的方法在控制策略熵方面的能力,如图12所示。对于Clip-Cov,策略熵的水平可以通过调整被裁剪样本的比例来调节,裁剪的样本越多,熵越高。对于KL-Cov,我们可以通过控制KL系数$\beta$(即KL惩罚的权重)来调节熵。具体来说,更大的系数带来更高的熵。比较两者,KL-Cov达到了比Clip-Cov更稳定的熵曲线,这可能更有利于稳定训练过程。尽管在不同情景下熵的最优值仍然是一个开放问题,但我们的方法表明,我们可以简单地通过调整超参数来控制策略熵,从而有能力引导熵并使模型更有效地探索。
4.5 讨论
与clip-higher的联系。我们的主要基线方法clip-higher【索引99,Dapo: An open-source llm reinforcement learning system at scale, Yu et al., 2025】也能激励更高的策略熵。实际上,这项技术与我们的方法功能相似。通过提高重要性采样比率的上限,clip-higher将更多低概率的词元纳入策略更新。此外,该上限只影响具有正优势的词元,这意味着clip-higher实际上是在梯度计算中增加了更多低协方差(低概率,高优势,平均协方差约为-0.03)的词元。我们更进一步,直接使用协方差作为阈值,从而更精确地控制熵。
熵控制的哲学。在实验中,我们发现策略熵对超参数设置很敏感。具体来说,我们的方法只干预了非常小一部分的词元($10^{-4}$到$10^{-3}$),却完全改变了熵曲线。这意味着一些“关键”词元对LLM的熵至关重要。此外,我们没有观察到被干预的熵与模型性能之间存在关系。在探索和训练稳定性之间是否存在一个最优的熵值来平衡,这仍然是一个悬而未决的问题。
A4 实验环境
- 模型:
- 模型家族: Qwen2.5, Mistral, LLaMA, DeepSeek-Math。
- 具体模型: 涵盖4个家族的11个模型,参数规模从0.5B到32B不等,包括Qwen2.5-0.5B至32B系列, Mistral-7B-v0.3, Mistral-Nemo-Base-2407, Mistral-Small-3.1-24B-Base-2501, LLaMA3.2-3B, LLaMA3.1-8B, DeepSeek-Math-7B-Base。
- 数据集:
- 训练数据:
- 数学: Eurus-2-RL-Math, GSM8K, DAPOMATH。根据模型家族的初始能力选择不同难度的数据集。
- 编程: AceCode, Eurus-2-RL-Code, Kodcode3。
- 评估数据:
- 数学: MATH500, AIME 2024, AIME 2025, AMC, OlympiadBench, OMNI-MATH, Minerva。
- 编程: Eurus-2-RL-Code 和 KodCode 的测试集。
- 训练数据:
- 硬件配置: 论文未明确提及具体的GPU型号、数量或平台连接关系。
- 软件配置:
- RL框架: veRL。
- RL算法: GRPO, REINFORCE++, PRIME。
- 核心超参数:
- 策略模型学习率: $5 \times 10^{-7}$。
- 隐式PRM学习率: $10^{-6}$ (在PRIME中)。
- 批大小/微批大小: 256 / 128。
- Rollout设置: 每批512个提示,每个提示采样8个响应。
- PPO $\epsilon$: 0.2。
- 参考KL散度系数: 0。
- 数据过滤: 过滤掉所有响应都正确或都不正确的提示。
A4 实验结果
-
熵崩溃与性能饱和现象 (Sec 2.3)
- 实验内容: 在11个不同模型上进行RL训练,观察策略熵和验证性能的动态变化。
- 实验结果: 策略熵在训练初期急剧下降,而性能则快速提升后进入平台期。超过93%的性能增益和94%的熵损失发生在前1/3的训练步骤中(图2)。
- 分析结论: 熵的快速消耗是导致性能饱和的主要原因,大部分训练计算资源的回报很低。
-
熵与性能的经验定律拟合 (Sec 2.4)
- 实验内容: 跨越不同模型、规模和任务,拟合验证性能R与策略熵H之间的关系。
- 实验结果: R和H之间的关系可以被一个简单的指数函数 $R = -a \exp H + b$ 精确描述(图3, 图4)。
- 分析结论: 存在一个可预测的“熵-性能”权衡曲线。该关系可以用于从早期训练数据点预测模型的最终性能上限($H=0$时,$R = -a+b$),预测误差较低(图5)。
-
系数a, b的特性分析 (Sec 2.5)
- 实验内容: 分析不同RL算法(GRPO, RLOO, PRIME)和不同模型规模对系数a, b的影响。
- 实验结果: 系数a, b与所使用的RL算法无关(图6),但与模型参数规模呈对数-线性关系(图7)。
- 分析结论: 系数a, b反映了模型和数据的内在属性。可以利用小模型的系数来推断同系列大模型的系数,从而预测大模型的RL性能。
-
熵动态理论的实证验证 (Sec 3.3)
- 实验内容: 在训练过程中,同时记录步间熵差和理论推导出的协方差项。
- 实验结果: 熵差的动态曲线与协方差项的动态曲线高度相似,且协方差在训练中持续为正(图8左)。对于难度较高的样本,协方差值较低(图8右)。
- 分析结论: 实验结果有力地支持了理论推导(定理1),即策略熵的下降是由动作概率与优势之间的正协方差驱动的。
-
传统熵正则化方法的有效性 (Sec 4.1)
- 实验内容: 在RL训练中加入标准的熵损失和参考KL惩罚。
- 实验结果: 熵损失对系数极为敏感,难以调优;KL惩罚虽然稳定了熵,但导致了性能下降(图9, 图10)。
- 分析结论: 传统的熵正则化方法不适用于LLM的RL,需要更精细的控制机制。
-
Clip-Cov和KL-Cov的性能评估 (Sec 4.3)
- 实验内容: 将提出的Clip-Cov和KL-Cov方法应用于Qwen2.5-7B和32B模型的数学推理任务训练,并与基线(GRPO, GRPO+clip-higher)进行比较。
- 实验结果: 两种方法都显著提升了所有基准测试的性能,尤其是在32B模型上,AIME24/25等高难度任务上提升了约15%(表2)。训练过程中,这两种方法维持了更高的熵水平,并激励模型生成更长的响应,性能持续稳定提升(图11)。
- 分析结论: 通过抑制高协方差词元的更新,Clip-Cov和KL-Cov有效避免了熵崩溃,促进了持续探索,从而释放了模型的潜力,尤其是在大模型上效果更佳。
-
熵的可控性评估 (Sec 4.4)
- 实验内容: 调整Clip-Cov的裁剪比率r和KL-Cov的KL系数β,观察策略熵的变化。
- 实验结果: 策略熵的水平可以被这两种方法的超参数有效控制。增加裁剪比率或KL系数可以提升熵的稳定水平(图12)。
- 分析结论: Clip-Cov和KL-Cov提供了控制策略熵的有效手段,使得研究者能够根据需要引导模型的探索行为。
A5 结论
本研究旨在解决大型语言模型推理中强化学习的策略熵崩溃挑战。我们通过实证证明,性能的提升往往是以牺牲探索能力为代价的,这反过来又对模型的改进施加了可预见的限制。为了更深入地理解这一现象,我们对熵动态进行了理论研究,并引入了两种简单的正则化技术——Clip-Cov和KL-Cov,以直接管理高协方差的词元,从而对抗熵崩溃。
展望未来,强化学习已被确定为继预训练之后的下一个扩展方向。然而,为RL扩展计算资源需要的不仅仅是熵的最小化。我们希望这项研究能为熵在其中所扮演的角色提供有价值的见解,促进RL达到更高的智能水平。
A6 附录
A 不同模型的训练细节
由于不同模型家族在初始推理能力上存在固有差异,我们使用不同难度级别的数据来训练模型,以稳定RL过程。具体来说:
- 数学任务: 我们使用Eurus-2-RL-Math【索引11,Process reinforcement through implicit rewards, Cui et al., 2025】训练Qwen家族和Mistral-24B模型,而其他模型家族则使用GSM8K【索引10,Training verifiers to solve math word problems, Cobbe et al., 2021】进行训练。下游性能在MATH500【索引36,Measuring mathematical problem solving with the math dataset, Hendrycks et al., 2021】、AIME 2024【索引55,Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions, Li et al., 2024】、AMC【索引55,Numinamath: The largest public dataset in ai4maths with 860k pairs of competition math problems and solutions, Li et al., 2024】、OlympiadBench【索引35,OlympiadBench: A challenging benchmark for promoting AGI with olympiad-level bilingual multimodal scientific problems, He et al., 2024】和OMNI-MATH【索引28,Omni-math: A universal olympiad level mathematic benchmark for large language models, Gao et al., 2024】上进行评估。
- 代码任务: 我们使用AceCode【索引102,Acecoder: Acing coder rl via automated test-case synthesis, Zeng et al., 2025】、Eurus-2-RL-Code【索引11,Process reinforcement through implicit rewards, Cui et al., 2025】和Kodcode3训练Qwen家族和Mistral-24B模型。
B 更多拟合结果
本节展示了更多的拟合实验结果。
C 不同数据集训练的拟合结果
D 指令微调模型的拟合结果
我们还对指令微调模型进行了拟合实验,拟合函数在我们的实验中仍然有效。我们在此展示拟合结果。
E 证明
E.1 有用的引理
引理2(Softmax函数的导数)
引理3(给定状态s的优势函数的期望)
E.2 引理1的证明
引理1: 设actor策略$\pi_{\theta}$是一个表格型softmax策略,信息熵在连续两个步骤之间给定状态s的差异满足:
证明(改编自【索引56,How does rl policy entropy converge during iteration?, Liu, 2025】):
在表格型softmax策略中,每个状态-动作对(s, a)都与一个独立的logit参数$z_{s,a} = \theta_{s,a}$相关联。我们假设通过$z^{k+1} = z^k + \eta \cdot \nabla J(\pi_{\theta})$来更新logits z。当$\eta$相对较小时,利用一阶泰勒展开近似,我们有:
然后我们推导$\nabla H(\pi_{\theta}^{k} | s)$是什么。根据H的定义,我们有:
于是我们有:
E.3 命题1的证明
命题1: 设actor策略$\pi_{\theta}$是一个表格型softmax策略,并使用公式2进行更新,则$z_{s,a}$在连续两个步骤之间的差异满足:
证明:
在表格型softmax策略中,每个状态-动作对(s, a)都与一个独立的logit参数$z_{s,a} = \theta_{s,a}$相关联。通过梯度回溯,$z_{s,a}$通过$z_{s,a}^{k+1} = z_{s,a}^{k} + \eta \cdot \nabla_{\theta_{s,a}} J(\theta)$进行更新,因此,我们有:
E.4 定理2的证明
定理2: 设actor策略$\pi_{\theta}$是一个表格型softmax策略,且$\pi_{\theta}$通过自然策略梯度【索引46,A natural policy gradient, Kakade, 2001】进行更新,则信息熵在连续两个步骤之间给定状态s的差异满足:
证明:
根据引理1,我们首先推导自然策略梯度中logits z的差异。我们从【索引1,On the theory of policy gradient methods: Optimality, approximation, and distribution shift, Agarwal et al., 2021】中得知,当我们使用自然策略梯度通过梯度回溯更新策略时,$z_{s,a}^{k+1} - z_{s,a}^{k}$满足:
将此应用于引理1,我们有:
💬 评论讨论
欢迎在这里分享您的想法和见解!