作者/机构: Wenhao Zhang, Yuexiang Xie, Yuchang Sun, Yanxi Chen, Guoyin Wang, Yaliang Li∗, Bolin Ding, Jingren Zhou (Alibaba Group)

A1 主要贡献

本文旨在解决整合监督微调(SFT)和强化学习(RL)时遇到的挑战,特别是现有方法可能破坏模型已建立的模式并导致对专家数据的过拟合。

核心问题:顺序执行的SFT-then-RL范式并不总能优于纯RL方法。研究发现,当使用与模型自身模式显著不同的专家数据进行训练时,会导致“转变-再适应-过拟fasst”的进程:首先,策略突变导致能力下降(转变);接着,模型适应专家模式,性能恢复(再适应);最后,模型对有限的专家数据过拟合,泛化能力下降。这种现象使得控制离策略专家数据的影响变得困难,并凸显了SFT-then-RL范式的脆弱性。

研究目标:提出一种新框架,将SFT和RL统一在离策略(off-policy)与在策略(on-policy)学习的视角下,而不是将SFT视为一个独立的阶段。目标是实现对离策略专家数据影响的精确控制,同时保证在策略探索的稳定性。

主要创新点
* 系统性分析:深入分析了在训练过程中将离策略专家数据整合到具有既定策略的模型中所产生的训练动态,并识别出“转变-再适应-过拟合”这一进程,揭示了离策略数据如何破坏大语言模型已有的推理模式。
* 提出CHORD框架:引入了一个名为CHORD的新颖框架,通过动态加权的辅助损失将SFT和RL统一起来。该框架包含一个双重控制机制:一个全局系数用于在整体上调控专家数据的影响,一个逐词元(token-wise)的加权函数用于进行细粒度控制,以实现先进的后训练策略。
* 实验验证:通过广泛的实验证明,CHORD显著优于SFT-then-RL范式和现有研究。定量和定性分析表明,CHORD能够策略性地引导训练动态,选择性地吸收专家知识,同时不抑制模型自身的推理能力,验证了所提出框架的优越性和有效性。

A3 背景知识与关键观察

预备知识

大语言模型(LLM)的后训练(post-tuning)涉及优化其策略$π_θ$,该策略由参数$θ$化。这通常遵循两种范式:监督微调(SFT)和强化学习(RL)。它们在学习动态上根本不同:SFT是一种由专家演示的静态数据集驱动的离策略范式,而RL则是一种由动态反馈引导的在策略范式。

监督微调(SFT)。具体来说,SFT调整策略$π_θ$以模仿一个高质量的、包含N个专家演示的静态数据集$D_{SFT} = \{(x_i, y^∗_i)\}^N_{i=1}$。其中,$x_i$是提示,而$y^∗_i = (y^∗_{i,1}, . . . , y^∗_{i,|y^∗_i|})$是对应的专家响应,包含$|y^∗_i|$个词元。SFT的目标是最小化专家响应的负对数似然。在实践中,这是通过在大小为B的小批量中对所有轨迹的损失进行平均来优化的经验估计:

公式1
公式1

强化学习(RL)。相比之下,RL通过最大化来自奖励函数$R(τ)$的期望奖励来优化策略$π_θ$,其中$τ$代表一个生成的轨迹$(x, y^∗)$。对于具有客观正确性标准的任务,如代码生成或数学推理,一个特别有效的设置是来自可验证奖励的强化学习(RLVR)【索引25, Tulu 3: Pushing frontiers in open language model post-training, 2024, arXiv】、【索引41, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】。在RLVR中,奖励$R(τ)$由一个自动化的、可验证的预言机(例如,单元测试或符号求解器)确定。

组相对策略优化(GRPO)。GRPO【索引41, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, arXiv】是RLVR中一个著名的策略梯度算法。对于给定的提示$x$,该算法首先从一个采样策略$π_{sample}$中采样一组K个候选响应$\{τ_1, . . . , τ_K\}$,这个采样策略可能是当前正在优化的策略$(π_θ)$或来自先前优化步骤的旧策略$(π_{old})$,具体取决于设置。然后,每个采样响应$τ_k$由可验证的奖励函数评估以获得其奖励$R(τ_k)$。策略LLM $π_θ$被更新以最大化一个PPO风格的【索引40, Proximal policy optimization algorithms, 2017, arXiv】裁剪代理目标。与最近的进展【索引5, Minimax-m1: Scaling test-time compute efficiently with lightning attention, 2025, arXiv】、【索引17, Open-reasoner-zero: An open source approach to scaling up reinforcement learning on the base model, 2025, arXiv】、【索引54, Dapo: An open-source llm reinforcement learning system at scale, 2025, arXiv】一致,我们的公式不包括KL散度项,以避免限制策略LLM的性能。正式的目标函数是:

公式2
公式2

其中,$B̂$是小批量中的提示数量。每个响应的优势$A_k$计算为$A_k = \frac{R(τ_k)−µ_R}{σ_R +ϵ}$,其中$µ_R$和$σ_R$是组内奖励$\{R(τ_j)\}^K_{j=1}$的均值和标准差,ϵ是一个用于数值稳定性的小常数。$r_{i,k,t}(θ) = \frac{π_θ(τ_{i,k,t}|x,τ_{i,k,

利用离策略数据时的“转变-再适应-过拟合”进程

背景与现象。在介绍CHORD之前,我们首先仔细研究了SFT过程的训练动态,展示了在离策略专家数据上训练如何破坏LLM已建立的模式,最终导致SFT-then-RL范式【索引6, Sft or rl? an early investigation into training r1-like reasoning large vision-language models, 2025, arXiv】、【索引57, Nemotron-research-tool-n1: Exploring tool-using language models with reinforced reasoning, 2025, arXiv】的失败(如图1所示的结果)。

图1:我们在OpenR1数据集上训练Qwen2.5-1.5B-Instruct,并在一个留出的验证集上评估模型性能(准确率)。这些结果表明,与纯RL相比,SFT-then-RL训练范式可能会产生次优性能。
图1:我们在OpenR1数据集上训练Qwen2.5-1.5B-Instruct,并在一个留出的验证集上评估模型性能(准确率)。这些结果表明,与纯RL相比,SFT-then-RL训练范式可能会产生次优性能。

实验观察。我们使用由Deepseek-R1【索引16, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, arXiv】生成的专家数据对Qwen2.5-7B-Instruct【索引51, Qwen2.5 technical report, 2024, arXiv】进行训练,并监控其在MATH-500数据集上的测试准确率变化。实验结果如图2所示,从中我们可以观察到,模型性能在最初的几个时期内下降,随后持续上升到一个比训练前更高的水平,然后再次轻微下降。

图2:我们使用由Deepseek-R1生成的专家数据对Qwen2.5-7B-Instruct进行SFT。观察到的学习曲线(通过MATH-500数据集上的准确率衡量)展示了一个“转变-再适应-过拟合”的进程。
图2:我们使用由Deepseek-R1生成的专家数据对Qwen2.5-7B-Instruct进行SFT。观察到的学习曲线(通过MATH-500数据集上的准确率衡量)展示了一个“转变-再适应-过拟合”的进程。

“转变-再适应-过拟合”三阶段分析。性能曲线揭示了一个可以分为三个阶段的“转变-再适应-过拟合”进程:
* 转变(Shift):由于模型被迫遵循模式显著不同的离策略专家演示,其已建立的模式被破坏,导致性能初步下降。这种性能下降因暴露偏差【索引4, Scheduled sampling for sequence prediction with recurrent neural networks, 2015, NeurIPS】、【索引39, Generalization in generation: A closer look at exposure bias, 2019, arXiv】、【索引58, Bridging the gap between training and inference for neural machine translation, 2019, arXiv】而进一步加剧,因为模型完全在地面真实的专家数据上训练,在推理时难以应对其自生成上下文。
* 再适应(Readapt):随着SFT的继续,模型策略$π_θ$开始整合专家的推理模式并生成与专家相似的响应,即进入再适应阶段。通过减少模型对其自身推理模式的依赖,可以缓解暴露偏差问题,使性能稳步上升到接近专家的水平。然而,这也会阻碍对自我诱导路径的探索。
* 过拟合(Overfit):在有限的专家数据上进行长时间训练最终会导致过拟合,导致泛化能力下降和输出多样性显著丧失。这种过拟合也会限制后续RL优化所必需的探索能力。

现有范式的局限性。上述进程使得控制离策略专家数据的影响变得具有挑战性。仔细确定何时从SFT过渡到RL需要大量努力;然而,由于训练阶段的内在分离,这种两阶段范式仍可能产生次优解。这凸显了SFT-then-RL范式的脆弱性和局限性,特别是当专家数据的推理模式与模型自身已建立的模式显著不同时。基于这些见解,我们提出了CHORD,一个有效统一SFT和RL的新框架。

A2 方法细节

CHORD框架由一个双重控制机制组成:我们首先引入一个动态损失系数来平衡来自在策略和离策略数据的学习(见3.2节),然后进一步设计一个逐词元的加权函数,提供细粒度的稳定性控制(见3.3节)。CHORD的整体架构如图3所示。

图3:提出的CHORD框架概述,统一了SFT和RL,具有全局系数µ和逐词元加权函数ϕ(·)。
图3:提出的CHORD框架概述,统一了SFT和RL,具有全局系数µ和逐词元加权函数ϕ(·)。

通过 µ 控制离策略专家数据的影响

动态加权的组合损失函数。首先,为了控制离策略专家数据的影响,我们建议将SFT重构为在策略RL过程中的一个动态加权的辅助目标,而不是像SFT-then-RL范式那样的独立调整阶段。具体来说,我们设计了一个组合损失函数,该函数最小化RL和SFT损失的加权和:

公式3
公式3

其中,$L_{GRPO}(θ)$是方程(2)中定义的经验GRPO损失,$L_{SFT}(θ)$是方程(1)中定义的SFT损失,而$µ ∈ [0, 1]$是一个平衡影响的超参数。

µ 的不同调度策略。当使用固定的µ值时,离策略专家数据的影响在整个调整过程中保持不变。此外,µ可以被改变以允许在离策略和在策略学习之间实现动态平衡。例如,SFT-then-RL流水线可以被视为一个具有二元调度(初始设置µ = 1,然后过渡到µ = 0)的特例,而先前利用交错SFT和RL的研究【索引13, In-ril: Interleaved reinforcement and imitation learning for policy fine-tuning, 2025, arXiv】、【索引31, Learning what reinforcement learning can’t: Interleaved online fine-tuning for hardest questions, 2025, arXiv】可以解释为采用周期性的µ调度。

µ 的衰减调度。更进一步,与僵硬的二元切换相比,应用µ的衰减调度提供了一个更平滑、更灵活的从离策略模仿到在策略优化的过渡。这种衰减调度在缓解暴露偏差方面也已证明是成功的【索引4, Scheduled sampling for sequence prediction with recurrent neural networks, 2015, NeurIPS】,有效地弥合了在离策略样本上训练和执行推理时展开之间的分布差距。如图4所示,训练开始时µ值较高,鼓励模型更多地从离策略专家数据中学习。随着训练的进行,µ逐渐衰减到一个较低的值,将训练重点转向在策略探索,并在对专家数据过拟合之前减弱其影响。

图4:CHORD-µ通过在学习过程中衰减µ值,实现了从离策略模仿到在策略优化的平滑过渡,从而导致奖励的逐步提高。
图4:CHORD-µ通过在学习过程中衰减µ值,实现了从离策略模仿到在策略优化的平滑过渡,从而导致奖励的逐步提高。

超越损失系数 µ 的思考。经验比较(详见第4节)表明,对µ应用衰减调度比SFT-then-RL范式带来了显著的性能提升。同时,我们的观察启发我们超越µ。首先,如图4所示,学习曲线仍然揭示了一个类似于“转变-再适应”的过程,其中奖励在最初下降后才随后增加。其次,训练后模型的行为,包括其推理模式(如附录D所示)和响应长度(如表2所示),似乎都收敛于专家的行为。这些观察表明,尽管有一些改进,但在一定程度上,利用离策略专家数据可能仍然会破坏已建立的模式,并抑制模型在在策略训练中进行真正探索的能力。

双重控制机制的动机。为了利用离策略数据作为激励和指导模型探索新颖有效推理路径的手段,而不仅仅是作为模仿的目标,我们进一步将CHORD与一个逐词元的细粒度加权函数ϕ(·)相结合,与全局系数µ一起形成一个双重控制机制,用于控制离策略专家数据的影响。

通过 ϕ(·) 增强离策略学习的稳定性

重要性采样(IS)作为一种解决方案。从细粒度角度控制离策略专家数据影响的一个可行方案是根据词元的生成概率$π(y^∗_t |x, y^∗_{

公式4
公式4

IS 的实践与局限。对于专家数据$D_{SFT}$,其概率$π_{sample}(y^∗_t | . . . )$通常是未知的。一个常见的做法【索引48, On the generalization of sft: A reinforcement learning perspective with reward rectification, 2025, arXiv】、【索引49, Learning to reason under off-policy guidance, 2025, arXiv】是假设分母为1,将专家数据视为地面真实分布。

IS 对稳定性和探索的影响。从逐词元的角度看,IS通过降低可能破坏既定策略的低概率词元的权重来增强训练稳定性。如图5的经验观察所示,混合离策略数据而不使用IS会导致熵急剧上升,这意味着模型的既定模式被未加权的离策略数据迅速破坏。然而,我们注意到,与纯RL相比,IS可能导致策略熵的急剧崩溃,这意味着它可能限制RL阶段所必需的探索,并将模型困在一个稳定但次优的解中。根本原因是IS通过降低低概率词元的权重来防止策略分布的破坏性转变,但它也积极地强化现有的高概率词元,同时忽略新颖但低概率的词元,从而导致策略变得过度自信。

图5:纯RL和混合RL训练(集成专家数据,有或无IS策略)之间熵损失的比较。
图5:纯RL和混合RL训练(集成专家数据,有或无IS策略)之间熵损失的比较。

使用 ϕ(·) 稳定离策略数据训练。为了解决这个问题,我们提出了一种新颖的、细粒度的、逐词元的加权函数$ϕ(y^∗_t ; π_θ)$,用于降低概率谱两端词元的学习信号,即降低那些已经概率很高的词元(以防止熵崩溃)和那些极不可能的词元(以避免破坏)。

ϕ(·) 的具体形式。更具体地说,我们根据策略对给定专家词元的概率,即$p_t = π_θ(y^∗_t |x, y^∗_{

公式5
公式5

这个函数自然形成一个抛物线曲线,在$p_t = 0.5$处达到峰值,并随着$p_t$接近0或1而衰减至零。

更新后的SFT目标函数。SFT目标函数可以更新为:

公式6
公式6

其中,$ϕ(y^∗_t ; π_θ)$调节了专家轨迹中每个词元的梯度贡献。

信息论视角。从信息论的角度来看,项$p_t(1−p_t)$可以被视为策略对于生成词元$y^∗_t$这个二元事件的不确定性度量【索引45, Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for llm reasoning, 2025, arXiv】。因此,这种方法偏向于学习策略最不确定的词元,并创造了一个“学习甜点”,将离策略学习集中在那些足够新颖以提供信息,但又不足以破坏既定策略的词元上。

CHORD的最终目标函数。通过用$L_{SFT-ϕ}$替换所提出的混合损失函数(在方程(3)中定义)中的静态$L_{SFT}$,我们得到了CHORD的最终目标函数。该函数应用一个全局系数µ来调整专家数据的整体影响,并使用一个细粒度的加权函数ϕ(·)来帮助增强从离策略数据学习时的稳定性。

A4 实验环境

  • 数据集
    • 训练数据:使用OpenR1-Math-220k数据集,其数学问题来源于NuminaMath1.5,专家轨迹由Deepseek-R1生成。从中采样5k实例用于SFT,20k实例用于RL,确保两部分数据无重叠。
    • 评估数据
      • 领域内推理能力:在AIME24、AIME25和AMC等广泛使用的数学基准上进行评估。
      • 通用推理能力:在MMLU-pro基准上评估,以考察后训练后通用推理能力的潜在提升或下降。
  • 模型架构
    • 在Qwen2.5-Instruct系列模型上进行后训练,主要使用Qwen2.5-7B-Instruct,因为其响应模式与提供离策略专家数据的Deepseek-R1存在显著差异。
  • 硬件配置
    • 所有实验均在8块NVIDIA A100 GPU上进行。
  • 软件配置
    • 实现框架:SFT算法基于LLaMA-Factory实现,RL算法基于Trinity-RFT实现。
    • 超参数:学习率在{1×10⁻⁶, 5×10⁻⁶, 1×10⁻⁵}中调整。RL的批大小为32,每个提示有8个rollouts。SFT的批大小为64。SFT最大训练轮数为5,RL最大步数为1,500。rollout和评估的温度均设为1.0。

A4 实验结果

性能对比

总体性能:如表1所示,CHORD在领域内和通用推理能力上均表现出有效性。CHORD-µ通过平滑过渡优于SFT-then-RL范式,在所有MATH基准测试中均取得提升。CHORD-ϕ则凭借其双重控制机制,在所有基准上都取得了持续的优异表现,它选择性地应用SFT损失,从而在整合专家知识的同时不损害基础能力,实现了离策略专家数据和在策略探索的稳健学习。

表1:数学推理和通用推理基准上的性能比较。
表1:数学推理和通用推理基准上的性能比较。

SFT与SFT-then-RL分析:实验结果表明,仅进行少量SFT(SFT-light)甚至可能比原始模型表现更差。经过充分调优的SFT(SFT-best)性能有所提升。SFT-then-RL(SFT-light+RL和SFT-best+RL)比单纯SFT有进一步改进,这验证了在策略优化的必要性以及从SFT过渡到RL时机选择的重要性。然而,这些方法仍然逊于CHORD。

推理模式分析

响应长度:如表2和图6所示,专家数据与Qwen2.5-7B-Instruct的响应长度差异显著。SFT模型倾向于生成与专家相似的长响应。RL通过在策略探索有助于缓解这一问题。CHORD-µ表现出与SFT-then-RL相似的趋势,响应长度先增加后收敛。而CHORD-ϕ在响应长度上取得了SFT-then-RL和纯RL之间的平衡。通过逐词元权重调整,模型学会了选择性地整合专家推理模式,如在思维链中策略性地加入验证步骤,而不是简单模仿,从而在不生成过长响应的情况下提升了推理的鲁棒性。

表2:不同方法的平均响应长度统计。
表2:不同方法的平均响应长度统计。

图6:CHORD-µ, CHORD-ϕ, 和纯RL的响应长度比较。
图6:CHORD-µ, CHORD-ϕ, 和纯RL的响应长度比较。

µ 的影响分析

衰减调度:如图7和图8所示,将µ值在前200个训练步骤中从0.9衰减到0.05,并在之后保持不变。训练初期,高µ值使SFT损失占主导,模型与专家数据对齐,导致奖励短暂下降。随着µ的减小,训练重点无缝转移到在策略RL,模型利用学到的推理模式最大化奖励,同时避免了对专家数据的过拟合。这种动态策略使性能显著超越纯RL和SFT-then-RL。

图7:CHORD-µ和各种固定µ策略下,µ值与训练步数的关系。
图7:CHORD-µ和各种固定µ策略下,µ值与训练步数的关系。

图8:CHORD-µ和各种固定µ策略下,奖励与训练步数的关系。
图8:CHORD-µ和各种固定µ策略下,奖励与训练步数的关系。

动态µ与固定µ对比:图8显示,使用固定µ值的性能始终劣于动态µ。静态权重无法有效平衡离策略学习和在策略探索,甚至可能不如纯RL。固定µ使模型持续在两种可能分歧的推理模式之间摇摆,难以收敛到稳定且高性能的状态。而衰减调度通过平滑过渡解决了这一冲突。

ϕ 的影响分析

CHORD-ϕ的训练曲线:图9和图10比较了纯RL与CHORD-ϕ(固定µ=0.1)的熵损失和奖励。CHORD-ϕ通过逐词元加权函数ϕ(·),在探索与利用之间保持了良好平衡。它既防止了因SFT损失导致模型对专家的高概率词元过分自信而引起的熵过早崩溃,也避免了因离策略数据与当前策略冲突而导致的大熵尖峰和训练不稳定。奖励曲线(图10)进一步证明了其优势,CHORD-ϕ实现了稳定持续的奖励增长,最终性能显著优于纯RL,证实了ϕ(·)对于有效统一SFT和RL阶段至关重要。

图9:CHORD-ϕ和基线方法的熵损失与训练步数的关系。
图9:CHORD-ϕ和基线方法的熵损失与训练步数的关系。

图10:CHORD-ϕ和基线方法的奖励与训练步数的关系。
图10:CHORD-ϕ和基线方法的奖励与训练步数的关系。

实例化ϕ(·)的原则:提出的$ϕ(·) = p_t * (1 − p_t)$遵循一个通用原则:稳定的离策略整合需要降低概率谱两端词元的学习信号。通过给策略已确信的词元($p_t$接近0或1)分配可忽略的权重,该方法防止离策略数据破坏模型的既定推理模式,并将更新集中在模型尚不确定的词元上。这一原则可以启发未来针对不同场景设计更先进的加权方案。

A5 结论

本文识别出,现有的SFT-then-RL范式因利用离策略专家数据时会破坏模型已建立的模式,常常导致次优性能。这一发现促使我们从统一的在策略与离策略视角重新评估分离的RL和SFT范式,将它们视为集成的组成部分而非不同阶段。为实现这一统一愿景,我们提出了CHORD框架。通过在整体和细粒度层面分析专家数据的影响,CHORD首先集成了一个全局系数µ来管理离策略专家数据的整体影响,实现了从模仿到探索的更平滑过渡。接着,CHORD引入了一个逐词元的加权函数ϕ(·),它通过降低那些已经概率很高(以防止模式固化并保留探索)或极不可能(以避免策略破坏)的词元的权重,策略性地引导了对专家知识的选择性吸收,同时保持了模型的推理模式。一系列实验的定量和定性分析表明,CHORD在整个调整过程中能够选择性地从离策略专家数据中学习有益模式,同时探索自身行为,与现有的SFT-then-RL范式相比取得了显著的性能优势。

A6 附录

额外的实验设置与结果

A.1 超参数。在所有实验中,学习率在{1 × 10⁻⁶, 5 × 10⁻⁶, 1 × 10⁻⁵}范围内进行调整。RL的批处理大小设置为32,每个提示有8个rollouts。SFT的批处理大小设置为64。对于RL中的更新步骤,我们采用与先前研究【索引30, Acereason-nemotron 1.1: Advancing math and code reasoning through sft and rl synergy, 2025, arXiv】类似的“严格在策略训练”,即为B=32个提示生成K=8个rollouts,然后进行单次策略梯度更新。对于SFT,我们将最大训练轮数设置为5,而对于RL,最大步数设置为1,500。rollout和评估的温度都配置为1.0。

A.2 实现细节。在我们的实验中,使用一组分层规则来确定生成响应的奖励。如果响应产生正确的最终答案,则获得+1.0的最大正奖励。此外,为了鼓励结构上的遵循而不惩罚探索过程中的错误推理,如果响应遵循正确的格式(例如,以盒装答案结尾的逐步推理)但最终答案不正确,我们分配一个中性奖励0.0。如果响应既不正确又格式不当,则施加-0.1的小惩罚。超过预定义词元限制的响应会受到-1.0的强惩罚。我们基于LLaMA-Factory【索引60, Llamafactory: Unified efficient fine-tuning of 100+ language models, 2024, ACL】实现SFT算法,并基于Trinity RFT【索引37, Trinity-rft: A general-purpose and unified framework for reinforcement fine-tuning of large language models, 2025, arXiv】实现RL算法。所有实验都在8个NVIDIA A100 GPU上进行。对于评估,我们采用准确率作为指标。为确保公平比较,我们在AIME24和AIME25上报告avg@32,在AMC上报告avg@8。

A.3 MMLU-pro数据集上的实验结果。我们在表3中提供了MMLU-pro数据集上的实验结果。生成这些结果所采用的提示可以在附录A.4中找到。

表3:MMLU-Pro数据集上的性能比较。
表3:MMLU-Pro数据集上的性能比较。

A.4 提示
* 数学问题提示:系统提示要求模型作为一个解决数学问题的助手,先在脑中思考推理过程,然后以<think>...</think>格式呈现,并总是将最终答案放在\boxed{}中。用户示例是一个简单的时长计算问题。对于基础模型的性能,我们报告使用此提示或Qwen默认提示中得分较高者。
* MMLU-pro数据集提示:系统提示与数学问题类似,但对于多项选择题,修改了答案格式,要求以选项索引的数字作为响应。用户示例是一个关于线性变换的数学选择题。

相关工作详细讨论

B.1 LLM的微调
* SFT for LLMs:SFT因其简单和成本效益高,已成为LLM对齐的基石。早期工作强调高质量数据集的重要性,但专家策划成本高昂。为覆盖多样化用例,范式已转向大规模SFT,这使得从头微调计算成本过高,推动了在预对齐指令模型上继续调整的趋势。SFT与RL的相互作用日益复杂,从将RL启发的思想融入SFT到策略性整合两种范式,最佳的、有原则的整合方法仍是一个关键的开放研究领域。
* RL for LLMs:RL在LLM中的应用已超越传统的人类偏好对齐,在数学和代码生成等复杂推理领域取得显著进展,特别是通过可验证奖励的强化学习(RLVR)。然而,RL如何促进有效探索以超越基础模型固有能力仍是一个根本挑战。为解决此问题,引入外部专家数据(用于蒸馏、冷启动或引导探索)成为一种有前途的方法。

B.2 在策略与离策略强化学习
* 传统RL中结合在策略与离策略数据:在机器人或游戏等传统RL领域,结合两种数据是一种有效策略,方法包括交替训练、混合数据缓冲区或用专家轨迹增强在策略回放缓冲区。然而,这些方法在LLM上效果不佳,因为LLM具有强大的初始先验知识,激进的离策略更新可能破坏既定推理模式;其巨大的自回归动作空间也极大地增加了专家数据的离策略程度,使传统离策略算法的假设失效。
* LLM的RL中结合在策略与离策略数据:利用离策略数据提高样本效率是RL的成熟策略。相关研究集中于利用过时的自生成数据,或利用外部专家数据来指导LLM的强化学习过程。这些方法可分为:直接数据混合(如LUFFY),使用专家数据引导生成(如UFT、BREAD),以及交错RL和SFT更新(如Reift)。最近的SRFT统一了这些方法。我们的工作与这些方法的关键区别在于,它们大多是从一个 nascent 策略的基础模型开始“zero-RL”训练,而我们处理的是对一个已经拥有成熟指令遵循策略的模型进行微调的挑战。这种高级起点造成了模型自身策略与外部专家数据之间更大的分布差异,加剧了我们的方法旨在解决的离策略校正问题。

离策略数据对基础模型与指令模型的影响

挑战的放大。在微调指令模型时,控制离策略数据影响和维持训练稳定性的挑战被显著放大。这主要是由于这些指令模型固有的已建立策略。

基础模型与指令模型的区别。基础模型仅通过语言建模目标进行预训练,缺乏连贯的、特定任务的指令遵循策略。当它从离策略专家数据中学习时,训练过程类似于初始策略的形成,不会与现有模式冲突,因此训练相对稳定。相比之下,指令模型已经形成了一个尖锐的策略分布。在反映不同推理模式的离策略专家数据上训练这些模型,会引入巨大的分布不匹配。RL算法试图调和这种不匹配可能导致大的、破坏性的策略更新,从而破坏已建立的策略并可能导致性能崩溃。

经验观察。图11提供了支持上述讨论的经验观察。当从在策略和离策略数据的混合中学习时,基础模型的奖励单调提高,没有显示出在类似条件下可能影响指令模型的不稳定问题。

图11:使用固定的μ=0.1训练基础模型或指令模型的奖励曲线。
图11:使用固定的μ=0.1训练基础模型或指令模型的奖励曲线。

本文的定位。与大多数关注“Zero-RL”设置(即从基础模型训练)的研究不同,本文解决了一个更具挑战性但更实际的问题:如何有效地将离策略专家的知识整合到一个已经拥有既定策略的模型中。

案例研究

不同方法的生成模式对比
* RL-only:仅用RL训练的模型展现出简洁、结构化但最终僵化的推理模式。它倾向于遵循固定模板,线性进行,不进行自我纠正或探索替代方案,导致响应高效但可能不够鲁棒。
* SFT-only 和 CHORD-µ:仅在专家演示上训练的模型可能冗长且具有探索性,呈现出“边想边说”的风格,频繁进行元评论、回溯和验证。响应全面但缺乏简洁结构。CHORD-µ的推理模式与SFT-only相似。
* CHORD-ϕ:该模型展现出一种混合推理风格,保留了清晰的逻辑结构,同时选择性地融入了专家复杂的验证策略。例如,它会发展出如“或者...”和“两种方法都证实...”这样的模式,生成既结构良好又鲁棒的响应。

生成示例
* 原始Qwen2.5-7B-Instruct:推理过程直接,计算方法单一,最终答案错误(61分钟)。
* RL-only模型:推理过程结构化,按步骤计算,但最终答案错误(39分钟,但计算过程有误,正确应为39)。
* SFT-only模型:推理过程非常冗长,充满了“让我思考”、“让我检查”等元评论,并尝试了多种方法(分段计算、公式法、总分钟数法)进行验证,最终得出正确答案(39分钟)。
* CHORD-µ模型:推理模式与SFT-only类似,同样采用多种方法进行验证,过程详细,最终得出正确答案(39分钟)。
* CHORD-ϕ模型:推理过程比SFT-only和CHORD-µ简洁,但保留了使用多种方法验证的核心策略(分段计算和总分钟数法),展现了结构化和鲁棒性的结合,最终得出正确答案(39分钟)。