Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
作者/机构: ByteDance Seed (完整作者列表见贡献部分)
A1 主要贡献
本文介绍了一款名为Seed1.5-Thinking的新型推理模型,该模型通过在响应前进行思考来提升在广泛基准测试中的性能。研究的核心目标是开发一个在推理和非推理任务上都表现出色的模型。
主要贡献和创新点如下:
1. 卓越的推理能力:Seed1.e5-Thinking在多个高难度推理基准上取得了SOTA级别的性能。
* 数学推理:在AIME 2024上获得86.7分,与o3-mini-high持平,显著优于o1和DeepSeek R1。为解决AIME 2024区分度不足的问题,团队构建了更具挑战性的BeyondAIME测试集。
* 编程竞赛:在Codeforces基准测试中,pass@1和pass@8指标均优于DeepSeek R1。
* 科学:在GPQA上获得77.3分,接近o3级别,这一提升主要归功于数学训练带来的泛化能力。
2. 广泛的通用能力:模型在非推理任务上也表现出色。通过与DeepSeek R1的人工评估对比,Seed1.5-Thinking在多样化的真实用户场景中,用户正面反馈率总体提升了8.0%。
3. 模型架构:Seed1.5-Thinking是一个混合专家(MoE)模型,激活参数为20B,总参数为200B,尺寸相对较小。
4. 开发高质量推理模型的三个关键要素:本文详细阐述了在开发过程中的三个核心投入领域,分别是训练数据、强化学习(RL)算法和RL基础设施。
* 数据:强调了思维链(CoT)数据对SFT的重要性,并构建了包含STEM、代码、逻辑推理和非推理任务的RL训练数据。
* RL算法:为解决RL训练不稳定的问题,开创了VAPO和DAPO框架,分别针对actor-critic和policy-gradient范式,实现了稳定可靠的训练。
* RL基础设施:开发了支持异构工作负载的解耦流式rollout架构,将迭代周期缩短至同步框架的1/3,并支持混合精度训练和自动故障恢复。
5. 发布新基准:为评估通用推理能力,开发了两个内部基准BeyondAIME和Codeforces,并将公开发布以支持未来研究。
A3 数据与奖励建模
2 数据
2.1 强化学习训练数据
我们的RL训练数据包含两个主要部分:有确定答案的可验证问题和没有确定答案的不可验证问题。模型的推理能力主要来自第一部分,并能泛化到第二部分。
2.1.1 可验证问题
可验证问题主要包括配有答案的STEM问题、配备单元测试的编程问题以及易于自动验证的逻辑推理题。
STEM数据
* 数据集构成:我们的数据集包含数十万个高质量的竞赛级问题,涵盖数学、物理和化学,其中数学占绝大多数(超过80%)。这些问题来自开源数据集、国内外公开竞赛和专有收藏的混合。
* 数据清洗:我们首先剔除陈述不完整、符号不一致或要求不明确的问题。对于剩余问题,我们使用模型(豆包-Pro 1.5)生成多个回答。对于模型woN(N个中最差)得分为1的问题,我们认为其过于简单并予以移除。最后,一些问题可能存在不准确的参考答案。我们使用SOTA推理模型为每个问题生成多个候选回答。如果模型的答案与参考答案不一致,但模型的输出表现出高度的内部一致性,或仅涉及极少数的推理token,我们则认为参考答案是错误的。然后,人类专家对这些问题进行手动验证,以确保参考答案的正确性。
* 数据增强:我们还应用数据增强使数据更适合学习和评估。具体来说,我们将多项选择题转换为填空题或简答题格式,以消除猜测的可能性并更好地评估推理能力。并且我们修改了某些数学问题,以确保答案尽可能为整数。
* 最终数据集:经过数据清洗和增强,我们最终获得了包含10万个STEM问题的训练集。在训练期间,我们使用基于模型的Seed-Verifier来评估回答的正确性,这在3.1节中介绍。
代码数据
* 数据来源:对于编程问题,我们优先选择高质量和具有挑战性的算法任务来源,主要来自知名的编程竞赛。
* 数据筛选:我们筛选数据以确保每个问题都包含一个全面的规范:清晰的问题描述、一组单元测试和一个检查器脚本。单元测试验证解决方案的功能正确性,而检查器脚本则强制执行额外的约束,如输出格式和边缘情况。我们还进行难度筛选,确保问题具有适当的复杂性和对真实世界算法推理的适用性。
* 评估方式:最准确的评估形式是向官方平台提交生成的代码。然而,在强化学习期间,实时提交是不可行的。因此,我们开发了一个离线评估集以便进行高效的本地验证。我们的观察表明,离线评估结果与官方判决结果之间存在很强的相关性。所有训练和评估问题都集成到一个内部的代码沙箱环境中,从而能够直接执行和评估模型生成的代码。我们确保沙箱的稳定性和高吞吐量,以便在RL训练过程中提供一致和准确的反馈。
逻辑谜题数据
* 数据构建:对于逻辑推理数据,我们收集了22个常见的任务,如24点、迷宫、数独等。对于每个任务,我们构建了一个数据生成器和一个答案验证器。数据生成器可以自动生成大量的训练和评估数据。此外,对于许多任务,我们可以配置生成问题的难度。在训练过程中,我们根据模型在某些任务上的表现逐步调整训练数据的难度。
* 答案验证器:答案验证器严格评估生成的正确性,并可以无缝地集成到RL流水线中作为奖励函数。我们为RL训练生成了大约1万个谜题问题。
2.1.2 不可验证问题
不可验证问题主要涵盖需要基于人类偏好进行质量评估的非推理任务,涉及创意写作、翻译、知识问答、角色扮演等任务。这些提示源自用于豆包-1.5 Pro【索引7,ByteDance. Doubao-1.5-pro, 2025】的RL训练数据。该数据集在不同领域具有充分的覆盖。
- 数据筛选:我们丢弃了样本得分方差低和难度低的数据。具体来说,我们使用SFT模型为每个提示生成多个候选答案,然后使用奖励模型对其进行评分。得分方差低的提示被移除,因为它们表现出有限的采样多样性和极小的改进潜力。在豆包 1.5 Pro RL训练过程中【索引8,Wei Shen, et al. Exploring data scaling trends and effects in reinforcement learning from human feedback, 2025】,奖励得分提升超过某个阈值的提示也被移除。这是因为这些数据可能过于简单或已在数据集中大量存在。离线实验表明,过度优化这类样本会导致模型探索空间的过早崩溃并降低性能。
- 奖励方法:对于这些不可验证的数据,我们采用成对奖励方法进行评分和RL训练。通过比较两个样本的相对质量,这种方法有助于模型更好地理解用户偏好,从而提高生成结果的质量和多样性。奖励模型的细节在3.2节中介绍。
2.2 高级数学基准
目前的推理模型通常使用AIME作为评估数学推理能力的首选基准。然而,由于每年只发布30个问题,其有限的规模可能导致高方差的评估结果,使其难以有效地区分最先进的推理模型。为了更好地评估模型的数学推理能力,我们构建了一个新的基准数据集:BeyondAIME。具体来说,我们与数学专家合作,根据已有的竞赛格式开发原创问题。我们通过结构修改和情景重构系统地调整现有的竞赛问题,确保不发生直接重复。此外,我们确保答案绝不是琐碎的值——例如问题陈述中明确提到的数字——以减少模型在没有适当推理的情况下猜对答案的机会。
通过这个严格的筛选和策划过程,我们最终汇编了一套包含100个问题的集合,每个问题的难度等于或大于AIME中最难问题的难度。与AIME类似,所有答案都保证是整数(不限于特定的数值范围),这简化并稳定了评估过程。
3. 奖励建模
作为RL中的一个关键组成部分,奖励建模定义了策略试图实现的目标。因此,一个精心设计的奖励机制对于在训练阶段为模型响应提供精确可靠的奖励信号至关重要。对于可验证和不可验证的问题,我们采用不同的奖励建模方法。
表1 两种验证器类型的准确率。具体来说,训练集上的准确率来自训练统计数据。此外,我们手动标注了456个样本构成测试集,这些样本专门从Seed-Verifier无法稳定处理的案例中选取。
3.1 可验证问题的奖励建模
通过恰当的原则和思维轨迹,我们利用LLM来判断各种场景下的大量可验证问题。这种方法产生了一个更通用的解决方案,超越了基于规则的奖励系统的局限性。
我们设计了两种渐进式的奖励建模解决方案,Seed-Verifier和Seed-Thinking-Verifier:
* Seed-Verifier:该验证器基于一套由人类精心编写的原则。它利用LLM强大的基础能力来评估一个由问题、参考答案和模型生成答案组成的三元组。如果参考答案和模型生成的答案在本质上是等价的,它返回“YES”;否则返回“NO”。这里的等价不是字面上的完全匹配,而是基于计算规则和数学原则的更深层次评估,证明两个答案传达了相同的数学意义。这种方法确保了奖励信号能够准确反映模型的回答在本质上是否正确,即使措辞不同。
* Seed-Thinking-Verifier:该验证器受到人类判断过程的启发,即通过细致的思考和深入的分析得出最终判断。为了实现这一点,我们训练了一个能够为其评估提供详细推理路径的验证器。具体来说,我们将其视为一个可验证的任务,并与其他数学推理任务一起进行优化。这个验证器可以剖析参考答案和模型生成答案之间的异同,提供精确而细致的判断结果。
Seed-Thinking-Verifier显著缓解了与Seed-Verifier相关的三个主要问题:
* 奖励攻击(Reward Hacking):非思考型模型可能会利用漏洞在没有真正理解问题的情况下获得奖励。Seed-Thinking-Verifier中详细的推理过程使得这种攻击更加困难。
* 预测的不确定性:在参考答案和模型生成的答案本质上等价但格式可能不同的情况下,例如$2^{19}$和524288,Seed-Verifier有时可能返回“YES”,有时则返回“NO”。Seed-Thinking-Verifier通过透彻分析答案背后的推理过程,提供了一致的结果。
* 在极端案例上的失败:存在一些Seed-Verifier难以有效处理的边缘案例。Seed-Thinking-Verifier提供详细推理的能力使其能够更好地处理这些复杂场景。
表1展示了上述两种验证器的性能。结果表明,Seed-Verifier在处理某些特定案例时效果不佳,而Seed-Thinking-Verifier则展现出提供准确判断的卓越能力。尽管后者的思考过程确实消耗了大量的GPU资源,但我们认为它生成的精确而稳健的奖励结果对于赋予策略强大的推理能力至关重要。
3.2 不可验证问题的奖励建模
对于不可验证问题,我们为RL训练训练了一个奖励模型。奖励模型的训练数据与豆包1.5 Pro【索引7,ByteDance. Doubao-1.5-pro, 2025】中使用的人类偏好数据一致,主要涵盖创意写作和摘要等类别。
为了增强奖励模型的有效性,我们采用了在【索引9,Wenyuan Xu, et al. A unified pairwise framework for rlhf: Bridging generative reward modeling and policy optimization, 2025】中提到的成对生成式奖励模型,该模型评估两个回答的优劣,并使用“YES”或“NO”的概率作为最终奖励分数。这种方法使模型在评分时能够直接比较回答之间的差异,从而避免过度关注不相关的细节。实验结果表明,这种奖励建模方法提高了RL训练的稳定性,特别是在涉及不可验证和可验证问题的混合训练场景中,通过最小化两种不同类型奖励建模范式之间的冲突。这种改进可能归因于成对生成式奖励模型在缓解异常分数生成方面相较于传统奖励模型具有的内在优势,从而避免了与验证器的分数分布产生显著差异。
A2 方法细节
4. 方法
4.1 监督微调
我们的训练过程从监督微调(SFT)开始。SFT阶段为后续的强化学习阶段奠定了坚实的基础。与从基础模型开始RL相比,SFT模型产生的输出更具可读性,幻觉实例更少,并且表现出更低的有害性。我们策划了一个包含40万个训练实例的SFT数据集,其中包括30万个可验证问题和10万个不可验证问题。可验证的提示是从RL训练集中随机抽样的。不可验证的数据来源于用于豆包-Pro 1.5【索引7,ByteDance. Doubao-1.5-pro, 2025】的SFT数据,涵盖了创意写作、知识问答、安全和函数调用等领域。
为了生成具有长思维链(CoT)的高质量回答,我们采用了一个集成了模型合成、人工标注和拒绝采样的迭代工作流。最初,人类专家应用提示工程技术或与内部模型进行交互式对话,以产生具有各种推理模式的回答。在积累了数十个高质量的冷启动样本后,我们可以训练一个具有长CoT的推理模型,作为一个更有能力的助手。然后,我们使用Seed-Verifier对这个推理模型进行拒绝采样。虽然这个工作流主要应用于数学数据,但我们观察到它可以很好地泛化到其他领域,如编程、逻辑谜题甚至创意写作。因此,对于其他领域,我们也进行了一个冷启动过程,然后进行拒绝采样,以产生详细的推理轨迹。
在训练期间,每个实例被截断为32,000个token。我们使用上述数据对基础模型进行了两个epoch的微调。我们使用余弦衰减学习率调度,峰值学习率为$2 \times 10^{-5}$,并逐渐衰减到$2 \times 10^{-6}$。
4.2 强化学习
我们开发了一个统一的强化学习框架,该框架无缝地融合了来自广泛领域的数据。这种集成包含了三类数据:
* 可验证数据:从验证器获得反馈。这类数据允许直接根据已知标准验证模型的输出。
* 通用数据:由奖励模型评分。奖励模型根据模型的回答与人类偏好的一致性程度来打分。
* 特定类别的数据:结合了来自验证器和奖励模型的分数。这种混合数据类型利用了验证和基于奖励评估的两种优势。
在长思维链(long-CoT)RLHF的背景下,我们遇到了诸如价值模型偏差和奖励信号稀疏性等若干挑战。为了解决这些问题,我们借鉴了我们先前工作【索引5,Yu Yue, et al. Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks, 2025】、【索引6,Qiying Yu, et al. Dapo: An open-source llm reinforcement learning system at scale, 2025】、【索引10,Yufeng Yuan, et al. What’s behind ppo’s collapse in long-cot? value optimization holds the secret. arXiv preprint arXiv:2503.01491, 2025】中的关键技术:
* 价值预训练(Value-Pretraining):我们从一个固定的策略(如$\pi_{sft}$)中采样回答,并使用蒙特卡洛回报更新价值模型。这个过程确保了初始化的价值模型与我们的策略$\pi_{sft}$完全对齐。事实证明,维持这种对齐对于保持模型的CoT模式至关重要,使模型能够生成连贯且逻辑性强的CoT。
* 解耦GAE(Decoupled-GAE):通过采用不同的广义优势估计(GAE)参数,例如$\lambda_{value} = 1.0$和$\lambda_{policy} = 0.95$,我们允许价值模型以无偏的方式更新。同时,策略可以独立地平衡其自身的偏差和方差。这种解耦使得模型训练更加高效和稳定。
* 长度自适应GAE(Length-adaptive GAE):我们设置$\lambda_{policy} = 1 - \frac{1}{\alpha l}$,其中$\alpha$是一个超参数,l是回答的长度。这种方法确保了时序差分(TD)误差在短序列和长序列上分布更均匀。因此,模型在训练期间可以更有效地处理不同长度的序列。
* 动态采样(Dynamic Sampling):我们采用动态采样,并过滤掉准确率得分为1或0的提示,只在批次中保留那些展现出有效梯度的提示。这个过程有助于防止在模型训练期间梯度信号的衰减。
* Clip-Higher:在近端策略优化(PPO)算法中,我们解耦了上裁剪边界和下裁剪边界,如下所示:
通过增加$\epsilon_{high}$的值,我们为低概率token的增加创造了更多空间。这鼓励模型探索更广泛的可能回答,增强其发现新颖有效解决方案的能力。
* Token级损失(Token-level Loss):我们不将策略损失定义在整个回答上,而是定义在所有token上。这种方法解决了token级对最终损失贡献不平衡的问题,确保每个token对训练过程的影响都得到适当的考虑。
* 正样本语言模型损失(Positive Example LM Loss):这个损失函数旨在提高RL训练过程中正样本的利用效率。我们为正样本增加了一个带有系数$\mu$的语言模型损失:
这个额外的损失项帮助模型更好地从正样本中学习,从而提高其整体性能。
当合并来自不同领域的数据并整合多样的评分机制时,我们面临不同数据领域之间相互干扰的挑战。这种干扰可能源于难度水平的差异、奖励攻击的风险以及其他潜在因素。这些问题使得在模型的所有能力上实现统一和同步的提升变得极其困难。为了应对这个问题,我们引入了在线数据分布自适应(Online Data Distribution Adaptation)。该方法将强化学习期间的静态提示分布转换为一个能更好地满足模型训练需求的自适应分布。通过这样做,我们最小化了数据干扰的负面影响,并确保了不同能力之间更均衡的提升。因此,模型可以在广泛的任务上更一致地增强其性能。
5 基础设施
5.1 框架
训练框架是使用HybridFlow【索引11,Guangming Sheng, et al. Hybridflow: A flexible and efficient rlhf framework, 2024】编程抽象构建的。整个训练工作负载运行在一个Ray【索引12,Philipp Moritz, et al. Ray: A distributed framework for emerging AI applications, 2017】集群之上。数据加载器和RL算法在一个单进程的Ray Actor(单一控制器)中实现。模型训练和响应生成(rollout)在一个Ray Worker Group中实现。Ray Worker Group暴露了一组API(例如,generate_response/train_batch等),这些API通过SPMD(单程序多数据)在Worker Group内部运行繁重的训练/生成工作负载。单一控制器调用Ray Worker Group暴露的各种API来构建训练流程。HybridFlow编程抽象使得RL算法思想的快速原型设计成为可能,而无需处理复杂的分布式系统问题。
Seed1.5-Thinking是通过混合引擎架构【索引13,Zhewei Yao, et al. Deepspeed-chat: Easy, fast and affordable rlhf training of chatgpt-like models at all scales, 2023】进行训练的,其中所有模型都位于同一位置。这防止了在训练和生成之间切换时GPU的空闲时间。在长CoT生成过程中,我们观察到由不同提示的响应长度差异巨大引起的严重掉队(straggler)现象。这导致了生成过程中的大量GPU空闲时间。为了缓解长尾响应生成的掉队问题,我们提出了SRS(流式Rollout系统)——一个资源感知的调度框架,它战略性地部署独立的流式计算单元,将系统约束从内存密集型转变为计算密集型。
5.2 流式Rollout系统(Streaming Rollout System)
SRS架构引入了流式rollout,将模型演进与运行时执行解耦,通过参数$\alpha$实现对on-policy和off-policy样本比例的动态调整:
* 定义完成率($\alpha \in [0, 1]$)为使用最新模型版本进行on-policy生成的样本比例。
* 将剩余的未完成部分($1-\alpha$)分配给来自版本化模型快照的off-policy rollout,通过在独立资源上异步续传部分生成无缝集成。
此外,我们还在环境交互阶段实现了动态精度调度,通过带有误差补偿范围缩放的训练后量化部署FP8策略网络。为了解决MoE系统中的token不平衡问题,我们实现了一个三层并行架构,结合了用于层级计算的TP(张量并行)、带有动态专家分配的EP(专家并行)和用于上下文分块的SP(序列并行)。我们的内核自动调优器根据实时负载监控动态选择最优的CUDA内核配置。
5.3 训练系统
为了高效地大规模训练Seed1.5-Thinking模型,我们设计了一个混合分布式训练框架,该框架集成了先进的并行策略、动态工作负载均衡和内存优化。下面我们详细介绍驱动该系统效率和可扩展性的核心技术创新。
* 并行机制:我们将TP(张量并行)/EP(专家并行)/CP(上下文并行)与完全分片数据并行(FSDP)相结合来训练Seed1.5-Thinking。具体来说,我们对注意力层应用TP/CP,对MoE层应用EP。
* 序列长度均衡:有效序列长度在DP rank之间可能不平衡,导致计算工作负载不均衡和训练效率低下。为了应对这一挑战,我们利用KARP【索引14,Narendra Karmarkar and Richard M Karp. The differencing method of set partitioning, 1982】算法,该算法重新排列一个小批量内的输入序列,使其在微批次之间保持平衡。
* 内存优化:我们采用层级重计算【索引15,Tianqi Chen, et al. Training deep nets with sublinear memory cost, 2016】、激活卸载和优化器卸载来支持训练更大的微批次,以重叠FSDP引起的通信开销。
* 自动并行:为了实现最优的系统性能,我们开发了一个自动调优系统,称为AutoTuner。具体来说,AutoTuner遵循一种基于性能剖析的解决方案【索引16,Lianmin Zheng, et al. Alpa: Automating inter-and {Intra-Operator} parallelism for distributed deep learning, 2022】来建模内存使用。然后,它估计各种配置的性能和内存使用情况,以获得最优配置。
* 检查点:我们采用ByteCheckpoint【索引17,Borui Wan, et al. Bytecheckpoint: A unified checkpointing system for large foundation model development, 2025】来支持从不同的分布式配置中恢复检查点,且开销极小。这使得用户可以弹性地训练任务,以提高集群效率。
A4 实验环境与结果
实验环境
- 模型架构:Seed1.5-Thinking,一个混合专家(MoE)模型,拥有20B激活参数和200B总参数。
- 数据集:
- 数学推理:AIME 2024, AIME 2025, BeyondAIME(自建)。
- 编程:Codeforces(自建评估集)。
- 科学:GPQA。
- 通用知识:SimpleQA。
- 非推理任务:内部构建的、旨在复现真实世界用户需求的主观任务测试集,用于人工评估。
- 硬件配置:未明确说明具体的GPU型号和数量,但提及了在Ray集群上运行,并使用了CUDA内核,表明使用了NVIDIA GPU。
- 软件配置:
- 框架:基于HybridFlow编程抽象,运行在Ray集群之上。
- 并行与优化库:使用了FSDP(完全分片数据并行)、DeepSpeed-Chat(参考文献暗示)、ByteCheckpoint等。
- 语言/实现:RL算法和数据加载器在单个Ray Actor中实现。
实验结果
6.1 自动评估结果
表2展示了在数学、编程、科学和通用知识等多个领域的评估结果。数学基准任务的结果是在32个模型响应中取平均值,而GPQA任务结果是在8个响应中取平均值。对于Codeforces,我们报告了avg@8和pass@8,因为pass@8更符合人类的提交习惯。所有其他任务的结果是在1个响应中取平均值。
- 数学推理:在AIME 2024基准测试中,Seed1.5-Thinking取得了86.7分的顶级性能,与OpenAI的o3-mini-high模型持平。然而,在更新的AIME 2025和更高级的BeyondAIME挑战中,Seed1.5-Thinking的性能仍然落后于o3级别。
- 科学:对于GPQA任务,Seed1.5-Thinking达到了77.3%的准确率,接近o3-mini-high的性能。
- 编程:在如Codeforces的代码生成场景中,Seed1.5-Thinking的性能几乎与Gemini 2.5 Pro相当,但仍落后于o3-mini-high。
- 通用知识:值得注意的是,Seed1.5-Thinking在SimpleQA上的结果不那么出色。需要强调的是,这个基准主要是一个以记忆为导向的指标,其性能与预训练模型的规模关联性更强,而非真正的推理能力。
表2 SOTA推理模型的结果。*结果来自我们的内部沙箱,可能因测试环境不一致而与报告结果有所不同。
6.2 人工评估结果
为了评估模型在主观任务上的性能(自动化指标不足以捕捉细微的人类偏好),我们在一系列多样化的非推理场景中进行了人工评估。我们的评估旨在衡量质量的关键维度,如连贯性、相关性、创造性和对以人为中心的偏好的遵守情况,由领域专家评估小组根据预定义的评分标准对模型输出与Deepseek R1进行评级。我们使用一个5分制评分量表,从0(非常差)到4(优秀),并在包含多轮对话的会话提示上评估两个模型。每个完整会话都用二元的赢/输结果进行标注,以捕捉整体用户体验,并为每轮分配一个0-4的单一分数。
- 总体胜率:在评估的会话中,Seed1.5-Thinking取得了8.0%的总体胜率,表明其在符合以人为中心的偏好方面具有优越性。
- 跨场景一致性:此外,这个胜率在从创意写作到人文知识阐述等不同场景中都保持了一致性。图2显示了每轮评分的分布情况。
图2 评级分布
6.3 预训练模型的影响
- 拒绝采样:拒绝采样已被认为是提升模型性能的一项有价值的技术【索引2,DeepSeek-AI. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025】。我们进行了一项消融实验,以检验使用拒绝微调(RFT)模型初始化RL是否会影响结果。我们的结果显示,使用RFT初始化的预训练模型在训练中饱和得更快,但最终性能低于未使用RFT训练的模型,如表3所示。
- 算法排名在不同模型尺寸间的一致性:我们观察到,RL算法在不同尺寸和架构的模型上表现出一致的排名行为。如表4所示,Seed-150B-MoE是一个在架构(MoE vs. dense)和尺寸上都与Qwen-32B不同的模型,但它展现出了一致的排名。值得注意的是,这种一致性表明Qwen-32B可以有效地作为研究RL算法的代理模型。
表3 预训练模型消融实验
表4 一致的算法排名。Seed-150B-MoE的结果仅为消融实验,步数有限。
A5 结论
我们介绍了一款名为Seed1.5-Thinking的卓越推理模型,它在推理任务和非推理任务上都取得了出色的性能。该模型利用先进的RL技术,稳定可靠地提升了思考能力,在AIME24上达到86.7%,AIME25上达到74.0%,在Codeforces上达到55.0%。未来,我们计划研究更高效的RL方法,并探索更具挑战性的思考模式任务,以推动模型智能的边界。此外,开发与验证器准确性相当的通用奖励模型也将是一个引人注目的研究方向。
A6 附录
A 验证器案例研究
表5展示了Seed-Verifier和Seed-Thinking-Verifier的案例研究。可以清楚地看到,Seed-Verifier在处理答案复杂的样本时表现不佳。相比之下,Seed-Thinking-Verifier能够通过进行逐步分析提供准确的判断结果。得益于其详细的思考过程,Seed-Thinking-Verifier展现出卓越的灵活性,并且可以有效地推广到几乎任何领域。
表5 验证器案例研究。
B 创意写作案例研究
在表6、7、8中,我们展示了中英文的例子,以证明我们的模型在创意写作方面的熟练程度。每个例子都分为三个不同的部分:原始用户提示、模型的思考链和模型的最终回答。
表6 创意写作案例1。
方法细节中的引用汇总
- [5] Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks (Yu Yue, et al., 2025): 在4.2节中引用,作为本文采用的关键RL技术(如价值预训练、解耦GAE等)的来源。
- [6] Dapo: An open-source llm reinforcement learning system at scale (Qiying Yu, et al., 2025): 在4.2节中引用,同上,作为本文采用的关键RL技术的来源。
- [7] Doubao-1.5-pro (ByteDance, 2025): 在2.1.2节引用,作为非可验证问题提示的来源;在3.2节引用,作为奖励模型训练数据来源;在4.1节引用,作为SFT中非可验证数据的来源。
- [8] Exploring data scaling trends and effects in reinforcement learning from human feedback (Wei Shen, et al., 2025): 在2.1.2节引用,说明了在豆包1.5 Pro RL训练过程中,移除奖励得分提升过快的简单数据。
- [9] A unified pairwise framework for rlhf: Bridging generative reward modeling and policy optimization (Wenyuan Xu, et al., 2025): 在3.2节引用,作为本文采用的成对生成式奖励模型的理论依据。
- [10] What’s behind ppo’s collapse in long-cot? value optimization holds the secret (Yufeng Yuan, et al., 2025): 在4.2节引用,同[5]和[6],作为本文采用的关键RL技术的来源。
- [11] Hybridflow: A flexible and efficient rlhf framework (Guangming Sheng, et al., 2024): 在5.1节引用,作为本文训练框架所基于的编程抽象。
- [12] Ray: A distributed framework for emerging AI applications (Philipp Moritz, et al., 2017): 在5.1节引用,作为训练工作负载所运行的集群系统。
- [13] Deepspeed-chat: Easy, fast and affordable rlhf training of chatgpt-like models at all scales (Zhewei Yao, et al., 2023): 在5.1节引用,作为本文采用的混合引擎架构的参考。
- [14] The differencing method of set partitioning (Narendra Karmarkar and Richard M Karp, 1982): 在5.3节引用,作为序列长度均衡所采用的KARP算法的来源。
- [15] Training deep nets with sublinear memory cost (Tianqi Chen, et al., 2016): 在5.3节引用,作为内存优化中层级重计算技术的来源。
- [16] Alpa: Automating inter-and {Intra-Operator} parallelism for distributed deep learning (Lianmin Zheng, et al., 2022): 在5.3节引用,作为AutoTuner中基于性能剖析建模内存使用的解决方案来源。
- [17] Bytecheckpoint: A unified checkpointing system for large foundation model development (Borui Wan, et al., 2025): 在5.3节引用,作为支持弹性训练的检查点系统的来源。
💬 评论讨论
欢迎在这里分享您的想法和见解!