LongCat-Flash-Thinking Technical Report

文章标题:LongCat-Flash-Thinking 技术报告
作者/机构:美团 LongCat 团队


图 1: 推理基准测试的平均性能比较。左侧的四个模型是开源权重 LLM,而其他模型是闭源权重 LLM。

A1 主要贡献

本文介绍了 LongCat-Flash-Thinking,一个高效的、拥有 5600 亿参数的开源混合专家(MoE)推理模型。该模型的先进能力是通过一个精心设计的训练过程培养的,该过程从长思维链(CoT)数据的冷启动开始,到大规模强化学习(RL)结束。

核心问题与研究目标
近年来,大语言模型(LLM)的前沿已转向增强其推理能力,以推动通用人工智能(AGI)的边界。最先进的模型展示了在复杂逻辑、数学、代码生成和智能体任务方面的强大能力,这主要得益于利用大规模强化学习(RL)来优化模型并支持更深入、更广泛的推理。本文旨在推出 LongCat-Flash-Thinking,一个在复杂逻辑、数学、编码和智能体任务上表现卓越的开源 MoE 推理模型,为开源推理模型树立新的标杆。

训练流程概述
LongCat-Flash-Thinking 的开发遵循一个精心设计的两阶段流程:
1. 长思维链(CoT)冷启动训练:旨在构建模型的基础推理能力。此阶段首先在中间训练中采用课程学习策略以增强模型的内在能力,然后进行有针对性的监督微调(SFT),使用推理密集型和智能体数据,为高级学习做准备。
2. 大规模强化学习(RL):通过一个高效的 RL 框架来扩展模型的潜力。该框架基于团队自研的 DORA(Dynamic ORchestration for Asynchronous rollout)系统,实现了工业级异步训练。为解决异步 RL 训练的稳定性挑战,团队调整并扩展了 GRPO(Group Relative Policy Optimization)算法。


图 2: LongCat-Flash-Thinking 的训练流程。首先进行中间训练和 SFT,以培养基础模型的基础推理能力。然后,在大型 RL 阶段引入领域并行训练方案,以获得多个领域特定的专家。最后,通过一个通用 RL 阶段和专家模型融合来提高通用能力。

核心贡献
本文提出了三大核心贡献:
* 领域并行 RL 训练与融合方法论:为克服传统混合领域 RL 训练的不稳定性,设计了一种领域并行方案,将 STEM、编码和智能体任务的优化解耦。这种方法不仅稳定了训练,还允许将产生的领域专家模型融合成一个在所有专业领域都表现出色的、近乎帕累托最优的最终模型。
* 开创性的工业级 RL 基础设施:自研的 DORA 系统为训练提供了强大的支持。其异步架构比同步框架快三倍以上,支持在数万个加速器上进行稳定训练。这个工业级系统支撑了占预训练计算量近20%的大规模 RL 投入,使得先进的方法论能够大规模实现。DORA 的新特性包括弹性同地部署(elastic colocation)和高效的 KV-cache 重用。
* 广泛而高效的高级推理能力:模型的能力被显著扩展到具有挑战性的领域,并实现了卓越的性能和效率。
* 在智能体能力方面,提出了一种双路径推理方法来选择最能从工具集成中受益的高价值训练查询,并辅以自动化流程来构建高质量、工具增强的推理轨迹用于训练。在 AIME-25 基准上,LongCat-Flash-Thinking 在不降低任务准确性的前提下,将平均 token 消耗减少了 64.5%。
* 在形式化推理方面,开发了一个与 Lean4 服务器集成的专家迭代流程,以综合生成经过验证的证明,系统性地为模型注入了大多数大语言模型所缺乏的能力。

这些贡献最终产出的模型不仅在一系列多样化的基准测试中达到了最先进的性能(如图1所示),而且在形式化证明和智能体推理等关键领域,相较于其他开源模型建立了明显的优势。

A2 方法细节

2. 长思维链(CoT)冷启动训练

模型基础与训练策略。LongCat-Flash-Thinking 是一个在 LongCat-Flash-Base 模型【【9】,Longcat-flash technical report,2025,arXiv】基础上构建的强大而高效的 LLM。我们在 LongCat-Flash-Base 的基础上进行长 CoT 冷启动训练和大规模 RL,为其赋予高级推理能力。得益于零计算专家【【12】,Moe++: Accelerating mixture-of-experts methods with zerocomputation experts,2024,arXiv】和快捷连接 MoE 结构【【13】,Shortcut-connected expert parallelism for accelerating mixture-of-experts,2024,arXiv】,LongCat-Flash-Thinking 在性能相当的模型中具有显著的效率优势。本节我们专注于通过多阶段课程学习方法增强我们基础模型的长 CoT 推理能力【【8】,Chainof-thought prompting elicits reasoning in large language models,2022,Advances in neural information processing systems】。我们首先引入一个中间训练阶段,在此阶段,基础模型从多样的推理数据中学习,以增强其基础推理能力和 RL 的潜力。随后,我们加入一个紧凑的 SFT 阶段。除了高质量的通用推理数据,我们特别让模型接触形式化推理和智能体推理能力,这两者都旨在有效提升推理性能。冷启动数据整理流程的概览如图3所示。


图 3: 冷启动训练的数据整理流程。

2.1 中间训练:推理能力增强

基础模型推理能力的局限性。尽管我们的基础预训练产出的模型具有强大的通用能力【【9】,Longcat-flash technical report,2025,arXiv】,我们发现其在处理复杂推理任务时存在一个关键限制。虽然对基础模型进行微调后进行 RL 训练已大幅提升了推理性能,但我们观察到这些模型往往产生同质化的推理模式,这妨碍了它们深入思考并为挑战性问题获得正确解决方案。

数据构成是问题的根源。这种缺陷是双重的,源于通用预训练语料库的构成。首先,尽管语料库庞大,但它们主要偏重于通用文本,导致来自 STEM 和编码等推理密集型领域的数据比例不足。其次,更关键的是,构成 methodical reasoning 结构的显式长 CoT 模式,即使在那些专业数据中也自然稀缺。这种双重数据差距阻碍了模型的内在推理潜力,为后续的微调阶段创造了重大瓶颈。

中间训练的课程学习方法。为了克服这一问题,并受大型推理模型(LRMs)推理边界分析【【14】,Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model?,2025,arXiv】的启发,我们的方法将标准的中间训练阶段【【9】,Longcat-flash technical report,2025,arXiv】转变为一个精心平衡的课程。目标是培养模型的潜在推理能力(有效地“冷启动”它们),而不降低其基础的通用知识,从而为后续的长 CoT SFT 设置一个更强的起点。

训练方案。我们的课程建立在一个精心策划的、跨越 STEM 和编码领域的推理密集型问题数据集上。STEM 集合包含了来自学术档案、教科书和专有数据的各种数学、物理和化学问题,并特别强调竞赛级别挑战以确保深度。我们的整理过程优先考虑需要多步逻辑推理的问题,而不是那些可以通过简单事实检索解决的问题。对于算法编程推理,我们聚合了来自各种开源代码竞赛数据集的问题。然后,这些整理好的数据被策略性地注入到训练语料库中。我们采用严格的质量控制流程,使用启发式规则和 LLM-as-a-Judge 方法的混合体进行过滤、去重和去污染。至关重要的是,我们仔细管理数据混合比例,平衡推理密集型数据与原始中间训练数据。这确保了模型在发展基础推理技能的同时,不会降低其通用能力。详细的数据整理和混合在附录A.1中提供。

初步实验验证。在对 LongCat-Flash-Base 【【9】,Longcat-flash technical report,2025,arXiv】进行正式训练之前,我们首先进行了一项初步实验,以验证我们的推理增强中间训练的有效性。这项试点研究是在一个架构相同的小型内部 MoE 模型上进行的。我们采用重复采样策略和 pass@k 【【14】,Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model?,2025,arXiv;【15】,Large language monkeys: Scaling inference compute with repeated sampling,2024,arXiv】指标来评估模型的推理能力。为确保该指标的无偏估计,我们遵循 Chen 等人【【16】,Evaluating large language models trained on code,2021,arXiv】提出的方法。形式上,给定查询集 D 中的一个查询 x,模型为 $π_θ$,其中 $θ$ 表示参数,我们生成 N (N > 0) 个响应 {yi}Ni=1,其中 yi = $π_θ$(x) 表示一个响应。因此,pass@k 定义为:

其中 Ci (Ci ≤ N) 表示正确答案的数量。

实验结果与结论。图4展示了我们在三个基准测试上的评估结果:AIME-24、BeyondAIME 和 LiveCodeBench (LCB) (24.08-25.05)。结果显示出明确的趋势:在中间训练中,更高比例的推理密集型数据持续增强了模型在所有指标(从 pass@1 到 pass@128)上的推理性能。这种效果在所有采样复杂度上都非常显著,pass@1 评分在 AIME-24 上提高了 27.7%,在 BeyondAIME 上提高了 9.3%,在 LCB 上提高了 6.5%。值得注意的是,对于像 pass@64 和 pass@128 这样的更高 k 值,改进更为显著,这表明该方法有效地拓宽了模型的推理边界。这些令人信服的发现使我们将此策略整合到我们的 LongCat-Flash-Thinking 中间训练过程中。


图 4: 推理能力(pass@k)的比较。“Baseline”代表我们内部的小型基础模型,“Enhanced”代表在中间训练阶段进行推理能力增强后修改过的小型基础模型。

2.2 面向推理的 SFT

SFT 阶段目标。在中间训练课程之后,我们引入一个面向推理的 SFT 阶段,以使模型与高质量的指令遵循模式对齐,并增强其专门的推理能力,从而为后续的大规模 RL 建立坚实的基础。除了通用推理,我们专注于提升 LongCat-Flash-Thinking 在形式化推理和智能体推理方面的能力,这可以分别培养模型使用形式化语言和现实世界工具的推理能力。

2.2.1 通用推理

数据构建流程。为了增强通用推理能力,我们从多个领域(STEM、代码、逻辑和通用问答)整理了一个多样化、高质量的训练数据集。构建过程包括一个严格的提示整理和响应生成流程。每个领域的数据处理细节在附录A.2中提供。

提示词筛选。首先,对于提示整理,我们实施了一个多阶段过滤过程。
1. 初步筛选:我们使用 LLM-as-Judge 【【17】,Libra: Assessing and improving reward model by learning to think,2025,arXiv】方法来消除低质量或无法回答的查询,例如不完整的陈述。对于代码相关数据,我们选择具有清晰描述、至少五个单元测试的健壮集合以及可执行的评判脚本的问题。
2. 基准真相验证:为了验证正确性,采用了一个基于模型的投票机制。这包括自动生成多样化的响应,以识别并过滤掉具有不一致或可能错误的基准真相的提示。
3. 难度过滤:除了通用问答,我们通过专家模型的通过率来估计问题难度。通过率高于某个阈值的提示被视为过于简单而被丢弃。最终的提示集然后根据难度分布从过滤后的池中抽样。

响应生成。其次,对于响应生成,我们采用了一种拒绝抽样方法。为每个提示合成候选响应,其中 LongCat-Flash-Chat 【【9】,Longcat-flash technical report,2025,arXiv】作为主要生成器。然后通过规则判断和模型判断的组合来评估这些候选响应,以选择最高质量的响应作为我们最终的训练数据。

2.2.2 形式化推理

研究动机与目标。最近 Qwen2.5-Math 【【18】,Qwen2. 5-math technical report: Toward mathematical expert model via self-improvement,2024,arXiv】、Kimina-Prover 【【19】,Kimina-prover preview: Towards large formal reasoning models with reinforcement learning,2025a,arXiv】和 DeepSeek-Prover 【【20】,Deepseek-prover-v1.5: Harnessing proof assistant feedback for reinforcement learning and monte-carlo tree search,2025,The Thirteenth International Conference on Learning Representations, ICLR 2025;【21】,Deepseek-prover-v2: Advancing formal mathematical reasoning via reinforcement learning for subgoal decomposition,2025,arXiv】等模型的成功凸显了 LRMs 在加速自动定理证明(ATP)等形式化推理任务研究中的巨大潜力。为了帮助实现这一潜力并赋能研究人员,我们对模型的形式化推理能力进行了重大增强。我们的工作旨在提供一个坚实且通用的基础,社区可以在此基础上构建和探索新的科学前沿。为实现此目标,我们专注于 ATP,这是形式化推理中一个代表性且具有挑战性的任务。我们引入了一种新颖的方法来系统地增强模型在这一领域的能力。该流程如图3左下角所示。

任务定义。形式上,ATP 的任务是为一个给定的形式化陈述生成一个有效的证明 P。该过程始于一个非形式化问题,包括一个自然语言问题 x 和其答案 y。这首先被一个自动形式化器 Is 转换为形式化陈述 s = Is(x, y)。然后模型 $π_θ$ 生成一个证明候选 P = $π_θ$(s)。一个验证器 V 检查该证明,产生一个二元结果 V(P, s) ∈ {PASS, FAIL}。我们的工作专注于全证明生成,即整个证明从形式化陈述一次性生成。

陈述形式化。我们收集了多个竞赛级别的数学问题,并进行了数据去重和去污染。由于原始数据只包含自然语言问题,我们训练了一个基于 8B 的自动形式化模型,将每个非形式化陈述(包含原始问题和答案)翻译成形式化陈述。然后我们进行两阶段过滤过程以确保其正确性:1) 语法过滤:我们遵循 Wang 等人【【19】,Kimina-prover preview: Towards large formal reasoning models with reinforcement learning,2025a,arXiv】的工作,开发了 Lean4 Server 1 (v4.15)。每个生成的形式化陈述与占位符“:= by sorry”连接,并通过 Lean4 Server 编译。因此,有语法错误的陈述被移除。2) 语义过滤:我们发现自动形式化有时会改变原始问题的含义。为了解决这个问题,我们采用了一个基于模型的语义过滤器来识别并丢弃与其非形式化对应物不一致的形式化陈述。

迭代式证明合成。我们的证明合成遵循一个迭代式数据增强策略,从冷启动过程开始,通过专家迭代逐步精炼。为此,我们利用我们经过推理增强的 LongCat-Flash-Base 模型作为证明器的基础,并在整个过程中系统地改进它。迭代流程如下:
* 冷启动证明器训练:此阶段的目标是构建一个初始数据集来训练基线证明器。首先,为了识别一组可解问题,我们利用现有的定理证明工具过滤我们的形式化陈述。能够成功验证的陈述被保留下来,形成我们初始的(陈述,证明)对集合。接下来,为了用推理步骤丰富这些数据,我们采用基于模型的合成方法为每对生成一个自然语言的“思考过程”。这创建了最终的训练三元组(陈述,思考过程,证明),然后用这些三元组对我们的 LongCat-Flash-Base 模型进行初始 SFT。
* 专家迭代:此阶段迭代地扩展数据集并增强证明器。在每次迭代中:1) 当前证明器尝试为所有仍未解决的形式化陈述生成证明。2) 新生成的证明被验证,成功的(陈述,证明)对被添加到我们的数据集中。3) 然后,使用相同的基于模型的方法为这些新对丰富一个合成的思考过程。4) 最后,我们聚合所有整理好的训练三元组,并从头开始重新训练证明器。这个自我改进循环重复固定次数。

最终成果。通过这个迭代过程,我们整理了一个包含高质量训练实例的大型语料库,每个实例包含一个形式化陈述、一个合成的思考过程和一个经过验证的证明。这个数据集随后被用于全面增强我们 LongCat-Flash-Thinking 的形式化定理证明能力。

2.2.3 智能体推理

智能体推理的数据挑战。智能体推理可以通过工具使用、解释和复杂问题解决来体现【【22】,Glm-4.5: Agentic, reasoning, and coding (arc) foundation models,2025b,arXiv;【1】,Introducing openai o1,2024,URL https://openai.com/o1/】。现有的数据集常常存在这样的问题:模型可以在不实际调用工具的情况下给出满意的答案。这类数据对现实世界的智能体行为提供的效用有限,因为它们缺乏利用外部工具解决问题的挑战。为了缓解这个问题,我们专注于识别和保留那些真正需要工具辅助的高质量查询,从而促进强大的智能体能力的发展。

筛选需要使用工具的查询。为了整理一个真正需要使用工具的查询数据集,我们首先从不同来源聚合候选查询,包括开源数据集(例如 ToolBench 【【23】,On the tool manipulation capability of open-source large language models,2023】、ToolLLM 【【24】,Toolllm: Facilitating large language models to master 16000+ real-world apis,2023,arXiv】)和内部数据,并进行标准的去重和去污染。然后,我们引入一种新颖的双路径评估流程来评估每个查询的“工具必要性”。具体来说,对于给定的查询 x ∈ D,我们提示一个基线模型在两种不同设置下生成 N 个解决方案轨迹:一种是可以使用工具(Iw. tool),另一种是不能使用工具(Iw/o. tool)。这会产生两组响应:

量化工具必要性。接下来,这些响应由一个 LLM-as-a-Judge 进行评估,以计算 $Y_{w/. tool}$ 和 $Y_{w/o. tool}$ 的通过率 $s_{w/. tool}(x)$ 和 $s_{w/o. tool}(x)$。工具必要性值 $v_x$ 随之定义为使用工具带来的性能提升:$v_x = s_{w/. tool}(x) − s_{w/o. tool}(x)$。一个更高的 $v_x$ 值表明一个查询仅凭内部知识难以解决,但通过工具辅助则变得可控。假设 $τ_1$, $τ_2$, $τ_3$ 是预定义的阈值,我们根据一组阈值来选择查询:{x|$v_x > τ_1 ∧ s_{w/. tool}(x) > τ_2 ∧ s_{w/o. tool}(x) < τ_3, x ∈ D$},确保我们最终的数据集由那些工具不仅有帮助,而且是必不可少的问题组成。

自动化轨迹合成。在选择了高价值查询后,我们合成了相应的高质量解决方案轨迹。为了支持广泛的任务,我们首先构建了一个具有多样化工具 API 的通用环境,包括 MCP 服务器和用于单轮及多轮交互的模拟工具。对于每个选定的查询,我们使用一个强大的生成模型来产生多个候选轨迹,范围从简单的工具调用到复杂的多步骤工作流。然后,这些候选轨迹由一组基于模型的评判员根据正确性、逻辑一致性和工具使用的完整性等标准进行严格评估。只有通过此评估的轨迹才会被保留。经过验证的轨迹随后被标准化为一致的格式,确保推理步骤的逻辑完整性和清晰性。最后,我们根据复杂性对这些轨迹进行分层,基于工具调用次数(单轮 vs. 多轮)、依赖结构(顺序 vs. 并行)和推理深度(例如,查找、多跳、规划)等因素,以促进基于课程的学习和有针对性的模型增强。

2.2.4 训练方案

SFT 训练数据策略。对于 SFT 阶段,我们采用了一种复杂的数据整理策略,以平衡来自我们三个面向推理的数据集的多样化和复杂场景。该策略包括严格的数据去污染协议,以确保在训练期间零接触测试数据。为了进一步加强通用推理,我们对来自 STEM 和编码领域的数据进行了上采样。此外,我们根据我们定义的几个响应行为特征(如平均响应长度、反思密度和查询聚类)来整理最终的训练实例。这种方法的目标是显著提升在广泛推理任务上的性能,同时保持在智能体工具使用和形式化证明生成等专业领域的熟练度。最终的数据混合比例详见图10。


图 5: DORA 系统演示时间线中的陈旧度设置为2,允许最多三个策略权重 θj。在第 n 步,提示 5, 8, 3, 1, 6, 和 2 依次完成。提示 2 的完成填满了批次,然后用于训练。提示 10 和 12 被丢弃并计划重新生成。其余提示继续使用 KV-cache 重用或传输进行 rollout。

SFT 训练参数。SFT 在我们从中间训练阶段获得的推理增强基础模型上进行。我们使用 AdamW 优化器,学习率为 3e-5,并将模型训练 2 个周期。为了适应复杂和扩展的推理链,我们将上下文长度设置为 48K tokens。

3. 大规模强化学习

RL 训练的挑战与解决方案。RL 是提升 LLM 推理能力的关键阶段,相比 SFT 提供了更优的 token 效率和泛化能力。然而,将 RL 应用于 LLM 极具挑战性。训练过程通常不稳定,对超参数高度敏感,并产生大量的系统开销,这使得工业规模的部署变得复杂。为了克服这些障碍,我们开发了一个全面的三管齐下的解决方案:1) 在系统层面,我们构建了 DORA,一个强大的分布式 RL 框架,支持异步训练和灵活的加速器使用,以确保稳定性和效率。2) 在算法层面,我们引入了几项修改以稳定训练并增强适应性。3) 在奖励层面,我们设计了一个能够处理可验证和不可验证任务的通用奖励系统,确保广泛的领域适用性。以下小节将详细介绍我们的 RL 基础设施、算法增强和奖励设计。

3.1 RL 基础设施

RL 训练的效率瓶颈。RL 训练的效率受到两个主要问题的阻碍:RL 调度【【25】,An adaptive placement and parallelism framework for accelerating rlhf training,2023,arXiv;【26】,Openrlhf: An easy-to-use, scalable and high-performance rlhf framework,2024,arXiv;【27】,Hybridflow: A flexible and efficient rlhf framework,2025,Proceedings of the Twentieth European Conference on Computer Systems】和生成偏斜问题【【28】,Llamarl: A distributed asynchronous reinforcement learning framework for efficient large-scale llm trainin,2025,arXiv;【29】,Streamrl: Scalable, heterogeneous, and elastic rl for llms with disaggregated stream generation,2025,arXiv;【30】,Seed1. 5-thinking: Advancing superb reasoning models with reinforcement learning,2025,arXiv】。在调度方面,分离式架构由于不同阶段之间的依赖关系导致设备闲置。相反,同地部署架构通过让所有角色共享相同的设备来避免这种情况,但这种效率是有代价的。异构工作负载(生成是内存密集型,训练是计算密集型)的硬件紧密耦合可能导致次优性能。第二个问题,生成偏斜,出现在同步训练中,整个批次被单个最长的输出阻塞。这个问题在长上下文场景(如推理或智能体工具使用)中更为严重。异步训练方法【【31】,Kimi k1. 5: Scaling reinforcement learning with llms,2025,arXiv;【32】,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2025,arXiv】,如部分 rollout,已被提出来优化长尾生成问题。它将长响应分解成段,并在不同迭代中使用最新的 actor 模型生成每个段。然而,我们观察到在实践中,中断样本的重新预填充效率相当低。使用最新更新的 actor 模型需要在将中断样本与先前未完成的响应连接后,对所有中断样本进行重新预填充。此外,对单个响应的不同段使用不一致的策略版本理论上可能会损害模型收敛。


图 6: 负载均衡的工作流程。负载均衡控制器监控每个设备的负载,当满足预定义阈值时,它会启动资源重新分配,包括权重传输和 KV-cache 传输。

3.1.1 DORA: 动态异步 rollout 编排系统

DORA 系统设计。为了解决上述挑战,我们引入了我们的 DORA 系统。其核心思想是通过流式 rollout 利用多个旧版本的 Actor 模型来优化长尾生成,同时保持采样一致性。为了进一步提高调度效率并并行化生成和训练阶段而无设备闲置,我们引入了 RL 角色的弹性同地部署。如图5所示,DORA 采用分离式架构,将加速器集群分为两个不同的组:
* 独立生成器组:一组专门用于生成器角色的设备,确保优化的 rollout。生成器是专为推理而优化的 Actor 模型的副本。
* 弹性角色组:一组角色被弹性同地部署的设备,以确保灵活性和效率。这些设备可以动态地在作为生成器和执行各种与训练相关的角色(例如,Reference & Actor, Reward & Critic)之间切换。

DORA 系统工作流程。基于我们为异步 rollout 设计的资源调度,我们展示 DORA 系统的工作流程如下:
* 生成阶段。为了提高 rollout 吞吐量,生成器设备被扩容,独立组和弹性组都激活推理引擎进行 rollout。推理实例维护最多达到预定义陈旧度数量的策略权重版本。在 rollout 阶段,我们的负载均衡控制器重新平衡各策略版本之间的资源分配,并在推理引擎内重用 KV-cache,如图6所示。关键是,完成的样本会立即流式传输到下一阶段,而不会阻塞后续阶段。
* 经验制造阶段。一旦生成的样本满足训练条件,弹性组会缩减其生成器角色,并激活其他 RL 角色。在部分同地部署设置中,Reference & Actor 和 Reward & Critic 角色并行执行推理阶段。同时,独立生成器暂时切换到训练引擎以重新计算对数概率,这是最小化推理和训练引擎之间系统级不匹配的关键步骤。完成后,独立组重新激活推理引擎,并使用先前的策略版本继续生成。
* 模型训练阶段。最后,Actor 和 Critic 模型在收集到的经验上进行训练。同时,独立组继续无阻塞地生成,同时重新平衡工作负载和重新分配资源。值得注意的是,特定的策略版本一旦满足用户定义的驱逐策略就会被删除。训练完成后,最新的策略权重通过逐层的点对点通信高效地同步回生成器角色,为下一轮 RL 训练做准备。

DORA 系统的主要优势。DORA 的关键优势总结如下:1) 流式架构确保最先完成的响应可以立即在后续阶段处理,而不会被最长的响应阻塞。2) 多版本设计保证了每个响应都由同一个 Actor 模型完全生成直到完成,消除了段之间的不一致性。这也使得中断样本的 KV-cache 可以轻松重用,从而显著减少开销,尤其是在预填充密集的场景中。3) 我们的弹性同地部署策略实现了设备闲置方面近乎零的气泡,除了通过进程内上下文切换和卸载产生的可忽略不计的持续时间。它还保留了分离式架构的优势,允许为不同工作负载灵活分配加速器的数量和类型。

3.1.2 大规模训练优化

大规模 RL 训练的工程优化。为了通过我们的 DORA 系统在数万个加速器上实现工业级 RL 训练,我们引入了几个关键的工程优化。

海量流式 RPC。我们系统的控制平面建立在 PyTorch RPC 【【33】,Pytorch rpc: Distributed deep learning built on tensoroptimized remote procedure calls,2023,Proceedings of Machine Learning and Systems】之上,它为张量提供了优化的远程过程调用。它减少了张量的大量序列化和反序列化成本,并允许对计算集群进行专门和灵活的控制。为了实现大规模 RPC 能力,我们通过在 RPC 初始化期间增加组密钥原语和数据压缩来增强 TCPStore 实现,将通信复杂度从 O($N^2$) 降低到 O(N)。在运行时,我们引入了双向流式 RPC——不同于 Pytorch 中的一元 RPC——这使得在异步训练期间推理引擎能够进行高性能的流式 rollout。

规模化的高效 MoE 并行。为了在我们的加速器上部署 LongCat-Flash,我们采用了高度的专家并行来进行生成。这种策略不仅分散了计算负载,还增加了每个加速器的可用内存,这对于容纳长上下文任务所需的大型 KV-cache至关重要。然而,随着专家并行规模的增加,维持分布式加速器之间的同步通常会受到主机端内核启动开销的瓶颈,这可能导致执行不同步。为了解决这个问题,我们采用了一种图级编译方法来减少内核分派频率【【34】,Pytorch 2: Faster machine learning through dynamic python bytecode transformation and graph compilation,2024,Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2】,从而能够应用图级优化并有效地将通信与计算重叠。结果,与标准的即时执行相比,该策略带来了 1.5 倍的 rollout 加速。

综合性能提升。最终,DORA 架构和大规模优化的结合展现了卓越的性能和工业级能力,在数万个加速器上为我们的 560B LongCat-Flash 模型实现了比同步训练快三倍以上的速度。

3.2 RL 算法

3.2.1 训练目标

基于 DORA 的 RL 算法。我们的 RL 算法是基于 DORA 系统开发的。我们用 $π$ 表示由 $θ$ 参数化的自回归语言模型。给定训练集 D 中的一个查询 x,响应 y 的似然表示为 $π_θ(y|x) = \prod_{t=1}^{|y|} π_θ(y_t|x, y_{

其中 $r_{i,t}(θ) = \frac{π_θ(y_{i,t}|x,y_{i,

异步训练的挑战。这种现象可以分为两个不同的来源:
* 引擎数值差距:为了实现高吞吐量和数据效率,自然会应用高度优化的推理引擎(例如 vLLM 【【36】,Efficient memory management for large language model serving with pagedattention,2023,Proceedings of the 29th symposium on operating systems principles】)来生成样本。然而,这些引擎使用的优化(如内核融合)不保证位级一致性。当推理和训练后端(例如 Megatron 引擎 【【37】,Megatron-lm: Training multi-billion parameter language models using model parallelism,2019,arXiv】)不匹配时,这种不一致性尤为关键。虽然可以在策略优化期间使用来自推理引擎的采样概率作为 $π_μ$,但这种后端不匹配累积的数值误差可能导致不稳定。
* 策略陈旧性:在异步训练中,每个生成的样本可能源自多个先前版本的策略,随着当前策略 $π_θ$ 的持续更新,这些版本可能会变得过时。生成数据的行为策略与正在优化的目标策略之间的这种差异给训练过程带来了不稳定性,阻碍了收敛,并可能在极端情况下导致模型崩溃。像公式3这样的标准目标,假设策略高度对齐,对这些偏差不具有鲁棒性,陈旧性的影响削弱了其有效性。

GRPO 目标的改进。为了减轻上述问题,我们对 GRPO 目标进行了以下改进:
* 原始的 GRPO 损失包含一个 KL 散度损失项,以防止策略偏离参考模型太远。然而,使用默认的 k3 估计器时,尽管其期望是无偏的,但该项对应的梯度在优化过程中是有偏的【【38】,The critical implementation detail of kl loss in grpo,2025,Notion Blog】。因此,我们在 GRPO 损失中移除了 KL 损失项,这有助于进行大幅度的策略更新。
* 我们采用 token 级损失,而不是样本级损失,以增强训练的稳定性和模型的最终性能。此外,遵循 Liu 等人【【39】,Understanding r1-zero-like training: A critical perspective,2025,arXiv】的方法,我们在训练期间使用全局恒定的最大生成长度作为损失函数的分母。这种调整减轻了可能对训练鲁棒性构成挑战的长度偏差。
* 设置裁剪范围对于有效的策略优化至关重要,因为它影响探索和模型稳定性。此外,由于专家路由策略在不同版本的策略中可能会改变,陈旧性问题在稀疏 MoE 模型中可能更加明显,其中负的 token 级优势可能导致过大的重要性采样比和无界方差。遵循 Yu 等人【【40】,Dapo: An open-source llm reinforcement learning system at scale,2025,arXiv】和 Ye 等人【【41】,Mastering complex control in moba games with deep reinforcement learning,2020,Proceedings of the AAAI conference on artificial intelligence】的方法,我们采用了一个三重裁剪方案:$ϵ_{neg}^{low}$ 和 $ϵ_{neg}^{high}$ 限制了负优势的重要性比率,而 $ϵ_{pos}^{high}$ 为正优势提供了上限。这种策略防止了模型崩溃并为有效探索维持了足够的熵。
* 引擎数值差距可能在 RL 训练期间累积,从而破坏整个训练过程的稳定性。因此,我们应用截断重要性采样【【42】,Your efficient rl framework secretly brings you off-policy rl training,2025,URL https://fengyao.notion.site/off-policy-rl;【43】,Truncated importance sampling,2008,Journal of Computational and Graphical Statistics】来减轻推理引擎和训练引擎之间的分布不匹配。

最终训练目标。最终的目标可以表示为如下公式:

其中 $T_{max}$ 是最大生成长度,$r_{i,t}(µ) = \frac{π_{train}}{π_µ}$ 是在采样策略 µ 下,训练引擎和推理引擎之间的重要性比率,C 是一个常数值。

3.2.2 高效训练策略

平衡效率与稳定性的技术。为了更好地平衡有效性和效率,同时保持模型的稳定性和避免奖励 hacking,我们还利用了其他技术:

带替换的在线过滤。我们采用在线过滤,在流式生成阶段移除准确率得分为1(完全正确)或0(完全不正确)的提示,保留具有持续挑战性难度的样本,这些样本提供了有效的梯度信号以防止大的梯度波动。为了确保数据至少被消耗一次和完整性【【44】,Antdt: A self-adaptive distributed training framework for leader and straggler nodes,2024,2024 IEEE 40th International Conference on Data Engineering (ICDE)】,我们为训练开发了一种带替换的抽样策略,这与动态抽样中使用的不带替换的抽样【【40】,Dapo: An open-source llm reinforcement learning system at scale,2025,arXiv】不同。这种机制使得在同步训练场景中,过采样的提示可以在每个训练步骤重新生成。在异步训练场景中,如果提示的陈旧度不超过最大陈旧度阈值,则会重用;否则,它们会被重新生成。

陈旧度控制。在流式管线中,我们应用最大陈旧度作为中断策略的一部分,以保持生成样本的可控新鲜度。为了提高样本效率,我们应用了一种数据重用策略,其中在线过滤器的过采样数据存储在重放缓冲区中,并在后续的训练迭代中根据预定义的重用比例重新采样。这种机制将这些陈旧的样本缓存在重放缓冲区中,允许它们在后续的训练迭代中与新样本按比例混合。同时,这个混合的训练批次需要被打乱,以稳定缓冲区内训练的陈旧度。虽然这种策略不可避免地增加了平均陈旧度,但样本效率的提升证明了这是一个有效的权衡。

不完整信号掩码。我们对有评分问题的样本应用掩码策略,例如代码评估期间的沙箱执行错误。这确保了奖励信号的可靠性,从而产生一个略有偏差但方差较低的梯度。我们还对达到生成 token 长度但未被识别为重复的样本应用掩码。这有助于防止损失受到因长度限制而被截断的输出的影响,进一步提高了训练信号的稳定性。

3.3 奖励系统

奖励系统的重要性。奖励系统对于在训练过程中提供优化方向至关重要。为了训练 LongCatFlash-Thinking,我们开发了一个精心设计的奖励系统,使用不同的奖励模型为不同任务提供准确的奖励信号。

不可验证任务的奖励模型。对于创意写作、知识问答等不可验证的任务,我们采用了一个判别式奖励模型来提供奖励信号。为了获得这个奖励模型,我们基于 LongCat-Flash SFT 检查点对其进行初始化,然后在一个由人类和模型联合标注的综合偏好数据集上进行训练。这种方法使得判别式奖励模型能够准确捕捉不同响应之间的偏好。对于长 CoT 响应,我们不将推理过程作为输入;因此,奖励模型只评估答案部分。

可验证任务的奖励模型(STEM)。对于 STEM 领域,我们没有使用基于规则的奖励系统,而是开发了一个带有推理过程的生成式奖励模型(GenRM)来在训练过程中提供奖励信号【【17】,Libra: Assessing and improving reward model by learning to think,2025,arXiv】。给定问题,GenRM 会比较参考答案和 LLM 的响应,并判断响应是否正确。

GenRM 的优势。使用带推理过程的 GenRM 有几个优点。首先,GenRM 能够适应意义相同但表达方式不同的答案,例如,$a^2 − b^2$ 和 $(a + b)(a − b)$。同时,GenRM 能够处理复杂的表达式。此外,我们带有推理过程的 GenRM 不仅提供预测,还揭示了预测背后的原因。这个推理过程使我们能够持续改进 GenRM。我们在一个人工标注的测试集上比较了不同奖励模型的有效性:一种基于规则的奖励方法、一个直接输出 True 或 False 的非推理 GenRM,以及我们带有推理过程的 GenRM。表1展示了这些模型的预测准确率,证明了我们 GenRM 方法的有效性。

表1:不同奖励模型的预测准确率

可验证任务的奖励模型(代码)。对于编码任务,我们开发了一个分布式代码沙箱集群,以高效地管理超过20种编程语言的数百万个并发代码执行。为了处理来自异步 RL 的可变工作负载,我们设计了一个异步接口,可以处理大批量代码,通过消除持续轮询显著提高吞吐量。此外,我们还通过一次编译多次运行来优化效率以减少开销,并使用压缩和缓存分片来确保快速可靠的数据传输和存储。

3.4 训练方案

三阶段 RL 训练方法。我们的 RL 训练方案遵循一个结构化的三阶段方法,旨在培养高级推理能力,包括:1) 领域并行训练,其中专家模型在为不同领域(例如,STEM、代码、智能体)策划的数据集上独立训练;2) 模型融合,一种将这些专家整合到一个单一、连贯的智能体中并巩固其技能的新技术;3) 通用 RL 微调,一个最终阶段,用于协调模型的能力并确保在各种应用中表现稳健。


图 7: 大规模 RL 训练期间不同领域的响应长度分布。

3.4.1 面向推理的 RL:领域并行方法

混合领域训练的问题。在大规模 RL 中,我们观察到领域混合的训练流程在异步训练中常常导致负迁移,从而导致效率低下和性能次优。我们将此归因于训练批次之间显著的分布变化,这是由不同领域响应特征的变化引起的(如图7所示)。虽然顺序训练(即一次优化一个领域)可以部分缓解这个问题,但它本质上效率低下且不灵活。一旦后续训练阶段开始,就很难重新审视或完善早期领域的能力。

领域并行训练框架。因此,我们引入了一个领域并行训练框架。该方法首先为不同的推理领域训练独立的“专家”模型,然后将它们合并成一个单一、强大的模型,该模型在所有专业领域都达到了近乎帕累托最优的性能。该过程最后以一个通用的 RL 阶段结束,以确保广泛的能力和对齐。整个流程如图2所示。

RL 的查询数据整理。为了为 RL 阶段提供高质量的数据,我们为每个推理领域量身定制了一个严格、多方面的整理协议。对于 STEM 和代码查询,协议首先对已知基准进行标准的去污染和去重。我们通过排除不合适的格式(如多部分、多项选择或真/假问题)来进一步优化 STEM 数据集。对于代码查询,测试用例被系统地重新格式化为标准的输入-输出结构,以确保兼容性。随后对这两个领域应用一个关键的过滤步骤以防止奖励信号偏差:使用一个 SFT 模型,我们为每个查询生成多个响应,并只保留那些表现出正确和不正确解决方案均衡分布的实例。这避免了那些过于简单(全部正确)或极其困难(全部不正确)的问题,从而提高了训练效率。特别是在代码方面,我们还利用沙箱执行反馈来识别和移除可能导致假阴性的模糊问题或不匹配的测试用T例。对于智能体 RL,我们整理了一个专门的数据集,专注于需要复杂推理和工具应用的数学问题。每个训练实例都结构化为三元组,包含问题描述、参考答案和附带的评分标准。这种详细的结构旨在有效地指导模型学习解决复杂任务的适当工具使用轨迹。

领域并行训练配置。我们领域并行方法的一个关键优势是能够根据每个推理领域的独特特征定制训练方法。我们为 STEM、代码和智能体 RL 应用了不同的配置,以最大化它们各自的优势:
* STEM RL:训练过程使用固定的 64K 上下文长度。我们通过逐渐增加数据难度(通过降低纳入的通过率阈值)来实施课程学习策略。同时,我们动态调整 PPO 裁剪边界 $ε_{pos}^{high}$ 以保持训练稳定性。这些方法保证了模型的学习以高效的方式发展,同时无缝适应训练数据日益增长的复杂性。
* 代码 RL:我们为上下文长度采用多阶段课程,从 48K tokens 开始,然后逐步扩展到 56K,最终达到 64K。一旦生成的输出长度的第90百分位数接近当前限制,上下文窗口就会扩展,确保平稳适应。
* 智能体 RL:训练过程使用固定的 48K 上下文长度。我们通过两种技术强制执行结构化推理和工具使用:1) 使用 <longcat_think><longcat_tool_call> 标签的结构化对话模板,以及 2) 一种鼓励语法正确的工具使用的工具调用格式奖励,确保稳定且可解释的多轮轨迹。

3.4.2 模型融合

模型融合的挑战与策略。为了整合我们领域专家模型的能力,我们将它们的参数合并成一个单一、统一的智能体。这种方法得到了先前工作【【45】,Ties-merging: Resolving interference when merging models,22023,Advances in Neural Information Processing Systems;【46】,Dynamic fisher-weighted model merging via bayesian optimization,2025,Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL 2025 - Volume 1: Long Papers】的支持,这些工作表明,合并特定领域的模型可以产生一个整体性能更优的单一模型。主要挑战是减轻专家之间的参数干扰。为了解决这个问题,我们采用了一种受最新进展启发的三管齐下的策略:1) 归一化:我们对任务向量($τ_i = θ_{i}^{RL} − θ^{SF T}$)的大小进行归一化,以平衡来自不同领域的贡献。2) Dropout:类似于 DARE【【11】,Language models are super mario: Absorbing abilities from homologous models as a free lunch,2024a,Forty-first International Conference on Machine Learning】,我们应用 dropout 来修剪冗余的增量参数。3) 擦除:受 SCE【【47】,Fusechat: Knowledge fusion of chat models,2024,arXiv】的启发,我们擦除具有少数方向更新的参数元素。这种融合策略构建了一个在数学推理、编码和智能体能力方面都表现出色的单一模型,如图8所示。


图 8: STEM RL、Code RL 和 Agentic RL 后融合模型的性能(%)。

3.4.3 通过通用 RL 进行最终对齐

通用 RL 对齐。我们流程的最后阶段是一个通用的 RL 阶段,旨在增强模型在广泛场景(例如,创意写作、指令遵循)中的能力,并防止在融合后核心能力(如安全性)出现任何退化。我们首先从开源和合成查询中编译一个多样化的数据集,然后应用聚类算法进行去重和筛选,以获得高质量、具有挑战性的数据。然后,这个整理好的数据集用于最后一轮 PPO 训练,确保模型在现实世界应用中对齐良好、稳健且适应性强。

A4 实验环境

  • 模型架构:LongCat-Flash-Thinking,一个拥有 5600 亿总参数的混合专家(MoE)模型,推理时平均激活 270 亿参数。
  • 硬件配置:在数万个加速器上进行训练。
  • 软件配置
    • 代码实现基于 PyTorch。
    • 依赖的库和系统包括:PyTorch RPC, vLLM, Megatron engine, Lean4 server。
  • 数据集与基准
    • 通用问答 (General QA): MMLU-Pro, MMLU-Redux,用于评估多任务语言理解能力。
    • 对齐 (Alignment): IFEval (评估指令遵循能力), Arena-Hard (评估在困难、开放式查询上的帮助性和对话质量)。
    • 数学推理 (Mathematical Reasoning): 奥林匹克级别的数学基准,包括 MATH-500, HMMT-25, AIME-24, AIME-25, 和 BeyondAIME。
    • 通用推理 (General Reasoning): GPQA-Diamond (研究生水平的科学问题), ZebraLogic (逻辑网格谜题), Sudoku-Bench (数独谜题), ARC-AGI (测量流体智力)。
    • 编码 (Coding): LiveCodeBench (LCB, 动态编程竞赛问题), OJBench (ACM-ICPC 级别的代码推理基准)。
    • 智能体工具使用 (Agentic Tool Using): SWE-Bench (解决真实 GitHub 问题), BFCL 和 τ2-Bench (工具增强推理), VitaBench (自研的评估复杂现实世界任务的基准)。
    • 形式化定理证明 (Formal Theorem Proving): MiniF2F,一个包含从高中到大学级别数学竞赛问题的形式化证明基准。
    • 安全 (Safety): 使用内部私有测试集,覆盖四大风险类别:有害内容、犯罪活动、错误信息和隐私侵犯。

A4 实验结果

表2:跨多个基准的性能(%)比较(最佳加粗,次佳下划线)。†表示分数来自外部报告。

综合评估结果表明,LongCat-Flash-Thinking 是一个能力强大且功能全面的模型。它在广泛的推理任务中持续表现出卓越的性能,超越了需要更多激活参数的同类模型。以下是对其各项能力的详细分析。

  • 通用能力:在通用知识领域,LongCat-Flash-Thinking 展示了强大的基础理解能力。在 MMLU-Redux 上达到 89.3% 的准确率,与最先进的开源模型 Qwen3-235B-A22B-Thinking 相当;在 MMLU-Pro 上也保持了 82.6% 的强劲竞争力。
  • 对齐能力:在对齐任务中,模型表现出色。在 IFEval(严格提示)上获得 86.9% 的高分,在 Arena-Hard(困难提示)上获得 69.9% 的分数,显示了其遵循复杂指令的强大能力,并超越了包括 DeepSeek V3.1 在内的多个关键基线模型。
  • 数学能力:LongCat-Flash-Thinking 在数学推理方面表现出杰出的熟练度。在 MATH500 上取得了 99.2% 的高分,并在更具挑战性的 HMMT 和 AIME 相关基准上表现出色,超越了 OpenAI-o3 等强基线,并与 Qwen3-235B-A22B-Thinking 和 GPT-5 等领先的专有模型相媲美。
  • 通用推理能力:模型展示了卓越的通用推理能力,尤其是在需要结构化逻辑的任务中。在 ARC-AGI 上取得了 50.3% 的优异成绩,超越了 OpenAI-o3 和 Gemini2.5-Pro 等领先专有模型。此外,在 Sudoku-Bench (56.0%) 和 ZebraLogic (95.5%) 上的表现也突显了其解决复杂非语言谜题的高级能力。
  • 编码能力:在编码领域,LongCat-Flash-Thinking 达到了最先进的水平。在 LiveCodeBench 上取得了 79.4% 的分数,显著优于所有列出的开源模型,并与顶级专有模型 GPT-5 (80.6%) 表现相当。在 OJBench 上得分为 40.7%,接近 Gemini2.5-Pro 的领先分数。
  • 智能体能力:在复杂的工具增强推理任务中表现出色,在 τ2-Bench-Airline 上取得了 67.5% 的 SOTA 成绩。特别地,通过启用工具使用,模型在性能和 token 预算之间取得了更好的平衡。如图 9 所示,在 AIME-25 基准上,使用工具的 LongCat-Flash-Thinking 将平均 token 消耗从 19,653 减少到 9,653(减少了约 64.5%),同时保持了准确性。

    图 9: AIME-25 上性能(%)与平均 Tokens 的比较。
  • 形式化推理(ATP):在证明领域,模型展示了最先进的能力。在 MiniF2F-Test 基准上,pass@1 得分达到 67.6%,比第二好的模型 DeepSeek V3.1 高出 18%。在 pass@8 和 pass@32 上也保持了领先地位。
  • 安全能力:在安全基准测试中,LongCat-Flash-Thinking 在拒绝回答有害或不道德查询方面表现出最先进的性能,总体表现最佳,显著优于所有其他被评估的开源和专有模型。其在所有子类别中都表现出色,包括有害内容 (93.7%)、犯罪活动 (97.1%) 和错误信息 (93.0%)。

A5 结论

本文介绍了 LongCat-Flash-Thinking,一个拥有 5600 亿参数的混合专家(MoE)推理模型,它在多种推理任务上以卓越的效率达到了开源模型中的最先进水平。支撑 LongCat-Flash-Thinking 的核心创新如下:
1. 精心设计的冷启动训练策略,显著增强了模型的推理潜力,并为其配备了形式化和智能体推理的专业技能。
2. 领域并行的训练方案,将 STEM、编码和智能体任务的优化解耦,使得最终能将这些专家模型融合成一个近乎帕累托最优的模型。
3. 一个基于 DORA 系统构建的高效且可扩展的 RL 框架,从而在数万个加速器上实现了工业规模的异步训练。

我们希望 LongCat-Flash-Thinking 的开源能够推动推理模型的研究,特别是在高质量数据策略、高效 RL 训练和原生智能体推理等领域。

A6 附录

A.1 中间训练细节

数据质量与多样性。对于中间训练阶段,数据质量和多样性对于增强模型的推理能力至关重要【【71】,Samplemix: A sample-wise pre-training data mixing strategey by coordinating data quality and diversity,2025,arXiv】。在过滤阶段,我们采用启发式规则和 LLM-as-a-Judge 方法的组合,以确保查询的可解性、难度分布,以及答案的质量和正确性。

数据过滤方法。为了保证查询的可解性,我们应用了基于规则的方法,如 URL 过滤、多表过滤和 HTML/XML 标签过滤,以消除依赖外部信息或本身无法回答的推理问题。对于合成答案,我们首先应用规则移除存在重复生成、截断、语言混合或不符合我们期望的推理格式等问题的答案。为了验证答案的正确性,我们结合了基于模型和基于规则的方法,将合成响应与黄金答案进行比较,以评估各种形式和风格变化的等效性。

难度与多样性控制。对于剩余的数据,我们还强调了难度分布和多样性的重要性,这对模型的长 CoT 推理能力有显著影响。我们标注了一个小规模的分类训练数据集,以构建一个为每个文档分配难度分数的神经评分器。考虑到多样性,我们没有完全移除低难度样本,而是应用了适当比例的降采样。对于有多个答案的查询,我们努力平衡答案来源或合成方法,并在答案数量过高时施加限制。

去污与去重。最终,我们遵循 LongCat-Flash-Chat 的方法,通过结合基于规则和基于神经的模型,进行基于语义相似性的数据去污和去重。

A.2 SFT 细节

A.2.1 通用推理数据细节

STEM 数据。STEM 的训练数据包含数十万个具有可验证答案的实例,涵盖数学、物理、化学、生物学和其他相关科学场景。大多数问题来自开源数据集、公开竞赛以及从预训练语料库中检索到的一些指令数据。为确保数据质量和正确性,我们实施了一个多阶段过滤流程。在初始阶段,我们利用 LLM-as-a-Judge 方法自动识别并排除不适合回答的问题,如不完整的陈述和概念性查询。随后,对于每个剩余的问题,我们使用几个先进的 LRM 生成候选响应。因此,我们可以获得投票结果,并用它们来过滤那些基准真相与投票结果不一致的数据。

代码数据。代码数据主要从开源竞赛数据中收集。我们筛选出问题描述清晰、单元测试集超过5个测试用例、以及带有启动代码或函数体的评判脚本的查询。具体来说,问题描述必须包含问题、运行成本限制和一些输入输出对。单元测试被视为生成代码的参数,并可由评判脚本用于验证其正确性。为避免标题描述不清、单元测试错误和评判脚本错误等问题,我们首先实施了一个过滤流程,以消除包含乱码、信息缺失或逻辑错误的查询。然后我们构建了一个内部代码沙箱环境,并利用多个先进的 LRM 生成候选代码。如果所有 LRM 生成的代码都无法通过我们沙箱中的所有单元测试,该数据将被过滤掉。为平衡多样性,我们训练了一个小型分类器,为每个查询标记特定的知识点和难度,并进行难度过滤,确保问题具有适当的复杂性和对现实世界算法推理的适用性。

逻辑数据。逻辑推理是必要的通用推理任务之一,在类人探索、回溯和深度思考中扮演着重要角色【【72】,Natural language reasoning, a survey,2024b,ACM Computing Surveys;【73】,Do large language models excel in complex logical reasoning with formal language?,2025,arXiv】。我们收集了一系列被广泛考虑的逻辑任务,涵盖演绎、归纳和溯因推理。对于每个任务,我们设计了一个专门的生成器来自动合成难度可精确控制的查询。这样,我们可以将查询难度分为三个不同级别:简单、中等和困难。为了合成高质量的响应,我们首先通过在这些逻辑任务上使用 RLVR 【【74】,Tulu 3: Pushing frontiers in open language model post-training,2024,arXiv】训练一个小模型。然后,我们通过从训练好的模型中提炼,为每个查询生成多个长 CoT 轨迹。带有正确答案的可靠响应将被用作训练实例。

通用问答数据。我们还考虑了一些通用任务,如指令遵循、常识知识和安全等。对于指令遵循,我们整理了单轮和多轮指令遵循数据集,具有不同级别的约束复杂性和数量。我们过滤掉语义质量低的查询,并采用反向提示生成策略【【75】,Gradual improvement of contextual understanding in large language models via reverse prompt engineering,2024,Authorea】来保证响应满足所有约束。对于常识知识,我们开发了三种类型的通用问答数据集:阅读理解、基于表格的问答和定制设计的任务。这些特定领域可以显著增强我们模型的多轮对话、推理和长上下文能力。对于安全,我们首先制定了一个内容安全策略,将查询分为超过40个不同的安全类别,跨越五种响应类型:遵守、遵守并附带指南、软拒绝、软拒绝并附带指南或硬拒绝。这个标准指导我们训练一个小模型,将每个查询划分到特定的安全类别,并根据不同的安全类别通过人工标注来优化响应。此外,由于过度拒绝会显著影响模型的帮助性,我们还通过仔细处理通用查询来优化拒绝能力。

最终筛选。除了通用问答,我们还用先进 LRM 估计的通过率评估了查询的难度。通过率超过预定义阈值的查询被认为过于简单而被移除,从而促进了对需要实质性推理的问题的关注。最终的训练集是根据通过率分布从过滤后的池中抽样的,从而产生了一个适合训练推理模型的高质量数据集。


图 10: 我们整理的 SFT 数据分布。