美团 LongCat 团队 longcat-team@meituan.com

A1 主要贡献

LongCat-Flash 旨在沿两个协同方向推进语言模型的前沿:计算效率和智能体能力。本文的贡献涵盖了效率和智能体智能两个方面:

  • 可扩展的架构设计以实现计算效率:LongCat-Flash 的设计和优化遵循两个关键原则:高效的计算利用率,以及高效的训练和推理。具体而言:

    1. 零计算专家 (Zero-computation Experts):由于并非所有 token 都同等重要,模型在 MoE 块中引入了零计算专家机制,根据 token 的重要性动态分配计算预算。根据上下文需求,每个 token 激活 18.6B 到 31.3B 的参数(总参数 560B),平均激活约 27B 参数。为确保计算负载稳定,模型采用由 PID 控制器调节的专家偏差,维持了每个 token 平均激活约 27B 参数。
    2. 快捷连接 MoE (Shortcut-connected MoE, ScMoE):为解决 MoE 模型扩展时通信开销成为瓶颈的问题,模型采用了【Cai et al., 2024, Shortcut-connected expert parallelism for accelerating mixture-of-experts】的设计来扩大计算与通信的重叠窗口。结合定制的基础设施优化,该设计支持在数万个加速器上进行大规模训练,并在推理时实现高吞吐量和低延迟。
  • 有效的模型扩展策略:为有效且高效地扩展模型规模,开发了一个全面的稳定与扩展框架:

    1. 超参数迁移:成功地将超参数迁移策略应用于如此大规模的模型,利用较小代理模型的结果,并有理论保证来预测最佳超参数配置。
    2. 模型增长初始化:基于一个精炼的半尺寸检查点,使用模型增长机制初始化模型,与传统初始化方法相比,性能得到提升。
    3. 多管齐下的稳定性套件:整合了原则性的路由器梯度平衡、抑制大规模激活的隐藏 z-loss,以及精调的优化器配置。
    4. 确定性计算:为提高大规模集群训练的可靠性,引入了确定性计算,保证了实验的精确可复现性,并能在训练过程中检测到静默数据损坏(SDC)。这些措施确保了 LongCat-Flash 训练的稳定性,没有出现不可恢复的损失尖峰。
  • 面向智能体能力的多阶段训练流程:通过精心设计的流程,LongCat-Flash 具备了先进的智能体行为。

    1. 基础模型构建:设计了两阶段的预训练数据融合策略,集中于推理密集型领域的数据,为智能体后训练构建更合适的基础模型。
    2. 中训练阶段:增强了推理和编码能力,同时将上下文长度扩展到 128k,以满足智能体后训练的需求。
    3. 后训练阶段:针对高质量、高难度智能体任务训练数据稀缺的问题,设计了一个多智能体合成框架。该框架从信息处理、工具集复杂性和用户交互三个维度定义任务难度,使用专门的控制器生成需要迭代推理和环境交互的复杂任务。

模型性能:得益于可扩展架构设计、训练策略和基础设施的协同作用,LongCat-Flash 实现了高训练吞吐量和低推理延迟。具体来说,在 30 天内完成了 560B 模型在超过 20T token 上的预训练,实现了 98.48% 的时间可用性,无需人工干预解决故障。在推理方面,H800 上的大规模部署效率超过 100 TPS,成本为每百万输出 token 0.7 美元。在多个基准测试中,LongCat-Flash(作为一个非思维模型)的性能与其他领先的非思维模型相当,在通用领域、编码和智能体工具使用方面表现出强大的能力,尤其在智能体任务上表现出色。

图1:LongCat-Flash的基准测试性能。
图1:LongCat-Flash的基准测试性能。

A2 架构

LongCat-Flash 采用了一种新颖的 MoE 架构,包含两个关键创新(如图 2 所示):(1) MoE 模块集成了零计算专家【Jin et al., 2024, MoE++: Accelerating mixture-of-experts methods with zerocomputation experts】,以实现动态计算,允许 token 根据其上下文重要性消耗可变的计算资源。此外,通过自适应的专家偏差来调节平均计算负载。(2) 每层集成了两个多头潜在注意力(MLA)模块【Liu et al., 2024a, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model】和多个异构的前馈网络(FFN)模块。采用了从第一个 MLA 输出直接到 MoE 模块的快捷连接【Cai et al., 2024, Shortcut-connected expert parallelism for accelerating mixture-of-experts】。为进一步提升性能,我们通过方差对齐对 MLA 和细粒度 FFN 专家进行了优化。以下小节将详细介绍这些组件。

图2:LongCat-Flash采用的架构。每层都采用带有零计算专家的快捷连接混合专家(ScMoE)。ScMoE显著扩展了计算-通信窗口,以提升训练和推理效率。零计算专家根据上下文重要性实现动态计算,提高了计算资源的利用效率。
图2:LongCat-Flash采用的架构。每层都采用带有零计算专家的快捷连接混合专家(ScMoE)。ScMoE显著扩展了计算-通信窗口,以提升训练和推理效率。零计算专家根据上下文重要性实现动态计算,提高了计算资源的利用效率。

2.1 零计算专家

下一词元预测的计算异构性。下一词元预测任务表现出固有的计算异构性。困难的词元可能需要更多资源才能准确预测,而简单的词元则几乎不需要计算。这种现象也得到了推测性解码的经验证实,其中小型草稿模型能够可靠地预测大型模型对于大多数简单词元的输出【Leviathan et al., 2023, Fast inference from transformers via speculative decoding】。

动态计算资源分配机制。受此启发,LongCat-Flash 通过零计算专家【Jin et al., 2024, MoE++: Accelerating mixture-of-experts methods with zerocomputation experts; Zeng et al., 2024, AdaMoE: Token-adaptive routing with null experts for mixture-of-experts language models】为每个词元激活可变数量的 FFN 专家,从而提出了一种动态计算资源分配机制,能够根据上下文重要性更合理地分配计算。具体来说,LongCat-Flash 在 N 个标准 FFN 专家之外,还扩展了其专家池,增加了 Z 个零计算专家。零计算专家仅将输入 $x_t$ 作为其输出返回,因此不引入额外的计算成本。设 $x_t$ 是第 t 个词元的 MoE 输入,LongCat-Flash 中的 MoE 模块可以公式化为:

公式1
公式1

其中 R 表示 softmax 路由器, $b_i$ 是对应于第 i 个专家的专家偏差,K 表示每个词元选择的专家数量。

自适应分配机制的效果。路由器将每个词元分配给 K 个专家,其中每个词元激活的 FFN 专家数量根据上下文重要性而变化。通过这种自适应分配机制,模型学会将更多的计算资源动态地分配给具有更高上下文重要性的词元,从而在相同的计算能力下实现更优的性能,如图 3a 所示。

图3:(a) 在匹配的计算预算下,比较有/无零计算专家的模型的验证损失曲线。基线模型(top-k=8,蓝色)每个token激活固定的6B参数,而零计算专家变体(top-k=12,橙色)动态激活4.2B-7.0B参数,但维持8个FFN专家的期望值(波动小于1%)。持续的损失降低证明了零计算专家的有效性。(b) LongCat-Flash训练期间激活的FFN专家的平均数量。平均数量紧密围绕在8附近,对应于预期的27B激活参数。(c) 激活的FFN专家的标准差增长到3,表明不同token之间激活的参数存在显著差异。
图3:(a) 在匹配的计算预算下,比较有/无零计算专家的模型的验证损失曲线。基线模型(top-k=8,蓝色)每个token激活固定的6B参数,而零计算专家变体(top-k=12,橙色)动态激活4.2B-7.0B参数,但维持8个FFN专家的期望值(波动小于1%)。持续的损失降低证明了零计算专家的有效性。(b) LongCat-Flash训练期间激活的FFN专家的平均数量。平均数量紧密围绕在8附近,对应于预期的27B激活参数。(c) 激活的FFN专家的标准差增长到3,表明不同token之间激活的参数存在显著差异。

2.1.1 计算预算控制

精细控制零计算专家的选择比例。为了激励模型学习上下文相关的计算分配,对零计算专家的平均选择比例进行精细控制至关重要。若无明确约束,模型倾向于较少使用零计算专家,导致资源使用效率低下。

通过专家偏差机制实现控制。我们通过改进【Wang et al., 2024a, Auxiliary-loss-free load balancing strategy for mixture-of-experts】提出的无辅助损失策略中的专家偏差机制来实现这一目标。我们引入了一个专家特定的偏差项,该项根据最近的专家利用率动态调整路由分数,同时与语言模型(LM)的训练目标解耦。对于第 i 个专家对应的专家偏差 $b_i$,它在每个步骤中更新,增量计算如下:

公式2
公式2

其中,$\mu$ 表示偏差适应率,$T_{all}$ 表示一个全局批次中的词元总数,$T_i$ 表示路由到第 i 个专家的词元数,$K_e$ 是期望激活的 FFN 专家数,该值小于 K。

PID 控制器与偏差更新。该更新规则采用了控制理论中的 PID 控制器(比例-积分-微分)【Bennett, 1993, A History of Control Engineering 1930-1955】,确保第 i 个专家的词元分配收敛到其目标比例。与固定的偏差增量【Wang et al., 2024a, Auxiliary-loss-free load balancing strategy for mixture-of-experts】相比,随着专家数量的增加,该机制提高了 softmax 路由器概率分布的鲁棒性。值得注意的是,我们不更新零计算专家的偏差,因为它们的恒等特性只需要一个全局约束,当所有 FFN 专家达到其期望的词元比例时,这个约束会自动满足。经验上,大批量大小和 $\mu$ 的衰减计划可以提高预算控制的稳定性,而小批量大小可能需要降低更新频率。

实验结果。在预训练期间,我们跟踪了激活专家的平均数量和标准差(图 3b 和 3c)。结果显示,经过大约 20B token 的调整后,所有层中的平均专家数量收敛到期望值,波动小于 1%。然而,标准差一直保持在相对较高的水平,表明模型在不同 token 之间分配的计算资源存在显著差异。关于动态路由的详细统计和案例研究,请参考附录 A.1。

2.1.2 负载均衡控制

设备级负载均衡。高效的 MoE 训练需要 FFN 专家之间有鲁棒的负载均衡。虽然公式 (2) 在语料库层面强制实现均衡,但我们引入了设备级的负载均衡损失【DeepSeek-AI et al., 2025, Deepseek-v3 technical report】,以进一步防止 EP 组之间出现极端的序列级不平衡。我们做了必要的调整以适应零计算专家。具体来说,假设所有 N 个 FFN 专家被分为 D 组,每组包含 $G = N/D$ 个专家,损失可以表示为:

公式3
公式3

公式4
公式4

公式5
公式5

其中 $\alpha$ 是平衡因子,T 是一个微批次中的词元数,I 是指示函数。在损失计算中,我们将所有零计算专家分配到一个额外的组中,并对每个组的频率进行平均。通过调整 $f_j$ 的系数,我们确保当损失收敛时,FFN 专家与零计算专家的比例会接近 $K_e / (K - K_e)$。

2.2 快捷连接 MoE (Shortcut-Connected MoE)

传统 MoE 架构的通信瓶颈。我们最初的架构采用 MoE 和密集 FFN 块的交错拓扑结构。这种设计已通过大量实证研究得到验证,其性能可与领先的共享专家模型相媲美【Rajbhandari et al., 2022, Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation AI scale; Liu et al., 2024a, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model】。然而,大规模 MoE 模型的效率在很大程度上受到通信开销的限制。在传统的执行模式中,专家并行性强制采用顺序工作流:必须先通过一个集合操作将 token 路由到指定的专家,然后才能开始计算。这种通信延迟成为瓶颈,导致设备利用率不足,并限制了整体系统吞吐量。

ScMoE 架构的引入。虽然共享专家架构试图通过将通信与单个专家的计算重叠来缓解这一问题,但其效率受限于该单个专家的小计算窗口。我们通过采用快捷连接 MoE(ScMoE)架构【Cai et al., 2024, Shortcut-connected expert parallelism for accelerating mixture-of-experts】来克服这一限制。ScMoE 引入了一个跨层快捷连接,重新排序了执行流水线。这一关键创新使得前一个块的密集 FFN 能够与当前 MoE 层的分发/合并通信并行执行,从而创建了比共享专家设计更大的重叠窗口。此外,该架构设计选择得到了以下关键发现的验证。

ScMoE 对模型质量无损。首先,ScMoE 结构不会损害模型质量。如图 4 所示,我们的架构和不带 ScMoE 的基线模型的训练损失曲线几乎完全相同,证实了这种重新排序的执行不会损害模型性能。在多种设置下都观察到了一致的结果,包括带有 MLA 的 2.4B-16B MoE 模型、带有 MHA【Vaswani et al., 2017, Attention is all you need】的 3B-20B 模型,以及带有 GQA【Ainslie et al., 2023, Gqa: Training generalized multi-query transformer models from multi-head checkpoints】的 15B-193B 模型。重要的是,这些发现表明 ScMoE 的稳定性和优势与注意力机制的选择是正交的。

图4:在四种不同模型配置下,比较基线模型(无ScMoE)与ScMoE增强模型的训练损失曲线。在所有实验中——(a) 2.4B-16B(带MLA),(b) 3B-20B(带MHA),以及(c) 15B-193B(带GQA)——损失曲线几乎无法区分。这为ScMoE优化是质量中性的,并且其优势与模型规模和具体注意力架构均正交提供了有力证据。
图4:在四种不同模型配置下,比较基线模型(无ScMoE)与ScMoE增强模型的训练损失曲线。在所有实验中——(a) 2.4B-16B(带MLA),(b) 3B-20B(带MHA),以及(c) 15B-193B(带GQA)——损失曲线几乎无法区分。这为ScMoE优化是质量中性的,并且其优势与模型规模和具体注意力架构均正交提供了有力证据。

ScMoE 带来的系统效率提升。其次,ScMoE 架构在训练和推理方面都带来了显著的系统级效率提升。
* 大规模训练:通过沿 token 维度将操作划分为细粒度块,扩展的重叠窗口允许前一个块的计算与其在 MoE 层中的分发和合并通信阶段完全并行。
* 高效推理:ScMoE 实现了单批次重叠(Single Batch Overlap)流水线,与 DeepSeek-V3 等领先模型相比,理论上的每输出 token 时间(TPOT)减少了近 50%。此外,它允许不同通信模式的并发执行:密集 FFN 上的节点内张量并行通信(通过 NVLink)可以与节点间专家并行通信(通过 RDMA)完全重叠,从而最大化总网络利用率。

总结。总之,ScMoE 在不牺牲模型质量的情况下,带来了显著的性能提升。这些效率提升并非通过权衡取舍实现,而是一个经过严格验证的、质量中性的架构创新的直接结果。

2.3 面向可扩展性的方差对齐设计

小规模设计在大规模下的失效问题。在小规模上表现出色的架构设计在模型扩大时可能变得次优,反之亦然,这使得初始的设计选择变得不可靠。通过广泛的实验和理论分析,我们发现特定模块中的方差不对齐是导致这种差异的关键因素,它可能导致扩展过程中的不稳定性和性能下降。为了解决这一挑战,我们为 MLA 和 MoE 模块提出了方差对齐技术。

2.3.1 MLA 的尺度校正

引入尺度校正因子。LongCat-Flash 采用了一种改进的多头潜在注意力(MLA)机制【Liu et al., 2024a, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model】,该机制引入了尺度校正因子 $\alpha_q$ 和 $\alpha_{kv}$,以解决非对称低秩分解中固有的方差不平衡问题。我们集成了这些校正因子的完整数学公式如下:

公式6
公式6

其中 $h_t \in R^{d_{model}}$ 是第 t 个 token 的注意力输入,$n_h$ 是头的数量。

方差失配问题。引入 $\alpha_q$ 和 $\alpha_{kv}$ 解决了查询/键向量分量之间一个根本的方差失配问题。在初始化时,它们的方差与其源维度成正比:$\sigma^2(q_{C_t}), \sigma^2(q_{R_t}) \propto d_q$ 和 $\sigma^2(k_{C_t}) \propto d_{kv}$。相比之下,旋转键分量 $k_{R_t}$ 的方差与整个模型维度成正比:$\sigma^2(k_{R_t}) \propto d_{model}$。当 $d_q$、$d_{kv}$ 和 $d_{model}$ 变化时,这种维度差异会在初始化时导致不稳定的注意力分数,从而在模型扩展过程中导致性能下降和不可预测。

方差对齐解决方案。我们的解决方案是重新缩放低秩路径分量,使其最终方差与一个参考尺度对齐,我们使用完整模型维度作为参考。这是通过将缩放因子定义为:

公式7
公式7

效果验证。这种尺度不变的校正中和了方差失配,确保它们在注意力计算中处于良好条件。我们的实验表明,该方法提升了模型性能,如图 5a 所示。

图5:(a) 在1B激活的MOE模型上,加入尺度校正因子后的MLA显示出更好的收敛性(更低的损失)。(b) 在模型增长实验中,一个6B激活的MoE模型的验证损失曲线。
图5:(a) 在1B激活的MOE模型上,加入尺度校正因子后的MLA显示出更好的收敛性(更低的损失)。(b) 在模型增长实验中,一个6B激活的MoE模型的验证损失曲线。

2.3.2 专家初始化的方差补偿

细粒度专家策略的敏感性问题。LongCat-Flash 采用了 DeepSeek-MoE【Liu et al., 2024a, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model】的细粒度专家策略,该策略将每个专家分割成 m 个更细粒度的专家,以增强组合灵活性和知识专业化。然而,我们观察到这种设计的性能对其他架构选择(如专家数量、top-k、m)很敏感。为解决此问题,我们提出了一种方差补偿机制,该机制通过对专家聚合输出应用一个缩放因子 $\gamma$ 来抵消由专家分割引起的初始化方差减小。其公式如下:

公式8
公式8

其中 $g_i$ 是在 mN 个细粒度专家上的路由器输出,N 代表分割前的专家总数。

方差缩减来源及补偿因子推导。公式 (8) 中的缩放因子 $\gamma$ 是通过量化两个主要的方差缩减来源得出的:
1. 门控稀释 (Gating Dilution):将每个原始的 N 个专家分解为 m 个更细粒度的专家,使专家总数扩大到 mN。这种扩张迫使 softmax 门将其概率质量分布在更大的专家池中,从而按比例减小了单个门控值 $g_i$ 的大小。因此,输出方差大约减小了 m 倍。
2. 维度缩减 (Dimensional Reduction):每个细粒度专家的中间隐藏维度 ($d_{expert\_inter}$) 减少了 m 倍。假设参数初始化是均匀的,单个专家的输出方差也减少了 m 倍。

最终补偿因子。为了在初始化时保持 MoE 层的输出方差(与分割前基线匹配),$\gamma$ 必须补偿这两种效应。因此,组合的方差补偿因子为 $\gamma = \sqrt{m \cdot m} = m$。

2.4 模型信息

分词器 (Tokenizer)。LongCat-Flash 采用字节对编码(BPE)【Shibata et al., 1999, Byte pair encoding: A text compression scheme that accelerates pattern matching; Sennrich et al., 2015, Neural machine translation of rare words with subword units】进行分词。我们的分词器在一个涵盖网页、书籍、源代码等的综合多语言语料库上进行训练,确保了强大的跨领域性能。虽然继承了 GPT-4 的预分词框架,但我们引入了以下修改:(1) 增强了中日韩(CJK)字符分割,以改善中文文本处理;(2) 独立进行数字分词,以提升数学能力。词汇表大小优化为 131,072 个词元,在计算效率和语言覆盖范围之间取得了有效平衡。

多词元预测 (Multi-Token Prediction)。为提高推理效率,我们集成了多词元预测(MTP)【Gloeckle et al., 2024, Better & faster large language models via multi-token prediction; DeepSeek-AI et al., 2025, Deepseek-v3 technical report】作为辅助训练目标。为获得最佳推理性能,我们使用单个密集层而非 MoE 层作为 MTP 头。经验观察表明,MTP 损失收敛迅速,促使我们在训练流程中期策略性地引入 MTP 训练,以平衡模型性能与预测准确性。MTP 头在评估中实现了超过 90% 的接受率(表 5)。

模型配置 (Model Configurations)。LongCat-Flash 包含 28 层(不包括 MTP 层),隐藏状态维度为 6144。每个 MLA 块使用 64 个注意力头,每个头的维度为 128,以平衡性能和效率。遵循 DeepSeek-V3【Liu et al., 2024a, Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model】的方法,我们将 KV 压缩维度设置为 512,查询压缩维度设置为 1536。密集路径中的 FFN 使用 12288 的中间维度,而每个 FFN 专家使用 2048 维度。MLA 块和 FFN 块中的缩放因子遵循 2.3.1 节中的方法。每层包含 512 个 FFN 专家和 256 个零计算专家,每个词元精确激活 12 个专家(从两种类型中选择)。LongCat-Flash 总参数量为 560B,根据上下文,每个词元激活 18.6B 到 31.3B 的参数,平均激活约 27B 参数。

A3 预训练

LongCat-Flash 的预训练遵循一个三阶段课程:(1) 我们在约 20 万亿个 token 上以 8192 的序列长度训练模型,以建立一个鲁棒的基础模型。(2) 使用数万亿的数据进一步增强推理和编码能力。(3) 通过在长上下文语料库上训练,将上下文长度扩展到 128k。每个阶段都实施了量身定制的数据策略,并伴有严格的去污染程序,以防止测试集泄漏。

为优化可扩展性,我们引入了超参数迁移和模型增长策略,随着模型规模的增加,显著提高了性能。鉴于大规模训练中固有的不稳定性挑战,我们识别并实施了多种有效技术来增强训练稳定性。

3.1 训练策略

3.1.1 超参数迁移

基于宽度缩放的超参数迁移。LongCat-Flash 采用基于宽度缩放的超参数迁移策略【Everett et al., 2024, Scaling exponents across parameterizations and optimizers】来高效训练大规模模型。该方法包括:(1) 在一个较小的代理模型上识别最佳超参数,以及 (2) 通过理论驱动的缩放规则将这些配置迁移到目标模型。

迁移机制。迁移机制的核心是宽度缩放因子 $s = n_{target} / n_{proxy}$,其中 n 是模型的隐藏维度。我们特别采用了标准参数化下的“Adam LR Full Align”规则。这些规则指定了如何调整代理模型的最佳初始化方差($\sigma^2$)和学习率($\eta$)以适应目标架构。实际的迁移规则总结在表 1 中。

表1:实用的超参数迁移规则及其潜在的缩放指数,源自标准参数化的Adam LR Full Align原则【Everett et al., 2024】。此处,s是宽度缩放因子 $n_{target}/n_{proxy}$。

表1:实用的超参数迁移规则及其潜在的缩放指数,源自标准参数化的Adam LR Full Align原则【Everett et al., 2024】。此处,s是宽度缩放因子 n_target/n_proxy。
表1:实用的超参数迁移规则及其潜在的缩放指数,源自标准参数化的Adam LR Full Align原则【Everett et al., 2024】。此处,s是宽度缩放因子 n_target/n_proxy。

训练步骤。按照这种方法,我们的训练包括以下步骤:
1. 基于计算效率和迁移性能之间的权衡分析,我们将宽度缩放因子 s 设置为 8。代理模型的宽度配置为 768。
2. 然后,我们在代理模型上进行全面的超参数搜索,以确定最佳的层特定初始化方差($\sigma^2_{proxy}$)和学习率($\eta_{proxy}$)。
3. 将代理模型的最佳超参数按照表 1 中详述的规则迁移到目标模型。所有其他架构属性(深度、稀疏度和批量大小)在此迁移过程中保持不变。

效果验证。我们进行了全面的实验来验证这种方法的有效性。结果表明,该方法在为大规模模型训练确定最佳超参数(初始化方差和学习率)时,显著降低了计算成本,同时为模型扩展建立了一个鲁棒的、有理论基础的框架。

3.1.2 模型增长初始化

采用模型增长策略。LongCat-Flash 采用模型增长作为其初始化策略,从一个在数百亿 token 上预训练的半尺寸模型开始。在现有的模型增长方法【Chen et al., 2015, Net2net: Accelerating learning via knowledge transfer; Du et al., 2024, Stacking your transformers: A closer look at model growth for efficient LLM pre-training; Wang et al., 2023a, Learning to grow pretrained models for efficient transformer training; Shen et al., 2022, Staged training for transformer language models; Wang et al., 2023b, Lemon: Lossless model expansion; Gong et al., 2019, Efficient training of BERT by progressively stacking】中,我们采用层堆叠技术【Du et al., 2024, Stacking your transformers: A closer look at model growth for efficient LLM pre-training; Kim et al., 2023, Solar 10.7 b: Scaling large language models with simple yet effective depth up-scaling】来扩展参数并增强性能。暂时忽略嵌入和去嵌入过程,整个过程可以公式化为:

公式9
公式9

其中 $l_i$ 表示模型中第 i 层的变换,r 表示扩展率,$L_{small}$ 表示小模型从 token 嵌入到最终隐藏状态的变换,$L_{target}$ 表示通过堆叠 r 个小模型副本构建的目标(大)模型的变换。我们的架构中使用了 r = 2。

模型增长的优势。通过大量实验,我们一致观察到,通过模型增长初始化的模型表现出一种特征性的损失轨迹:初始上升后是加速收敛,最终表现优于随机初始化的基线模型。图 5b 展示了我们 6B 激活模型实验中的一个代表性案例,证明了模型增长初始化的优势。

性能提升的推测原因。我们推测这种改进源于两个协同因素:(1) 较小模型的更快收敛可能为扩展训练提供了更高质量的参数初始化,以及 (2) 增长操作可能作为一种隐式正则化,防止参数崩溃。实验证据进一步表明,过度优化前驱模型可能会对目标模型的 token 效率产生负面影响,这表明需要明智地选择增长时机。

LongCat-Flash 的初始化过程。对于 LongCat-Flash 的初始化,我们首先训练一个与目标模型具有相同架构的 14 层模型,在初始数据段上使用随机初始化。然后将训练好的模型堆叠起来,创建一个 28 层的检查点,保留所有训练状态,包括来自前驱模型的样本计数器和学习率计划。

3.1.3 训练稳定性

我们从三个方面增强 LongCat-Flash 的训练稳定性:路由器稳定性、激活稳定性以及优化器稳定性。

路由器稳定性。训练 MoE 模型的一个根本挑战是路由器稳定性,这源于两个相互竞争的梯度之间的张力:
* 语言建模(LM)损失,驱动专家专业化(将 token 分配给最合适的专家)。
* 辅助负载均衡(LB)损失,强制路由均匀性(将 token 均匀分布到各个专家)。

当 LB 梯度占主导地位时,所有专家的路由器参数会趋于相似,导致无论输入 token 如何,路由决策都变得一致。这会抵消条件计算的好处,并严重降低模型性能。

诊断与控制框架。为了诊断和控制这种行为,我们提出了一个包含两个关键指标的监控框架:

图6:一个使用次优超参数的小模型的最后一层隐藏状态的L2范数和训练损失。引入一个系数可忽略的隐藏z-loss可以稳定范数曲线,而不会降低训练损失。
图6:一个使用次优超参数的小模型的最后一层隐藏状态的L2范数和训练损失。引入一个系数可忽略的隐藏z-loss可以稳定范数曲线,而不会降低训练损失。

* 路由器权重相似性:测量专家权重向量 $\{w_i\}$ 之间的平均成对余弦相似度。高相似度是负载均衡损失过度占主导地位的直接指标。
* 梯度范数比($R_g$):量化两种损失对批量平均专家概率向量 $\vec{P}$ 的相对影响:

公式10
公式10

其中 $L_{LB}$ 是在不带系数 $\alpha$ 的情况下计算的负载均衡损失。

超参数设置指南。在此框架的指导下,我们为设置超参数 $\alpha$ 建立了一个实用指南。原则是确保负载均衡项作为正则化器,而不会压倒 LM 损失。因此,我们建议选择一个能使 $R_g$ 保持在一个小阈值以下(例如,$R_g < 0.1$)的系数。

通过隐藏 z-loss 实现激活稳定性。受到路由器 z-loss【Zoph et al., 2022, ST-MoE: Designing stable and transferable sparse expert models】的启发,我们设计了隐藏 z-loss,以规避 LLM 训练中广泛出现的大规模激活现象【Sun et al., 2024, Massive activations in large language models】。通过经验观察,我们发现这种大规模激活与训练过程中的严重损失尖峰相关,这与优化不稳定性和潜在的性能下降有关。隐藏 z-loss 主要用于抑制具有极大值的元素:

公式11
公式11

其中 $\lambda$ 是该损失的权重系数,$z_t$ 是第 t 个 token 的最后一层输出(在最终层归一化之前),$|z_t|$ 是隐藏状态的大小,abs(*) 表示绝对值函数。如图 6 所示,我们发现一个非常小的损失系数可以显著抑制大规模激活现象,而不会损害训练损失,从而降低了 BF16 训练期间出现数值错误的风险。

Adam 优化器 Epsilon 的实用配置。随着模型规模的增加,Adam 优化器中的 epsilon ($\epsilon$) 参数,传统上被视为用于数值稳定性的一个小常数,成为了一个关键的超参数。OLMo 等人【2024, 2 olmo 2 furious】的研究表明,将其设置为 1e-8 比默认值 1e-5 能产生更好的结果。这种 heightened sensitivity 主要源于两个因素:(1) 大规模模型通常采用较小的参数初始化,以及 (2) 它们在训练中使用更大的批量大小。当使用默认的 $\epsilon$ 值时,该参数的量级可能与梯度二阶矩的典型尺度相当甚至超过,从而扰乱了优化器的自适应机制。

经验分析与建议。如图 7 所示,我们跟踪梯度均方根(RMS)范数的经验分析揭示了两个关键发现:(1) 阈值效应:当 $\epsilon$ 接近观察到的梯度 RMS 范数时,性能会显著下降;(2) 下界稳定性:一旦 $\epsilon$ 降低到这个关键阈值以下,进一步减小对模型性能的影响可以忽略不计。因此,我们建议将 $\epsilon$ 设置为一个较小的值(比预期的梯度 RMS 范数小几个数量级)。在 LongCat-Flash 中,我们采用 $\epsilon=1e-16$,这个配置既能确保数值稳定性,又能保留优化器的自适应特性。

图7:探索不同模型尺寸下梯度均方根(RMS)范数和epsilon对损失的影响。“梯度RMS范围”表示模型中不同权重的最大和最小梯度RMS值之间的跨度。随着模型尺寸的增加(从390K到400M参数),梯度RMS变小。当epsilon接近梯度RMS的范围时,观察到损失迅速恶化。
图7:探索不同模型尺寸下梯度均方根(RMS)范数和epsilon对损失的影响。“梯度RMS范围”表示模型中不同权重的最大和最小梯度RMS值之间的跨度。随着模型尺寸的增加(从390K到400M参数),梯度RMS变小。当epsilon接近梯度RMS的范围时,观察到损失迅速恶化。

3.2 通用预训练

我们首先进行一个通用预训练阶段,以确保模型的整体能力。设计了一个多阶段流水线来保证数据质量和多样性。主要阶段包括:

  • 内容提取:我们使用定制版本的 trafilatura【Barbaresi, 2021, Trafilatura: A web scraping library and command-line tool for text discovery and extraction】来处理通用网页内容,并为 STEM 材料设计了专门的流程,以正确解析公式、代码和表格等复杂元素。
  • 质量过滤:应用了两步过滤方法。一个初始分类器去除明显低质量的文档,然后根据流畅度和内容完整性等指标进行更细粒度的筛选。
  • 去重:我们应用了高效的 MinHash 实现进行大规模去重,并辅以一种策略来识别和处理重复的网页模板,以实现更准确的文档级去重。

数据混合策略。最终的数据混合过程采用两阶段计划,逐步增加高质量推理数据(如 STEM 和代码)的比例。
* 阶段 1:对于通用数据,我们采用一种实例级数据混合策略 SampleMix【Xi et al., 2025, Samplemix: A sample-wise pre-training data mixing strategey by coordinating data quality and diversity】,该策略平衡了数据质量和多样性。我们使用质量和多样性得分计算初始采样分布,并根据细粒度的领域和写作风格标签进一步调整分布的倾向。对冗余的低价值领域(如广告、体育、招聘)进行降采样,而对富含推理的领域(如科学)进行上采样。
* 阶段 2:在此阶段,我们优先考虑推理密集型领域,STEM 和代码占最终混合的 70%。初步实验表明,突然减少通用领域数据会暂时降低模型能力。因此,我们实施了逐步增加代码比例的策略,并通过持续监控外部验证集的困惑度来指导,以确保平稳过渡,不损害通用性能。

3.3 推理与编码能力增强

为了进一步增强模型的推理和编码能力,并为后续的后训练建立一个具有巨大潜力的强大基础模型,我们利用高质量的相关数据进行了一个中训练阶段。这些数据是通过预训练数据检索和数据合成相结合的方式生成的。

系统性合成数据工作流。我们引入了系统性的合成数据工作流,通过三个关键机制来优化数据质量和多样性:(1) 知识图谱遍历和节点组合,以确保概念的复杂性和领域覆盖度;(2) 多阶段迭代优化,逐步提高难度水平和思维链(CoT)推理质量;(3) 双模态生成与验证(文本和计算),以保证数学准确性和解决方案的有效性。我们结合基于规则和基于模型的过滤器进行严格的质量控制,最终数据集包含数千亿个 token。

3.4 长上下文扩展

我们实施了一个两阶段的上下文长度扩展策略,以满足后续长上下文推理和智能体训练的需求。在第一阶段,使用 80B 训练 token 将上下文窗口从 8k 扩展到 32k token,RoPE 的 base【Su et al., 2024, Roformer: Enhanced transformer with rotary position embedding】频率从 1,000,000 提高到 5,000,000。在第二阶段,我们通过额外的 20B token 将其进一步扩展到 128k token,并将 base 频率增加到 10,000,000。

训练语料库构建。训练语料库建立在自然产生的长文本数据之上,如高质量的书籍和小说。此外,我们开发了一种系统性方法来组织仓库级别的源代码,以提高模型的长上下文能力。我们精心挑选了高质量的仓库,并应用了多阶段过滤过程,移除了非文本内容、构建产物和自动生成的代码,最终形成了一个用于长上下文预训练的 20B token 的精选数据集。

数据混合策略。为确保模型在长度扩展期间的通用能力保持稳定,我们采用了与主预训练阶段相同的数据混合策略,并在此混合基础上增加了 25% 的长上下文数据,以增强模型的长上下文性能。

3.5 去污染

我们对所有训练数据进行了严格的去污染处理,以防止常见基准测试集的测试数据泄漏。对于网页和代码数据,我们移除了与预定义测试集有任何 13-gram 重叠的文档。对于合成数据和问答对,我们采用了更严格的策略,基于 BGE-m3【Chen et al., 2024, BGE M3-Embedding: Multilingual, multi-functionality, multi-granularity text embeddings through self-knowledge distillation】嵌入的语义相似性。如果文档满足以下任一标准,则被丢弃:(1) 与任何测试用例的语义相似性得分 > 0.9;(2) 词汇重叠(通过稀疏嵌入测量)且相似性得分在 0.7-0.9 之间。

3.6 评估

本节介绍了对 LongCat-Flash 基础模型的全面评估,包括方法和结果。

3.6.1 评估基准和配置

模型评估涵盖了四个核心能力:通用任务、通用推理、数学推理和编码。用于评估的基准包括:
* 通用任务: MMLU 【Hendrycks et al., 2021a, Measuring massive multitask language understanding】, MMLU-Pro 【Wang et al., 2024b, MMLU-Pro: A more robust and challenging multi-task language understanding benchmark】, C-Eval 【Huang et al., 2023, C-Eval: A multi-level multi-discipline chinese evaluation suite for foundation models】, and CMMLU 【Li et al., 2023a, CMMLU: Measuring massive multitask language understanding in chinese】。
* 推理任务: GPQA 【Rein et al., 2023, GPQA: A graduate-level google-proof q&a benchmark】, SuperGPQA 【M-A-P Team, ByteDance., 2025, SuperGPQA: Scaling LLM evaluation across 285 graduate disciplines】, BBH 【Suzgun et al., 2023, Challenging BIG-bench tasks and whether chain-ofthought can solve them】, PIQA 【Bisk et al., 2019, PIQA: Reasoning about physical commonsense in natural language】, DROP 【Dua et al., 2019, DROP: A reading comprehension benchmark requiring discrete reasoning over paragraphs】, CLUEWSC 【Xu et al., 2020, CLUE: A Chinese language understanding evaluation benchmark】, and WinoGrande 【Sakaguchi et al., 2019, Winogrande: An adversarial winograd schema challenge at scale】。
* 数学任务: GSM8K 【Cobbe et al., 2021, Training verifiers to solve math word problems】, MATH 【Hendrycks et al., 2021b, Measuring mathematical problem solving with the math dataset】。
* 编码任务: MBPP+ 【Liu et al., 2024b, Evaluating language models for efficient code generation】, HumanEval+ 【Liu et al., 2024b, Evaluating language models for efficient code generation】, MultiPL-E 【Cassano et al., 2022, MultiPL-E: A scalable and extensible approach to benchmarking neural code generation】, and CRUXEval 【Gu et al., 2024, Cruxeval: A benchmark for code reasoning, understanding and execution】。

对比模型。我们将 LongCat-Flash 基础模型与最先进的开源基础 MoE 模型进行比较,包括 DeepSeekV3.1 Base 【DeepSeek-AI et al., 2025, Deepseek-v3 technical report】, Llama-4-Maverick Base 【Meta AI, 2025, The llama 4 herd: The beginning of a new era of natively multimodal ai innovation, URL: https://ai.meta.com/blog/llama-4-multimodal-intelligence/】, and Kimi-K2 Base 【MoonshotAI, 2025, Kimi-K2 documentation, URL: https://moonshotai.github.io/Kimi-K2/】。

评估设置。为确保公平,所有模型都在相同的流水线和配置下进行评估。对于无法复现的少数结果,我们直接采用公开报告中的指标,并在表 2 中明确标注。评估设置如下:
* 通用/推理/数学任务:使用 few-shot 提示来指导输出格式。性能通过准确率或 F1 分数衡量。
* HumanEval+ 和 MBPP+:遵循 OpenAI 的推荐设置【Chen et al., 2021, Evaluating large language models trained on code】。
* MultiPL-E:遵循 BigCode 评估框架【Ben Allal et al., 2022, A framework for the evaluation of code generation models, URL: https://github.com/bigcode-project/bigcode-evaluation-harness】。
* CRUXEval:遵循官方配置,采用 2-shot 示例。

3.6.2 评估结果

性能总结。表 2 展示了在不同基准上的评估结果。尽管 LongCat-Flash Base 模型的激活/总参数规模较小,但其性能与最先进的基础模型相当。虽然 Llama-4-Maverick 的激活和总参数都更少,但 LongCat-Flash Base 在几乎所有基准上都超越了它。

与 DeepSeek-V3.1 Base 对比。比较分析显示,尽管 LongCat-Flash Base 的参数更少,但在所有领域都与 DeepSeek-V3.1 Base 的性能相当。虽然两个模型在通用任务上表现相似,但 LongCat-Flash Base 在 MMLU-Pro 基准(包含挑战性问题)上表现出显著优势。对于推理任务,LongCat-Flash Base 获得了更高的平均分。在数学和编码任务中,它在大多数基准上都优于 DeepSeek-V3.1 Base,仅在 CRUXEval 和 MultiPL-E 上观察到微小的性能差距。

与 Kimi K2 Base 对比。与 Kimi K2 Base 相比,LongCat-Flash Base 在通用任务上表现稍逊,但在推理、数学和编码任务上达到了同等或更优的水平。

结论。这些结果共同突显了 LongCat-Flash Base 的参数效率,因为它在大多数评估基准上都提供了与更大模型相当或更优的性能。

表2:LongCat-Flash与其他基础模型的比较。标有*的值来自公开报告。

表2:LongCat-Flash与其他基础模型的比较。标有*的值来自公开报告。
表2:LongCat-Flash与其他基础模型的比较。标有*的值来自公开报告。

A4 后训练

我们实施了一个传统的多阶段后训练框架,以增强基础模型在不同领域的性能,涵盖了从复杂的推理、编码和智能体工具使用任务到通用能力的范围。在此过程中,我们观察到高质量问题集的有限性是所有领域的一个重要瓶颈。在接下来的部分中,我们将介绍我们后训练方法得出的关键见解,分为三个不同阶段:(1) 推理和编码,(2) 智能体工具使用,以及 (3) 通用能力。

4.1 推理和编码

数学。为生成高质量和新颖的问题,我们使用了 persona【Ge et al., 2024, Scaling synthetic data creation with 1,000,000,000 personas】和 self-instruct【Wang et al., 2022, Self-instruct: Aligning language models with self-generated instructions】范式。此过程由一个涵盖从初级到高级主题的综合性数学框架指导。我们利用一组多样化的数学相关“专家”角色来提问,引导 LLM 合成覆盖代表性不足主题的查询。每个查询都结构化以引出思维链(CoT)推理,促进生成答案中的逐步问题解决。角色策划和答案验证的细节如下:
* 角色策划(Persona Curation):角色从多个来源构建:我们从高质量的预训练数据中生成它们,从现有的数学查询中派生,并整合 Persona Hub 的相关集合。每个角色都按其 STEM 学科进行系统性标记。为确保最大程度的多样性并与我们的学科框架保持一致,我们使用 MinHash 算法选择最终用于查询生成的角色集。
* 答案验证(Answer Verification):我们采用两阶段过程来确保合成解决方案的准确性:(1) 我们使用几个不同的 LLM 为每个问题生成答案,并选择最一致的解决方案作为最终答案。(2) 我们训练了一个生成式奖励模型,该模型特别用推理数据进行了增强,以自动评分和验证问题解决步骤的逻辑合理性。

编码。我们从多个来源收集了多样化的编码查询,包括公共数据集、从 GitHub 代码片段【Wei et al., 2024, Selfcodealign: Self-alignment for code generation】和编码相关论坛生成的查询,以及使用 Code Evol-Instruct 方法【Luo et al., 2024, Wizardcoder: Empowering code large language models with evol-instruct】演化出的查询。数据分布根据主题多样性和难度进行了平衡。具体来说,我们训练了一个模型来选择清晰、一致、正确且具有足够解释性细节的查询,并实施了一个过滤管道来消除包含乱码、重复模式或逻辑错误的响应。对于软件工程任务,我们策划并验证了数万个包含测试用例的 Docker 镜像。每个镜像用于验证模型生成的代码是否能解决相应仓库中的特定问题。我们开发了一个基于智能体的系统,利用各种工具自主分析代码结构、识别相关文件、修复错误和实现新功能。这个过程产生了数千个通过所有测试用例的成功轨迹,从而增强了模型自主解决真实世界软件工程问题的能力。

逻辑推理。我们构建了涵盖演绎、假设和归纳推理的逻辑推理数据集,包括 LogicPro【Jiang et al., 2025, LogicPro: Improving complex logical reasoning via program-guided learning】、PODA【Wang et al., 2025b, Thought-path contrastive learning via premise-oriented data augmentation for logical reading comprehension】和斑马式逻辑谜题等任务。为管理难度,我们首先使用 Pass@k 指标进行初步平衡,然后过滤掉高级思维模型未能解决的棘手问题。我们还将多项选择题转换为填空题格式,以减少随机猜测。对响应的评估主要集中在四个关键领域:(1) 最终答案的正确性;(2) 推理的完整性和清晰度;(3) 避免过度重复;以及 (4) 语言使用的一致性。

4.2 智能体工具使用

智能体任务的定义。我们将智能体任务定义为通过系统性环境交互来解决复杂问题。在此范式中,模型必须迭代地分析现有信息,并确定何时需要与环境交互。具体来说,在智能体工具使用框架内,环境由具有不同特征的用户和工具组成。用户作为一个自主提供信息的实体,没有上游或下游依赖,但表现出不愿被打扰和非自发性信息披露的特点。因此,模型必须最小化用户查询,同时在交互变得必要时采用战略性提问技术以获取最精确的信息。工具可以被高频、广泛地调用,但表现出复杂的相互依赖性。

任务难度三要素。从这个角度看,排除了高级编程能力或数学计算等领域特定专业知识,我们将任务难度的升级归因于三个因素:
* 信息处理复杂性:模型必须进行复杂的推理过程,以整合信息并将其转换为所需组件。
* 工具集复杂性:通过基于工具间依赖关系将工具集建模为有向图,复杂性可以通过图的节点基数和边密度来量化表征。
* 用户交互复杂性:模型必须学会在最低频率下进行多轮战略性提问,适应各种对话风格、沟通意愿水平和信息披露模式,从而在确保足够信息获取的同时促进有效的用户交互。

多智能体数据合成框架。基于这些见解,我们构建了一个多智能体数据合成框架,通过系统性地解决对智能体训练至关重要的三个复杂性维度,来生成高质量的挑战性任务:(1) 工具集复杂性,(2) 信息处理复杂性,和 (3) 用户交互复杂性。该框架包括以下专门的智能体:
* UserProfileAgent:除了生成包含个人信息和偏好的基本用户画像外,我们还进一步控制用户的对话风格、沟通意愿水平和信息披露模式,以更准确地模拟真实的用户交互场景,同时增强任务复杂性。
* ToolSetAgent:为最大化数据多样性并防止对特定场景的过拟合,我们采用了类似 Kimi-K2【Team et al., 2025, Kimi k2: Open agentic intelligence】的方法,列举了 40 个不同领域,随后利用模型列举了 1,600 个应用。基于这些应用,我们构建了 80,000 个模拟工具,形成了一个广泛的工具图。通过随机游走方法,我们系统地从这个综合工具图中采样具有预定节点数量的子图,因此工具图的复杂性通过节点数量来控制。
* InstructionAgent:推理的难度从以下维度进行量化:约束复杂性、推理点数量和推理链长度。要求模型根据 ToolSetAgent 提取的工具集生成全面描述完整任务的指令。
* EnvironmentAgent:我们根据 UserProfileAgent 和 InstructionAgent 生成的内容,增加了环境信息,包括物品细节、位置具体信息、时间参数和气象条件。此外,我们还为物品和位置引入了混淆元素,以进一步增加推理复杂性。
* RubricAgent:我们根据各种任务相关信息构建了一系列全面的具体检查清单。在最终评估中,考虑到智能体任务固有的长上下文特性,我们采用滑动窗口方法评估整个轨迹,持续更新检查清单项目的完成状态。
* ValidatorAgent 和 DeduplicatorAgent:我们从多个角度检查最终任务的质量,并移除任何过于相似的任务。这个过程确保我们拥有一套多样化和高质量的任务集。

训练集构建。利用这些高质量的挑战性任务,我们进一步进行严格的响应选择,构建了数量适中的冷启动训练集,揭示了多样的模式并保持了高的探索能力。我们还精心挑选了这些生成任务的一个子集用于进一步的后训练过程,以确保每个任务都值得进行大规模探索。

4.3 通用能力

指令遵循。我们策划了单轮和多轮指令遵循数据集,具有不同水平的约束复杂性和数量。对于多重约束查询,我们采纳了 Ye 等人【2025, A multi-dimensional constraint framework for evaluating and improving instruction following in large language models】的见解,过滤掉语义质量低或约束冲突的查询。对于不同类型的查询,我们采用可验证的规则、基于模型的验证和定制策略,以确保响应满足所有约束。此外,我们编译了针对挑战性任务的批判数据集,以增强模型的批判性思维能力【Wang et al., 2025c, Critique fine-tuning: Learning to critique is more effective than learning to imitate】。我们观察到某些约束类型天生难以遵循,使得直接生成有效的查询-答案对不可靠。为解决此问题,我们提出了一种反向提示生成策略:从保证满足约束的预定义答案中生成查询。

长上下文。为了使模型能够在复杂、冗长的上下文中识别和分析相关信息,我们开发了三种类型的长序列数据集:阅读理解、基于表格的问答和定制设计的任务。为促进长序列中显著信息的学习,我们聚合了主题相关的上下文片段进行数据构建。我们特别增强了模型的多跳推理、多轮对话和复杂计算能力。为减轻在面对不完整上下文时的幻觉,我们优化了模型的拒绝能力,从而提高了其对知识边界和局限性的认识。

安全。基于 Mu 等人【2024, Rule based rewards for language model safety】的框架,并与我们的内部内容指南保持一致,我们制定了一项内容安全策略,将查询分为五个响应类型下的 40 多个不同安全类别:遵守、遵守指南、软拒绝、带指南的软拒绝或硬拒绝。明确的标准确保了每个响应类型都有一致的、符合安全标准的响应。该系统作为一个上下文感知的数据合成器,通过两个阶段运作:(1) 查询分类:来自不同来源(开放领域语料库、内部业务风险报告、政府问答和对抗性 LLM 合成的红队内容)的查询被分类到安全类别中,使用自动标记并经人工验证。(2) 响应映射与优化:分类后的查询被映射到响应类型,并生成经过优化的、特定类型的响应,这些响应在作为训练目标前会经过人工评估。

4.4 评估

我们对后训练后的 LongCat-Flash 进行了全面而严格的评估。具体来说,我们评估了它在多个维度的能力,包括通用领域、指令遵循、数学推理、通用推理以及编码和智能体任务。

4.4.1 评估基准和配置

评估采用以下基准:
* 通用领域:MMLU【Hendrycks et al., 2021a】, MMLU-Pro【Wang et al., 2024b】, ArenaHard【Li et al., 2024a,b, From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline; URL: https://lmsys.org/blog/2024-04-19-arena-hard/】, CEval【Huang et al., 2023】, and CMMLU【Li et al., 2023a】。
* 指令遵循:IFEval【Zhou et al., 2023, Instruction-following evaluation for large language models】, COLLIE【Yao et al., 2024, COLLIE: Systematic construction of constrained text generation tasks】, and Meeseeks【Wang et al., 2025a, Ask, fail, repeat: Meeseeks, an iterative feedback benchmark for llms’ multi-turn instruction-following ability】。Meeseeks 通过模拟真实人机交互的迭代反馈框架,在多轮场景中评估模型的指令遵循能力,使模型能够根据特定轮次的失败进行自我修正,更好地反映真实世界的使用模式。
* 数学推理:MATH500【Lightman et al., 2023, Let’s verify step by step】, AIME24【MAA, 2024, Aime 2024, URL: https://maa.org/math-competitions/american-invitational-mathematics-examination-aime】, AIME25【MAA, 2025, Aime 2025, URL: https://artofproblemsolving.com/wiki/index.php/AIMEProblemsandSolutions】, and BeyondAIME【ByteDance-Seed, 2025, Beyondaime: Advancing math reasoning evaluation beyond high school olympiads, URL: https://huggingface.co/datasets/ByteDance-Seed/BeyondAIME】。
* 通用推理:GPQA-diamond【Rein et al., 2023】, DROP【Dua et al., 2019】, ZebraLogic【Lin et al., 2025, Zebralogic: On the scaling limits of LLMs for logical reasoning】, and GraphWalks【OpenAI, 2025a, Graphwalks dataset, URL: https://huggingface.co/datasets/openai/graphwalks】。
* 编码:Humaneval+【Liu et al., 2024b】, MBPP+【Liu et al., 2024b】, LiveCodeBench (2024.08-2025.05)【Jain et al., 2025, LiveCodeBench: Holistic and contamination free evaluation of large language models for code】, SWE-Bench-Verified【Jimenez et al., 2024, SWE-bench: Can language models resolve real-world github issues?】, and TerminalBench【Team, 2025a, Terminal-bench: A benchmark for ai agents in terminal environments, URL: https://github.com/laude-institute/terminal-bench】。
* 智能体工具使用:τ2-Bench【Barres et al., 2025, τ 2-bench: Evaluating conversational agents in a dual-control environment】 and AceBench【Chen et al., 2025, ACEBench: Who wins the match point in tool learning?】。此外,我们开发了一个高质量的专有基准 VitaBench,利用美团全面的真实世界业务场景,系统地评估模型解决复杂真实世界任务的能力。在 VitaBench 中,为全面评估模型的通用智能体能力,我们特意策划了跨领域的日常场景,并明确描绘了工具间的依赖关系,避免提供大量的领域特定策略。我们的基准强调了三个关键的复杂性维度:工具集复杂性(以密集的工具图为特征,平均每个任务超过 30 个可用工具)、推理复杂性和用户交互复杂性(具有挑战性的用户画像,评估模型平均每个任务超过 60 轮交互)。完整的基准数据集、详细的构建方法和全面的结果分析将在后续工作中完全发布。

安全性能评估。我们还评估了 LongCat-Flash 的安全性能,特别是在四个主要风险类别上进行评估:
* 有害内容:暴力、仇恨言论、侮辱、骚扰和欺凌、自残和自杀、成人内容等。
* 犯罪内容:非法活动、未成年人违规、极端恐怖主义和暴力等。
* 错误信息:错误信息和虚假信息、不安全做法、幻觉等。
* 隐私:侵犯隐私、侵权等。

在每个类别中,构建了足够数量的私有测试查询,然后进行全面的人工审查,以确保其分类的准确性和质量的可靠性。

对比模型。我们将 LongCat-Flash 的聊天版本与几个当代非思维聊天模型进行了比较,包括 DeepSeek-V3.1【DeepSeek-AI et al., 2025】, Qwen3-235B-A22B (2507 version)【Yang et al., 2025】, Kimi-K2【MoonshotAI, 2025】, GPT-4.1【OpenAI, 2025b, Introducing GPT-4.1 in the api, URL: https://openai.com/index/gpt-4-1/】, Claude4-Sonnet【Anthropic, 2025, Introducing claude 4, URL: https://www.anthropic.com/news/claude-4】, 和 Gemini2.5-Flash【Comanici et al., 2025, Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities】。对于闭源模型,我们通过其官方 API 进行评估。对于支持思维和非思维模式的模型(Qwen3-235B-A22B, Gemini2.5-Flash, and Claude4-Sonnet),我们明确将这些模型配置为在非思维模式下运行,以进行公平比较。

评估指标与设置
* 通用领域基准:我们使用准确率作为评估指标。与原始基准依赖精确匹配(EM)进行正确性判断不同,我们使用一个评分模型来评估模型响应是否与参考答案一致。由于我们的评分模型能够识别语义上正确但文本不完全匹配的答案,报告的值可能略高于原始文档。
* 指令遵循基准:我们根据指令规则设计正则表达式来验证合规性。此外还使用基于规则和基于模型的答案范围提取工具来支持此评估。
* 数学推理基准:我们对 MATH500 应用上述评分模型,对 AIME 相关基准使用 10 次运行的平均 EM 分数。
* 通用推理基准:我们对 GPQA-diamond 应用评分模型,为 DROP 计算 F1 分数,为 ZebraLogic 采用基于规则的匹配,并遵循官方实现在其 128k 上下文长度子集上为 GraphWalk 使用精确度指标。
* 编码基准:如果模型的响应在沙盒环境中通过所有测试用例或匹配特定状态,则每个问题得 1 分,否则为 0 分。最终分数为所有问题的平均分。我们采用 OpenAI 提供的脚本来评估 Humaneval+ 和 MBPP+,并使用官方脚本评估其他基准。具体来说,对于 SWE-Bench-Verified,我们使用 R2E-Gym3(Openhands 支架),运行限制在 100 次迭代进行评估,除了 DeepSeek V3.1(使用 Openhands4)。对于 Terminal-Bench,我们使用 Terminus 框架和直接提示进行评估。
* 智能体工具使用基准:我们利用官方基准框架以确保公平性和可复现性。对于 AceBench,我们使用直接提示而非函数调用。对于我们提出的 VitaBench,鉴于智能体任务固有的长上下文特性,我们采用滑动窗口机制系统地评估整个执行轨迹中的任务完成状态,以便持续更新各个检查清单组件的完成状态。

4.4.2 评估结果

综合性能。如表 3 所示,我们的综合评估显示 LongCat-Flash 是一个功能强大且多才多艺的模型。它在不同领域持续表现出领先性能,通常在各种挑战性任务中以相对较少的激活参数超越当代模型。以下分析详细分解了其在不同维度的卓越能力。

  • 通用领域:LongCat-Flash 在通用领域知识方面表现出强大而全面的性能。它在 ArenaHard-V2 上取得了 86.50 的优异分数,在所有评估模型中排名第二,展示了其在具有挑战性的头对头比较中的强大能力。在基础基准上,它仍然具有很高的竞争力,在 MMLU 上得分为 89.71,在 CEval 上为 90.44。这些结果与领先模型相当,并且值得注意的是,这是在比 DeepSeek-V3.1 和 Kimi-K2 等竞争对手参数更少的情况下实现的,表明其效率很高。
  • 指令遵循:LongCat-Flash 表现出最先进的指令遵循能力。它在 IFEval 上取得了 89.65 的最高分,超过了所有其他模型,展示了其在遵守复杂和细微指令方面的卓越可靠性。此外,它在 COLLIE(57.10)和 Meeseeks-zh(43.03)上也获得了最高分,突显了其在英语和中文的各种挑战性指令集中的卓越熟练度。
  • 数学推理:在数学推理方面,LongCat-Flash 展示了强大和先进的能力。虽然其在 MATH500 上的得分(96.40)非常有竞争力,但其优势在更复杂的竞赛级基准中尤为明显。它在 AIME25(61.25)和 BeyondAIME(43.00)上取得了优异的、顶级的成绩,在这些具有挑战性的领域中名列前茅。这突显了其在复杂、多步逻辑推导和问题解决方面的高级能力。
  • 通用推理:对于通用推理任务,LongCat-Flash 的表现也很稳固。它在结构化逻辑推导方面表现出卓越的实力,在 ZebraLogic 上取得了 89.30 的分数,位居顶尖竞争者之列。它还在阅读理解基准 DROP 上获得了 79.06 的有竞争力的分数。相反,其在 GPQA-diamond(73.23)和 GraphWalks(51.05)上的结果表明有进一步改进的空间,特别是在增强其分析极长上下文中结构化数据的能力方面。
  • 编码:LongCat-Flash 在编码领域表现出有前途和有能力的一面。其突出的表现是在 TerminalBench 上,取得了 39.51 的分数,排名第二,展示了其在实用的、智能体式命令行任务中的卓越熟练度。它在 SWE-Bench-Verified 基准上也具有竞争力,得分为 60.4。在 Humaneval+ 和 MBPP+ 等基础代码生成任务上,其表现稳固,但仍有未来优化的潜力,以与领先模型对齐。
  • 智能体工具使用:LongCat-Flash 在使用智能体工具领域表现出明显优势,特别是在 τ2-Bench 上,即使与参数更多的模型相比也明显优于其他模型。在高度复杂的场景中,它在 VitaBench 上取得了 24.30 的最高分,展示了其在复杂场景中的强大能力。
  • 安全:LongCat-Flash 在识别和减轻风险方面表现出卓越的能力,特别是在有害和犯罪领域,与其他模型相比表现更佳。

表3:前沿聊天模型的评估结果。标有*的值来自其他公开报告。请注意,DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash和Claude4-Sonnet是在其非思维模式下评估的。

表3:前沿聊天模型的评估结果。标有*的值来自其他公开报告。请注意,DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash和Claude4-Sonnet是在其非思维模式下评估的。
表3:前沿聊天模型的评估结果。标有*的值来自其他公开报告。请注意,DeepSeek-V3.1、Qwen3-235B-A22B、Gemini2.5-Flash和Claude4-Sonnet是在其非思维模式下评估的。

5 训练基础设施

核心设计原则。我们训练基础设施的核心设计原则是可扩展性与精确性。我们开发了一种系统性方法来验证算子的精确性,并将在线静默数据损坏(SDC)检测嵌入到空闲计算阶段,以最小化数值错误。为了保证可复现性并确保小规模实验与全规模训练之间的结果一致,我们对所有计算和通信算子强制执行确定性。这使得任何训练步骤的多次重跑都能获得位对齐的损失值。

效率与可靠性。在确保正确性的基础上,我们专注于加速训练效率。挂钟时间对于快速算法迭代至关重要,但单个加速器能力有限。因此,我们将训练扩展到数万个加速器,面临着可扩展性和稳定性的挑战。通过模型-系统协同设计、多维并行以及全自动故障检测与恢复,我们实现了近线性的扩展和 98.48% 的可用性,在 30 天内完成了训练。

5.1 数值精度控制与故障检测

ULP 评估。浮点误差受多种因素影响,甚至在同一供应商不同代次的加速器之间也会有所不同。为了量化和减轻这些误差,我们采用 ULP(Unit in the Last Place)作为度量标准,其中 ULP 误差衡量加速器 BF16 结果与 CPU FP32 基准真相的偏差。零 ULP 误差表示完美准确,而较大的值意味着精度较差。我们收集了训练中使用的所有算子类型和形状,并比较它们的 ULP 误差。表 4 显示了两种解决方案之间 GEMM 的 ULP 误差。

表4:GEMM精度比较(ULP)

表4:GEMM精度比较(ULP)
表4:GEMM精度比较(ULP)

SDC 检测机制。SDC 故障在大规模训练中通常是不可避免的,它可以通过在没有系统警告的情况下改变数据来严重降低模型性能。为了解决这个问题,我们实现了一种高效的片上原位算子重计算机制。具体来说,我们发现 FlashAttention Gradients (FAG) 的反向计算对 SDC 最敏感,因为它同时混合了张量和向量计算。重计算结果之间的位差异表明存在潜在的 SDC 风险。检测计算在计算流中进行编排,重计算间隔可以手动调整,从而在检测覆盖率和计算成本之间实现灵活的权衡。

算子精度与模型性能。值得注意的是,算子精度控制是必要的,但不足以确保模型准确性。使用不同算子实现的实验可能在训练损失上显示 1e-3∼1e-4 的差异,但在基准测试上却表现出超过 5 个百分点的变化。经济高效地评估算子精度误差对模型性能的影响仍然是一个开放的挑战。

5.2 确定性和性能的核函数优化

确定性的重要性。确定性是计算正确性的黄金标准,它消除了浮点误差作为实验变量。然而,实现确定性通常会带来显著的性能开销。我们通过重新设计核函数来解决这个问题,在 LongCat-Flash 的整个训练过程中保持确定性的计算和通信。

  • 确定性 FAG:默认的 FAG 实现是非确定性的,因为 dQ、dK 和 dV 是沿不同维度进行规约的,而原子加法不保证顺序。我们开发了一个高效的确定性 FAG 核函数,使用有限的额外工作空间以确定性顺序累积 tile。通过双缓冲流水线、优化的分块调度和负载均衡等协同优化,我们的实现达到了原始确定性版本性能的 1.6 倍,以及非确定性版本性能的 0.95 倍,在确定性和效率之间取得了平衡。
  • 确定性 ScatterAdd:反向传播中的 ScatterAdd 对于梯度聚合至关重要,但存在输入输出操作数不匹配的问题。默认实现强制在单个计算单元内顺序执行,导致高达 50 倍的减速。我们提出了一种分层规约算法,该算法将梯度聚合并行化到所有可用的处理器上,实现了与非确定性版本相当的性能。
  • 优化的 Grouped GEMM:Grouped GEMM 的性能至关重要,因为它计算量大但计算密度低于密集 GEMM。我们通过以下方式对其进行优化:(1) 双缓冲流水线以重叠计算、内存 I/O 和收尾操作;(2) 对角分块以减轻 L2 缓存冲突;(3) 通过计算单元限制控制 HBM 带宽,以将 Grouped GEMM 与分发/合并通信重叠。这些优化比默认版本带来了 5%–45% 的速度提升。
  • 融合的 GemmAdd:在梯度累加期间,dw 计算存在带宽限制的瓶颈。我们将 FP32 加法融合到 GEMM 的收尾操作中,避免了中间的回写,并将加法隐藏在 tile GEMM 流水线中。这显著降低了延迟,并消除了将 BF16 数据转换为 HBM 引起的精度损失,在融合的 GroupedGemmAdd 基准测试上实现了 3.12 倍到 3.86 倍的加速。

此外,我们重新实现了 IO 密集型核函数(如 MoE 层的 permute/unpermute),并集成了丢弃 token 和处理零计算专家等功能,确保了确定性和性能。

5.3 大规模训练的分布式策略

并行策略。训练架构以专家并行组(EP)为中心,每个组包含 32 个加速器。在一个 EP 组内,注意力层采用上下文并行(CP=8)而非张量并行(TP)以最小化通信开销,而 FFN 层使用 EP 分区而无 TP。多个 EP 组通过流水线并行(PP)和数据并行(DP)维度进行扩展。

ScMoE 优化通信。采用专家并行(EP)来减少静态内存使用,包括权重和优化器状态。然而,EP 天然地引入了昂贵的分发和合并通信操作。为了缓解这个问题,LongCat-Flash 采用了 ScMoE 结构,它使得分发/合并通信能被单批次中更多的计算所重叠。此外,MoE 层沿 token 维度被分为两个块。这些子块实现了两个目标:(1) 与密集 FFN 计算重叠。(2) 彼此之间重叠(见图 8)。

图8:这些架构具有相同的总专家数和激活专家数。带分块的ScMoE实现了最高的效率,因为更多的通信被计算所重叠。
图8:这些架构具有相同的总专家数和激活专家数。带分块的ScMoE实现了最高的效率,因为更多的通信被计算所重叠。

通信策略选择。有两种优化的分发/合并通信策略:(1) 在节点内和节点间使用流水线的 all-gather/reduce-scatter 核函数;(2) 优化的 all-to-all 核函数。原生的 all-to-all 将本地数据大小扩展 top-k 倍,增加了通过每个加速器 200Gb/s RDMA 网络的流量。此外,由于拥塞控制不足,all-to-all 的性能不稳定。我们选择带确定性的流水线式 all-gather/reduce-scatter 作为主要解决方案,通过 ScMoE 架构,非重叠的分发/合并通信时间比例从 25.3% 降低到 8.4%。

流水线策略优化。现有的流水线策略(如 1F1B、interleaved-1F1B、Zero-bubble【Qi and Others, 2023, Zero-bubble pipeline parallelism for large language models】)在流水线阶段之间存在内存使用不平衡的问题。为此,我们采用了 V-ZB 算法【Qi et al., 2024, Pipeline parallelism with controllable memory】,该算法平衡了所有阶段的内存使用,并在 LongCat-Flash 训练中将峰值内存降低到 60GB 以下。此外,我们启用了 zero bubble 的后验证策略,实现了零理论气泡。一个关键的改进是在优化器状态回滚期间,用上一步的备份数据替换逆操作,从而保持了数值的位对齐。

5.4 可靠性与可观察性

可靠性。可靠性由对最终训练轨迹有贡献的时间比例(可用性)来衡量,其中不可用时间包括故障恢复和从上次检查点到故障发生之间的浪费时间。异步检查点将训练停顿减少到 2-4 秒,允许更高频率的检查点,并最大限度地减少故障引起的损失。结合在线关键日志过滤、优化的初始化和完全自动化,恢复时间减少到 <10 分钟。这些机制实现了 98.48% 的可用性,所有 20 次故障都自动处理,无需人工干预。

可观察性。可观察性结合了细粒度和粗粒度的性能分析以及一个指标平台。细粒度的 PyTorch profiler 时间线支持分布式、并行感知的协同分析,以识别流水线并行的“气泡”和跨 rank 的通信等待。粗粒度的监控增加了对慢节点的低开销运行时分析。指标平台跟踪损失、权重、梯度和激活,以便快速评估模型状态。

6 推理与部署

LongCat-Flash 采用模型-系统协同设计,这对其高吞吐量和低延迟做出了重要贡献。本节重点介绍在我们一个部署集群中实施的推理优化,展示了同时提高系统吞吐量并将延迟显著降低到 H800 上 100 TPS 的方法。我们首先介绍与模型架构协同设计的并行推理架构。接着描述了量化和自定义核函数等优化方法。最后,我们介绍了我们的部署策略和性能结果。

6.1 模型特定的推理优化

两大挑战。为了实现高效的推理系统,必须解决两个关键挑战:(1) 计算与通信的编排,以及 (2) KV 缓存的 I/O 和存储。对于第一个挑战,现有方法通常利用三个常规粒度的并行性:算子级重叠,如 NanoFlow【Zhu et al., 2025, NanoFlow: Towards optimal large language model serving throughput】;专家级重叠,如 EPS-MoE【Qian et al., 2025, EPS-MoE: Expert pipeline scheduler for cost-efficient moe inference】;以及层级重叠,如 DeepSeek-V3 TBO(双批次重叠)【Team, 2025b, Deploying deepseek with pd disaggregation and large-scale expert parallelism on 96 h100 gpus, URL: https://lmsys.org/blog/2025-05-05-large-scale-ep/】。LongCat-Flash 的 ScMoE 架构引入了第四个维度——模块级重叠,为此我们设计了 SBO(单批次重叠)调度策略,以优化延迟和吞吐量。对于第二个挑战——KV 缓存的 I/O 和存储——LongCat-Flash 通过其注意力机制和 MTP 结构的架构创新来解决这些问题,以减少有效的 I/O 开销。

6.1.1 计算与通信编排

单批次重叠 (SBO) 策略。LongCat-Flash 的结构天然具有计算-通信重叠的特性,这是在保持生成吞吐量的同时实现更低延迟的关键。我们精心设计了单批次重叠(SBO),一个利用模块级重叠来充分释放 LongCat-Flash 潜力的四阶段流水线执行,如图 9 所示。SBO 与 TBO 的不同之处在于它在单个批次内隐藏了通信开销。在 SBO 中,阶段 1 需要单独执行,因为 MLA 的输出是后续阶段的输入。在阶段 2,我们将 all-to-all 分发与密集 FFN 和 Attn 0(QKV 投影)重叠。这种重叠至关重要,因为通信开销过大,促使我们拆分注意力过程。阶段 3 独立执行 MoE GEMM。该阶段的延迟将受益于广泛的 EP 部署策略。在阶段 4,我们将 Attn 1(核心注意力和输出投影)和密集 FFN 与 all-to-all 合并重叠。这种编排有效地减轻了通信开销,确保了 LongCat-Flash 的高效推理。

图9:重叠策略概览。
图9:重叠策略概览。

带宽效率优化。此外,ScMoE 架构在广泛的 EP 部署方案下,通过 GPUDirect RDMA【Choquette, 2022, Nvidia hopper gpu: Scaling performance】促进了节点内 NVLink 带宽利用和节点间 RDMA 通信的重叠,从而提高了整体带宽效率。ScMoE 中的密集 FFN 具有相对较大的中间尺寸,因此采用 TP 部署以最小化内存占用,这需要在密集 FFN 前后分别进行 all-gather 和 reduce-scatter 通信。为减少此通信开销,我们开发了自定义核函数,并采用 TP2 或 TP4 而非 TP8。

6.1.2 推测性解码

优化框架。LongCat-Flash 采用 MTP 作为推测性解码的草稿模型。我们的优化框架源于对推测性解码加速公式的系统性分解,正如 Sadhukhan 等人【2025, MagicDec: Breaking the latency-throughput tradeoff for long context generation with speculative decoding】所提到的:

公式12
公式12

其中 $T_{SD_{Avg}}$、$T_T$、$T_D$ 分别是推测性解码、目标模型和草稿模型的每 token 预期延迟。$\gamma$ 表示一个解码步骤中的草稿 token 数量。$\Omega(\gamma, \alpha)$ 是给定步长 $\gamma$ 和接受率 $\alpha$ 的预期接受长度。$T_V(\gamma)$ 是目标验证的预期延迟。我们的方法针对三个关键因素:

  • 预期接受长度 $\Omega(\gamma, \alpha)$:它与草稿 token 的接受率 $\alpha$ 正相关。为最大化接受率 $\alpha$,我们采用 MTP。在预训练后期集成一个 MTP 头,在测试集上实现了约 90% 的接受率。
  • 草稿与目标成本比 $\gamma T_D / T_T$:它主要由目标模型和草稿模型的结构决定。如相当的接受率所示,LongCat-Flash 采用了一个参数更少的轻量级 MTP 架构。我们的实验(表 5)表明,使用单个密集层作为 MTP 头可以优化这种权衡,其延迟优于 ScMoE 层。
  • 目标验证与解码成本比 $T_V(\gamma) / T_T$:为降低此比率,我们采用 C2T【Huo et al., 2025, C2T: A classifier-based tree construction method in speculative decoding】方法,使用一个分类模型在验证前过滤掉不太可能被接受的 token。

表5:在MT-Bench上,不同MTP头结构在一个6B激活模型上的草稿token接受率。同时报告了MTP头参数与主模型参数的比例。

表5:在MT-Bench上,不同MTP头结构在一个6B激活模型上的草稿token接受率。同时报告了MTP头参数与主模型参数的比例。
表5:在MT-Bench上,不同MTP头结构在一个6B激活模型上的草稿token接受率。同时报告了MTP头参数与主模型参数的比例。

6.1.3 减少 KV 缓存

MLA 的优势。为平衡性能和效率,LongCat-Flash 的注意力机制采用了具有 64 个头的 MLA,这减少了注意力组件的计算负载,同时实现了卓越的 KV 缓存压缩,从而减少了存储和带宽压力。这对于编排 LongCat-Flash 的流水线至关重要,如图 9 所示,模型总是有一个无法与通信重叠的注意力计算。具体来说,MLA 吸收方法的 MQA 类结构在 m 维度(64 个头)上共享 KV,与 WGMMA 指令的形状对齐,以实现最大化的硬件利用。

6.2 系统级推理技术

6.2.1 最小化调度开销

TVD 融合与多步重叠调度器。LLM 推理系统中的解码阶段可能因核函数启动开销而变得受限于启动。在引入推测性解码时,这个问题会加剧——特别是对于 LongCat-Flash 的轻量级 MTP,其中分别调度验证核函数和草稿前向传播会引入显著的开销。为缓解此问题,使用了一种 TVD 融合策略,将目标前向、验证和草稿前向融合到一个 CUDA 图中。为进一步提高 GPU 利用率,我们实现了一个重叠调度器。然而,实验结果显示,LongCat-Flash 前向传播的低延迟使得单步预调度策略不足以完全消除调度开销。如图 10 所示,我们引入了一个多步重叠调度器,在单次调度迭代中启动多个前向步骤的核函数。这种方法有效地将 CPU 调度和同步隐藏在 GPU 前向过程中,确保 GPU 持续占用。

图10:多步重叠调度器(此处以4步为例)。
图10:多步重叠调度器(此处以4步为例)。

动态 KV 缓存分配与收敛性。在多步重叠调度器中,我们需要为未来的多个步骤动态预分配 KV 缓存槽,而事先不知道先前迭代中推测性解码的接受长度。一个重要问题是多步重叠调度是否会导致发散的 KV 缓存分配。我们以 $MTP = 1$ 和步数 $n = 4$ 为例说明。设 $R_i$ 表示 GPU 在第 i 次迭代前向传播期间可用的 KV 条目,因此 $R_0 = (MTP + 1) \times n = 2n$。$U_{i,s} \in [1, 2]$ 表示第 i 次迭代中第 s 步的接受长度,初始值为 $U_{-1,s} = 2$。然后,当 GPU 执行第 i 次迭代的前向计算时,调度器根据第 (i-1) 次前向迭代中的接受长度预分配第 (i+1) 次前向迭代所需的 KV 缓存槽,其中 $A_i$ 表示分配的 KV 缓存槽。形式上:

公式13
公式13

通过归纳,我们得到闭式表达式:

公式14
公式14

这意味着:

公式15
公式15

通过数学归纳,这确保了即使不知道当前迭代的接受长度,也能安全地为下一次迭代分配 KV 缓存,同时保证了分配的 KV 缓存大小的收敛性。

6.2.2 自定义核函数

预填充与解码阶段的挑战。LLM 推理的自回归性质带来了独特的效率挑战。预填充阶段是计算密集型的,而像 chunk-prefill【Agrawal et al., 2023, Sarathi: Efficient llm inference by piggybacking decodes with chunked prefills】这样的方法规范化数据以实现最佳处理。相反,解码阶段由于流量模式导致的小而不规则的批量大小,通常是内存密集型的,这损害了核函数的性能。因此,优化这些特定情况对于最小化每输出 token 时间(TPOT)至关重要。

  • MoE GEMM:现有库如 DeepGEMM【Zhao et al., 2025a, DeepGEMM: clean and efficient fp8 gemm kernels with fine-grained scaling, URL: https://github.com/deepseek-ai/DeepGEMM】将模型权重映射到与 k/n 维度对齐的右手矩阵(A×B=C 中的 B),而输入激活则成为映射到 m/k 维度的左手矩阵,其中 m 代表 token 数量。这种传统方法在 token 数量低于 m 的 64 元素最小值时需要填充。为解决这种低效率,我们利用 SwapAB【Dege et al., 2025, FlashMLA-ETAP: Efficient transpose attention pipeline for accelerating mla inference on nvidia h20 gpus】技术:将权重视为左手矩阵,激活视为右手矩阵。通过利用 n 维度灵活的 8 元素粒度,SwapAB 最大化了张量核心的利用率。
  • 通信核函数:推理系统利用 NVLink Sharp 的硬件加速广播(multimem.st)和交换机内规约(multimem.ld_reduce)来最小化数据移动和 SM 占用,如图 9 所示。通过使用内联 PTX 汇编,reduce-scatter 和 all-gather 核函数实现了高效的数据传输。这些核函数支持跨 GPU 的均匀和非均匀 token 分布,并且在 4KB 到 96MB 的消息大小范围内,始终优于 NCCL【NVIDIA, NVIDIA Collective Communications Library (NCCL), URL: https://github.com/NVIDIA/nccl】和 MSCCL++【Shah et al., 2025, MSCCL++: Rethinking gpu communication abstractions for cutting-edge ai applications】,仅使用 4 个线程块。

6.2.3 量化

量化方案。LongCat-Flash 采用了与 DeepSeek-V3 相同的量化方案,使用细粒度的块级量化:激活按 [1,128] 块,权重按 [128,128] 块。此外,为实现性能和准确性的最佳权衡,我们基于两种方法应用了层级混合精度量化:第一种方案遵循我们在 FPTQ【Li et al., 2023b, FPTQ: Fine-grained post-training quantization for large language models】和 Super-Expert【Su et al., 2025, Unveiling super experts in mixture-of-experts large language models】中的方法,我们观察到某些线性层(特别是 Downproj)的输入激活具有达到 10^6 的极值。第二种方案涉及逐层计算块级 FP8 量化误差(相对和绝对),这揭示了特定专家层存在显著的量化误差。通过取两种方案的交集,我们实现了显著的准确性提升。

6.3 部署与性能

6.3.1 实测性能

PD-Disaggregated 架构。为实现预填充和解码阶段的独立优化,采用了 PD-Disaggregated 架构。这种设计的一个关键挑战是将 KV 缓存从预填充节点传输到解码节点的开销。为缓解此问题,我们实现了层级传输,这在高 QPS 工作负载下显著减少了首个 token 时间(TTFT)。对于预填充和解码节点,最小部署单元由 2 个节点和 16 个 H800-80GB GPU 组成。同时,使用 DeepEP【Zhao et al., 2025b, DeepEP: an efficient expert-parallel communication library, URL: https://github.com/deepseek-ai/DeepEP】部署广泛的 EP 以最小化通信开销。此外,我们修改了 DeepEP 和 EPLB(专家并行负载均衡器)以支持零计算专家,其中零计算专家的输出无需通信即可获得。

表6:LongCat-Flash在不同设置下的性能。

表6:LongCat-Flash在不同设置下的性能。
表6:LongCat-Flash在不同设置下的性能。

性能对比。表 6 比较了 LongCat-Flash 与 DeepSeek-V3 的吞吐量和延迟(DeepSeek-V3-profile 来自 DeepSeek【2025a, Profiling data in deepseek infra, URL: https://github.com/deepseek-ai/profile-data】,DeepSeek-V3-blog 来自 DeepSeek【2025b, Day 6: One more thing, deepseek-v3/r1 inference system overview, URL: https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md】),其中 TGS(每 GPU 每秒 token 数)表示每台设备的生成吞吐量(值越高表示成本越低),TPS/u(每用户每秒 token 数)表示一个用户的生成速度(值越高越好)。测试期间,使用给定序列长度下的稳态生成吞吐量进行计算。LongCat-Flash 在不同序列长度下都实现了更高的生成吞吐量和更快的生成速度。

智能体应用场景性能。在基于 ReACT【Yao et al., 2023, React: Synergizing reasoning and acting in language models】模式的智能体应用中,完成单个任务需要多轮模型交互,其中交互延迟直接影响用户体验。对典型智能体调用模式的分析揭示了对模型输出的不同速度要求:
* 推理内容(用户可见):包括认知过程和解释,必须与人类阅读速度(约 20 token/s)相匹配。
* 动作命令(用户不可见):如函数名和参数等结构化数据,通常为 30-100 token,但直接影响工具调用启动时间——要求尽可能高的速度。

为应对此场景,LongCat-Flash 对动作命令的生成速度达到了近 100 token/s。在 H800 GPU 每小时成本为 2 美元的假设下,这相当于每百万输出 token 的价格为 0.7 美元。这一性能将单轮工具调用延迟限制在一秒以内,从而显著增强了智能体应用的交互性。

6.3.2 理论性能

延迟主要组成部分。图 9 显示,LongCat-Flash 的延迟主要由三个部分决定:
* MLA:其时间消耗无法通过增加 EP 数量来减少。
* All-to-all 分发/合并:两者都受限于单设备批量大小和 topk。
* MoE:其在内存密集型区域的时间消耗随着 EP 数量的增加而减少。

理论性能计算。假设 EP 数量为 128,DeepSeek-V3 和 LongCat-Flash 的 MLA 使用 DP,Qwen3-235B-A22B 的 GQA 使用 TP4(因为它有 4 个 kv 头),并且每台设备的批量大小为 96。实际上,Qwen-235B-A22B 的 GQA 特性导致其 KV 缓存的内存占用相对较高,难以在实践中达到每 GPU 96 的批量大小。此处假设其能达到此值仅为理论分析目的。正如【Jiashi Li, 2025, FlashMLA: Efficient mla decoding kernels, URL: https://github.com/deepseek-ai/FlashMLA】指出的,FlashMLA 在 NVIDIA H800 SXM5 GPU 上可以达到 660 TFlops;Zhao 等人【2025b】指出 DeepEP 带宽可以达到 40GB/s。这两个指标都在我们的计算中被使用。假设每 H800 的成本为每小时 2 美元。考虑到 MTP=1 且接受率为 80%,我们可以计算出 DeepSeek-V3、Qwen3-235B-A22B 和 LongCat-Flash 每层中每个模块的理论时间消耗和成本,如表 7 所列。对于本身不支持 MTP 的 Qwen3-235B-A22B,我们假设采用具有相当接受率的推测性采样策略。

表7:不同模型的理论解码时间和成本。

表7:不同模型的理论解码时间和成本。
表7:不同模型的理论解码时间和成本。

理论 TPOT 计算。在此配置下,LongCat-Flash 使用 SBO 的理论极限 TPOT 可以表示为:

公式16
公式16

其中 $T_{PL}$ 是每层的时间成本。

实测与理论对比。在批量大小为 96 的情况下,实测值约为 TPOT = 26 ms,约为理论值的 61.5%,与 DeepSeek-V3(约 64%)相当。实测值与理论速度之间的差距主要来自小算子的开销和通信带宽的损失。

跨模型理论对比与洞察。我们应用同样的方法计算了 DeepSeek-V3 和 Qwen3-235B-A22B 在 TBO 调度下的理论 TPOT 和生成成本极限。从表 7 可以看出,通过模型系统协同设计,LongCat-Flash 在吞吐量和延迟方面都取得了显著的理论改进。

此外,我们观察到关于 LongCat-Flash 的两个关键洞察:(1) LongCat-Flash 不仅暴露了 all-to-all 通信和 MoE 计算,还暴露了一个 MLA 计算。因此,在相同的批量大小下,LongCat-Flash 的每层时间略长于 DeepSeek-V3。然而,由于其层数显著减少,LongCat-Flash 实现了更低的总延迟。(2) LongCat-Flash 的第二个 MLA 被 all-to-all 合并所重叠。这意味着在解码阶段,LongCat-Flash 可以在一定程度上增加序列长度而不会大幅增加延迟。

A4 实验环境

  • 模型架构
    • 模型名称:LongCat-Flash
    • 总参数量:560B
    • 激活参数量:18.6B - 31.3B (平均约 27B)
    • 层数:28
    • 隐藏层维度:6144
    • 注意力机制:多头潜在注意力 (MLA)
    • 注意力头数:64,头维度 128
    • KV/Query 压缩维度:KV 512,Query 1536
    • FFN 中间层维度:密集路径 12288,专家 2048
    • 专家配置:每层 512 个 FFN 专家,256 个零计算专家,每个 token 激活 12 个专家。
    • 上下文长度:扩展至 128k
    • 分词器:BPE,词汇表大小 131,072
  • 数据集与训练
    • 预训练数据量:超过 20 万亿 tokens
    • 数据类型:涵盖网页、书籍、源代码、STEM 材料等的综合多语言语料库,并使用系统性方法生成高质量的推理、编码和智能体任务合成数据。
    • 训练阶段:三阶段预训练(通用、推理编码增强、长上下文扩展)+ 多阶段后训练(推理编码、智能体工具使用、通用能力)。
  • 硬件配置
    • 加速器:在数万个加速器上进行训练;推理部署在 H800-80GB GPU 集群上,最小部署单元为 2 节点 16 卡。
    • 网络:节点间使用 RDMA 通信 (200Gb/s),节点内使用 NVLink。
  • 软件配置
    • 框架:PyTorch
    • 分布式策略:多维并行(专家并行EP、上下文并行CP、流水线并行PP、数据并行DP)
    • 关键技术:自定义 CUDA 核函数(用于确定性计算和性能优化),V-ZB 流水线算法,PD-Disaggregated 部署架构。

A5 实验结果

基础模型评估(表 2)
* 实验内容:对 LongCat-Flash Base 模型在通用任务、推理、数学和编码四大类基准上进行评估,并与 DeepSeek-V3.1 Base, Llama-4-Maverick Base, Kimi-K2 Base 等 SOTA 开源 MoE 模型进行比较。
* 实验结果:LongCat-Flash Base 以更少的参数量(激活/总参数)实现了与 SOTA 模型相当甚至更优的性能。
* 在通用任务上与 DeepSeek-V3.1 Base 表现相似,但在更具挑战性的 MMLU-Pro 上有显著优势。
* 在推理、数学和编码任务上,大部分指标优于或持平于 DeepSeek-V3.1 Base 和 Kimi-K2 Base。
* 分析结论:结果突显了 LongCat-Flash Base 模型的参数效率,证明了其架构设计和预训练策略的有效性。

聊天模型评估(表 3)
* 实验内容:对后训练的 LongCat-Flash 聊天模型在通用领域、指令遵循、数学推理、通用推理、编码和智能体任务等多个维度进行全面评估。对比模型包括 DeepSeek-V3.1, Qwen3-235B, Kimi-K2, GPT-4.1, Claude4-Sonnet, Gemini2.5-Flash 等前沿聊天模型(均在非思维模式下评估)。
* 实验结果:LongCat-Flash 在多个领域表现出领先性能,常以较少的激活参数超越对手。
* 通用领域:在 ArenaHard-V2 上得分 86.50,排名第二,MMLU 和 CEval 表现具竞争力。
* 指令遵循:在 IFEval (89.65), COLLIE (57.10), Meeseeks-zh (43.03) 上均取得最高分,表现出 SOTA 水平。
* 数学推理:在 AIME25 (61.25) 和 BeyondAIME (43.00) 等高难度竞赛级基准上表现顶级。
* 编码:在智能体式命令行任务 TerminalBench 上得分 39.51,排名第二,表现出色。
* 智能体工具使用:在 τ2-Bench 和自研的 VitaBench 上均取得最高分,显著优于其他模型,展示了在复杂场景下的强大能力。
* 安全:在识别和缓解有害及犯罪内容风险方面表现出色。
* 分析结论:全面的评估结果表明,LongCat-Flash 是一个强大且全能的模型,其多阶段训练流程成功地培养了其在通用、推理、编码,尤其是智能体任务上的卓越能力。

推理性能评估(表 6)
* 实验内容:在 H800 GPU 集群上,测量 LongCat-Flash 在不同序列长度下的推理吞吐量(TGS)和单用户生成速度(TPS/u),并与 DeepSeek-V3 进行对比。
* 实验结果:LongCat-Flash 在不同序列长度下均实现了比 DeepSeek-V3 更高的生成吞吐量和更快的生成速度。在智能体动作命令生成场景下,速度接近 100 TPS,成本为每百万输出 token 0.7 美元。
* 分析结论:模型-系统协同设计(如 ScMoE 架构、SBO 调度策略等)显著提升了 LongCat-Flash 的推理效率,使其在保持高性能的同时具有极低的延迟和成本。

A6 结论

我们介绍了 LongCat-Flash,一个 560B 参数的 MoE 模型,具有三个关键创新:(1) 一种上下文感知的动态计算机制和快捷连接 MoE,实现了训练和推理的高效率;(2) 确保大规模训练稳定性的集成策略;(3) 一个多阶段训练流程,培养了 LongCat-Flash 的智能体能力,使其能够执行需要迭代推理和环境交互的复杂任务。通过将 LongCat-Flash 作为开源模型发布,我们旨在推动高效 MoE 架构、高质量数据策略和智能体模型开发的研究,促进社区驱动的大语言模型创新。

A7 附录

A.1 动态路由的统计与案例研究

计算偏差。图 11 显示了 LongCat-Flash 基础模型在不同基准测试中激活的 FFN 专家平均数。一个一致的计算偏差偏向于英语 token,而不是中文和数学 token。

跨层专家选择模式。我们在表 8 中展示了几个案例中不同层级的更详细的专家选择情况。这些案例揭示了不同层级专家选择的不同模式。在第一层,功能词(包括冠词、连词、介词)、数字和标点符号始终获得较低的计算资源。相比之下,最后一层(第 28 层)与第 1 层相比,特征分配的专业化程度较低,但仍然存在可识别的模式。例如,在中文文本案例中,标点符号之前的 token 倾向于被分配较少的计算资源。

假设。我们假设浅层优先考虑 token 内部的语义进行分配,而深层则根据预测复杂性动态调整资源,这可能反映了从局部特征处理到全局预测优化的分层过渡。

图11:在不同基准测试中激活的FFN专家的平均数量。
图11:在不同基准测试中激活的FFN专家的平均数量。

表8:每层每个token激活的FFN专家数量。

表8 part1
表8 part1

表8 part2
表8 part2