作者/机构: StepFun Inc.


A1 主要贡献

本文介绍了Step-3的模型-系统协同设计,该设计专门为测试时扩展范式(test-time scaling paradigm)而工程化,主要优化目标是最小化解码成本。Step-3是一个拥有3210亿总参数的视觉语言模型(VLM),每次解码一个token会激活380亿参数。

核心问题与研究目标
大型语言模型(LLM)在解码阶段,尤其是处理长上下文推理任务时,面临硬件效率低和成本高昂的问题。近期的开源模型在探索新的Attention和FFN(前馈网络)架构时,存在两个普遍的次优实践:1) 过分强调减小KV缓存大小,却导致计算负载过高,损害了在平价硬件上的成本效益;2) 过分追求稀疏的MoE(混合专家)架构,而未考虑其是否与当前硬件匹配,导致硬件效率低下。本文旨在通过模型-系统协同设计,解决这些问题,实现一个解码成本显著降低的大模型。

创新与贡献点
本文的核心贡献在于Step-3的协同设计,它在两个关键维度上进行了创新:

  1. 新颖的注意力机制:提出了一种名为多矩阵分解注意力(Multi-Matrix Factorization Attention, MFA)的新型注意力机制。该机制显著减小了KV缓存的大小和计算量,同时保持了高水平的注意力表达能力。
  2. 创新的推理系统:设计并实现了一个名为注意力-FFN解耦(Attention-FFN Disaggregation, AFD)的分布式推理系统。该系统将模型的Attention层和FFN层解耦,部署到各自专用的子系统中,允许独立优化和扩展。

通过这种模型-系统协同设计,Step-3在成本效益上取得了前所未有的成果。理论分析和实际测试表明,与DeepSeek-V3和Qwen3 MoE 235B等模型相比,Step-3的解码成本显著降低,且随着上下文长度的增加,其成本优势愈发明显。尽管激活参数数量更多(38B),但通过与硬件对齐的注意力算术强度、合理的MoE稀疏度以及AFD系统,Step-3证明了参数数量并非解码成本的唯一决定因素,从而为大模型解码的成本效益设定了新的帕累托前沿。


A2 方法细节

第2节 Step-3模型卡

Step-3架构概述。Step-3基于Transformer架构【【24】,Attention is all you need,2017,Neural Information Processing Systems】,每个Transformer块包含一个注意力模块和一个前馈网络(FFN)。注意力机制方面,引入了多矩阵分解注意力(MFA)【【7】,Multi-matrix factorization attention,2025】,它在Query-Key(QK)电路【【5】,A mathematical framework for transformer circuits,2021,Transformer Circuits Thread】中利用低秩矩阵分解。这种设计能够在参数高效的前提下,扩展注意力头的数量和维度,同时最小化KV缓存开销。FFN方面,采用了受DeepSeekMoE启发的共享专家设计,并集成了混合专家(MoE)层。

具体配置。模型配置包括61个Transformer层,隐藏层维度为7168。对于MFA,配置了64个查询头,它们共享一个键(Key)头和一个值(Value)头,所有头的维度均为256。查询维度首先从7168下投影到一个较低的2048秩,经过归一化后,再上投影到64*256。除了前四个和最后一个FFN层外,其他所有FFN层都应用了MoE。在此设置下,Step-3包含3160亿文本参数,每个token激活380亿参数。此外,还有一个50亿参数的视觉编码器,但本文不作讨论。

Step-3模型卡

第3节 注意力-FFN解耦 (Attention-FFN Disaggregation, AFD)

AFD设计理念。本文首先描述Step-3的推理系统,该系统是首批利用注意力-FFN解耦(AFD)思想并能在严格SLO(服务等级目标)约束下实现高吞吐量解码的生产级服务系统之一。其基本原理在于,LLM通常由交错的Attention层和FFN层组成,这两者具有截然不同的计算和内存访问模式。Attention层参数量较小,但需要存储每个token的键值缓存(KV-cache),在推理过程中是内存密集型的。相反,FFN层(尤其是MoE模型)参数量巨大,但不需要存储中间计算结果。现有服务系统常将它们视为一个整体,导致GPU利用率不理想。通过解耦Attention和FFN组件,可以更好地利用它们各自的硬件亲和性并优化吞吐量。同时,这种解耦使我们能够做出一个关键假设:Attention和FFN部分都可以在理想的硬件条件下运行,并分别达到高MFU(模型浮点运算利用率)。此思想基于预填充-解码(PD)解耦方法【【31】,{DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving,2024,18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)】,使我们能专注于优化解码阶段。

3.1 设计目标

AFD架构与流水线。AFD将Attention层和FFN层部署到不同的GPU集合上。这种架构分离允许每个子系统采用最适合其计算特性的不同并行策略。在逐层解码过程中,隐藏状态通过高速网络在Attention和FFN子系统之间传输。这种交错的通信模式形成一个紧密耦合的流水线,其中Attention和FFN互为上下游阶段。

通信延迟考量。在如此细粒度的场景中,网络传输延迟的量级与Attention和FFN阶段的计算时间相当。这意味着通信阶段也应被视为流水线的一个环节。为了实现最佳的整体性能,两边的处理延迟必须精确匹配;任何不平衡都会导致流水线停顿或资源利用不足。因此,联合编排A/F和通信阶段的性能至关重要。

AFD设计目标总结
* 性能目标:通过一个3阶段流水线实现每输出token时间(TPOT)为50毫秒(即每秒20个token),每个阶段(A/F/通信)分别为16.6毫秒。此时间是在所有模型层上累积的。
* 流水线优化:通过资源分配和性能调优,实现完美的A/F/通信多阶段流水线,以隐藏通信延迟。
* A/F独立设计:AFD使得可以独立分析Attention和FFN的操作特性。这种分离不仅能对每个子系统进行最优优化,还允许对模型架构本身进行灵活修改。
* 硬件选择:根据Attention和FFN子系统的操作特性,为它们独立选择硬件。

3.2 与相关工作的比较

与DeepSeek EP的比较。DeepSeek-V3【【4】,Deepseek-v3 technical report,2025】中引入的大规模专家并行(EP)架构虽然通过将专家权重分布到多个设备来放大批处理大小,但与AFD相比存在根本性限制。
* 部署规模:AFD能在较小的部署规模下高效运行。DSv3需要320个GPU进行解码,而Step-3仅需32个(见§7.3)。当部署规模显著扩大时,网络拥塞成为关键问题【【29】,Insights into deepseek-v3: Scaling challenges and reflections on hardware for ai architectures,2025,Proceedings of the 52nd Annual International Symposium on Computer Architecture, ISCA ’25】,导致延迟增加且不可预测,严重影响推理SLA。
* 上下文长度效率:长上下文处理给EP的Attention层带来不成比例的负担,由于专家节点分配固定,导致FFN利用率不足。AFD通过解耦Attention和FFN的扩展来解决此问题。
* 负载不平衡问题:EP存在著名的工作负载不平衡问题【【13】,Accelerating distributed MoE training and inference with lina,2023,2023 USENIX Annual Technical Conference (USENIX ATC 23)】【【14】,Janus: A unified distributed training framework for sparse mixture-of-experts models,2023,Proceedings of the ACM SIGCOMM 2023 Conference】。DeepSeek-V3通过复制专家以临时平衡每个GPU的工作负载,但这会产生额外的内存开销,并且对动态工作负载变化不灵活。而AFD可以轻松利用混合TP-EP策略来平衡计算效率、通信流量和负载。
* 异构硬件约束:AFD支持更灵活的硬件部署,Attention和FFN实例可以映射到为其各自计算和内存需求量身定制的异构硬件上,而EP强制同构硬件部署,限制了专业化优势。
* 性能建模:本文的分析框架利用了Attention和FFN的架构解耦。这种分离由于它们不同的计算特性而提供了方法论上的清晰度,从而能够更准确地建模性能上限,同时大幅缩小理论预测与实证测量之间的差距。相反,仅EP的架构缺乏这种分而治之的清晰度,在建模耦合子系统时存在固有的分析模糊性。
需要特别注意的是,AFD并非EP的替代品,而是一种互补方法。实际上,Step-3可以与TP-EP策略结合以实现更好的性能和成本效益。以上分析是针对不采用AFD的纯EP架构,这在现有服务系统【【4】,Deepseek-v3 technical report,2025】【【33】,Serving large language models on huawei cloudmatrix384,2025】中很常见。

与Megascale-Infer的比较。据我们所知,Megascale-Infer【【32】,Megascale-infer: Serving mixture-of-experts at scale with disaggregated expert parallelism,2025】是第一个利用AFD思想构建解耦服务系统的研究。然而,它专注于高吞吐量,而不是提供一个能同时实现低延迟目标(即50ms TPOT)的实用实现。根据【32】,Megascale-Infer报告的每token延迟为150ms,远高于我们的系统,这种高延迟不适用于聊天机器人等实时应用。此外,Step-3的核心在于模型-系统协同设计,我们利用AFD思想来设计Step-3的Attention和FFN层架构,而Megascale-Infer主要只关注系统级优化。我们相信协同设计能带来更多彻底利用硬件能力的机会。

第4节 LLM解码的成本分析

分析前提。基于AFD能让Attention和FFN部分接近硬件极限运行的重要假设,本节深入探讨了各模型的理论成本。比较对象包括Step-3、DSv3【4】、Kimi K2【17】、Qwen3-235B-A22B【8】(简称Qwen3-MoE)、Qwen3-32B【25】、Llama 4 Maverick【15】、MiniMax M1【16】(简称MM M1)、ERNIE 4.5【22】和盘古Pro MoE【21】。

4.1 理论FLOPs和内存访问

量化假设。我们首先考察解码每个token所需的总内存访问和计算操作。由于不同的量化方法直接影响内存访问和浮点计算类型,我们为每个模型选择了广泛使用的量化版本:
* MLA系列 (DSv3, Kimi K2):DSv3的官方实现对Attention使用BF16,其余部分为FP8。但考虑到开源社区存在MLA的FP8量化版本,我们采用全模型FP8量化。Kimi K2也采用相同量化。
* GQA系列 (Qwen3, ERNIE 4.5, Pangu Pro MoE):Qwen3官方发布包含完整的FP8量化,我们直接使用。为与其他模型对齐,ERNIE 4.5和盘古Pro MoE也采用相同的FP8量化。
* 混合模型 (Llama 4 Maverick, MM M1):这些模型的官方量化方案较为保守,特别是对Attention部分。由于对混合注意力模型的量化研究尚不深入,我们基本遵循官方设置,即对全注意力层使用BF16 KV缓存。MM M1的Lightning Attention状态使用FP32。我们对Llama 4 Maverick的块状GQA注意力部分使用FP8,其余部分则采用与其他模型相同的FP8量化以进行公平比较。
* Step-3:我们已成功将Step-3量化为全FP8模型而无精度损失,因此使用全FP8量化。
如果硬件不支持FP8,我们假设使用INT8权重和INT8 KV缓存,以保持内存访问量不变,而计算则使用BF16或FP16。

成本分解与假设。结果如表2和表3所示。在AFD的假设下,我们将模型成本分为三部分:注意力核心(不包括线性投影)、注意力前后的线性投影、以及FFN。
* 注意力核心:我们同时考虑KV缓存大小和计算量,因为它们随批大小和上下文长度线性增长。
* 线性投影:我们假设通过足够的批处理,这部分可以达到计算密集型性能。此时,权重的内存访问成本被摊销,成本由FLOPs决定。一个例外是MLA和MFA的q/k/v_proj在H800上可能无法达到计算密集区,因为这部分不适合张量并行(TP),可能没有足够大的批大小。这意味着我们稍微低估了MLA和MFA在H800上的成本,但为简化起见忽略了这一点。
* FFN:我们只关注激活的计算量,因为使用AFD对于不太稀疏的MoE,总能积累足够的批处理使FFN达到高MFU并摊销权重内存访问成本。对于像DSv3、Kimi K2和Llama 4 Maverick这样过于稀疏的模型,在H800上的实际FFN成本可能会翻倍甚至三倍。为简化起见,我们暂时忽略这一点,给予它们有利的估计。
我们还忽略了嵌入表和最终的输出线性层,因为它们对这些模型的内存访问和计算消耗相对较小(< 5%)。

8K上下文长度下每解码token的理论计算和内存访问

32K上下文长度下每解码token的理论计算和内存访问

4.2 理论解码成本(美元)

单位成本计算。接下来,我们计算不同加速器上模型的理论解码成本。表4显示了加速器的规格及其在公有云上的估算价格。假设在理论理想情况下,加速器持续以其峰值FLOPs和最大内存带宽运行,我们得出浮点运算的单位成本(UFLOP)和内存访问的单位成本(Ubyte),如表5所示。

成本公式。注意力部分的理论成本是注意力核心的计算成本和内存访问成本中的较大者,加上前后线性计算的成本:
$Cost_{attention} = max(FLOPs_{attn_core} \times UFLOP, Mem_{attn_core} \times Ubyte) + FLOPs_{linear} \times UFLOP$
假设通过AFD,我们可以使FFN部分保持在计算密集区域,FFN部分的理论成本就是计算成本 $FLOP_{FFN} \times UFLOP$。

成本分析结果。将Attention和FFN部分的成本结合,得到表6。不同部署选择的最终成本可以直接计算。例如,可以将在不同硬件上、不同上下文的Attention和FFN成本相加。对于AFD,我们分别为Attention和FFN选择最便宜的硬件,然后将它们的成本相加。我们假设所有网络通信时间都可以被多批次流水线中的计算所重叠,因此忽略通信成本。

加速器规格比较

不同加速器的单位成本

关键观察。为简洁起见,图2仅展示了Qwen系列、DSv3和Step-3的结果。
* 观察1:Step-3解码成本最低。在8K上下文长度时,Step-3最具成本效益(使用AFD,H800+H20),每1M解码token成本为0.055美元,低于DSv3的0.068美元(使用EP,H800)和Qwen MoE的0.062美元(使用AFD,H800+H20)。在32K上下文时,优势更大,Step-3为0.129美元,远低于DSv3的0.211美元和Qwen-3 MoE的0.193美元。
* 观察2:总参数和激活参数数是解码成本的糟糕指标。Qwen3 32B的总参数和激活参数都远少于DSv3和Step-3,但其解码成本却是图2中最高的。
* 观察3:注意力成本主导总解码成本。从表6中可以清楚地看到,在8K上下文长度时,注意力的成本已显著高于FFN。随着上下文变长,这个差距迅速扩大,因为FFN的成本与上下文长度无关。这意味着注意力设计比激活参数数量重要得多。
* 观察4:硬件友好性。DSv3的MLA对H800以外的硬件很不友好,在较弱硬件上运行时成本增加数倍。Qwen3等GQA模型由于KV缓存较大,对H20以外的硬件不友好。相比之下,Step-3的MFA更具硬件友好性,在较弱硬件上的成本差异最小。

各模型在各硬件上的理论解码成本分析(美元)

不同模型和推理配置的解码成本(每1M token)

4.3 解密模型设计选择

线性注意力与混合模型。线性注意力是一个有前途的方向,但在长上下文任务中仍面临挑战。一个实用的变通方法是“混合模型”,它包含两种类型的注意力层;大部分是线性注意力,其余是传统的全注意力。例如,MM M1使用混合架构(70层线性注意力和10层GQA全注意力),与Qwen3等全GQA模型相比,其KV缓存随上下文长度的增长显著减慢。然而,这类混合模型给推理系统带来了两个额外挑战。首先,尽管全注意力层的数量看似很少,但它们可能仍然会破坏使用线性注意力节省KV缓存的初衷。MM M1和Llama 4 Maverick仅全注意力部分的KV缓存量(基于官方量化方案)就比Step-3整个模型的还要大。如图3所示,无论上下文多长,它们的总内存访问量都将大于Step-3。其次,每层花费的时间将非常不平衡——在长上下文下,全GQA层比线性注意力层耗时多得多。这对于分布式推理部署(特别是AFD)可能是个问题,因为它会导致显著的流水线气泡。图3比较了MM M1、Llama 4 Maverick与Step-3在单一硬件(H800)上的情况,由于上述原因,它们始终比Step-3有更高的解码成本。我们呼吁设计对推理系统更友好的混合模型,应仔细设计全注意力部分,使其不破坏线性注意力的成本节约,并尝试使每层都混合,以平衡各层时间。

与混合线性注意力模型的总KV缓存大小和解码成本比较

“硬件优化设计”——为训练还是解码?。为特定硬件优化模型并非新概念。本文分析的盘古Pro MoE声称是为华为自家的910B加速器专门优化的。然而,我们的分析显示,盘古Pro MoE在910B上的解码成本并不低,理论上远大于Step-3(见图4),尽管其激活参数只有Step-3的一半不到。这表明盘古Pro MoE的解码在910B上并不具成本效益。公平地说,盘古Pro MoE的主要焦点是训练而非解码。图4中我们还粗略估算了训练成本,盘古Pro MoE确实比Step-3便宜50%以上,反映了激活参数的差异。教训是,在模型-系统协同设计中必须明确目标,训练和推理可能截然不同。

Step-3和盘古Pro MoE在解码成本和训练成本上的趋势截然不同

第5节 模型-系统协同设计

5.1 将注意力算术强度与硬件匹配

算术强度的关键作用。读者可能注意到,尽管Step-3的MFA在KV内存访问量上仅比DSv3的MLA减少10%(表2、3),但其注意力成本在许多情况下却降低了一半以上(表6)。原因在于MFA的设计。如先前工作【【26】,Gated linear attention transformers with hardware-efficient training,2024】【【27】,Native sparse attention: Hardware-aligned and natively trainable sparse attention,2025】所指出,每种注意力设计都有一个称为算术强度的内在属性,即每从内存访问一字节KV所需的算术操作数。注意力的算术强度与硬件的“计算-带宽比”(或称roofline)越匹配,就越有可能在该硬件上实现高效率。

MFA的平衡设计。Step-3的MFA设计的算术强度为128(假设KV为8位量化)。这个值比DSv3的MLA(算术强度512)更接近A800(roofline 156)和910B(roofline 175)。在H20上(roofline 74),Step-3的差距也比Qwen3 MoE(算术强度32)不大。图5清晰地展示了Step-3的MFA同时实现了低计算量和低内存访问:其计算量是DSv3的四分之一,内存访问量是Qwen3的三分之一。这使得Step-3即使在roofline不匹配的加速器上也能保持低成本。Step-3的MFA在实现这种平衡的同时,其注意力有效秩【【7】,Multi-matrix factorization attention,2025】高达16384,与DSv3的MLA相同,且大于Qwen3 MoE的8192。Step-3选择的算术强度略低于大多数硬件的roofline,是为了给未来的量化和MTP(多Token预测)等优化留出空间。

不同注意力设计在解码过程中的计算和内存访问

5.2 讨论:量化和MTP

量化影响。一种值得注意的量化方法是低位存储、高位计算(例如,4位存储KV,8位计算注意力),这能有效将每种注意力设计的算术强度加倍。
* 对DSv3的影响:由于其算术强度已接近H800的roofline且远高于其他硬件,这种量化方案不会提高效率。
* 对Qwen3的影响:可能使其更接近或超过H20的roofline,在所有列出的硬件上都能受益。
* 对Step-3的影响:可能使其算术强度超过A800和910B的roofline,但差距不大,应有中等性能提升;在H800上可能受益匪浅。
对于混合模型,我们对其是否能进行激进的KV量化持保守态度。

多Token预测(MTP)影响。MTP与“低位存储、高位计算”的量化方案对算术强度的影响相似——将其加倍(或更多)。因此,DSv3是对MTP最不友好的模型。GQA和MFA(Step-3)模型则可以利用MTP在各种硬件上提升吞吐量。然而,MTP的影响是全局的,它也会改变FFN的计算负载。在AFD假设下(FFN总能获得足够批次以高MFU运行),MTP实际上可能产生额外成本,因为无论预测准确与否,FFN的成本都会增加。因此必须非常谨慎地决定是否启用MTP。

总结。Step-3的MFA设计及其算术强度允许应用进一步的KV量化或启用MTP,以获得比表6中结果更进一步的成本节约。原则上,Qwen3和其他基于GQA的模型也可以从类似机制中受益。然而,由于MLA的高算术强度,DSv3在大批量、高吞吐量场景下可能无法从进一步的KV存储量化或启用MTP中获得显著好处。

5.3 FFN达到高MFU的批次需求

FFN的计算与内存访问。FFN的计算主要是矩阵乘法。其浮点运算次数(FLOPs)为 $FLOPs = 2 \times N_{token} \times W_{FFN}$,其中 $N_{token}$ 是批处理的token数(在解码中等同于批大小B),$W_{FFN}$ 是FFN的权重数。计算与内存访问的比率(假设8位权重存储)为 $2 \times N_{token}$ 或 $2 \times B$。

理想批处理大小。为了在roofline模型中实现高MFU,该比率应至少匹配硬件的roofline。因此,理想的密集模型批大小 $B_{dense}$ 应至少为:
$B_{dense} \geq \frac{Roofline}{2}$
对于MoE模型,我们定义稀疏度为S。例如,从8个专家中选择2个,S=1/4。MoE模型达到高MFU的理想批大小 $B_{MoE}$ 为:
$B_{MoE} = \frac{B_{dense}}{S}$
这可能比密集模型大几倍到几十倍。

5.4 最佳MoE稀疏度 vs. 硬件

网络带宽约束。在使用EP或AFD的分布式部署中,运行FFN计算的硬件需要通过网络接收输入隐藏特征(维度H),并通过网络传回计算结果。假设8位精度分发和16位精度合并,且批大小满足高MFU要求,总传输量为:
$Traffic = B_{MoE} \times H \times (\frac{8}{8} + \frac{16}{8}) = 3 \times B_{MoE} \times H$
在AFD和理想三阶段流水线、50ms TPOT目标下,我们需要将网络通信时间保持在16.6ms以下。设网络带宽为Net,模型层数为L,我们得到:
$L \times \frac{Traffic}{Net} \leq 16.6ms$
代入$B_{MoE}$的表达式,可推导出硬件可接受的“最佳MoE稀疏度”S,即硬件能支持的、在完美隐藏网络通信的同时实现理想MFU的最稀疏MoE配置:
$S \geq \frac{3 \times L \times H \times Roofline}{2 \times 16.6ms \times Net}$

硬件与稀疏度匹配。以Step-3的MoE架构(H=7168,L=61)为例,我们计算了不同加速器的最佳MoE稀疏度(表7)。结果显示,H20由于计算能力较低、内存带宽较高,能容纳最稀疏的MoE配置。而H800对非常稀疏的MoE最不友好,但其单位FLOP成本最低。为确保Step-3能利用H800等高roofline硬件,我们使其稀疏度不低于0.058。相比之下,DSv3需要在H800上激活14个MoE专家才能达到高MFU,远超其官方的8个。这意味着DSv3可能牺牲了模型性能。更糟的是,不理想的硬件效率会加剧问题。考虑到这些,Step-3选择的稀疏度约为0.08(包括共享专家)。比Step-3更稀疏的Llama 4 Maverick和Kimi K2在H800上运行时将离高MFU区域更远。

不同硬件平台实现高MFU的最低MoE稀疏度

5.5 讨论:针对过度稀疏的变通方法

过度稀疏模型的挑战与对策。上述关于稀疏度S的分析基于AFD的部署理念。然而,存在一些变通方法可以增加每个FFN实例上的稀疏度S以缓解网络瓶颈,但会牺牲其他方面。
* 变通方法1:大规模EP。当EP规模足够大,特别是超过激活专家数K时,每个FFN服务器所需的网络流量会减少。DSv3的官方部署就采用了这种方法。
* 变通方法2:MoE路由限制。限制token只能路由到相邻的专家,也可以使模型的每个局部部分不像整个模型那样稀疏。
DSv3采用了这两种方法来缓解其在H800平台上的过度稀疏问题。但这两种方法都有代价:方法1更容易出现专家不平衡问题,降低实际效率;方法2则会损害模型的表达能力。Step-3的设计避免了这个问题,使其可以使用小规模的TP、EP或混合方法,从而最小化专家不平衡的影响,且无需任何路由限制。

第6节 非旗舰硬件支持

AFD的灵活性。通过AFD,Attention和FFN组件都可以轻松地独立扩展,这为在Attention部分、FFN部分或两者上利用非旗舰硬件创造了更多机会。例如,Step-3的MFA在H800上是内存带宽受限的,理论上可以被四个L20替代。

Attention部分在L20上的可行性。一个三阶段流水线要求Attention和FFN计算在16.6ms内完成,对于Step-3的61层,每层约272µs。一个L20在此时间内可以访问235MB内存。线性部分需要67MB,因此KV缓存不能超过168MB。这意味着如果平均上下文长度为8K,批大小保持在41以下即可满足。单个请求的最大上下文长度可达328K,仍然合理。因此,L20通常能够运行Step-3的Attention部分。然而,像L4这样更弱的加速器,其内存带宽仅为300GB/s,大部分时间都将用于访问线性部分的67MB,因此不太可能用于Step-3的Attention。

FFN部分在L20上的可行性。同样,每个FFN层必须在272µs内完成。假设批大小合适,FFN进入计算密集区域,只使用50%的内存带宽。对于一个L20,这意味着它可以支持高达117MB的FFN。对于Step-3的61层,总计7.1GB。每个服务器有八个L20,可容纳56.8GB的FFN权重。对于Step-3约300GB的FFN权重,需要六个L20服务器(48张卡)以EP方式运行来满足性能要求。这个数量被认为是合理的。而对于L4,则需要144张卡,此时可能会开始担心专家不平衡、稳定性等问题。

总结。对于数百亿参数的模型,建议使用至少L20或更强的卡。更强的卡可以减少所需的FFN服务器数量,有利于系统可靠性和MoE负载均衡。

第7节 实现与结果

7.1 系统工作流程与优化

AFD系统架构。如图6所示,AFD架构由两个主要组件构成:(1)Attention实例:负责计算注意力模块、管理KV缓存,并执行MoE模块中的非专家计算操作(如路由器)。对于Step-3,我们采用本地数据并行(DP)注意力机制。(2)FFN实例:直接处理纯MoE计算和多GPU通信。FFN实例设计灵活,可配置为TP-only、EP-only或混合TP+EP方式。以TP-only FFN为例,所有MoE专家的权重以张量并行方式分片。当FFN实例从Attention实例接收数据时,它首先执行all-gather操作收集TP区域的数据,计算后执行reduce-scatter操作将结果聚合分散回原GPU,然后将token传回Attention实例。

AFD架构中的模块解耦

通信与集成。系统可配置为同时支持多个Attention和FFN实例。通信时,Attention实例向FFN实例广播FP8 token(由BF16激活量化而来);FFN实例返回BF16输出以保持高残差精度。对于Step-3,由于FFN实例以混合EP+TP方式跨多台机器,Attention实例引入了一个归约模块来合并来自多个FFN节点的部分EP结果。此外,Attention实例还需向FFN传输少量元数据(如专家分布和FP8张量尺度因子)。我们的AFD系统设计简单,Attention实例基于vLLM【【12】,Efficient memory management for large language model serving with pagedattention,2023】开发,改动极小;FFN实例仅基于一个轻量级C++通信库和简单的PyTorch接口实现。

多阶段流水线。Step-3采用多阶段流水线来隐藏通信开销并最大化总吞吐量。图7展示了多阶段流水线中的数据流。系统接收三个输入样本(D1, D2, D3),它们被顺序处理并传输到FFN实例进行计算。通过仔细的工作负载编排,每个计算阶段的时间几乎相同,从而实现高效流水线并最小化空闲期。通信拓扑支持GPU之间的直接RDMA,数据可以与计算并行流式传输,延迟可被轻松隐藏。

AFD架构的通信拓扑和多阶段流水线

其他实现细节。我们将嵌入层和LM head层与Attention实例放在一起,因为它们的计算开销小。我们为关键路径上的大多数核(如FP8 GEMM和Flash Attention)开发了定制的核优化。为实现单节点内高效的NVLink通信,我们利用NVLS API实现all-gather和reduce-scatter操作,这不仅能饱和NVLink带宽,还能显著减少GPU SM使用率,这对于高效的通信-计算重叠至关重要【【2】,Flux: Fast software-based communication overlap on gpus through kernel fusion,2024】【【28】,Disttrain: Addressing model and data heterogeneity with disaggregated training for multimodal large language models,2024】。

7.2 StepMesh: AFD通信库

StepMesh的动机与设计。AFD对通信库提出了严格的性能挑战,要求在272µs内完成Attention和FFN实例间的数据传输。现有库如NCCL和DeepEP难以满足此要求,且会占用GPU SM资源。为应对这些挑战,我们开发了StepMesh,一个基于GPUDirect RDMA的专用通信库,提供超低延迟、零SM使用和灵活的通信。

为AFD流水线定制的通信工作流。如图8所示,StepMesh的设计选择与AFD流水线阶段优化对齐:1) 异步API和专用线程:StepMesh提供异步API并使用独立的收发线程,其CPU延迟经过精心设计以满足严格要求。2) 基于CPU的操作执行:为避免与计算线程争用GPU SM资源,StepMesh在CPU上执行所有通信操作。它利用NUMA感知的CPU核心绑定来最小化处理抖动。3) 预注册张量以实现高效通信:StepMesh支持GPU张量的直接内存传输,无需序列化/反序列化或内存复制。用户在使用前需注册张量,这简化了通信过程并提高了效率。

为AFD定制的StepMesh通信工作流

支持异构加速器。图9展示了StepMesh框架,它具有高度可扩展性,能集成新型加速器。该框架将加速器视为后端,并定义了一套对AFD通信至关重要的后端接口(如内存分配和流同步)。通过遵守这些接口,可以轻松集成新加速器,实现异构加速器间的无缝通信,从而构建成本效益高的AFD系统。

用于多种加速器的StepMesh框架

与网络的协同演进。我们的AFD系统在一种为导轨优化的RoCE网络上运行,并实施了以下优化:1) 拓扑感知部署:将Attention和FFN实例策略性地连接到相同的架顶(ToR)交换机,确保通信延迟均匀,减轻掉队问题。2) 仅PFC传输:禁用拥塞控制,仅依赖ToR-NIC的优先级流控制(PFC)来维持无损网络环境。3) 平衡NIC端口流量:为每个通信对建立两个RDMA队列对,并分配到不同的NIC端口,以有效平衡流量并利用组合带宽。StepMesh基于【【10】,A unified architecture for accelerating distributed {DNN} training in heterogeneous {GPU/CPU} clusters,2020,14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20)】开发,并已开源。


A4 实验环境

  • 模型架构:
    • Step-3: 321B总参数,38B激活参数,61层Transformer,隐藏层维度7168,采用MFA注意力机制和MoE FFN。
    • 对比模型: DeepSeek-V3 (DSv3), Qwen3-MoE-235B, Qwen3-32B, Kimi K2, Llama 4 Maverick, MiniMax M1, ERNIE 4.5, Pangu Pro MoE等。
  • 硬件配置:
    • GPU: Hopper (H800), H20, A800, L20。
    • CPU/平台: 未明确指定CPU型号,但提及NUMA架构。
    • 网络: Rail-Optimized RoCE网络,配备400Gbps或200Gbps NICs,支持GPUDirect RDMA。连接方式为架顶(ToR)交换机。
  • 软件配置:
    • 实现: 基于vLLM, PyTorch,以及自研的C++通信库StepMesh。
    • 量化: Step-3及大部分对比模型采用FP8进行GEMM和KV缓存。部分混合模型的全注意力层KV缓存使用BF16。
    • 并行策略: 采用Attention-FFN Disaggregation (AFD),Attention实例使用数据并行(DP),FFN实例可灵活配置为张量并行(TP)、专家并行(EP)或混合模式。

A4 实验结果

  • 端到端性能对比 (vs. DSv3):

    • 实验内容: 在Hopper GPU上,使用4096平均上下文长度,并满足每秒20个token (即TPOT < 50ms) 的SLA,对比Step-3和DSv3的解码吞吐量(Tokens/GPU/s, TGS)。
    • 实验结果: DSv3的报告峰值吞吐量为2,324 TGS。Step-3在相同设置下,峰值吞吐量达到4,039 TGS,比DSv3高出约74%。此结果在"2A2F"(2个Attention实例,2个FFN实例,共32个GPU)部署下获得。
    • 分析结论: 结果验证了Step-3通过模型-系统协同设计实现的卓越解码效率。即使在DSv3有利的短上下文场景,Step-3也展现出巨大优势。
    • 图表引用: 表8。
  • 消融实验:注意力层量化:

    • 实验内容: 将Step-3的注意力计算从FP8改为BF16,并相应调整部署为"3A2F"以应对增加的注意力成本。
    • 实验结果: 吞吐量下降至3,321 TGS,比FP8注意力低约18%。
    • 分析结论: 即使使用BF16注意力,Step-3的性能仍然远超DSv3,同时证明了FP8量化对性能的显著提升。
    • 图表引用: 表8。

与DSv3报告数据的性能比较

  • 消融实验:MFA注意力机制:
    • 实验内容: 单独对Step-3 (MFA), DSv3 (MLA), Qwen3-235B (GQA) 的注意力层进行性能测试,比较不同硬件(H800, H20, A800)和不同上下文长度下的延迟。
    • 实验结果: MFA (Step-3) 的延迟最低,其次是MLA (DSv3) 和GQA (Qwen3)。在H20和A800等低端加速器上以及在更长的上下文长度下,MFA的性能优势更加明显。
    • 分析结论: 实验结果证实了第5节的理论分析,即MFA因其均衡的算术强度而具有更好的硬件友好性和可扩展性。
    • 图表引用: 表9。

MFA/MLA/GQA的性能比较

  • 消融实验:扩展Step-3至 >600B:
    • 实验内容: 理论推演将Step-3的FFN参数量“升级”到与DSv3相似的600B规模,但不增加激活参数,使其变得“过度稀疏”。
    • 实验结果: 由于网络瓶颈,需要调整部署为"3A4F"。预测吞吐量为3,291 TGS。如果进一步对齐DSv3使用BF16注意力,预测吞吐量约为2,880 TGS。
    • 分析结论: 即使模型变得过度稀疏导致性能下降,其吞吐量仍远高于使用DeepEP的DSv3(2,324 TGS),这突显了AFD系统相对于纯EP架构的优越性。

A5 结论

本文介绍了Step-3模型,并通过其与AFD(注意力-FFN解耦)推理系统的协同设计,实现了在同等规模LLM中领先的解码效率。论文详细分析了当前大模型设计中的一些趋势,并解释了Step-3如何通过平衡的MFA注意力算术强度和硬件感知的MoE稀疏度设计来获得成本优势。实验结果表明,Step-3在实际部署中的吞吐量显著优于业界代表性模型。

未来工作:
1. 启用并评估MTP(多Token预测): 探索MTP对解码性能的增益。
2. 探索新的注意力变体: 继续研究新的注意力机制,以进一步推动模型规模与系统成本的帕累托前沿。
3. 缓解互连瓶颈: 目前的互连技术限制了MoE FFN的稀疏度。团队正与硬件供应商合作,研究新颖的高带宽域设计【【19】,Infinitehbd: Building datacenter-scale high-bandwidth domain for llm with optical circuit switching transceivers,2025,arXiv preprint arXiv:2502.03885】,以支持未来更稀疏的FFN模型。


引用文献详情汇总

本文档在缩写过程中引用并展开了以下文献:

  • 【2,Flux: Fast software-based communication overlap on gpus through kernel fusion,2024】: 在“7.1 其他实现细节”段落中引用,用于支持利用NVLS API实现通信操作可以减少GPU SM使用率,对通信-计算重叠至关重要的观点。
  • 【4,Deepseek-v3 technical report,2025】: 在多个段落中引用,作为对比的主要模型和系统(DSv3, DeepEP)。例如,在“3.2 与DeepSeek EP的比较”段落中,引用其部署规模和专家并行架构。
  • 【5,A mathematical framework for transformer circuits,2021,Transformer Circuits Thread】: 在“第2节 Step-3模型卡”段落中引用,用于说明MFA机制在Query-Key (QK) 电路中利用了低秩矩阵分解。
  • 【7,Multi-matrix factorization attention,2025】: 在“第2节 Step-3模型卡”和“5.1 将注意力算术强度与硬件匹配”段落中引用,作为Step-3核心注意力机制(MFA)的来源,并说明其有效秩等特性。
  • 【8,Qwen3: Think deeper, act faster,2025】: 在“第4节 LLM解码的成本分析”段落中引用,作为成本分析的对比模型之一(Qwen3-MoE)。
  • 【10,A unified architecture for accelerating distributed {DNN} training in heterogeneous {GPU/CPU} clusters,2020,14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20)】: 在“7.2 与网络的协同演进”段落中引用,说明StepMesh通信库是基于该文献的工作开发的。
  • 【12,Efficient memory management for large language model serving with pagedattention,2023】: 在“7.1 通信与集成”段落中引用,说明AFD系统的Attention实例是基于vLLM开发的。
  • 【13,Accelerating distributed MoE training and inference with lina,2023,2023 USENIX Annual Technical Conference (USENIX ATC 23)】: 在“3.2 与DeepSeek EP的比较”段落中引用,用于证明专家并行(EP)存在工作负载不平衡问题。
  • 【14,Janus: A unified distributed training framework for sparse mixture-of-experts models,2023,Proceedings of the ACM SIGCOMM 2023 Conference】: 在“3.2 与DeepSeek EP的比较”段落中引用,与[13]一同证明EP的负载不平衡问题。
  • 【19,Infinitehbd: Building datacenter-scale high-bandwidth domain for llm with optical circuit switching transceivers,2025,arXiv preprint arXiv:2502.03885】: 在“A5 结论”部分引用,作为未来工作的一部分,旨在通过新型高带宽互连设计来支持更稀疏的FFN。
  • 【24,Attention is all you need,2017,Neural Information Processing Systems】: 在“第2节 Step-3模型卡”段落中引用,作为Step-3所基于的Transformer架构的原始文献。
  • 【26,Gated linear attention transformers with hardware-efficient training,2024】: 在“5.1 将注意力算术强度与硬件匹配”段落中引用,用于引出“算术强度”这一概念及其对硬件效率的重要性。
  • 【27,Native sparse attention: Hardware-aligned and natively trainable sparse attention,2025】: 在“5.1 将注意力算术强度与硬件匹配”段落中引用,与[26]一同支持算术强度的概念。
  • 【28,Disttrain: Addressing model and data heterogeneity with disaggregated training for multimodal large language models,2024】: 在“7.1 其他实现细节”段落中引用,与[2]一同支持低SM使用率对通信-计算重叠的重要性。
  • 【29,Insights into deepseek-v3: Scaling challenges and reflections on hardware for ai architectures,2025,Proceedings of the 52nd Annual International Symposium on Computer Architecture, ISCA ’25】: 在“3.2 与DeepSeek EP的比较”段落中引用,用于说明大规模部署下网络拥塞成为关键问题。
  • 【31,{DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving,2024,18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)】: 在“第3节 AFD设计理念”段落中引用,作为本文AFD思想所基于的预填充-解码(PD)解耦方法的来源。
  • 【32,Megascale-infer: Serving mixture-of-experts at scale with disaggregated expert parallelism,2025】: 在“3.2 与Megascale-Infer的比较”段落中引用,作为第一个利用AFD思想的系统进行对比,并指出其高延迟的局限性。
  • 【33,Serving large language models on huawei cloudmatrix384,2025】: 在“3.2 与DeepSeek EP的比较”段落中引用,作为使用纯EP架构的现有服务系统的例子。