作者/机构: Weilin Cai, Juyong Jiang, Le Qin, Junwei Cui, Sunghun Kim, Jiayi Huang

A1 主要贡献

核心问题: 专家并行（Expert Parallelism）是分配稀疏门控混合专家（MoE）模型计算负载的关键策略，但其固有的All-to-All通信会产生巨大开销，成为扩展MoE模型的主要瓶颈。现有优化方法（如分层All-to-All和流水线）虽然能部分缓解此问题，但仍受限于通信与计算操作之间的顺序依赖性。如下图所示，在分布式环境中，All-to-All通信开销可占总时间的50%左右。

图1. 在SwinV2-MoE-S模型的Transformer块中，MLP和top-2/top-1 MoE的开销，采用专家并行，每个GPU分配一个专家。在单节点8×A30 GPU上，All-to-All通信占总时间的60%，但在8×A800上降至15%，因为后者的GPU-to-GPU NVLink提供了6倍的带宽。尽管受益于NVLink，但在跨多节点扩展时，由于带宽较低的节点间以太网，通信开销仍接近50%。

研究目标: 本文旨在解决上述瓶颈，通过重构MoE层的输入，打破通信与计算之间的顺序依赖，从而为重叠优化创造更大的空间。

创新点:
1. 提出快捷连接MoE（ScMoE）架构: 本文提出了一种新颖的快捷连接MoE（Shortcut-connected MoE, ScMoE）架构。该架构通过一个快捷连接，利用一个top-1 MoE模块处理前一层的表征，同时用一个共享专家（Shared Expert）处理当前层的表征。这两个过程并行独立进行，从而将通信过程与传统MoE模型的顺序执行流完全解耦。
2. 开发自适应重叠并行策略: 针对ScMoE架构，本文设计了一种自适应的重叠并行策略。该策略能够根据实际性能指标动态调度操作符，与现有的流水线等策略相比，它不仅能提供更长的重叠时间，甚至在通信时间不超过计算时间的情况下实现100%的通信-计算重叠。该方法是设备无关的，具有广泛的硬件适用性，并与现有优化兼容。
3. 全面的实验与理论验证: 通过在视觉和语言模型上的大量实验证明，ScMoE在训练和推理上分别取得了高达1.49倍和1.82倍的加速。同时，实验和理论分析表明，ScMoE的模型质量与现有方法相当，甚至在某些情况下更优。本文还深入分析了快捷连接的有效性，并探讨了其未来发展潜力。

A3 背景知识/关键Observation/设计原则

2.1. 稀疏门控混合专家（Sparsely-Gated Mixture of Experts）

MoE层基础: 稀疏门控混合专家（MoE）层由多个多层感知机（MLP）子网络（称为“专家”）和一个可训练的门控网络组成。门控网络在每次迭代中选择性地激活一部分专家进行计算。对于$N$个专家网络$\{E_i\}_N^1$、门控网络$G$和输入表征$x$，MoE模块的输出可以写为：

本文遵循主流MoE研究，使用带噪声的top-k softmax门控网络来选择k个专家进行计算，其形式化表示为：

其中，$\epsilon$是可调的高斯噪声，$W_{gate}$和$W_{noise}$是两个可训练的权重矩阵。这种方法利用$G(x)$的稀疏输出，在不显著增加计算需求的情况下，大幅增加模型参数量。k值可以设为1、2或更高，更大的k值使模型更接近稠密架构，通常能获得更高的预测精度，但计算开销也更大。

图2. 标准top-2 MoE架构（a）和相应的共享专家MoE架构（b）的图示。“SE”在（b）中表示共享专家。

主流MoE架构: 图2(a)展示了主流的top-2 MoE架构。包含MoE模块的Transformer块（浅蓝色块，称为“Block-MoE”）用一组专家（“E1, E2, E3, E4”）和一个门控网络（“Gate”）替代了原有的MLP。根据先前的工作【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引13, Du et al., GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2022, ICML; 索引55, Shen et al., Scaling Vision-Language Models with Sparse Mixture of Experts, 2023, EMNLP; 索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引31, Lieber et al., Jamba: A Hybrid Transformer-Mamba Language Model, 2025, ICLR】，"Block-MoE"与传统的Transformer块（灰色块，称为“Block-MLP”）交替出现。此外，MoE模块的放置频率有多种选择，例如每隔一个块放置一次，或者在每个块、每四个块中放置一次。

共享专家（Shared Expert）: 与标准top-2 MoE架构不同，共享专家MoE（如图2(b)）引入一个固定的稠密MLP模块（共享专家）来处理所有输入token，并将其输出与每个token的top-1门控专家的结果相结合。给定共享专家$SE$，MoE模块的输出公式为：

该方法由DeepSpeed-MoE【索引49, Rajbhandari et al., DeepSpeedMoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale, 2022, ICML】首次提出，它在激活相同数量专家进行计算的同时，减少了动态专家选择和通信量。大量实证结果表明，共享专家架构的模型质量与现有方法相当甚至更优，因此得到了越来越广泛的应用。

2.2. 专家并行（Expert Parallelism）

分布式训练与推理: 为了实现MoE模型的高效分布式训练和推理，专家并行被提出。该方法将唯一的专家分配给每个分布式计算设备（如GPU和TPU），并通过跨设备间的All-to-All通信将token映射到其对应的专家【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引20, He et al., FastMoE: A Fast Mixture-of-Expert Training System, 2021, arXiv; 索引41, Nie et al., HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System, 2022, arXiv】。如图3所示，使用专家并行的MoE工作流分为以下顺序操作：门控路由（gate routing）、输入编码（input encode）、All-to-All分发（All-to-All dispatch）、专家计算（expert computation）、All-to-All合并（All-to-All combine）和输出解码（output decode）。为了提高效率，输入编码用于在All-to-All分发前将token数据布局聚合成连续格式，输出解码则是All-to-All合并后的逆过程。此外，研究者还探索了将专家并行与其他并行方式（如数据并行、模型并行）结合，以支持在大型分布式系统上扩展更大的MoE模型。然而，用于token传输的All-to-All通信一直是限制分布式MoE模型效率的主要瓶颈，如图1所示。

A2 方法细节

在主流的基于Transformer的模型中，MoE模块替代MLP来顺序地处理中间表征【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引13, Du et al., GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2022, ICML; 索引55, Shen et al., Scaling Vision-Language Models with Sparse Mixture of Experts, 2023, EMNLP】，这种串行依赖性阻碍了现有优化策略【索引21, He et al., FasterMoE: Modeling and Optimizing Training of Large-Scale Dynamic Pre-Trained Models, 2022, PPoPP; 索引41, Nie et al., HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System, 2022, arXiv; 索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引71, Zhang et al., MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism, 2023, IPDPS】的效能，因为MoE模块内部的交互有限。为了解决这些限制，我们提出了快捷连接MoE（ScMoE）架构，它为专家并行的计算-通信重叠创造了优化机会。

图4. 各种ScMoE架构的图示，其快捷连接到前一层的不同位置：（a）“Pos-1”输出，（b）“Pos-2”中间，和（c）“Pos-3”输入。红线表示通过快捷连接将前一层的表征传输到MoE。为了简化，已省略了层归一化和dropout过程的细节。

3.1. 架构设计

ScMoE架构核心思想: 本节介绍快捷连接MoE（ScMoE）架构。与主流MoE架构（如图2）专注于处理当前层（包含MoE的Transformer块）的中间表征不同，ScMoE同时处理来自当前层和前一层的表征。具体来说，ScMoE采用一个top-1 MoE模块通过快捷连接处理来自前一层的表征，同时一个共享专家处理当前层的表征。这两个操作独立进行，其结果被整合到当前层的最终输出中，从而促进了这两个过程之间的通信和计算重叠。

三种快捷连接位置: 共享专家处理的当前层中间表征与主流MoE方法相同，但我们探索了三种不同的前一层表征用于ScMoE的top-1 MoE过程，如图4所示。“Pos-1”(a)、“Pos-2”(b)和“Pos-3”(c)配置分别代表连接到前一层不同位置的快捷方式：输出、中间和输入。假设$T_{Atten}$, $T_{SE}$和$T_{MLP}$分别代表Attention、共享专家和MLP的持续时间，那么对应的重叠持续时间分别为(a) $T_{Atten} + T_{SE}$，(b) $T_{Atten} + T_{SE} + T_{MLP}$，(c) $2T_{Atten} + T_{SE} + T_{MLP}$。

ScMoE公式化表示: 以“Pos-2”配置为例，该ScMoE架构可公式化如下：
* Block-MoE:

* Block-MLP:

其中，$H_{\text{ScMoE}}^{l+1}$是MoE子层的输出，$H_{\text{MH}}^{l+1}$是第(l+1)个Transformer块（“Block-MoE”）中多头注意力子层$MultiHead_{(l+1)}^{MoE}(\cdot)$的输出。$SE_{(l+1)}(\cdot)$表示共享专家，而$E_1, ..., E_N$代表N个门控路由专家。门控网络$G(\cdot)$参考公式2。$H_{\text{MLP}}^l$和$H_{\text{MH}}^l$分别是第l个Transformer块中MLP子层$MLP_{(l)}(\cdot)$和多头注意力子层$MultiHead_{(l)}^{MLP}(\cdot)$的输出。为了简化，省略了层归一化和dropout。

位置选择: 在我们对三种快捷连接位置的实验中，配置为“Pos-2”的模型在视觉和语言案例中都达到了最高的准确率，同时也保证了可观的重叠时间。因此，我们倾向于选择“Pos-2”进行实际开发。此外，“Pos-2”配置用于在3.2节中阐述重叠策略，其他两种配置的细节可以类推。

图5. 展示将ScMoE（Pos-1）架构应用于MoE模型的图示，其中MoE模块被集成到每个Transformer块中。

对不同MoE放置频率的适应性: 我们提出的ScMoE架构可以适应具有不同MoE放置频率的MoE模型。如图5所示，ScMoE架构可以集成到将MoE模块整合到每个Transformer块的MoE模型中。当MoE放置更频繁时，每个MoE模块的潜在重叠时间最小化，“Pos-1”配置已经充分利用了计算时间进行重叠。相反，较不频繁的MoE放置会延长每个MoE模块的潜在重叠时间，这可能导致更大的加速效果。

3.2. 专家并行的重叠策略

操作解耦与并行执行: 如前所述，ScMoE架构中的MoE操作与主干网络完全解耦，使得可以在两个独立的流上并行执行：一个用于共享专家过程，另一个用于MoE过程。为提高效率，我们实现了异步All-to-All通信算子，以在这两个流内实现通信与计算的重叠，而计算算子由于计算资源的限制无法并发执行。

图6. 使用我们提出的ScMoE架构和重叠策略的高级专家并行概述。红线代表解耦的MoE流，数字⃝1到⃝4表示专家计算的潜在位置。

自适应算子调度: 我们观察到算子执行时间受特定模型和硬件配置的影响，因此需要实现自适应的算子调度。遵循MoE流中的执行顺序，我们可以直接将门控路由和编码算子安排在最早的可行位置，同时将解码算子推迟到最晚的位置，从而最大化潜在的重叠时间。然后，这个挑战被提炼为在共享专家流中的四个可能位置⃝1⃝2⃝3⃝4中为专家计算选择一个最佳位置，如图6所示。

调度问题形式化: 我们将与“All-to-All Dispatch”和“All-to-All Combine”相关的通信成本分别定义为$T_{disp}$和$T_{comb}$。变量K被指定为应用专家计算的具体位置。在专家计算之前，计算成本表示为$T_{\text{precomp}} := \{COMP_1, ..., COMP_{K-1}\}$，而在专家计算之后的成本表示为$T_{\text{postcomp}} := \{COMP_{K+1}, ..., COMP_4\}$。因此，每对Block-MLP和Block-MoE的最小总时间成本为：

图7. 不同MoE架构及其相应并行策略（包括流水线和我们提出的重叠策略）的时间线。在每个时间线中，每个操作符的长度代表其时间成本，而多行表示并行CUDA流的使用。标准MoE使用top-2门控，而共享专家MoE和ScMoE激活一个共享专家和一个门控路由专家。

效率对比: 为了展示效率，我们在图7中说明了各种MoE架构及其各自并行策略的操作时间线，以选择位置⃝2进行专家计算为例。每个时间线上操作符的长度对应其执行时间，多行表示使用了并行的CUDA流。广泛使用的流水线并行策略将输入token平均分割成更小的细粒度块，使得在不同GPU流上可以并发进行计算和通信【索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引71, Zhang et al., MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism, 2023, IPDPS】。与带流水线的标准MoE（第2条时间线）相比，我们提出的带重叠策略的ScMoE（第4条时间线）显著减少了总时间。这归因于绝对通信时间的减少（类似于共享专家MoE，第3条时间线），以及通信与计算时长（$T_{\text{Atten}} + T_{\text{SE}} + T_{MLP}$）的重叠，这个重叠时长超过了流水线所能实现的。

策略优势与扩展: 我们的策略有能力完全重叠通信，只要通信时间可以被容纳在重叠窗口内。这是流水线策略不具备的优势，因为它无法重叠初始和最终的数据传输【索引23, Huang et al., GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, 2019, NeurIPS; 索引39, Narayanan et al., PipeDream: Generalized Pipeline Parallelism for DNN Training, 2019, SOSP】。在通信时间超过可用重叠时间的情况下，我们的策略可以与流水线增强结合（第5条时间线），从而利用专家计算时间来进一步隐藏通信。

A4 实验环境

硬件配置: 实验在三种硬件配置上进行，覆盖了高通信与低通信开销的场景：
1. 8×A30-PCIe: 高通信与计算比率场景。
2. 8×A800-NVLink: 低通信与计算比率场景。
3. 16×A800-NVLink (2节点): 跨节点通信场景。
  此外，在单A30-PCIe GPU上评估了专家卸载策略。
模型架构:
- 视觉模型: SwinV2-MoE-S 和 SwinV2-MoE-B，MoE模块被放置在第3和第4阶段。
- 语言模型:
  - GPT2-MoE-Small, GPT2-MoE-Medium, GPT3-MoE-XL: 在每两个连续的Transformer块中，第二个块的MLP被MoE替换。
  - LLaMA2-MoE: 每个Transformer块的MLP都被MoE替换。
    每个MoE模块通常配置8个专家（2节点场景为16个），每个GPU分配一个专家。
数据集:
- 视觉任务: ImageNet-1K 用于SwinV2-MoE模型的预训练和测试。
- 语言任务:
  - 在SlimPajama-627B数据集的一个10亿token子集上进行预训练，用于下游任务的零样本评估。
  - 在OpenWebtext数据集上进行预训练，用于WikiText-103的困惑度评估。
软件配置:
- 代码实现基于Tutel MoE框架和Fairseq工具包。
- 所有实验中，除了MoE架构的修改外，其他超参数和随机种子均保持一致，以确保可比性。

A4 实验结果

模型质量与效率分析

视觉模型 (SwinV2-MoE-S)
* 模型质量: 根据表1，ScMoE (Pos-2) 达到了与标准top-2 MoE相当的79.3%的准确率。共享专家MoE准确率最高，略高0.2%。
* 效率: 在高通信开销的8×A30-PCIe场景下，ScMoE (Pos-2) 相比标准top-2 MoE，训练速度提升30%，推理速度提升40%。拥有最长重叠时间的ScMoE (Pos-3) 取得了最高的加速比，训练和推理分别加速1.49倍和1.82倍。

语言模型 (GPT2-MoE & LLaMA2-MoE)
* 模型质量: 如表2所示，ScMoE模型在GPT2-MoE和LLaMA2-MoE上均取得了最高的下游任务平均分。
* 效率:
* 在低通信开销的8×A800-NVLink场景下，GPT2-MoE（每隔一个块放置MoE）集成ScMoE后，相比标准top-2 MoE，训练速度提升11%，推理速度提升15%。
* LLaMA2-MoE（每个块放置MoE）集成ScMoE后，训练和推理分别加速1.14倍和1.21倍，效率优于其他方法。

表1. 在8×A30-PCIe场景中，SwinV2-MoE-S模型在ImageNet-1K上预训练90个周期的测试集top-1准确率以及端到端训练和推理（一次迭代）的加速比，基线为使用top-2门控的标准MoE。

表2. 在8×A800-NVLink场景中，预训练的GPT2-MoE和LLaMA2-MoE模型在各种架构下的零样本评估和端到端训练及推理（一次迭代）的加速比比较，基线为标准top-2 MoE。

开销与加速效果分析

图8. SwinV2-MoE-S模型中每对Block-MLP和Block-MoE的开销分析，部署在三种不同的分布式场景中。“Topk”表示标准top-k MoE，后缀为“P”的表示使用Tutel实现的流水线优化。“Top1+SE1”指共享专家MoE。

如图8所示，对不同分布式场景下的开销进行了详细分析：
* 高通信场景 (8×A30-PCIe): ScMoE重叠了70%的通信时间，比共享专家MoE快27%，比流水线优化的top-2 MoE快42%。
* 低通信场景 (8×A800-NVLink): ScMoE通过完全重叠通信时间，依然保持了加速效果。
* 跨节点场景 (16×A800-NVLink): 节点间通信开销更大，ScMoE实现了完全重叠，比共享专家MoE快24%，比流水线优化的top-2 MoE快43%。
* 结论: ScMoE提供了显著的加速效果，尤其是在通信开销超过MoE总时间约20%时。在通信时间不超过MoE总时间约50%的场景下，ScMoE能够实现通信的完全重叠。

ScMoE架构深入探讨

快捷连接的有效性:
- 门控行为与表征相似性 (图9 & 图10): 分析发现，相邻Transformer块的中间表征具有极高的余弦相似度（接近1.0）。门控网络倾向于为来自当前层和前一层的相似表征选择同一个专家。ScMoE架构通过为这两个高度相似的表征分配不同的专家（当前层使用共享专家，前一层使用门控路由专家），有效模拟了标准top-2或共享专家MoE的行为，从而保证了模型质量。
- 理论分析: 附录A.1的梯度传播分析表明，ScMoE的结构（类似残差连接）确保了梯度的直接回传，避免了梯度消失或爆炸问题，保证了训练的稳定性。

图9. SwinV2-MoE-S模型90个周期训练（含10周期热身）中对所提快捷连接的分析结果。使用同一MoE模块两次为每个输入token的当前层和前一层表征选择top-1专家，(a)展示了在当前层和前一层保持相同专家选择的token百分比，(b)显示了这两个表征间的L2距离。使用DGMoE（施加了不重复选择同一专家的约束），(c)呈现了前一层表征的平均门控分数，(d)显示了当前层表征的平均门控分数。

图10. 中间表征的余弦相似度分析。表征包括第一层的输入（记为'In'）以及每个Transformer块内Attention（如'1A'）和MLP/MoE（如'1M'）子层的输出。

ScMoE架构配置 (表3):
- 系数门控网络: 实验表明，使用系数门控网络（CG-1配置）来组合共享专家和门控路由专家的输出，可以获得最低的验证集损失。
- 快捷连接位置: 在每隔一个块放置MoE的场景下，“Pos-2”配置（连接到前一层的Attention和MLP之间）在视觉和语言任务上均表现出最佳的模型质量。

内存受限的推理优化:
- ScMoE架构将专家选择提前到前一层，这天然地支持了一种确定性的专家迁移策略，而无需像现有工作那样进行推测性预取，从而避免了潜在的精度损失。
- 实验结果（附录A.3）表明，该策略可将峰值GPU内存使用量降低多达60%，并通过与计算重叠，将专家迁移成本降低多达75%。

A5 结论

传统分布式MoE模型中通信与计算的内在依赖性，限制了并行优化技术提升执行效率。为解决此问题，本文提出了一种快捷连接MoE（ScMoE）架构，并为其开发了一种通信重叠并行策略。通过大量的实证评估和理论分析，本文的方法展示了更优的执行效率，同时保持甚至超越了现有方法的模型质量。此外，本文还对ScMoE架构进行了深入的分析和讨论，为未来研究提供了有价值的见解。

A6 附录

A.1. 理论分析

梯度传播保证: 本节通过理论分析ScMoE架构（以Pos-2为例）中的梯度传播，以证明其训练稳定性和模型质量。基于公式7到10，可以推导出：

可以观察到，公式18和19具有相同的结构表达式。因此，我们将每对Block-MoE和Block-MLP层视为一个整体，每个子层$F$及其参数$W_l$都遵循方程$x_{l+1} = x_l + F(x_l, W_l)$。
递归关系与梯度计算: 此处，$x_l$是输入，$x_{l+1}$是第$l$个子层的输出。通过递归应用此关系，最顶层第$L$个子层的输出$x_L$可以推导为：

考虑损失函数为$E$。使用链式法则，我们可以计算损失对$x_l$的导数，得到：

分析结论: 显然，误差梯度$\frac{\partial E}{\partial x_L}$的加性分量确保了信息可以直接传播回任何子层$x_l$。此外，其优点是右侧的乘积项数量与网络深度无关。因此，随着$L$的增加，我们提出的MoE架构不太可能遇到梯度消失或爆炸问题，从而确保了稳定的训练和持续的性能水平。

A.2. DoubleGating MoE (DGMoE) 分析

DGMoE架构: 为了更深入地研究带快捷连接的架构，我们引入了DoubleGating MoE (DGMoE) 架构。如图11所示，该架构采用双top-1门控机制，独立处理来自前一层和当前层的表征。与ScMoE相比，DGMoE的公式为：

其中，$H_{DGMoE}^{l+1}$是MoE模块的输出。
机制与约束: 然而，如公式23所述，当一个token在当前层选择了与前一层相同的top-1专家时，会产生一个潜在问题，即预期的top-2门控机制会退化为事实上的top-1门控。为了缓解这个问题，我们引入了一个约束，确保激活两个不同的专家。实践中，我们首先记录由前一层表征触发的专家索引。随后，如果当前层的表征恰好选择了与前一层相同的专家，我们将激活当前层top-2选择中的第二高分专家。
实验结论: 如表6和表7所示，我们的DGMoE在视觉和语言任务上均实现了与标准top-2 MoE相当的准确率。与此同时，我们的ScMoE表现出更接近于共享专家MoE的性能。

A.3. 用于优化内存受限推理的快捷连接MoE

问题背景: MoE虽然能提升LLM的模型质量，但在设备端推理部署时面临高内存需求的挑战。一种常见方法是在GPU内存不足时将专家参数卸载到CPU内存。此外，自回归生成任务允许按token处理MoE，只需将每个token激活的两个专家（top-2门控）从CPU传输到GPU内存，从而降低峰值GPU内存使用。
现有方法局限: 专家参数从CPU到GPU的迁移发生在专家选择之后，会阻塞专家计算。现有研究【索引25, Hwang et al., Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference, 2024, ISCA; 索引69, Yi et al., EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models, 2023, arXiv; 索引14, Du et al., SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models, 2024, MLSys】探索了预取专家的方法，例如Pre-gated MoE利用前层信息预测专家选择，以重叠迁移和计算时间。但这类推测性迁移可能存在估计不准的问题，从而降低推理精度。
ScMoE的优势: 我们的ScMoE架构利用门控路由专家计算前一层表征，天然地促进了在当前层专家计算之前进行早期专家迁移。这使我们能够实现一种带有重叠的确定性迁移的专家卸载策略，保持了预训练模型的逻辑。此外，现有专家迁移方法无法适应专家并行中的通信重叠，因为它们没有解耦专家处理表征的数据流依赖关系。

图12. 提高专家卸载效率的各种专家迁移方法图示：(a) 推测性专家迁移，以Pre-gated MoE为例，和(b) 我们的ScMoE的确定性专家迁移。红色虚线表示专家选择和从CPU内存到GPU内存的专家参数传输，而黑色或红色实线代表由Attention、MLP和专家模块处理的表征数据流。

A.3.1. 专家卸载策略

策略实现: 我们实现了一种专家卸载策略，将非专家和共享专家模块保留在GPU内存中，同时将其他门控路由专家卸载到CPU内存。在前一层的Attention模块生成中间表征后，门控网络确定专家选择并发出异步迁移激活专家的指令，如图12(b)所示。这种方法允许专家迁移与计算时间重叠。重要的是，我们方法中的专家选择遵循预训练ScMoE模型的逻辑，没有推测。

图13. 应用于GPT2-MoE-Medium（每个MoE模块8个专家）和GPT3-MoE-XL模型的ScMoE的各种内存受限推理方法的峰值GPU内存使用情况(a)和MoE块延迟(b)。“GPU-only”表示整个模型存储在GPU内存中。“Offload”指我们将专家参数卸载到CPU并采用阻塞式专家迁移的策略。“Offload-Async”表示使用异步专家迁移来重叠其持续时间。

A.3.2. 评估

内存与延迟评估: 我们在单A30-PCIe GPU平台上评估了我们提出的专家卸载策略。如图13(a)所示，该策略将GPT2-MoE-Medium模型的峰值GPU内存使用量减少了50%，将GPT3-MoE-XL模型减少了60%。预计每个MoE模块中门控路由专家越多的模型，GPU内存使用量的降低百分比会更大。由于卸载的专家参数必须加载到GPU内存才能进行计算，阻塞式迁移会带来显著开销。如图13(b)所示，阻塞式迁移使GPT2-MoE-Medium的开销增加了80%，GPT3-MoE-XL增加了240%。我们的异步确定性迁移策略有效缓解了此问题，将额外成本在GPT2-MoE-Medium中减少了75%，在GPT3-MoE-XL中减少了25%。
模型规模影响: 随着模型规模从Medium扩大到XL，与专家迁移相关的成本比例显著增加。这是因为推理过程中的逐token解码是内存密集型的。模型尺寸越大，内存传输时间成比例增加，而计算时间没有相应增加。

A.4. 更多激活专家的分析

ScMoE-2架构: 标准MoE中增加激活专家数量与模型质量提升相关，我们在ScMoE中也实现了这一增强，通过增加处理前一层表征的门控路由专家数量，同时保持当前层表征的处理方式不变。我们实现了ScMoE-2，它为前一层使用top-2专家，为当前层使用一个共享专家。
实验结果: 与计算量相同的标准top-3 MoE进行比较分析，结果如表4所示，我们的ScMoE架构在模型质量和效率上都保持了优势。此外，与标准MoE类似，我们的ScMoE通过增加专家激活持续改进，验证困惑度从ScMoE的16.46下降到ScMoE-2的16.27。尽管激活更多专家会带来更高的时间成本，但我们重叠策略的效率提升仍然显著。例如，我们的ScMoE-2在训练和推理中所需的时间成本仅为标准top-2 MoE的95%和93%，尽管处理了更多的计算负载。

表4. 在8×A800-NVLink场景中，我们预训练的GPT3-MoE-XL模型在不同架构下的验证困惑度和端到端训练及推理（一次迭代）的加速比分析比较，基线为使用top-2门控的标准MoE。“ScMoE-2”指激活一个共享专家和两个门控路由专家。

A.5. 视觉任务中的系数门控网络

如表5所示，在我们的实验性视觉任务中，加入系数门控网络显著提升了模型性能。在没有系数门控网络的情况下，尽管与标准top-2 MoE保持相同的计算量，但带共享专家的MoE架构的质量从标准top-2 MoE的水平下降到标准top-1 MoE的水平。

表5. SwinV2-MoE-S模型在使用Direct Add和CG-1时在ImageNet-1K测试集上的top-1准确率比较。

A.6. 不同模型规模的评估

表6和表7表明，我们的实验性MoE架构在不同模型规模下始终能实现类似的模式质量，这在本文正文的详细分析中已阐述。

表6. SwinV2-MoE-S和SwinV2-MoE-B模型在各种架构下在ImageNet-1K测试集上的top-1准确率比较：top-2/top-1门控标准MoE、共享专家MoE、我们的DGMoE和ScMoE，每个模型都在ImageNet-1K分类数据集上预训练了90个周期。

表7. 我们预训练的GPT2-MoE-Small和GPT2-MoE-Medium（每个MoE模块8个专家）模型在不同架构下在WikiText-103上的零样本困惑度比较。

A.7. 通过快捷连接在多层间共享MoE

新视角与实验: 从某种角度看，我们的快捷连接MoE架构可以被概念化为在多个Transformer层之间共享一个MoE模块。跨层参数共享已被验证为一种提高参数效率和模型质量的方法。我们对一个初步架构DGMoE-Share进行了实验，该架构在两对Transformer块之间共享一个MoE。它将参数数量从1.57亿减少到1.24亿，同时保持与标准top-1 MoE相同的专家计算量。DGMoE-Share在视觉任务上实现了78.45%的准确率，与标准top-1 MoE相比，准确率仅下降了0.5%。我们期待通过未来的探索发现更高效的架构。此外，快捷连接MoE的训练超参数优化需要更多研究。

A.8. 实验细节

硬件配置: 实验在8×A30-PCIe、8×A800-NVLink和16×A800-NVLink（2节点）三种硬件配置上进行，以评估专家并行的重叠策略。专家卸载策略在单A30-PCIe GPU上评估。
视觉模型实验: 我们在SwinV2-MoE模型上进行实验，在ImageNet-1K上预训练和评估。MoE模块仅在第3和第4阶段集成，架构增强仅应用于第3阶段的MoE模块。
语言模型实验: 我们使用Fairseq中的GPT-2、GPT-3和LLaMA-2标准实现，并用Tutel MoE增强。模型在SlimPajama-627B子集或OpenWebtext上预训练，并在多个下游任务或WikiText-103上评估。
超参数: GPT-MoE和LLaMA2-MoE模型的超参数见表8，SwinV2-MoE模型的超参数见表9。

A.9. 中间表征相似性的额外示例

通用性验证: 如图14和图15所示，在LLaMA2-MoE和OLMoE【索引37, Muennighoff et al., OLMoE: Open Mixture-of-Experts Language Models, 2024, arXiv】中也观察到了类似的中间表征相似性，这进一步证实了我们的ScMoE的普适性。

Shortcut-connected Expert Parallelism for Accelerating Mixture of Experts