Shortcut-connected Expert Parallelism for Accelerating Mixture of Experts
作者/机构: Weilin Cai, Juyong Jiang, Le Qin, Junwei Cui, Sunghun Kim, Jiayi Huang
A1 主要贡献
核心问题: 专家并行(Expert Parallelism)是分配稀疏门控混合专家(MoE)模型计算负载的关键策略,但其固有的All-to-All通信会产生巨大开销,成为扩展MoE模型的主要瓶颈。现有优化方法(如分层All-to-All和流水线)虽然能部分缓解此问题,但仍受限于通信与计算操作之间的顺序依赖性。如下图所示,在分布式环境中,All-to-All通信开销可占总时间的50%左右。
研究目标: 本文旨在解决上述瓶颈,通过重构MoE层的输入,打破通信与计算之间的顺序依赖,从而为重叠优化创造更大的空间。
创新点:
1. 提出快捷连接MoE(ScMoE)架构: 本文提出了一种新颖的快捷连接MoE(Shortcut-connected MoE, ScMoE)架构。该架构通过一个快捷连接,利用一个top-1 MoE模块处理前一层的表征,同时用一个共享专家(Shared Expert)处理当前层的表征。这两个过程并行独立进行,从而将通信过程与传统MoE模型的顺序执行流完全解耦。
2. 开发自适应重叠并行策略: 针对ScMoE架构,本文设计了一种自适应的重叠并行策略。该策略能够根据实际性能指标动态调度操作符,与现有的流水线等策略相比,它不仅能提供更长的重叠时间,甚至在通信时间不超过计算时间的情况下实现100%的通信-计算重叠。该方法是设备无关的,具有广泛的硬件适用性,并与现有优化兼容。
3. 全面的实验与理论验证: 通过在视觉和语言模型上的大量实验证明,ScMoE在训练和推理上分别取得了高达1.49倍和1.82倍的加速。同时,实验和理论分析表明,ScMoE的模型质量与现有方法相当,甚至在某些情况下更优。本文还深入分析了快捷连接的有效性,并探讨了其未来发展潜力。
A3 背景知识/关键Observation/设计原则
2.1. 稀疏门控混合专家(Sparsely-Gated Mixture of Experts)
MoE层基础: 稀疏门控混合专家(MoE)层由多个多层感知机(MLP)子网络(称为“专家”)和一个可训练的门控网络组成。门控网络在每次迭代中选择性地激活一部分专家进行计算。对于$N$个专家网络$\{E_i\}_N^1$、门控网络$G$和输入表征$x$,MoE模块的输出可以写为:
本文遵循主流MoE研究,使用带噪声的top-k softmax门控网络来选择k个专家进行计算,其形式化表示为:
其中,$\epsilon$是可调的高斯噪声,$W_{gate}$和$W_{noise}$是两个可训练的权重矩阵。这种方法利用$G(x)$的稀疏输出,在不显著增加计算需求的情况下,大幅增加模型参数量。k值可以设为1、2或更高,更大的k值使模型更接近稠密架构,通常能获得更高的预测精度,但计算开销也更大。
主流MoE架构: 图2(a)展示了主流的top-2 MoE架构。包含MoE模块的Transformer块(浅蓝色块,称为“Block-MoE”)用一组专家(“E1, E2, E3, E4”)和一个门控网络(“Gate”)替代了原有的MLP。根据先前的工作【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引13, Du et al., GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2022, ICML; 索引55, Shen et al., Scaling Vision-Language Models with Sparse Mixture of Experts, 2023, EMNLP; 索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引31, Lieber et al., Jamba: A Hybrid Transformer-Mamba Language Model, 2025, ICLR】,"Block-MoE"与传统的Transformer块(灰色块,称为“Block-MLP”)交替出现。此外,MoE模块的放置频率有多种选择,例如每隔一个块放置一次,或者在每个块、每四个块中放置一次。
共享专家(Shared Expert): 与标准top-2 MoE架构不同,共享专家MoE(如图2(b))引入一个固定的稠密MLP模块(共享专家)来处理所有输入token,并将其输出与每个token的top-1门控专家的结果相结合。给定共享专家$SE$,MoE模块的输出公式为:
该方法由DeepSpeed-MoE【索引49, Rajbhandari et al., DeepSpeedMoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale, 2022, ICML】首次提出,它在激活相同数量专家进行计算的同时,减少了动态专家选择和通信量。大量实证结果表明,共享专家架构的模型质量与现有方法相当甚至更优,因此得到了越来越广泛的应用。
2.2. 专家并行(Expert Parallelism)
分布式训练与推理: 为了实现MoE模型的高效分布式训练和推理,专家并行被提出。该方法将唯一的专家分配给每个分布式计算设备(如GPU和TPU),并通过跨设备间的All-to-All通信将token映射到其对应的专家【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引20, He et al., FastMoE: A Fast Mixture-of-Expert Training System, 2021, arXiv; 索引41, Nie et al., HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System, 2022, arXiv】。如图3所示,使用专家并行的MoE工作流分为以下顺序操作:门控路由(gate routing)、输入编码(input encode)、All-to-All分发(All-to-All dispatch)、专家计算(expert computation)、All-to-All合并(All-to-All combine)和输出解码(output decode)。为了提高效率,输入编码用于在All-to-All分发前将token数据布局聚合成连续格式,输出解码则是All-to-All合并后的逆过程。此外,研究者还探索了将专家并行与其他并行方式(如数据并行、模型并行)结合,以支持在大型分布式系统上扩展更大的MoE模型。然而,用于token传输的All-to-All通信一直是限制分布式MoE模型效率的主要瓶颈,如图1所示。
A2 方法细节
在主流的基于Transformer的模型中,MoE模块替代MLP来顺序地处理中间表征【索引29, Lepikhin et al., GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2021, ICLR; 索引13, Du et al., GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2022, ICML; 索引55, Shen et al., Scaling Vision-Language Models with Sparse Mixture of Experts, 2023, EMNLP】,这种串行依赖性阻碍了现有优化策略【索引21, He et al., FasterMoE: Modeling and Optimizing Training of Large-Scale Dynamic Pre-Trained Models, 2022, PPoPP; 索引41, Nie et al., HetuMoE: An Efficient Trillion-scale Mixture-of-Expert Distributed Training System, 2022, arXiv; 索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引71, Zhang et al., MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism, 2023, IPDPS】的效能,因为MoE模块内部的交互有限。为了解决这些限制,我们提出了快捷连接MoE(ScMoE)架构,它为专家并行的计算-通信重叠创造了优化机会。
3.1. 架构设计
ScMoE架构核心思想: 本节介绍快捷连接MoE(ScMoE)架构。与主流MoE架构(如图2)专注于处理当前层(包含MoE的Transformer块)的中间表征不同,ScMoE同时处理来自当前层和前一层的表征。具体来说,ScMoE采用一个top-1 MoE模块通过快捷连接处理来自前一层的表征,同时一个共享专家处理当前层的表征。这两个操作独立进行,其结果被整合到当前层的最终输出中,从而促进了这两个过程之间的通信和计算重叠。
三种快捷连接位置: 共享专家处理的当前层中间表征与主流MoE方法相同,但我们探索了三种不同的前一层表征用于ScMoE的top-1 MoE过程,如图4所示。“Pos-1”(a)、“Pos-2”(b)和“Pos-3”(c)配置分别代表连接到前一层不同位置的快捷方式:输出、中间和输入。假设$T_{Atten}$, $T_{SE}$和$T_{MLP}$分别代表Attention、共享专家和MLP的持续时间,那么对应的重叠持续时间分别为(a) $T_{Atten} + T_{SE}$,(b) $T_{Atten} + T_{SE} + T_{MLP}$,(c) $2T_{Atten} + T_{SE} + T_{MLP}$。
ScMoE公式化表示: 以“Pos-2”配置为例,该ScMoE架构可公式化如下:
* Block-MoE:
* Block-MLP:
其中,$H_{\text{ScMoE}}^{l+1}$是MoE子层的输出,$H_{\text{MH}}^{l+1}$是第(l+1)个Transformer块(“Block-MoE”)中多头注意力子层$MultiHead_{(l+1)}^{MoE}(\cdot)$的输出。$SE_{(l+1)}(\cdot)$表示共享专家,而$E_1, ..., E_N$代表N个门控路由专家。门控网络$G(\cdot)$参考公式2。$H_{\text{MLP}}^l$和$H_{\text{MH}}^l$分别是第l个Transformer块中MLP子层$MLP_{(l)}(\cdot)$和多头注意力子层$MultiHead_{(l)}^{MLP}(\cdot)$的输出。为了简化,省略了层归一化和dropout。
位置选择: 在我们对三种快捷连接位置的实验中,配置为“Pos-2”的模型在视觉和语言案例中都达到了最高的准确率,同时也保证了可观的重叠时间。因此,我们倾向于选择“Pos-2”进行实际开发。此外,“Pos-2”配置用于在3.2节中阐述重叠策略,其他两种配置的细节可以类推。
对不同MoE放置频率的适应性: 我们提出的ScMoE架构可以适应具有不同MoE放置频率的MoE模型。如图5所示,ScMoE架构可以集成到将MoE模块整合到每个Transformer块的MoE模型中。当MoE放置更频繁时,每个MoE模块的潜在重叠时间最小化,“Pos-1”配置已经充分利用了计算时间进行重叠。相反,较不频繁的MoE放置会延长每个MoE模块的潜在重叠时间,这可能导致更大的加速效果。
3.2. 专家并行的重叠策略
操作解耦与并行执行: 如前所述,ScMoE架构中的MoE操作与主干网络完全解耦,使得可以在两个独立的流上并行执行:一个用于共享专家过程,另一个用于MoE过程。为提高效率,我们实现了异步All-to-All通信算子,以在这两个流内实现通信与计算的重叠,而计算算子由于计算资源的限制无法并发执行。
自适应算子调度: 我们观察到算子执行时间受特定模型和硬件配置的影响,因此需要实现自适应的算子调度。遵循MoE流中的执行顺序,我们可以直接将门控路由和编码算子安排在最早的可行位置,同时将解码算子推迟到最晚的位置,从而最大化潜在的重叠时间。然后,这个挑战被提炼为在共享专家流中的四个可能位置⃝1⃝2⃝3⃝4中为专家计算选择一个最佳位置,如图6所示。
调度问题形式化: 我们将与“All-to-All Dispatch”和“All-to-All Combine”相关的通信成本分别定义为$T_{disp}$和$T_{comb}$。变量K被指定为应用专家计算的具体位置。在专家计算之前,计算成本表示为$T_{\text{precomp}} := \{COMP_1, ..., COMP_{K-1}\}$,而在专家计算之后的成本表示为$T_{\text{postcomp}} := \{COMP_{K+1}, ..., COMP_4\}$。因此,每对Block-MLP和Block-MoE的最小总时间成本为:
效率对比: 为了展示效率,我们在图7中说明了各种MoE架构及其各自并行策略的操作时间线,以选择位置⃝2进行专家计算为例。每个时间线上操作符的长度对应其执行时间,多行表示使用了并行的CUDA流。广泛使用的流水线并行策略将输入token平均分割成更小的细粒度块,使得在不同GPU流上可以并发进行计算和通信【索引24, Hwang et al., Tutel: Adaptive Mixture-of-Experts at Scale, 2023, MLSys; 索引71, Zhang et al., MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism, 2023, IPDPS】。与带流水线的标准MoE(第2条时间线)相比,我们提出的带重叠策略的ScMoE(第4条时间线)显著减少了总时间。这归因于绝对通信时间的减少(类似于共享专家MoE,第3条时间线),以及通信与计算时长($T_{\text{Atten}} + T_{\text{SE}} + T_{MLP}$)的重叠,这个重叠时长超过了流水线所能实现的。
策略优势与扩展: 我们的策略有能力完全重叠通信,只要通信时间可以被容纳在重叠窗口内。这是流水线策略不具备的优势,因为它无法重叠初始和最终的数据传输【索引23, Huang et al., GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, 2019, NeurIPS; 索引39, Narayanan et al., PipeDream: Generalized Pipeline Parallelism for DNN Training, 2019, SOSP】。在通信时间超过可用重叠时间的情况下,我们的策略可以与流水线增强结合(第5条时间线),从而利用专家计算时间来进一步隐藏通信。
A4 实验环境
- 硬件配置: 实验在三种硬件配置上进行,覆盖了高通信与低通信开销的场景:
- 8×A30-PCIe: 高通信与计算比率场景。
- 8×A800-NVLink: 低通信与计算比率场景。
- 16×A800-NVLink (2节点): 跨节点通信场景。
此外,在单A30-PCIe GPU上评估了专家卸载策略。
- 模型架构:
- 视觉模型: SwinV2-MoE-S 和 SwinV2-MoE-B,MoE模块被放置在第3和第4阶段。
- 语言模型:
- GPT2-MoE-Small, GPT2-MoE-Medium, GPT3-MoE-XL: 在每两个连续的Transformer块中,第二个块的MLP被MoE替换。
- LLaMA2-MoE: 每个Transformer块的MLP都被MoE替换。
每个MoE模块通常配置8个专家(2节点场景为16个),每个GPU分配一个专家。
- 数据集:
- 视觉任务: ImageNet-1K 用于SwinV2-MoE模型的预训练和测试。
- 语言任务:
- 在SlimPajama-627B数据集的一个10亿token子集上进行预训练,用于下游任务的零样本评估。
- 在OpenWebtext数据集上进行预训练,用于WikiText-103的困惑度评估。
- 软件配置:
- 代码实现基于Tutel MoE框架和Fairseq工具包。
- 所有实验中,除了MoE架构的修改外,其他超参数和随机种子均保持一致,以确保可比性。
A4 实验结果
模型质量与效率分析
视觉模型 (SwinV2-MoE-S)
* 模型质量: 根据表1,ScMoE (Pos-2) 达到了与标准top-2 MoE相当的79.3%的准确率。共享专家MoE准确率最高,略高0.2%。
* 效率: 在高通信开销的8×A30-PCIe场景下,ScMoE (Pos-2) 相比标准top-2 MoE,训练速度提升30%,推理速度提升40%。拥有最长重叠时间的ScMoE (Pos-3) 取得了最高的加速比,训练和推理分别加速1.49倍和1.82倍。
语言模型 (GPT2-MoE & LLaMA2-MoE)
* 模型质量: 如表2所示,ScMoE模型在GPT2-MoE和LLaMA2-MoE上均取得了最高的下游任务平均分。
* 效率:
* 在低通信开销的8×A800-NVLink场景下,GPT2-MoE(每隔一个块放置MoE)集成ScMoE后,相比标准top-2 MoE,训练速度提升11%,推理速度提升15%。
* LLaMA2-MoE(每个块放置MoE)集成ScMoE后,训练和推理分别加速1.14倍和1.21倍,效率优于其他方法。
开销与加速效果分析
如图8所示,对不同分布式场景下的开销进行了详细分析:
* 高通信场景 (8×A30-PCIe): ScMoE重叠了70%的通信时间,比共享专家MoE快27%,比流水线优化的top-2 MoE快42%。
* 低通信场景 (8×A800-NVLink): ScMoE通过完全重叠通信时间,依然保持了加速效果。
* 跨节点场景 (16×A800-NVLink): 节点间通信开销更大,ScMoE实现了完全重叠,比共享专家MoE快24%,比流水线优化的top-2 MoE快43%。
* 结论: ScMoE提供了显著的加速效果,尤其是在通信开销超过MoE总时间约20%时。在通信时间不超过MoE总时间约50%的场景下,ScMoE能够实现通信的完全重叠。
ScMoE架构深入探讨
- 快捷连接的有效性:
- 门控行为与表征相似性 (图9 & 图10): 分析发现,相邻Transformer块的中间表征具有极高的余弦相似度(接近1.0)。门控网络倾向于为来自当前层和前一层的相似表征选择同一个专家。ScMoE架构通过为这两个高度相似的表征分配不同的专家(当前层使用共享专家,前一层使用门控路由专家),有效模拟了标准top-2或共享专家MoE的行为,从而保证了模型质量。
- 理论分析: 附录A.1的梯度传播分析表明,ScMoE的结构(类似残差连接)确保了梯度的直接回传,避免了梯度消失或爆炸问题,保证了训练的稳定性。
- ScMoE架构配置 (表3):
- 系数门控网络: 实验表明,使用系数门控网络(CG-1配置)来组合共享专家和门控路由专家的输出,可以获得最低的验证集损失。
- 快捷连接位置: 在每隔一个块放置MoE的场景下,“Pos-2”配置(连接到前一层的Attention和MLP之间)在视觉和语言任务上均表现出最佳的模型质量。
- 内存受限的推理优化:
- ScMoE架构将专家选择提前到前一层,这天然地支持了一种确定性的专家迁移策略,而无需像现有工作那样进行推测性预取,从而避免了潜在的精度损失。
- 实验结果(附录A.3)表明,该策略可将峰值GPU内存使用量降低多达60%,并通过与计算重叠,将专家迁移成本降低多达75%。
A5 结论
传统分布式MoE模型中通信与计算的内在依赖性,限制了并行优化技术提升执行效率。为解决此问题,本文提出了一种快捷连接MoE(ScMoE)架构,并为其开发了一种通信重叠并行策略。通过大量的实证评估和理论分析,本文的方法展示了更优的执行效率,同时保持甚至超越了现有方法的模型质量。此外,本文还对ScMoE架构进行了深入的分析和讨论,为未来研究提供了有价值的见解。
A6 附录
A.1. 理论分析
梯度传播保证: 本节通过理论分析ScMoE架构(以Pos-2为例)中的梯度传播,以证明其训练稳定性和模型质量。基于公式7到10,可以推导出:
可以观察到,公式18和19具有相同的结构表达式。因此,我们将每对Block-MoE和Block-MLP层视为一个整体,每个子层$F$及其参数$W_l$都遵循方程$x_{l+1} = x_l + F(x_l, W_l)$。
递归关系与梯度计算: 此处,$x_l$是输入,$x_{l+1}$是第$l$个子层的输出。通过递归应用此关系,最顶层第$L$个子层的输出$x_L$可以推导为:
考虑损失函数为$E$。使用链式法则,我们可以计算损失对$x_l$的导数,得到:
分析结论: 显然,误差梯度$\frac{\partial E}{\partial x_L}$的加性分量确保了信息可以直接传播回任何子层$x_l$。此外,其优点是右侧的乘积项数量与网络深度无关。因此,随着$L$的增加,我们提出的MoE架构不太可能遇到梯度消失或爆炸问题,从而确保了稳定的训练和持续的性能水平。
A.2. DoubleGating MoE (DGMoE) 分析
DGMoE架构: 为了更深入地研究带快捷连接的架构,我们引入了DoubleGating MoE (DGMoE) 架构。如图11所示,该架构采用双top-1门控机制,独立处理来自前一层和当前层的表征。与ScMoE相比,DGMoE的公式为:
其中,$H_{DGMoE}^{l+1}$是MoE模块的输出。
机制与约束: 然而,如公式23所述,当一个token在当前层选择了与前一层相同的top-1专家时,会产生一个潜在问题,即预期的top-2门控机制会退化为事实上的top-1门控。为了缓解这个问题,我们引入了一个约束,确保激活两个不同的专家。实践中,我们首先记录由前一层表征触发的专家索引。随后,如果当前层的表征恰好选择了与前一层相同的专家,我们将激活当前层top-2选择中的第二高分专家。
实验结论: 如表6和表7所示,我们的DGMoE在视觉和语言任务上均实现了与标准top-2 MoE相当的准确率。与此同时,我们的ScMoE表现出更接近于共享专家MoE的性能。
A.3. 用于优化内存受限推理的快捷连接MoE
问题背景: MoE虽然能提升LLM的模型质量,但在设备端推理部署时面临高内存需求的挑战。一种常见方法是在GPU内存不足时将专家参数卸载到CPU内存。此外,自回归生成任务允许按token处理MoE,只需将每个token激活的两个专家(top-2门控)从CPU传输到GPU内存,从而降低峰值GPU内存使用。
现有方法局限: 专家参数从CPU到GPU的迁移发生在专家选择之后,会阻塞专家计算。现有研究【索引25, Hwang et al., Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference, 2024, ISCA; 索引69, Yi et al., EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models, 2023, arXiv; 索引14, Du et al., SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable Large Mixture-of-Experts Models, 2024, MLSys】探索了预取专家的方法,例如Pre-gated MoE利用前层信息预测专家选择,以重叠迁移和计算时间。但这类推测性迁移可能存在估计不准的问题,从而降低推理精度。
ScMoE的优势: 我们的ScMoE架构利用门控路由专家计算前一层表征,天然地促进了在当前层专家计算之前进行早期专家迁移。这使我们能够实现一种带有重叠的确定性迁移的专家卸载策略,保持了预训练模型的逻辑。此外,现有专家迁移方法无法适应专家并行中的通信重叠,因为它们没有解耦专家处理表征的数据流依赖关系。
A.3.1. 专家卸载策略
策略实现: 我们实现了一种专家卸载策略,将非专家和共享专家模块保留在GPU内存中,同时将其他门控路由专家卸载到CPU内存。在前一层的Attention模块生成中间表征后,门控网络确定专家选择并发出异步迁移激活专家的指令,如图12(b)所示。这种方法允许专家迁移与计算时间重叠。重要的是,我们方法中的专家选择遵循预训练ScMoE模型的逻辑,没有推测。
A.3.2. 评估
内存与延迟评估: 我们在单A30-PCIe GPU平台上评估了我们提出的专家卸载策略。如图13(a)所示,该策略将GPT2-MoE-Medium模型的峰值GPU内存使用量减少了50%,将GPT3-MoE-XL模型减少了60%。预计每个MoE模块中门控路由专家越多的模型,GPU内存使用量的降低百分比会更大。由于卸载的专家参数必须加载到GPU内存才能进行计算,阻塞式迁移会带来显著开销。如图13(b)所示,阻塞式迁移使GPT2-MoE-Medium的开销增加了80%,GPT3-MoE-XL增加了240%。我们的异步确定性迁移策略有效缓解了此问题,将额外成本在GPT2-MoE-Medium中减少了75%,在GPT3-MoE-XL中减少了25%。
模型规模影响: 随着模型规模从Medium扩大到XL,与专家迁移相关的成本比例显著增加。这是因为推理过程中的逐token解码是内存密集型的。模型尺寸越大,内存传输时间成比例增加,而计算时间没有相应增加。
A.4. 更多激活专家的分析
ScMoE-2架构: 标准MoE中增加激活专家数量与模型质量提升相关,我们在ScMoE中也实现了这一增强,通过增加处理前一层表征的门控路由专家数量,同时保持当前层表征的处理方式不变。我们实现了ScMoE-2,它为前一层使用top-2专家,为当前层使用一个共享专家。
实验结果: 与计算量相同的标准top-3 MoE进行比较分析,结果如表4所示,我们的ScMoE架构在模型质量和效率上都保持了优势。此外,与标准MoE类似,我们的ScMoE通过增加专家激活持续改进,验证困惑度从ScMoE的16.46下降到ScMoE-2的16.27。尽管激活更多专家会带来更高的时间成本,但我们重叠策略的效率提升仍然显著。例如,我们的ScMoE-2在训练和推理中所需的时间成本仅为标准top-2 MoE的95%和93%,尽管处理了更多的计算负载。
A.5. 视觉任务中的系数门控网络
如表5所示,在我们的实验性视觉任务中,加入系数门控网络显著提升了模型性能。在没有系数门控网络的情况下,尽管与标准top-2 MoE保持相同的计算量,但带共享专家的MoE架构的质量从标准top-2 MoE的水平下降到标准top-1 MoE的水平。
A.6. 不同模型规模的评估
表6和表7表明,我们的实验性MoE架构在不同模型规模下始终能实现类似的模式质量,这在本文正文的详细分析中已阐述。
A.7. 通过快捷连接在多层间共享MoE
新视角与实验: 从某种角度看,我们的快捷连接MoE架构可以被概念化为在多个Transformer层之间共享一个MoE模块。跨层参数共享已被验证为一种提高参数效率和模型质量的方法。我们对一个初步架构DGMoE-Share进行了实验,该架构在两对Transformer块之间共享一个MoE。它将参数数量从1.57亿减少到1.24亿,同时保持与标准top-1 MoE相同的专家计算量。DGMoE-Share在视觉任务上实现了78.45%的准确率,与标准top-1 MoE相比,准确率仅下降了0.5%。我们期待通过未来的探索发现更高效的架构。此外,快捷连接MoE的训练超参数优化需要更多研究。
A.8. 实验细节
硬件配置: 实验在8×A30-PCIe、8×A800-NVLink和16×A800-NVLink(2节点)三种硬件配置上进行,以评估专家并行的重叠策略。专家卸载策略在单A30-PCIe GPU上评估。
视觉模型实验: 我们在SwinV2-MoE模型上进行实验,在ImageNet-1K上预训练和评估。MoE模块仅在第3和第4阶段集成,架构增强仅应用于第3阶段的MoE模块。
语言模型实验: 我们使用Fairseq中的GPT-2、GPT-3和LLaMA-2标准实现,并用Tutel MoE增强。模型在SlimPajama-627B子集或OpenWebtext上预训练,并在多个下游任务或WikiText-103上评估。
超参数: GPT-MoE和LLaMA2-MoE模型的超参数见表8,SwinV2-MoE模型的超参数见表9。
A.9. 中间表征相似性的额外示例
通用性验证: 如图14和图15所示,在LLaMA2-MoE和OLMoE【索引37, Muennighoff et al., OLMoE: Open Mixture-of-Experts Language Models, 2024, arXiv】中也观察到了类似的中间表征相似性,这进一步证实了我们的ScMoE的普适性。
💬 评论讨论
欢迎在这里分享您的想法和见解!