DeepNet: Scaling Transformers to 1,000 Layers

文章标题: DeepNet: Scaling Transformers to 1,000 Layers
作者/机构: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Furu Wei / Microsoft Research

A1 主要贡献

核心问题：尽管Transformer模型参数量已达万亿级别，但其深度受限于训练不稳定性，通常不超过数百层。现有的稳定化方法，如Pre-LN，虽然提高了稳定性，但相比Post-LN性能有所下降。

研究目标：本文旨在提升Transformer的训练稳定性，并将其模型深度扩展几个数量级，目标是成功训练千层以上的Transformer模型。

创新点：
1. 识别不稳定的根源：通过实验分析，论文指出模型更新（model update）的爆炸是导致训练不稳定的根本原因，而非之前普遍认为的梯度爆炸。
2. 提出DEEPNORM：为解决模型更新爆炸问题，本文提出了一种新的归一化函数DEEPNORM，用于修改Transformer中的残差连接。DEEPNORM通过在执行层归一化前放大残差连接，并相应地在初始化时缩小参数，来稳定训练过程。
3. 提供理论证明：论文从理论上推导并证明了使用DEEPNORM后，模型的更新量可以被一个常数所约束，从而保证了优化的稳定性。
4. 成功扩展模型深度：采用DEEPNET架构（即使用DEEPNORM的Transformer），研究者成功将Transformer模型扩展至1000层（包含2500个自注意力和前馈网络子层），比以往的深度Transformer深一个数量级。
5. 验证卓越性能：在包含7482个翻译方向的大规模多语言机器翻译基准测试上，一个200层、32亿参数的DEEPNET模型，其性能比一个48层、120亿参数的SOTA模型高出5个BLEU点，证明了深度扩展是一个极具潜力的性能提升方向。

图1: SOTA自然语言处理模型中Transformer深度的历时趋势。

A3 背景知识/关键Observation/设计原则

研究不稳定性根源的起点：本文的分析始于一个观察：更好的初始化方法能够稳定Transformer的训练。这一点已被先前的工作【【20，Improving transformer optimization through better initialization by Huang et al., 2020, ICML】, 【44，Optimizing deeper transformers on small datasets by Xu et al., 2021, ACL/IJCNLP】, 【45a，Improving deep transformer with depth-scaled initialization and merged attention by Zhang et al., 2019a, EMNLP-IJCNLP】】所证实。因此，本文研究了使用或不使用恰当初始化的Post-LN模型的训练过程。为了进行对比，本文设计了一种名为Post-LN-init的模型，它在Xavier初始化后，通过一个因子 $k_l = \sqrt{N - l + 1}$ 来缩减第 $l$ 层的权重，其中 $l \in [1, N]$。例如，第 $l$ 层FFN的输出投影矩阵 $W_{lo}$ 初始化如下：

其中 $d_0$ 是输入和输出维度的平均值。这种设计与先前工作【【45a，Improving deep transformer with depth-scaled initialization and merged attention by Zhang et al., 2019a, EMNLP-IJCNLP】】不同，它缩减的是底层而非高层的权重，旨在将梯度尺度的影响与模型更新分离开。同时，Post-LN-init与Post-LN架构相同，排除了架构差异带来的影响。

模型更新而非梯度是稳定性的关键：本文在IWSLT-14 De-En机器翻译数据集上训练了18L-18L的Post-LN和Post-LN-init模型。实验结果显示Post-LN-init能够收敛而Post-LN不能。有趣的是，尽管Post-LN-init的权重被缩小，其最后几层的梯度范数反而比Post-LN更大。此外，通过改变模型深度（从6L-6L到24L-24L），发现在不同深度下，Post-LN-init在最后一层的梯度范数始终远大于Post-LN。这些现象（如图3所示）表明，深层中的梯度爆炸并非Post-LN不稳定的根本原因，而模型更新的规模更有可能是问题的关键。

图3: (a) 18L-18L模型顶层的梯度范数。(b) 不同深度（从6L-6L到24L-24L）模型最后一层的梯度范数。(c) 18L-18L模型的验证损失曲线。

不稳定性问题的连锁反应：本文进一步论证了Post-LN的不稳定性源于一系列连锁问题，包括梯度消失和过大的模型更新。首先，通过可视化训练早期的模型更新范数 $||\Delta F||$（定义为 $||F(x, \theta_{i+1}) - F(x, \theta_i)||$），发现Post-LN在训练开始时经历了剧烈的更新爆炸，随后更新几乎停滞，表明模型陷入了虚假的局部最优。Warm-up和更好的初始化能缓解此问题。当更新爆炸时，LayerNorm（LN）的输入会变得非常大。根据Xiong等人【【42，On layer normalization in the transformer architecture by Xiong et al., 2020, ICML】】的理论分析，通过LN的梯度大小与其输入的幅度成反比，即 $ \frac{\partial LN(x)}{\partial x} \approx \frac{\sqrt{d}}{||x||_2} $。如图4所示，在没有warm-up或良好初始化的情况下，$||x||$ 远大于模型维度 $d$（$d=512$），这解释了Post-LN训练中出现的梯度消失问题。总结来说，不稳定性始于训练初期的大幅模型更新，这使模型陷入不良的局部最优点，进而增大了LN层的输入幅度。随着训练进行，通过LN的梯度变得越来越小，导致严重的梯度消失，使模型难以逃离局部最优，最终破坏了优化过程。相比之下，Post-LN-init的模型更新相对较小，LN的输入也保持稳定，从而缓解了梯度消失问题，使优化更加稳定。

图4: 训练早期18L-18L模型的模型更新、LN平均输入和梯度的可视化。

A2 方法细节

1. 实践者指南 (TL;DR for Practitioners)

DEEPNORM的简易实现：如图2所示，在Post-LN Transformer的基础上实现本文方法非常简单。与Post-LN相比，DEEPNORM在执行层归一化之前对残差连接进行放大（up-scale）。此外，在初始化阶段对参数进行缩小（down-scale）。值得注意的是，只对前馈网络的权重、以及注意力层的值投影（value projection）和输出投影（output projection）进行缩放。残差连接和初始化的缩放比例依赖于具体的模型架构（如图2b所示）。

图2: (a) DEEPNORM的伪代码。以Xavier初始化【【17，Understanding the difficulty of training deep feedforward neural networks by Glorot and Bengio, 2010, AISTATS】】为例，它可以被替换为其他标准初始化方法。注意 $\alpha$ 是一个常数。(b) 针对不同架构（N层编码器，M层解码器）的DEEPNORM参数。

2. DEEPNET架构

DEEPNET架构概述：DEEPNET基于Transformer架构，但每个子层使用新提出的DEEPNORM代替了Post-LN。DEEPNORM的公式可以写作：

其中 $\alpha$ 是一个常数，$G_l(x_l, \theta_l)$ 是第 $l$ 个Transformer子层（即注意力或前馈网络）的函数，其参数为 $\theta_l$。此外，DEEPNET通过一个因子 $\beta$ 来缩放残差分支内部的权重 $\theta_l$。值得注意的是，$\alpha$ 和 $\beta$ 都是仅依赖于模型架构的常数，其推导过程在4.3节中提供。

3. 模型更新的期望量级

注意力模块的量级分析：为分析模型更新的量级，首先研究注意力模块。以单头注意力为例，其公式为：

其中 $Q, K, V$ 分别为query, key, value，$W^Q, W^K, W^V$ 为输入投影矩阵，$W^O$ 为输出投影矩阵。引理4.1证明了 $W^Q$ 和 $W^K$ 不会改变注意力输出量级的界限。
引理 4.1: 给定 $X = (x_1, x_2, ..., x_n)^T \in R^{n \times d}$，其中 $var(x_i) = 1, mean(x_i) = 0$ 且对所有 $i \in [1, n]$ 有 $q_i \in R$，则满足：

其中 $\Theta=$ 表示量级界限相等。换言之，注意力输出的量级仅依赖于值（value）和输出投影：$Attn(Q, K, V) \Theta= V W^V W^O$。为了简化分析，本文将隐藏维度设为1，从而将矩阵 $W^V, W^O$ 简化为标量 $v, w$，即 $Attn(Q, K, V) \Theta= vwV$。类似地，前馈网络可简化为 $FFN(X) \Theta= vwX$。

N层DEEPNET模型更新量级的定理：基于上述分析，定义模型更新为 $||\Delta F|| = ||F(x, \theta^*) - F(x, \theta)||$。对于一个包含N个自注意力和N个FFN的N层DEEPNET，其模型更新量级的定理如下：
定理 4.2: 给定一个N层DEEPNET $F(x, \theta)$（$\theta = \{\theta_1, ..., \theta_{2N}\}$），其中 $\theta_{2l-1}$ 和 $\theta_{2l}$ 分别代表第 $l$ 层的自注意力和FFN的参数，每个子层都使用DEEPNORM进行归一化：$x_{l+1} = LN(\alpha x_l + G_l(x_l, \theta_l))$，则模型更新 $||\Delta F||$ 满足：

对Post-LN及稳定化方法的解释：标准的Post-LN可视为DEEPNET的一个特例，其中 $\alpha=1$，并且在Xavier初始化【【17，Understanding the difficulty of training deep feedforward neural networks by Glorot and Bengio, 2010, AISTATS】】下 $v_l=w_l=1$。根据定理4.2，标准Post-LN的更新量级为 $||\Delta F|| = O(\sum_{i=1}^{2N} ||\theta_i^* - \theta_i||)$。这表明模型在训练初期倾向于累积更新，解释了第3节中观察到的更新爆炸现象。同时，该定理也解释了为何warm-up和更小的初始化能稳定Post-LN的训练：warm-up通过减小 $||\theta_i^* - \theta_i||$ 来降低模型更新的量级，而更小的初始化则降低了 $\sqrt{v_i^2 + w_i^2}$ 的值。

编码器-解码器模型的更新量级：本文进一步研究了包含N层编码器和M层解码器的DEEPNET模型，记为 $F_{ed}(x, y, \theta_e, \theta_d)$。其中 $x, y$ 分别是编码器和解码器的输入，$\theta_e$ 与定理4.2中的 $\theta$ 定义相同，$\theta_d = \{\theta_{d1}, ..., \theta_{d,3M}\}$ 代表解码器中自注意力、交叉注意力和FFN的参数。编码器和解码器分别使用参数 $\{\alpha_e, G_{el}\}$ 和 $\{\alpha_d, G_{dl}\}$。

编码器-解码器模型更新量级的定理：对于上述模型，其更新量级 $||\Delta F_{ed}|| = ||F_{ed}(x, y, \theta_e^*, \theta_d^*) - F_{ed}(x, y, \theta_e, \theta_d)||$ 由以下定理描述：
定理 4.3: 给定一个N层编码器和M层解码器的DEEPNET $F_{ed}(x, y, \theta_e, \theta_d)$，其中每个编码器子层归一化为 $x_{l+1} = LN(\alpha_e x_l + G_{el}(x_l, \theta_{el}))$，解码器子层归一化为 $x_{l+1} = LN(\alpha_d x_l + G_{dl}(x_l, \theta_{dl}))$，则 $||\Delta F_{ed}||$ 满足：

对标准编码器-解码器模型的分析：对于标准的编码器-解码器模型，所有的 $\{\alpha_e, \alpha_d, v_{ei}, w_{ei}, v_{di}, w_{di}\}$ 都等于1。因此，其更新量级为 $||\Delta F_{ed}|| = O(M \sum_{i=1}^{2N} ||\theta_{ei}^* - \theta_{ei}|| + \sum_{j=1}^{3M} ||\theta_{dj}^* - \theta_{dj}||)$。这表明更新会累积，与图5中的观察一致。此外，交叉注意力将编码器的更新量级传播到解码器，这解释了为什么解码器比编码器更不稳定【【27，Understanding the difficulty of training transformers by Liu et al., 2020, EMNLP】】。

图5: 训练初期，标准Post-LN和DEEPNET的模型更新。该可视化在深度从6L-6L到100L-100L的64-128-2微型Transformer上进行。结果显示DEEPNET的更新比Post-LN小得多且更稳定。

4. DEEPNORM和初始化的推导

推导目标：本节展示了通过设定合适的参数 $\alpha$ 和 $\beta$，DEEPNET的期望模型更新可以被一个常数所约束。分析基于SGD更新，并凭经验验证了它对Adam优化器【【24，Adam: A method for stochastic optimization by Kingma and Ba, 2015, ICLR】】也有效。分析以编码器-解码器架构为例，可以自然地推广到仅编码器和仅解码器模型。类似于Zhang等人【【47，Fixup initialization: Residual learning without normalization by Zhang et al., 2019b, ICLR】】的工作，本文设定了模型更新的目标：
目标: 在初始化后，当学习率 $\eta \to 0$ 时，模型 $F_{ed}(x, y, \theta_e, \theta_d)$ 的每一步SGD更新量级为 $\Theta(\eta)$。即 $||\Delta F_{ed}|| = \Theta(\eta)$，其中 $\Delta F_{ed} \triangleq F_{ed}(x, y, \theta_e - \eta \frac{\partial L}{\partial \theta_e}, \theta_d - \eta \frac{\partial L}{\partial \theta_d}) - F_{ed}(x, y, \theta_e, \theta_d)$。

解码器参数的推导：对于SGD优化器，每个解码器层的更新 $||\theta_{di}^* - \theta_{di}||$ 等于 $\eta||\frac{\partial L}{\partial \theta_{di}}||$。根据Xiong等人【【42，On layer normalization in the transformer architecture by Xiong et al., 2020, ICML】】的分析，可以假设 $||\frac{\partial F}{\partial \theta_{dj}}|| \leq ||\frac{\partial F}{\partial \theta_{d,3M}}||$。结合 $||\frac{\partial F}{\partial \theta_{d,3M}}|| \Theta= ||\theta_{d,3M}||$ 以及假设 $||\frac{\partial L}{\partial F}|| = O(1)$，定理4.3公式中的第二项可以被界定为：

平衡残差连接与初始化：为了将上式（公式2）界定为 $\Theta(\eta)$，有多种方案。为了平衡残差连接和初始化的影响，本文设定 $\alpha_d^2 = \frac{1}{\sqrt{3M}}$，并且 $v_d^2 + w_d^2 = \frac{1}{\sqrt{3M}}$。由于对称性，设 $v_d = w_d = \beta_d$，因此得到 $\alpha_d = (3M)^{-1/4}$，$\beta_d = (12M)^{-1/4}$。类似地，为了界定定理4.3公式中的第一项，设定 $v_e = w_e = \beta_e = 0.87(N^4M)^{-1/16}$ 和 $\alpha_e = 0.81(N^4M)^{1/16}$。详细推导见附录B。

与Post-LN的比较：在IWSLT-14 De-En翻译数据集上，本文可视化了DEEPNET在训练早期的模型更新。如图5所示，DEEPNET的模型更新几乎是恒定的，而Post-LN的模型更新则呈爆炸式增长。

编码器-解码器架构的实现总结：
1. 对每个编码器和解码器层应用标准初始化（例如，Xavier初始化）。
2. 对于编码器层，将前馈网络以及注意力层的值投影和输出投影的权重乘以 $0.87(N^4M)^{-1/16}$，并将残差连接的权重设为 $0.81(N^4M)^{1/16}$。
3. 对于解码器层，将前馈网络以及注意力层的值投影和输出投影的权重乘以 $(12M)^{-1/4}$，并将残差连接的权重设为 $(3M)^{1/4}$。

仅编码器（或仅解码器）架构的实现总结：该方法的推导过程可以同样应用于仅编码器（如BERT）和仅解码器（如GPT）的架构（详见附录C）。步骤总结如下：
1. 对每一层应用标准初始化（例如，Xavier初始化）。
2. 对于每一层，将前馈网络以及注意力层的值投影和输出投影的权重乘以 $(8N)^{-1/4}$（对于解码器是 $(8M)^{-1/4}$），并将残差连接的权重设为 $(2N)^{1/4}$（对于解码器是 $(2M)^{1/4}$）。

A4 实验环境

数据集:
- IWSLT-14 German-English (De-En): 用于验证不同深度模型的收敛性。
- WMT-17 English-German (En-De): 用于与SOTA深度Transformer模型进行比较。
- OPUS-100: 一个覆盖100种语言的以英语为中心的多语言语料库，用于大规模多语言翻译实验。
- 大规模多语言数据集: 结合了CCMatrix, CCAligned, OPUS和Tatoeba的数据，覆盖102种语言，1932个翻译方向，共120亿句对。
模型架构:
- 双语翻译 (WMT-17): 模型深度从18L-18L到100L-100L不等，基础模型参数为 hidden size 512, FFN dim 2048, 8 heads。
- 多语言翻译 (OPUS-100): 模型深度从12层到1000层。1000层模型为500L-500L，hidden size 512, FFN dim 2048, 8 heads。
- 大规模多语言翻译: 100L-100L DEEPNET，hidden size 1024, FFN dim 4096, 16 heads，总参数量32亿。对比模型为M2M-100 (24L-24L, 4096 hidden size, 120亿参数)。
硬件配置: 论文未明确提及具体的GPU型号，但实验在支持混合精度训练的硬件上进行。
软件配置:
- 基于Fairseq框架实现。
- 使用Adam优化器。
- 大部分实验采用混合精度训练。
- 评估脚本：Fairseq内置BLEU脚本，sacreBLEU，以及M2M-100使用的评估脚本。

A4 实验结果

1. 神经机器翻译 (NMT)

与SOTA模型的比较 (WMT-17 En-De):
- 实验内容: 在WMT-17 En-De数据集上比较DEEPNET与多种SOTA深度Transformer模型（如DLCL, NormFormer, ReZero, T-Fixup等）。
- 实验结果:
  - DEEPNET比Post-LN模型更稳定，成功扩展到100L-100L，BLEU达到28.9。而Post-LN基线在50L-50L时已不稳定（见表1）。
  - DEEPNET性能优于No-LN（如R-Fixup, T-Fixup）和Pre-LN（如vanilla Pre-LN, DLCL）的基线模型（见表1）。
  - Pre-LN模型虽然稳定，但性能相比收敛的Post-LN模型有0.5-1.0 BLEU的下降。DEEPNET结合了Post-LN的性能和Pre-LN的稳定性。
    
    表1: 在WMT-17 En-De测试集上，不同深度模型的BLEU分数。AL-BL指A层编码器和B层解码器。
不同深度的收敛性 (IWSLT-14 De-En):
- 实验内容: 将模型深度从10L-10L扩展到100L-100L，在IWSLT-14数据集上训练8000步。
- 实验结果: DEEPNET在所有深度下都保持稳定并快速收敛，性能随深度增加而提升。许多基线模型在早期训练阶段就发散了（见图6）。
  
  图6: 在IWSLT-14 De-En测试集上，不同深度模型（10L-10L到100L-100L）的BLEU分数。
对大超参数的鲁棒性 (WMT-17 En-De):
- 实验内容: 在18L-18L的DEEPNET上，分别增大学习率、批量大小和隐藏层维度。
- 实验结果: DEEPNET在所有最大设置下都能稳定训练，并从更大的设置中受益，实现了更快的收敛和更低的验证损失（见图7）。
  
  图7: 在WMT-17 En-De验证集上，18L-18L DEEPNET在不同学习率、批量大小和隐藏维度下的损失曲线。

2. 大规模多语言神经机器翻译

深度扩展至1000层 (OPUS-100):
- 实验内容: 在OPUS-100数据集上训练1000层（500L-500L）的DEEPNET模型。
- 实验结果: 1000层的DEEPNET成功训练，平均BLEU比48层的基线模型高4.4分，证明了深度扩展对多语言NMT的显著益处（见表2）。
  
  表2: DEEPNET和基线模型在OPUS-100测试集上的平均BLEU分数。
深度的缩放定律:
- 实验内容: 在OPUS-100上训练不同深度（12, 20, 100, 200, 1000层）的DEEPNET。
- 实验结果: 观察到多语言NMT的BLEU分数随深度呈对数增长，其缩放定律可表示为 $BLEU(d) = A \cdot log(d) + B$（见图8）。
  
  图8: DEEPNET在OPUS-100 En-X和X-En测试集上随深度变化的平均BLEU分数。
与SOTA多语言模型的比较 (大规模数据):
- 实验内容: 在一个包含102种语言、120亿句对的数据集上，训练一个200层、32亿参数的DEEPNET，并与SOTA模型M2M-100（48层，120亿参数）在多个测试集上进行比较。
- 实验结果: 在WMT, OPUS, TED, Flores等所有评估数据集上，参数量更少的DEEPNET显著优于M2M-100。例如，在包含7482个翻译方向的Flores子集上，DEEPNET的平均BLEU分数为26.4，比M2M-100的21.4高出5分（见表3）。这表明加深模型是提升NMT质量的非常有前景的方向。
  
  表3: DEEPNET和M2M-100在不同评估集上的BLEU分数。

A5 结论

本文通过提出名为DEEPNET的新架构和DEEPNORM的新归一化函数，提升了Transformer的训练稳定性，并成功将其扩展至1000层。DEEPNORM通过理论证明可以稳定优化过程，将模型更新限制在一个常数上界内。实验结果在多个基准测试中验证了该方法的有效性，尤其是在大规模多语言机器翻译任务上，一个更深但参数更少的DEEPNET模型显著超越了现有的SOTA模型。未来的工作将把DEEPNET扩展到更多样化的任务，如语言模型预训练、蛋白质结构预测和视觉预训练等。

A6 附录

A. 主要定理证明

A.1 定理4.1的证明

引理 A.1: 给定 $X = (x_1, x_2, ..., x_n)^T \in R^{n \times d}$，其中 $var(x_i) = 1, mean(x_i) = 0$ 且对所有 $i \in [1, n]$ 有 $q_i \in R$，则满足：

其中 $\Theta=$ 表示量级界限相等。
证明: 输出中 $x_i$ 的权重 $s_i$ 由softmax计算得出，即 $s_i = \frac{e^{q_i}}{\sum_{j=1}^n e^{q_j}}$，且 $\sum_{i=1}^n s_i = 1$。因此，输出可以写成 $\sum_{i=1}^n s_i x_i$。由于 $var(x_i) = 1, mean(x_i) = 0$，我们有 $||x_i|| = \sqrt{d}$。因此，$||\text{softmax}(q_1, ..., q_n)X|| \le ||x_i|| = \sqrt{d}$，这等价于 $\text{softmax}(q_1, ..., q_n)X \Theta= x_i$。

A.2 定理4.2的证明

定理 A.2: 给定一个N层DEEPNET $F(x, \theta)$（$\theta = \{\theta_1, ..., \theta_{2N}\}$），其中 $\theta_{2l-1}$ 和 $\theta_{2l}$ 分别代表第 $l$ 层的自注意力和FFN的参数，每个子层都使用DEEPNORM进行归一化：$x_{l+1} = LN(\alpha x_l + G_l(x_l, \theta_l))$，则模型更新 $||\Delta F||$ 满足：

证明: 仿照Zhang等人【【47，Fixup initialization: Residual learning without normalization by Zhang et al., 2019b, ICLR】】的工作，为简化推导做出以下假设：1. 隐藏维度 $d=1$。2. 输入 $x$ 的方差为1，均值为0。3. 所有权重 $v, w$ 均为小于1的正数，$\alpha, \beta$ 均为大于1的正数。基于这些假设，自注意力和FFN的输出量级均为 $G(x) \Theta= vwx$。因此，层归一化后的输出 $x_{l+1}$ 的表达式为：

由此可得导数 $\frac{\partial f_l}{\partial x}$ 和 $\frac{\partial f_l}{\partial \theta}$ 的界：

模型更新 $||\Delta F||$ 满足：

使用泰勒展开，我们得到：

最终推导出：

对于标准Post-LN，$\alpha=v_i=w_i=1$，因此 $||\Delta F|| = O(\sum_{i=1}^{2N} ||\theta_i^* - \theta_i||)$。

A.3 定理4.3的证明

定理 A.3: 给定一个编码器-解码器DEEPNET $F_{ed}(x, y, \theta_e, \theta_d)$，其模型更新 $||\Delta F_{ed}||$ 满足：

证明: 自注意力和FFN层的推导已在附录A.2中给出。对于交叉注意力层，我们有：

由此可得导数的界：

通过泰勒展开，估计第 $l$ 个交叉注意力层的更新 $||y_{l+1}^* - y_{l+1}||$ 为：

根据定理4.2，我们有 $||x_{2N+1}^* - x_{2N+1}|| = O(\sum_{i=1}^{2N} \frac{\sqrt{v_{ei}^2 + w_{ei}^2}}{\alpha_e} ||\theta_{ei}^* - \theta_{ei}||)$。因此，$||\Delta F_{ed}||$ 的量级满足：

对于标准Post-LN，所有参数均为1，其模型更新 $||\Delta F_{ed}|| = O(M \sum_{i=1}^{2N} ||\theta_{ei}^* - \theta_{ei}|| + \sum_{j=1}^{3M} ||\theta_{dj}^* - \theta_{dj}||)$。

B. 编码器-解码器架构的推导

本节给出N层编码器和M层解码器架构的DEEPNET参数推导。如4.3节所述，我们已设 $v_d=w_d=(12M)^{-1/4}$ 和 $\alpha_d=(3M)^{1/4}$ 来将定理4.3中的第二项约束为 $\Theta(\eta)$。对于第一项，设 $v_{ei}=v_e, w_{ei}=w_e$，则该项变为：

为了将此项约束为 $\Theta(\eta)$，我们需要 $(v_e^2+w_e^2) \frac{M}{\alpha_d} (\frac{\sqrt{v_e^2+w_e^2}}{\alpha_e})^{2N-1} = 1$。本文采用 $\alpha_e^2 = (\frac{N^4M}{27})^{1/8}$，$v_e^2+w_e^2 = (\frac{N^4M}{27})^{-1/8}$ 且 $v_e = w_e = \beta_e$ 来满足该条件，即 $\alpha_e = 0.81(N^4M)^{1/16}$，$\beta_e = 0.87(N^4M)^{-1/16}$。

C. 仅编码器（或解码器）架构的推导

对于N层的DEEPNET，从定理4.2出发：

假设 $||\frac{\partial L}{\partial F}||=O(1)$ 和 $||\frac{\partial F}{\partial \theta_i}|| \le ||\frac{\partial F}{\partial \theta_{2N}}|| \Theta= ||\theta_{2N}||$，我们得到：

为使该项为 $\Theta(\eta)$，我们需要 $2N \frac{v^2+w^2}{\alpha^2} = 1$。本文采用 $v=w=(8N)^{-1/4}$ 和 $\alpha=(2N)^{1/4}$ 来满足此条件。

D. 实验细节

D.1 IWSLT-14 De-En 超参数

表4: IWSLT-14 De-En数据集上机器翻译实验的超参数。

D.2 WMT-17 En-De 超参数

表5: WMT-17 En-De数据集上基础设置实验的超参数。

表6: WMT-17 En-De数据集上大型设置实验的超参数。

D.3 OPUS-100 超参数

表7: OPUS-100数据集上机器翻译实验的超参数。

D.4 102种语言机器翻译超参数

表8: 102种语言数据集上机器翻译实验的超参数。

D.5 评估细节
- 对于IWSLT-14和WMT-17，使用Fairseq内置的BLEU脚本。
- 对于OPUS-100，使用sacreBLEU【【30，A call for clarity in reporting BLEU scores by Post, 2018, WMT】】报告区分大小写的去token化BLEU分数。
- 对于WMT, OPUS和TED，使用与M2M【【16，Beyond english-centric multilingual machine translation by Fan et al., 2021, JMLR】】相同的测试集和评估脚本，M2M的结果直接引用自其论文。
- 对于Flores-101评估集，使用公开的checkpoint和脚本报告了M2M-12B的spBLEU分数。

E. 第6节的实验结果

图9: 12B参数的M2M-100在FLORES-101 devtest子集上的评估结果。第i行为源语言，第j列为目标语言。共87种语言，7482个翻译方向。

图10: 3.2B参数的DEEPNET在FLORES-101 devtest子集上的评估结果。第i行为源语言，第j列为目标语言。共87种语言，7482个翻译方向。

PaperCache

DeepNet: Scaling Transformers to 1,000 Layers

DeepNet: Scaling Transformers to 1,000 Layers

A1 主要贡献

A3 背景知识/关键Observation/设计原则