DeepNet: Scaling Transformers to 1,000 Layers

  • 文章标题: DeepNet: Scaling Transformers to 1,000 Layers
  • 作者/机构: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Furu Wei / Microsoft Research

A1 主要贡献

核心问题:尽管Transformer模型参数量已达万亿级别,但其深度受限于训练不稳定性,通常不超过数百层。现有的稳定化方法,如Pre-LN,虽然提高了稳定性,但相比Post-LN性能有所下降。

研究目标:本文旨在提升Transformer的训练稳定性,并将其模型深度扩展几个数量级,目标是成功训练千层以上的Transformer模型。

创新点
1. 识别不稳定的根源:通过实验分析,论文指出模型更新(model update)的爆炸是导致训练不稳定的根本原因,而非之前普遍认为的梯度爆炸。
2. 提出DEEPNORM:为解决模型更新爆炸问题,本文提出了一种新的归一化函数DEEPNORM,用于修改Transformer中的残差连接。DEEPNORM通过在执行层归一化前放大残差连接,并相应地在初始化时缩小参数,来稳定训练过程。
3. 提供理论证明:论文从理论上推导并证明了使用DEEPNORM后,模型的更新量可以被一个常数所约束,从而保证了优化的稳定性。
4. 成功扩展模型深度:采用DEEPNET架构(即使用DEEPNORM的Transformer),研究者成功将Transformer模型扩展至1000层(包含2500个自注意力和前馈网络子层),比以往的深度Transformer深一个数量级。
5. 验证卓越性能:在包含7482个翻译方向的大规模多语言机器翻译基准测试上,一个200层、32亿参数的DEEPNET模型,其性能比一个48层、120亿参数的SOTA模型高出5个BLEU点,证明了深度扩展是一个极具潜力的性能提升方向。


图1: SOTA自然语言处理模型中Transformer深度的历时趋势。

A3 背景知识/关键Observation/设计原则

研究不稳定性根源的起点:本文的分析始于一个观察:更好的初始化方法能够稳定Transformer的训练。这一点已被先前的工作【【20,Improving transformer optimization through better initialization by Huang et al., 2020, ICML】, 【44,Optimizing deeper transformers on small datasets by Xu et al., 2021, ACL/IJCNLP】, 【45a,Improving deep transformer with depth-scaled initialization and merged attention by Zhang et al., 2019a, EMNLP-IJCNLP】】所证实。因此,本文研究了使用或不使用恰当初始化的Post-LN模型的训练过程。为了进行对比,本文设计了一种名为Post-LN-init的模型,它在Xavier初始化后,通过一个因子 $k_l = \sqrt{N - l + 1}$ 来缩减第 $l$ 层的权重,其中 $l \in [1, N]$。例如,第 $l$ 层FFN的输出投影矩阵 $W_{lo}$ 初始化如下:

公式
公式

其中 $d_0$ 是输入和输出维度的平均值。这种设计与先前工作【【45a,Improving deep transformer with depth-scaled initialization and merged attention by Zhang et al., 2019a, EMNLP-IJCNLP】】不同,它缩减的是底层而非高层的权重,旨在将梯度尺度的影响与模型更新分离开。同时,Post-LN-init与Post-LN架构相同,排除了架构差异带来的影响。

模型更新而非梯度是稳定性的关键:本文在IWSLT-14 De-En机器翻译数据集上训练了18L-18L的Post-LN和Post-LN-init模型。实验结果显示Post-LN-init能够收敛而Post-LN不能。有趣的是,尽管Post-LN-init的权重被缩小,其最后几层的梯度范数反而比Post-LN更大。此外,通过改变模型深度(从6L-6L到24L-24L),发现在不同深度下,Post-LN-init在最后一层的梯度范数始终远大于Post-LN。这些现象(如图3所示)表明,深层中的梯度爆炸并非Post-LN不稳定的根本原因,而模型更新的规模更有可能是问题的关键。


图3: (a) 18L-18L模型顶层的梯度范数。(b) 不同深度(从6L-6L到24L-24L)模型最后一层的梯度范数。(c) 18L-18L模型的验证损失曲线。

不稳定性问题的连锁反应:本文进一步论证了Post-LN的不稳定性源于一系列连锁问题,包括梯度消失和过大的模型更新。首先,通过可视化训练早期的模型更新范数 $||\Delta F||$(定义为 $||F(x, \theta_{i+1}) - F(x, \theta_i)||$),发现Post-LN在训练开始时经历了剧烈的更新爆炸,随后更新几乎停滞,表明模型陷入了虚假的局部最优。Warm-up和更好的初始化能缓解此问题。当更新爆炸时,LayerNorm(LN)的输入会变得非常大。根据Xiong等人【【42,On layer normalization in the transformer architecture by Xiong et al., 2020, ICML】】的理论分析,通过LN的梯度大小与其输入的幅度成反比,即 $ \frac{\partial LN(x)}{\partial x} \approx \frac{\sqrt{d}}{||x||_2} $。如图4所示,在没有warm-up或良好初始化的情况下,$||x||$ 远大于模型维度 $d$($d=512$),这解释了Post-LN训练中出现的梯度消失问题。总结来说,不稳定性始于训练初期的大幅模型更新,这使模型陷入不良的局部最优点,进而增大了LN层的输入幅度。随着训练进行,通过LN的梯度变得越来越小,导致严重的梯度消失,使模型难以逃离局部最优,最终破坏了优化过程。相比之下,Post-LN-init的模型更新相对较小,LN的输入也保持稳定,从而缓解了梯度消失问题,使优化更加稳定。


图4: 训练早期18L-18L模型的模型更新、LN平均输入和梯度的可视化。

A2 方法细节

1. 实践者指南 (TL;DR for Practitioners)

DEEPNORM的简易实现:如图2所示,在Post-LN Transformer的基础上实现本文方法非常简单。与Post-LN相比,DEEPNORM在执行层归一化之前对残差连接进行放大(up-scale)。此外,在初始化阶段对参数进行缩小(down-scale)。值得注意的是,只对前馈网络的权重、以及注意力层的值投影(value projection)和输出投影(output projection)进行缩放。残差连接和初始化的缩放比例依赖于具体的模型架构(如图2b所示)。


图2: (a) DEEPNORM的伪代码。以Xavier初始化【【17,Understanding the difficulty of training deep feedforward neural networks by Glorot and Bengio, 2010, AISTATS】】为例,它可以被替换为其他标准初始化方法。注意 $\alpha$ 是一个常数。(b) 针对不同架构(N层编码器,M层解码器)的DEEPNORM参数。

2. DEEPNET架构

DEEPNET架构概述:DEEPNET基于Transformer架构,但每个子层使用新提出的DEEPNORM代替了Post-LN。DEEPNORM的公式可以写作:

公式
公式

其中 $\alpha$ 是一个常数,$G_l(x_l, \theta_l)$ 是第 $l$ 个Transformer子层(即注意力或前馈网络)的函数,其参数为 $\theta_l$。此外,DEEPNET通过一个因子 $\beta$ 来缩放残差分支内部的权重 $\theta_l$。值得注意的是,$\alpha$ 和 $\beta$ 都是仅依赖于模型架构的常数,其推导过程在4.3节中提供。

3. 模型更新的期望量级

注意力模块的量级分析:为分析模型更新的量级,首先研究注意力模块。以单头注意力为例,其公式为:

公式
公式

其中 $Q, K, V$ 分别为query, key, value,$W^Q, W^K, W^V$ 为输入投影矩阵,$W^O$ 为输出投影矩阵。引理4.1证明了 $W^Q$ 和 $W^K$ 不会改变注意力输出量级的界限。
引理 4.1: 给定 $X = (x_1, x_2, ..., x_n)^T \in R^{n \times d}$,其中 $var(x_i) = 1, mean(x_i) = 0$ 且对所有 $i \in [1, n]$ 有 $q_i \in R$,则满足:
公式
公式

其中 $\Theta=$ 表示量级界限相等。换言之,注意力输出的量级仅依赖于值(value)和输出投影:$Attn(Q, K, V) \Theta= V W^V W^O$。为了简化分析,本文将隐藏维度设为1,从而将矩阵 $W^V, W^O$ 简化为标量 $v, w$,即 $Attn(Q, K, V) \Theta= vwV$。类似地,前馈网络可简化为 $FFN(X) \Theta= vwX$。

N层DEEPNET模型更新量级的定理:基于上述分析,定义模型更新为 $||\Delta F|| = ||F(x, \theta^*) - F(x, \theta)||$。对于一个包含N个自注意力和N个FFN的N层DEEPNET,其模型更新量级的定理如下:
定理 4.2: 给定一个N层DEEPNET $F(x, \theta)$($\theta = \{\theta_1, ..., \theta_{2N}\}$),其中 $\theta_{2l-1}$ 和 $\theta_{2l}$ 分别代表第 $l$ 层的自注意力和FFN的参数,每个子层都使用DEEPNORM进行归一化:$x_{l+1} = LN(\alpha x_l + G_l(x_l, \theta_l))$,则模型更新 $||\Delta F||$ 满足:

公式
公式

对Post-LN及稳定化方法的解释:标准的Post-LN可视为DEEPNET的一个特例,其中 $\alpha=1$,并且在Xavier初始化【【17,Understanding the difficulty of training deep feedforward neural networks by Glorot and Bengio, 2010, AISTATS】】下 $v_l=w_l=1$。根据定理4.2,标准Post-LN的更新量级为 $||\Delta F|| = O(\sum_{i=1}^{2N} ||\theta_i^* - \theta_i||)$。这表明模型在训练初期倾向于累积更新,解释了第3节中观察到的更新爆炸现象。同时,该定理也解释了为何warm-up和更小的初始化能稳定Post-LN的训练:warm-up通过减小 $||\theta_i^* - \theta_i||$ 来降低模型更新的量级,而更小的初始化则降低了 $\sqrt{v_i^2 + w_i^2}$ 的值。

编码器-解码器模型的更新量级:本文进一步研究了包含N层编码器和M层解码器的DEEPNET模型,记为 $F_{ed}(x, y, \theta_e, \theta_d)$。其中 $x, y$ 分别是编码器和解码器的输入,$\theta_e$ 与定理4.2中的 $\theta$ 定义相同,$\theta_d = \{\theta_{d1}, ..., \theta_{d,3M}\}$ 代表解码器中自注意力、交叉注意力和FFN的参数。编码器和解码器分别使用参数 $\{\alpha_e, G_{el}\}$ 和 $\{\alpha_d, G_{dl}\}$。

编码器-解码器模型更新量级的定理:对于上述模型,其更新量级 $||\Delta F_{ed}|| = ||F_{ed}(x, y, \theta_e^*, \theta_d^*) - F_{ed}(x, y, \theta_e, \theta_d)||$ 由以下定理描述:
定理 4.3: 给定一个N层编码器和M层解码器的DEEPNET $F_{ed}(x, y, \theta_e, \theta_d)$,其中每个编码器子层归一化为 $x_{l+1} = LN(\alpha_e x_l + G_{el}(x_l, \theta_{el}))$,解码器子层归一化为 $x_{l+1} = LN(\alpha_d x_l + G_{dl}(x_l, \theta_{dl}))$,则 $||\Delta F_{ed}||$ 满足:

公式
公式

对标准编码器-解码器模型的分析:对于标准的编码器-解码器模型,所有的 $\{\alpha_e, \alpha_d, v_{ei}, w_{ei}, v_{di}, w_{di}\}$ 都等于1。因此,其更新量级为 $||\Delta F_{ed}|| = O(M \sum_{i=1}^{2N} ||\theta_{ei}^* - \theta_{ei}|| + \sum_{j=1}^{3M} ||\theta_{dj}^* - \theta_{dj}||)$。这表明更新会累积,与图5中的观察一致。此外,交叉注意力将编码器的更新量级传播到解码器,这解释了为什么解码器比编码器更不稳定【【27,Understanding the difficulty of training transformers by Liu et al., 2020, EMNLP】】。


图5: 训练初期,标准Post-LN和DEEPNET的模型更新。该可视化在深度从6L-6L到100L-100L的64-128-2微型Transformer上进行。结果显示DEEPNET的更新比Post-LN小得多且更稳定。

4. DEEPNORM和初始化的推导

推导目标:本节展示了通过设定合适的参数 $\alpha$ 和 $\beta$,DEEPNET的期望模型更新可以被一个常数所约束。分析基于SGD更新,并凭经验验证了它对Adam优化器【【24,Adam: A method for stochastic optimization by Kingma and Ba, 2015, ICLR】】也有效。分析以编码器-解码器架构为例,可以自然地推广到仅编码器和仅解码器模型。类似于Zhang等人【【47,Fixup initialization: Residual learning without normalization by Zhang et al., 2019b, ICLR】】的工作,本文设定了模型更新的目标:
目标: 在初始化后,当学习率 $\eta \to 0$ 时,模型 $F_{ed}(x, y, \theta_e, \theta_d)$ 的每一步SGD更新量级为 $\Theta(\eta)$。即 $||\Delta F_{ed}|| = \Theta(\eta)$,其中 $\Delta F_{ed} \triangleq F_{ed}(x, y, \theta_e - \eta \frac{\partial L}{\partial \theta_e}, \theta_d - \eta \frac{\partial L}{\partial \theta_d}) - F_{ed}(x, y, \theta_e, \theta_d)$。

解码器参数的推导:对于SGD优化器,每个解码器层的更新 $||\theta_{di}^* - \theta_{di}||$ 等于 $\eta||\frac{\partial L}{\partial \theta_{di}}||$。根据Xiong等人【【42,On layer normalization in the transformer architecture by Xiong et al., 2020, ICML】】的分析,可以假设 $||\frac{\partial F}{\partial \theta_{dj}}|| \leq ||\frac{\partial F}{\partial \theta_{d,3M}}||$。结合 $||\frac{\partial F}{\partial \theta_{d,3M}}|| \Theta= ||\theta_{d,3M}||$ 以及假设 $||\frac{\partial L}{\partial F}|| = O(1)$,定理4.3公式中的第二项可以被界定为:

公式
公式

平衡残差连接与初始化:为了将上式(公式2)界定为 $\Theta(\eta)$,有多种方案。为了平衡残差连接和初始化的影响,本文设定 $\alpha_d^2 = \frac{1}{\sqrt{3M}}$,并且 $v_d^2 + w_d^2 = \frac{1}{\sqrt{3M}}$。由于对称性,设 $v_d = w_d = \beta_d$,因此得到 $\alpha_d = (3M)^{-1/4}$,$\beta_d = (12M)^{-1/4}$。类似地,为了界定定理4.3公式中的第一项,设定 $v_e = w_e = \beta_e = 0.87(N^4M)^{-1/16}$ 和 $\alpha_e = 0.81(N^4M)^{1/16}$。详细推导见附录B。

与Post-LN的比较:在IWSLT-14 De-En翻译数据集上,本文可视化了DEEPNET在训练早期的模型更新。如图5所示,DEEPNET的模型更新几乎是恒定的,而Post-LN的模型更新则呈爆炸式增长。

编码器-解码器架构的实现总结
1. 对每个编码器和解码器层应用标准初始化(例如,Xavier初始化)。
2. 对于编码器层,将前馈网络以及注意力层的值投影和输出投影的权重乘以 $0.87(N^4M)^{-1/16}$,并将残差连接的权重设为 $0.81(N^4M)^{1/16}$。
3. 对于解码器层,将前馈网络以及注意力层的值投影和输出投影的权重乘以 $(12M)^{-1/4}$,并将残差连接的权重设为 $(3M)^{1/4}$。

仅编码器(或仅解码器)架构的实现总结:该方法的推导过程可以同样应用于仅编码器(如BERT)和仅解码器(如GPT)的架构(详见附录C)。步骤总结如下:
1. 对每一层应用标准初始化(例如,Xavier初始化)。
2. 对于每一层,将前馈网络以及注意力层的值投影和输出投影的权重乘以 $(8N)^{-1/4}$(对于解码器是 $(8M)^{-1/4}$),并将残差连接的权重设为 $(2N)^{1/4}$(对于解码器是 $(2M)^{1/4}$)。

A4 实验环境

  • 数据集:
    • IWSLT-14 German-English (De-En): 用于验证不同深度模型的收敛性。
    • WMT-17 English-German (En-De): 用于与SOTA深度Transformer模型进行比较。
    • OPUS-100: 一个覆盖100种语言的以英语为中心的多语言语料库,用于大规模多语言翻译实验。
    • 大规模多语言数据集: 结合了CCMatrix, CCAligned, OPUS和Tatoeba的数据,覆盖102种语言,1932个翻译方向,共120亿句对。
  • 模型架构:
    • 双语翻译 (WMT-17): 模型深度从18L-18L到100L-100L不等,基础模型参数为 hidden size 512, FFN dim 2048, 8 heads。
    • 多语言翻译 (OPUS-100): 模型深度从12层到1000层。1000层模型为500L-500L,hidden size 512, FFN dim 2048, 8 heads。
    • 大规模多语言翻译: 100L-100L DEEPNET,hidden size 1024, FFN dim 4096, 16 heads,总参数量32亿。对比模型为M2M-100 (24L-24L, 4096 hidden size, 120亿参数)。
  • 硬件配置: 论文未明确提及具体的GPU型号,但实验在支持混合精度训练的硬件上进行。
  • 软件配置:
    • 基于Fairseq框架实现。
    • 使用Adam优化器。
    • 大部分实验采用混合精度训练。
    • 评估脚本:Fairseq内置BLEU脚本,sacreBLEU,以及M2M-100使用的评估脚本。

A4 实验结果

1. 神经机器翻译 (NMT)

  • 与SOTA模型的比较 (WMT-17 En-De):
    • 实验内容: 在WMT-17 En-De数据集上比较DEEPNET与多种SOTA深度Transformer模型(如DLCL, NormFormer, ReZero, T-Fixup等)。
    • 实验结果:
      • DEEPNET比Post-LN模型更稳定,成功扩展到100L-100L,BLEU达到28.9。而Post-LN基线在50L-50L时已不稳定(见表1)。
      • DEEPNET性能优于No-LN(如R-Fixup, T-Fixup)和Pre-LN(如vanilla Pre-LN, DLCL)的基线模型(见表1)。
      • Pre-LN模型虽然稳定,但性能相比收敛的Post-LN模型有0.5-1.0 BLEU的下降。DEEPNET结合了Post-LN的性能和Pre-LN的稳定性。

        表1: 在WMT-17 En-De测试集上,不同深度模型的BLEU分数。AL-BL指A层编码器和B层解码器。
  • 不同深度的收敛性 (IWSLT-14 De-En):
    • 实验内容: 将模型深度从10L-10L扩展到100L-100L,在IWSLT-14数据集上训练8000步。
    • 实验结果: DEEPNET在所有深度下都保持稳定并快速收敛,性能随深度增加而提升。许多基线模型在早期训练阶段就发散了(见图6)。

      图6: 在IWSLT-14 De-En测试集上,不同深度模型(10L-10L到100L-100L)的BLEU分数。
  • 对大超参数的鲁棒性 (WMT-17 En-De):
    • 实验内容: 在18L-18L的DEEPNET上,分别增大学习率、批量大小和隐藏层维度。
    • 实验结果: DEEPNET在所有最大设置下都能稳定训练,并从更大的设置中受益,实现了更快的收敛和更低的验证损失(见图7)。

      图7: 在WMT-17 En-De验证集上,18L-18L DEEPNET在不同学习率、批量大小和隐藏维度下的损失曲线。

2. 大规模多语言神经机器翻译

  • 深度扩展至1000层 (OPUS-100):
    • 实验内容: 在OPUS-100数据集上训练1000层(500L-500L)的DEEPNET模型。
    • 实验结果: 1000层的DEEPNET成功训练,平均BLEU比48层的基线模型高4.4分,证明了深度扩展对多语言NMT的显著益处(见表2)。

      表2: DEEPNET和基线模型在OPUS-100测试集上的平均BLEU分数。
  • 深度的缩放定律:
    • 实验内容: 在OPUS-100上训练不同深度(12, 20, 100, 200, 1000层)的DEEPNET。
    • 实验结果: 观察到多语言NMT的BLEU分数随深度呈对数增长,其缩放定律可表示为 $BLEU(d) = A \cdot log(d) + B$(见图8)。

      图8: DEEPNET在OPUS-100 En-X和X-En测试集上随深度变化的平均BLEU分数。
  • 与SOTA多语言模型的比较 (大规模数据):
    • 实验内容: 在一个包含102种语言、120亿句对的数据集上,训练一个200层、32亿参数的DEEPNET,并与SOTA模型M2M-100(48层,120亿参数)在多个测试集上进行比较。
    • 实验结果: 在WMT, OPUS, TED, Flores等所有评估数据集上,参数量更少的DEEPNET显著优于M2M-100。例如,在包含7482个翻译方向的Flores子集上,DEEPNET的平均BLEU分数为26.4,比M2M-100的21.4高出5分(见表3)。这表明加深模型是提升NMT质量的非常有前景的方向。

      表3: DEEPNET和M2M-100在不同评估集上的BLEU分数。

A5 结论

本文通过提出名为DEEPNET的新架构和DEEPNORM的新归一化函数,提升了Transformer的训练稳定性,并成功将其扩展至1000层。DEEPNORM通过理论证明可以稳定优化过程,将模型更新限制在一个常数上界内。实验结果在多个基准测试中验证了该方法的有效性,尤其是在大规模多语言机器翻译任务上,一个更深但参数更少的DEEPNET模型显著超越了现有的SOTA模型。未来的工作将把DEEPNET扩展到更多样化的任务,如语言模型预训练、蛋白质结构预测和视觉预训练等。

A6 附录

A. 主要定理证明

A.1 定理4.1的证明

引理 A.1: 给定 $X = (x_1, x_2, ..., x_n)^T \in R^{n \times d}$,其中 $var(x_i) = 1, mean(x_i) = 0$ 且对所有 $i \in [1, n]$ 有 $q_i \in R$,则满足:

公式
公式

其中 $\Theta=$ 表示量级界限相等。
证明: 输出中 $x_i$ 的权重 $s_i$ 由softmax计算得出,即 $s_i = \frac{e^{q_i}}{\sum_{j=1}^n e^{q_j}}$,且 $\sum_{i=1}^n s_i = 1$。因此,输出可以写成 $\sum_{i=1}^n s_i x_i$。由于 $var(x_i) = 1, mean(x_i) = 0$,我们有 $||x_i|| = \sqrt{d}$。因此,$||\text{softmax}(q_1, ..., q_n)X|| \le ||x_i|| = \sqrt{d}$,这等价于 $\text{softmax}(q_1, ..., q_n)X \Theta= x_i$。

A.2 定理4.2的证明

定理 A.2: 给定一个N层DEEPNET $F(x, \theta)$($\theta = \{\theta_1, ..., \theta_{2N}\}$),其中 $\theta_{2l-1}$ 和 $\theta_{2l}$ 分别代表第 $l$ 层的自注意力和FFN的参数,每个子层都使用DEEPNORM进行归一化:$x_{l+1} = LN(\alpha x_l + G_l(x_l, \theta_l))$,则模型更新 $||\Delta F||$ 满足:

公式
公式

证明: 仿照Zhang等人【【47,Fixup initialization: Residual learning without normalization by Zhang et al., 2019b, ICLR】】的工作,为简化推导做出以下假设:1. 隐藏维度 $d=1$。2. 输入 $x$ 的方差为1,均值为0。3. 所有权重 $v, w$ 均为小于1的正数,$\alpha, \beta$ 均为大于1的正数。基于这些假设,自注意力和FFN的输出量级均为 $G(x) \Theta= vwx$。因此,层归一化后的输出 $x_{l+1}$ 的表达式为:
公式
公式

由此可得导数 $\frac{\partial f_l}{\partial x}$ 和 $\frac{\partial f_l}{\partial \theta}$ 的界:
公式
公式

模型更新 $||\Delta F||$ 满足:
公式
公式

使用泰勒展开,我们得到:
公式
公式

最终推导出:
公式
公式

对于标准Post-LN,$\alpha=v_i=w_i=1$,因此 $||\Delta F|| = O(\sum_{i=1}^{2N} ||\theta_i^* - \theta_i||)$。

A.3 定理4.3的证明

定理 A.3: 给定一个编码器-解码器DEEPNET $F_{ed}(x, y, \theta_e, \theta_d)$,其模型更新 $||\Delta F_{ed}||$ 满足:

公式
公式

证明: 自注意力和FFN层的推导已在附录A.2中给出。对于交叉注意力层,我们有:
公式
公式

由此可得导数的界:
公式
公式

公式
公式

通过泰勒展开,估计第 $l$ 个交叉注意力层的更新 $||y_{l+1}^* - y_{l+1}||$ 为:
公式
公式

根据定理4.2,我们有 $||x_{2N+1}^* - x_{2N+1}|| = O(\sum_{i=1}^{2N} \frac{\sqrt{v_{ei}^2 + w_{ei}^2}}{\alpha_e} ||\theta_{ei}^* - \theta_{ei}||)$。因此,$||\Delta F_{ed}||$ 的量级满足:
公式
公式

对于标准Post-LN,所有参数均为1,其模型更新 $||\Delta F_{ed}|| = O(M \sum_{i=1}^{2N} ||\theta_{ei}^* - \theta_{ei}|| + \sum_{j=1}^{3M} ||\theta_{dj}^* - \theta_{dj}||)$。

B. 编码器-解码器架构的推导

本节给出N层编码器和M层解码器架构的DEEPNET参数推导。如4.3节所述,我们已设 $v_d=w_d=(12M)^{-1/4}$ 和 $\alpha_d=(3M)^{1/4}$ 来将定理4.3中的第二项约束为 $\Theta(\eta)$。对于第一项,设 $v_{ei}=v_e, w_{ei}=w_e$,则该项变为:

公式
公式

为了将此项约束为 $\Theta(\eta)$,我们需要 $(v_e^2+w_e^2) \frac{M}{\alpha_d} (\frac{\sqrt{v_e^2+w_e^2}}{\alpha_e})^{2N-1} = 1$。本文采用 $\alpha_e^2 = (\frac{N^4M}{27})^{1/8}$,$v_e^2+w_e^2 = (\frac{N^4M}{27})^{-1/8}$ 且 $v_e = w_e = \beta_e$ 来满足该条件,即 $\alpha_e = 0.81(N^4M)^{1/16}$,$\beta_e = 0.87(N^4M)^{-1/16}$。

C. 仅编码器(或解码器)架构的推导

对于N层的DEEPNET,从定理4.2出发:

公式
公式

假设 $||\frac{\partial L}{\partial F}||=O(1)$ 和 $||\frac{\partial F}{\partial \theta_i}|| \le ||\frac{\partial F}{\partial \theta_{2N}}|| \Theta= ||\theta_{2N}||$,我们得到:
公式
公式

为使该项为 $\Theta(\eta)$,我们需要 $2N \frac{v^2+w^2}{\alpha^2} = 1$。本文采用 $v=w=(8N)^{-1/4}$ 和 $\alpha=(2N)^{1/4}$ 来满足此条件。

D. 实验细节

D.1 IWSLT-14 De-En 超参数


表4: IWSLT-14 De-En数据集上机器翻译实验的超参数。

D.2 WMT-17 En-De 超参数


表5: WMT-17 En-De数据集上基础设置实验的超参数。


表6: WMT-17 En-De数据集上大型设置实验的超参数。

D.3 OPUS-100 超参数


表7: OPUS-100数据集上机器翻译实验的超参数。

D.4 102种语言机器翻译超参数


表8: 102种语言数据集上机器翻译实验的超参数。

D.5 评估细节
- 对于IWSLT-14和WMT-17,使用Fairseq内置的BLEU脚本。
- 对于OPUS-100,使用sacreBLEU【【30,A call for clarity in reporting BLEU scores by Post, 2018, WMT】】报告区分大小写的去token化BLEU分数。
- 对于WMT, OPUS和TED,使用与M2M【【16,Beyond english-centric multilingual machine translation by Fan et al., 2021, JMLR】】相同的测试集和评估脚本,M2M的结果直接引用自其论文。
- 对于Flores-101评估集,使用公开的checkpoint和脚本报告了M2M-12B的spBLEU分数。

E. 第6节的实验结果


图9: 12B参数的M2M-100在FLORES-101 devtest子集上的评估结果。第i行为源语言,第j列为目标语言。共87种语言,7482个翻译方向。


图10: 3.2B参数的DEEPNET在FLORES-101 devtest子集上的评估结果。第i行为源语言,第j列为目标语言。共87种语言,7482个翻译方向。