GATED DELTA NETWORKS: IMPROVING MAMBA2 WITH DELTA RULE
GATED DELTA NETWORKS: IMPROVING MAMBA2 WITH DELTA RULE
作者/机构: Songlin Yang (MIT CSAIL), Jan Kautz (NVIDIA), Ali Hatamizadeh (NVIDIA)
A1 主要贡献
本文旨在解决线性Transformer在检索和长上下文任务中性能受限的问题。尽管线性Transformer作为标准Transformer的高效替代品备受关注,但其在特定任务上的表现仍有不足。
核心问题与研究目标:
* 标准Transformer的自注意力机制具有与序列长度成二次方的计算复杂度,给训练和推理带来巨大挑战。
* 线性Transformer虽然解决了效率问题,但在长序列信息管理,特别是在上下文检索任务中表现不佳,因为当序列长度超过模型维度时,会发生“记忆碰撞”。
* 现有的改进机制各有利弊:
* 门控更新规则(如 Mamba2):通过一个动态比率αt统一衰减所有键值关联,能快速擦除记忆,但无法针对性地处理不同重要性的信息,导致内存利用效率不高。
* Delta 更新规则(如 DeltaNet):能够选择性地用新信息替换旧的键值对,在合成的上下文检索基准中表现出色,但缺乏快速清除过时信息的机制,尤其是在上下文切换时,导致在真实世界任务中表现平平。
创新点与主要贡献:
本文观察到门控机制和Delta规则在内存管理上是互补的——门控能实现快速内存擦除,而Delta规则有助于精确更新。基于此,本文提出以下贡献:
1. 提出门控Delta规则 (Gated Delta Rule):将门控机制与Delta规则相结合,创建了一个统一的内存控制机制。该规则既能通过将αt设置为接近0来迅速清除内存,也能通过将αt设置为接近1来切换到纯Delta规则,实现对特定内容的选择性更新而不影响其他信息。
2. 开发硬件高效的并行训练算法:在【Yang et al., 2024b, Parallelizing linear transformers with the delta rule over sequence length. NeurIPS】提出的并行化Delta规则的高效算法(基于WY表示)基础上,本文将其扩展以支持门控项。该扩展保留了分块并行计算的优势,实现了硬件高效的训练。
3. 构建Gated DeltaNet架构:基于门控Delta规则和其高效算法,本文提出了Gated DeltaNet架构。实验证明,该架构在语言建模、常识推理、上下文检索、长度外推和长上下文理解等多个基准测试中,其性能一致优于Mamba2和DeltaNet。
4. 探索混合架构:为了进一步提升训练效率和任务性能,本文还开发了混合架构,将Gated DeltaNet层与滑动窗口注意力(SWA)或Mamba2层相结合,取得了更优异的结果。
A3 背景知识
2.1 Mamba2:带衰减的线性注意力
线性Transformer的循环公式。众所周知,线性Transformer【Katharopoulos et al., 2020b, Transformers are rnns: Fast autoregressive transformers with linear attention. ICML】在不考虑归一化和查询/键激活函数的情况下,可以表示为以下线性循环:
其中,$d_k$和$d_v$分别代表查询/键和值的(头)维度。通过展开这个循环,我们可以将其表示为向量形式(左)和矩阵形式(右):
其中,$L$是序列长度,而$M \in R^{L \times L}$是因果掩码,定义为当$i < j$时$M_{ij} = 0$,否则为1。
Mamba2的衰减机制。然而,这种原始的线性注意力在语言建模方面远逊于Transformer。为了解决这个问题,通常会增加一个衰减项来遗忘历史信息。这里以Mamba2【Dao & Gu, 2024a, Transformers are ssms: Generalized models and efficient algorithms through structured state space duality】为例,其线性循环(忽略具体参数化)可以表示为:
其中,$\alpha_t \in (0, 1)$是一个随$t$变化的数据依赖标量衰减项。定义累积衰减乘积$\gamma_j = \prod_{i=1}^{j} \alpha_i$,通过展开循环,我们可以得到向量形式(左)和矩阵并行形式(右)的结果:
这里,$\Gamma \in R^{L \times L}$是一个考虑衰减的因果掩码,其中当$i \ge j$时$\Gamma_{ij} = \frac{\gamma_i}{\gamma_j}$,否则$\Gamma_{ij} = 0$。这种并行形式和循环形式的等价性也被称为状态空间对偶性(SSD),在【Dao & Gu, 2024a】中有描述。这种循环结构也出现在其他几个架构中,包括Gated RFA【Peng et al., 2021】,xLSTM【Beck et al., 2024】和Gated RetNet【Sun et al., 2024b】。当$\gamma_t$与数据无关时,该公式简化为RetNet【Sun et al., 2023a】和Lightning-Attention【Qin et al., 2024a】。此外,如果将$\gamma_t$扩展为矩阵值而非标量值,只要通过外积结构进行参数化,仍然可以实现高效的训练算法,如【Yang et al., 2024a】所证,并被多项工作使用。
分块训练。然而,循环形式和并行形式对于高效训练都不是理想选择【Hua et al., 2022b; Yang et al., 2024a】,这推动了分块并行形式【Hua et al., 2022b; Sun et al., 2023a】的使用,以实现硬件高效的线性时间训练。分块并行形式将输入和输出分割成若干大小为$C$的块,并根据前一个块的最终状态和当前块的查询/键/值块来计算每个块的输出。我们以查询块$q$为例,记$Q[t] := q_{tC+1:(t+1)C+1}$为块$t$的查询块,$q_r[t] := q_{tC+r}$为块内第$r$个查询。块$t$的初始状态定义为$S[t] := S_0[t] = S_C[t-1]$。通过部分展开循环,我们得到:
等价地,矩阵形式为:
其中$M \in R^{C \times C}$是因果掩码。上述方程富含矩阵乘法(matmuls),允许基于张量核心进行硬件优化。
适用于Mamba2的分块算法。这个分块算法可以很容易地扩展到带衰减的线性注意力:
其中$(\Gamma[t])_{ij} = \frac{\gamma_i[t]}{\gamma_j[t]}$,且$\gamma_j[t] = \prod_{i=tC+1}^{tC+j} \alpha_i$。这里我们使用左箭头($\overleftarrow{\cdot}$)或右箭头($\overrightarrow{\cdot}$)来表示一个变量衰减到每个块的第一个位置和最后一个位置,具体定义如下:
* $\overleftarrow{\cdot}$:将每个向量衰减到块t的第一个位置。
* $\overrightarrow{\cdot}$:将每个向量衰减到块t的最后一个位置。
* $\overleftrightarrow{\cdot}$:将状态矩阵在整个块t上进行衰减。
其他变量(例如,$\overrightarrow{v}$)的定义类似。Mamba2中引入的SSD分解算法与此分块算法在很大程度上是等价的。为了更通用的方法,【Yang et al., 2024a】提出了一种扩展的分块算法,用于包含细粒度衰减机制的线性注意力。
2.2 Delta网络:带Delta规则的线性注意力
Delta更新规则。Delta更新规则【Widrow et al., 1960; Schlag et al., 2021b】会动态地擦除与当前输入键$k_t$相关联的值($v_{old_t}$),并写入一个新值($v_{new_t}$),这个新值是当前输入值和旧值基于“写入强度”$\beta_t \in (0, 1)$的线性组合。
如上所示,DeltaNet实现了一个带广义Householder转移矩阵($I - \beta_t k_t k_t^\intercal$)的一阶线性循环。尽管DeltaNet在关联回忆和语言建模方面表现出优越的性能【Schlag et al., 2021a】,但由于计算效率低下,它受到的关注有限,直到【Yang et al., 2024b, Parallelizing linear transformers with the delta rule over sequence length. NeurIPS】引入了一种硬件高效的分块训练算法。
DeltaNet的分块并行形式。通过部分展开循环,我们得到:
其中,$P_j[t]$涉及广义Householder矩阵的累积乘积,这可以通过经典的WY表示【Bischof & Loan, 1985, The WY representation for products of householder matrices. SIAM Conference on Parallel Processing for Scientific Computing】进行优化。
WY表示优化。$P_j[t]$的WY表示如下:
同样地,$H_r[t]$可以表示为:
以矩阵形式表示为:$P[t] = I - W_t^\top K[t] \in R^{d_k \times d_k}$, $H[t] = U_t^\top K[t] \in R^{d_v \times d_k}$。
UT变换和最终算法。通过使用UT变换【Joffrain et al., 2006】,我们可以进一步将$W$和$U$写成矩阵形式:
将这些代入方程3,可以得到一个硬件高效的DeltaNet分块算法,该算法利用矩阵乘法,从而实现了基于张量核心的GPU优化:
A2 方法细节
3.1 公式化:门控Delta规则
门控Delta规则公式。我们提出的门控Delta规则简单而有效:
其中,数据依赖的门控项$\alpha_t \in (0, 1)$控制状态的衰减。这个公式统一了门控机制和Delta规则的优点:门控项实现了自适应的内存管理,而Delta更新结构则促进了有效的键值关联学习。
在线学习框架分析。我们通过【Liu et al., 2024】引入的在线学习框架对门控Delta规则进行形式化分析。如表1所示,在该框架中,循环状态更新是一个在线学习问题的闭式解。近期的线性RNN架构通常在其在线学习目标中加入正则化项,以防止状态与先前值偏离过大,从而实现记忆保留。然而,当状态信息饱和时,这种保留机制会成为问题。为了解决这个限制,Mamba2和Gated DeltaNet引入了一个自适应缩放因子$\alpha_t$来放松正则化项,允许$S_t$和$S_{t-1}$之间有受控的偏差。这种修改通过选择性遗忘实现了动态内存管理,有助于过滤掉不相关的信息。
Table 1: 不同线性RNN模型及其对应在线学习目标的比较,使用【Liu et al., 2024】的框架。为方便起见,我们将Longhorn的向量值β简化为标量β。
键值关联建模优势。另一方面,线性注意力(LA)和Mamba2使用简单的负内积损失$-\langle S_t k_t, v_t \rangle$,而Longhorn【Liu et al., 2024】使用更具表达能力的在线回归目标$\|S_t k_t - v_t\|^2$来更好地建模键值关联。由此产生的Longhorn更新规则与Delta更新规则非常相似,这表明(门控)Delta规则在上下文关联回忆方面优于Mamba2。
快速权重编程视角。从快速权重编程【Irie et al., 2022a】、测试时训练【Sun et al., 2024a】和回归【Wang et al., 2025】的角度来看,隐藏状态$S$可以被解释为一个(快速)权重矩阵,Delta规则通过测试时随机梯度下降(SGD)优化在线回归目标$L(S_t) = \frac{1}{2} \|S_t k_t - v_t\|^2$:
其中$\beta_t$代表(自适应)学习率。从这个角度看,门控Delta规则可以被视为在SGD更新中加入一个自适应权重衰减项$\alpha_t$,这是深度学习中广泛使用的技术【Krogh & Hertz, 1991; Andriushchenko et al., 2023】。同期的工作Titans【Behrouz et al., 2024】也证明了在RNN测试时SGD更新中加入权重衰减机制的有效性。
3.2 案例研究:大海捞针(S-NIAH)
S-NIAH基准测试介绍。为了更好地理解Delta规则和门控规则之间的互补优势,我们对RULER【Hsieh et al., 2024】中的大海捞针(Single Needle-In-A-Haystack, S-NIAH)基准套件进行案例研究。在该任务中,一个键值对作为“针”隐藏在“干草堆”(上下文)中,模型必须在给定键时回忆出值。表2展示了1.3B参数模型的结果,我们得出三个主要观察。
Table 2: 1.3B模型在S-NIAH基准套件上的零样本性能比较(设置见§4)。
观察一:衰减损害记忆保留。在最简单的S-NIAH-1设置中(重复的合成上下文),模型记忆最少的信息,测试长期保留能力。DeltaNet在所有序列长度上都达到了近乎完美的性能。Mamba2在超过2K序列后性能显著下降,因为它过快地衰减了历史信息,而Gated DeltaNet由于使用了Delta规则,性能下降不那么严重。
观察二:门控促进过滤。在S-NIAH-2/3中(真实世界的文章上下文),模型需要存储所有可能相关的信息,测试有效的内存管理。在状态大小固定的情况下,缺乏清理机制会导致内存碰撞——信息被叠加且无法区分。DeltaNet由于内存清理能力差,在较长序列上性能显著下降。Mamba2和Gated DeltaNet通过门控机制过滤不相关信息,保持了较好的性能。
观察三:Delta规则有助于记忆。在S-NIAH-3中,值从数字变为UUID,测试复杂模式的记忆能力。Mamba2的性能迅速下降,而Gated DeltaNet表现更好,验证了Delta规则确实具有更好的记忆能力。
3.3 算法:硬件高效的分块训练
分块算法推导。在本小节中,我们为Gated DeltaNet推导出一个硬件高效的分块训练算法。通过部分展开方程10中的循环,我们得到:
扩展WY表示。很容易看出$F_r[t] = \gamma_r[t] P_r[t]$。至于$G_r[t]$,我们如下调整方程5:
(证明见附录A)。
UT变换矩阵形式。通过UT变换,我们得到矩阵形式:
最终的门控DeltaNet分块算法。类似于Mamba2扩展线性注意力(方程1)的方式,我们可以调整DeltaNet的分块算法(方程8-9)来为Gated DeltaNet实现硬件高效的训练,如下所示:
其中$\overleftarrow{q_r[t]} = \frac{1}{\gamma_r[t]}q_r[t]$,$\overleftarrow{w_r[t]} = \frac{1}{\gamma_r[t]}w_r[t]$,$\overrightarrow{k_r[t]} = \frac{\gamma_C[t]}{\gamma_r[t]}k_r[t]$,以及$\overleftrightarrow{S[t]} = \gamma_C[t]S[t]$,定义类似于方程2。
3.4 Gated DeltaNet与混合模型
Token mixer块设计。基础的Gated DeltaNet遵循Llama的宏观架构,将token mixer层与SwiGLU MLP层堆叠,但用门控Delta规则的token mixing替换了自注意力。图1(右)展示了其块设计。对于门控Delta规则(方程10),查询、键和值$\{q, k, v\}$通过线性投影、短卷积和SiLU生成,并对$q, k$应用L2归一化以保证训练稳定性。$\alpha, \beta$仅使用线性投影。遵循【Sun et al., 2023a】,输出在应用输出投影前经过归一化和门控处理。
混合模型。线性Transformer在建模局部移位和比较方面存在局限性,其固定的状态大小也使其难以应对检索任务【Arora et al., 2024a】。遵循最近的混合架构如Griffin【De et al., 2024】和Samba【Ren et al., 2024】,我们将线性循环层与滑动窗口注意力(SWA)相结合,得到了GatedDeltaNet-H1。我们还堆叠了Mamba2、GatedDeltaNet和SWA,得到了GatedDeltaNet-H2。
Figure 1: Gated DeltaNet模型(混合)架构和块设计的可视化。Gated DeltaNet-H1和H2分别使用Gated DeltaNet + SWA和Mamba2 + Gated DeltaNet + SWA模式。在块设计中,查询/键路径包括线性投影、短卷积、SiLU和L2范数;值路径包括线性投影、短卷积和SiLU;alpha/beta使用线性投影;输出门应用带SiLU的线性投影。
A4 实验环境
- 模型:
- 基线模型: RetNet, HGRN2, Mamba, Mamba2, Samba, DeltaNet, Transformer++
- 提出模型: Gated DeltaNet, GatedDeltaNet-H1, GatedDeltaNet-H2
- 数据集:
- 训练: 在FineWeb-Edu数据集的100B tokens子集上进行训练。
- 评估:
- 常识推理: PIQA, HellaSwag, WinoGrande, ARC-e, ARC-c, SIQA, BoolQ, Wikitext, LAMBADA。
- 上下文检索: S-NIAH-1/2/3, SWDE, FDA, SQuAD, TriviaQA, Drop, NQ。
- 长上下文理解: LongBench中的14个任务,包括Narrative QA, QasperQA, MultiField QA等。
- 模型架构:
- 所有模型均为1.3B参数。
- 训练序列长度为4K。
- 混合模型中,滑动窗口注意力(SWA)的窗口大小为2K。
- 硬件配置:
- GPU: 单个H100 GPU(用于吞吐量测试)。
- 软件配置:
- 优化器: AdamW,峰值学习率为4e-4,权重衰减0.1,梯度裁剪1.0。
- 学习率调度: Cosine退火, warmup为1B tokens。
- 批处理大小: 0.5M tokens。
- 分词器: Llama2分词器,词汇量32,000。
- 评估工具: lm-evaluation-harness。
A4 实验结果
常识推理: 如表3所示,无论是在400M还是1.3B参数规模下,Gated DeltaNet在语言建模困惑度和零样本常识推理准确率上都持续优于包括RetNet、HGRN2、Mamba、Mamba2和DeltaNet在内的其他线性模型。混合变体GatedDeltaNet-H进一步提升了性能。
Table 3: 语言建模和零样本常识推理的性能比较。
真实世界数据的上下文检索: 表4显示,线性循环模型与Transformer在真实世界检索密集型任务上存在显著性能差距。然而,结合了线性和注意力的混合模型在检索任务上超越了纯注意力模型。在纯循环模型中,尽管DeltaNet在合成检索任务上表现优异,但在真实世界检索中落后于Mamba2,这与S-NIAH-2/3(表2)的观察一致。Gated DeltaNet凭借其门控Delta规则优于DeltaNet和Mamba2,但提升幅度小于表2,原因可能是未经指令微调的小模型易于产生重复错误,而这是这些任务中的主要错误来源。
Table 4: 在输入截断为2K tokens的真实世界检索任务上的准确率。SQD: SQUADE. TQA: Trivial QA.
长序列长度外推: 如图2所示,在六个长上下文基准上评估模型外推至20K tokens序列的能力。在RNN模型中,Gated DeltaNet在所有任务中取得了最低的综合困惑度。尽管长度外推的结果好坏参半,但Gated DeltaNet表现出相对更稳健的性能,表明其具有更好的内存管理能力。混合模型通过利用注意力建模局部上下文,进一步改善了这一点。
Figure 2: 在六个长基准测试上的长度外推。
长上下文理解: 如表5所示,在LongBench上的评估中,Gated DeltaNet在循环模型中表现出持续的优势,尤其是在单文档问答、少样本上下文学习和代码任务中,分别展示了其在检索、上下文学习和状态追踪方面的卓越能力。
Table 5: 在LongBench的14个任务上的准确率,任务顺序为:Narrative QA, QasperQA, MultiField QA, HotpotQA, 2WikiMulti QA, Musique, GovReport, QMSum, MultiNews, TRec, Trivia QA, SamSum, LCC, 和 RepoBench-P。
吞吐量比较: 如图3所示,本文提出的门控Delta规则相比原始Delta规则仅引入了微不足道的开销,Gated DeltaNet的吞吐量与DeltaNet基本相同。由于其更具表达力的转移矩阵,两者都比Mamba2稍慢。得益于高度优化的Flash-Attention-2,Transformer++在2K上下文窗口内性能最佳。因此,结合2K窗口SWA的混合方法比独立的混合器表现出更高的吞吐量。值得注意的是,Gated DeltaNet-H1在所有序列长度上都保持了有竞争力的训练吞吐量。
Figure 3: 1.3B模型在单个H100 GPU上的训练吞吐量比较。
A7 补充细节
5 相关工作
门控线性RNN。大型线性循环语言模型因其训练和推理效率而备受关注。线性RNN领域已从使用数据无关的衰减机制(如S4, S5, LRU, RWKV4/5, RetNet)迅速发展到在更新的架构中采用数据依赖的衰减机制(如HGRN1/2, Mamba1/2, RWKV6, GSA)。这一转变源于门控/遗忘机制的公认优势,这是一个源自门控RNN文献的经典概念,其重要性被持续证实。现代遗忘门与LSTM等传统设计不同,它们移除了对前一个隐藏状态的依赖,仅依赖于输入数据,这使得跨序列长度的高效并行化成为可能。DeltaNet中缺少遗忘门一直是一个显著的限制,而本文的门控扩展以一种自然、有效且硬件高效的方式弥补了这一不足。同时,一个近期的并发工作RWKV-7也采用了类似思想,但使用了对角加低秩转移的更宽松形式。
Delta规则。Delta学习规则相比Hebbian学习展现出更优的记忆容量,DeltaNet利用了这一优势,而线性Transformer则依赖类Hebbian规则。这种记忆容量优势在合成的上下文学习任务中很明显,并扩展到语言建模、强化学习和图像生成。Yang等人(2024b)并行化了Delta规则计算,并展示了DeltaNet的数据依赖的“单位矩阵+低秩”结构($I - \beta_t k_t k_t^\intercal$)比Mamba2的数据依赖的对角矩阵($\alpha_t I$)提供了更大的灵活性。这种结构优势可能有助于实现复杂的推理,包括常规语言识别和超越TC0复杂度的状态追踪,这对于编码和推理应用至关重要。尽管有这些显著优点,Delta规则面临理论限制,在真实数据集上表现平平,表明还有改进空间。先前通过非线性循环增强表达能力的尝试解决了一些限制,但牺牲了训练并行性。近期工作提出了一些在不牺牲并行性的情况下增强状态追踪性能的方法,这些方法可以无缝地应用于Gated DeltaNet。
(在线)学习目标视角。从学习目标的角度看,其他公式可以进一步扩展表达能力:例如TTT和Titans中的非线性回归($L(S_t) = \frac{1}{2} \|f_S(k_t) - v_t\|^2$),或者Mesa层中考虑整个历史的回归($L(S_t) = \frac{1}{2} \sum_{i=1}^{t} \|S_t k_i - v_i\|^2$)。然而,这些更具表达力的变体引入了非线性循环,需要变通方法,如仅在处理完整数据块后执行非线性更新,或近似非线性循环方法。
混合模型。本文探索了在层间交错混合注意力层的方法,这在MiniMax-01和Hybrid Mamba2-Attention等模型中常用。在单层内混合线性/softmax注意力也是一个有趣的研究方向。
A5 结论
本文介绍了Gated DeltaNet,它相比Mamba2能更好地学习键值关联,相比DeltaNet能更自适应地清除内存,从而在各种任务中取得了一致更好的实证结果。我们扩展了【Yang et al., 2024b】的并行算法,以实现Gated DeltaNet的硬件高效训练。我们的混合Gated DeltaNet模型实现了更高的训练吞吐量和整体性能,使其非常适合实际部署。
A6 附录
A. Gated Delta Rule的扩展WY表示
扩展WY表示公式。为减少符号混乱,我们这里只考虑第一个块。对于$S_t$,扩展的WY表示为:
数学归纳法证明。我们用数学归纳法证明这一点。
证明:
B. 实验续
B.1 评估
常识推理。我们遵循【Gu & Dao, 2023】的方法,在多个常识推理基准上评估我们的模型:PIQA【Bisk et al., 2020】, HellaSwag【Zellers et al., 2019】, WinoGrande【Sakaguchi et al., 2020】, ARC-easy (ARC-e) 和 ARC-challenge (ARC-c)【Clark et al., 2018】, SIQA【Sap et al., 2019】, BoolQ【Clark et al., 2019】, Wikitext【Merity et al., 2017】, 以及LAMBADA【Paperno et al., 2016】。
上下文检索。我们的评估包括合成任务和真实世界任务。对于合成任务,我们使用RULER【Hsieh et al., 2024】中的Needle-In-A-Haystack Single (NIAH-S)基准套件,其中包括三个复杂度递增的任务:S-NIAH-1(密码检索),S-NIAH-2(大海捞针中的数字),和S-NIAH-3(大海捞针中的单词)。对于真实世界任务,我们遵循【Arora et al., 2024b】的方法,在多个数据集上进行评估:用于结构化HTML关系抽取的SWDE【Lockard et al., 2019】,用于PDF键值检索的FDA【Arora et al., 2023b】,以及几个问答数据集,包括SQuAD【Rajpurkar et al., 2018】, TriviaQA【Joshi et al., 2017a】, Drop【Dua et al., 2019】, 和NQ【Kwiatkowski et al., 2019】。由于我们的预训练模型没有进行指令微调,我们使用了【Arora et al., 2024b】提供的完形填空格式化提示,这更符合我们模型的下一个词预测训练目标。
长上下文理解。我们在Longbench【Bai et al., 2023】的14个任务上进行评估,涵盖:叙事理解(Narrative QA), 科学理解(QasperQA), 多跳推理(MultiField QA, HotpotQA, 2WikiMulti QA, Musique), 文档摘要(GovReport, QMSum, MultiNews), 以及各种专门任务(TRec, Trivia QA, SamSum, LCC, RepoBench-P)。
B.2 消融研究
组件消融研究。表S.1展示了对Gated DeltaNet块组件的消融研究。实验表明,短卷积和输出门对模型性能至关重要,而输出归一化带来的改进很小。与【Yang et al., 2024b】一致,我们发现L2归一化对于获得最佳性能至关重要,而特征图的选择影响较小。尽管如此,SiLU始终优于其他激活函数,这与【Qin et al., 2023a】的观察结果一致。通过实证分析,我们确定头维度为128时在性能和计算效率之间达到了最佳平衡。
Table S.1: Gated DeltaNet块的消融研究。Avg-PPL和Avg-Acc分别表示平均困惑度和零样本常识推理准确率(如表3所示)。所有模型均为400M参数,并在FineWeb-Edu数据集的同一子集上训练了15B tokens。
混合架构消融研究。此外,表S.2表明,在各种混合架构中,按Mamba2、Gated DeltaNet和SWA这个特定顺序组合可以产生最优结果。
Table S.2: Gated DeltaNet模型的消融研究。所有评估均使用lm-evaluation-harness进行。所有模型使用Llama分词器,并在FineWeb-Edu数据集的同一子集上训练。
💬 评论讨论
欢迎在这里分享您的想法和见解!