KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE

Kimi Team

A1 主要贡献

本文针对大型语言模型(LLM)在长序列推理和强化学习(RL)场景下面临的计算瓶颈,提出了一种名为 Kimi Linear 的混合线性注意力架构。传统 softmax 注意力机制存在二次方时间复杂度和线性增长的键值(KV)缓存问题,这在需要处理长轨迹、工具使用交互和复杂决策空间的智能体应用中成为效率瓶颈。尽管线性注意力能够降低计算复杂度,但其表达能力有限,通常在性能上不及 softmax 注意力。现有的混合架构虽然试图结合两者的优点,但往往缺乏在多样化基准上的全面评估。

为了解决这一挑战,本文的核心贡献是 Kimi Delta Attention (KDA),一个硬件高效的线性注意力模块。KDA 扩展了 Gated DeltaNet (GDN),引入了更细粒度的通道级门控机制(channel-wise gating),使每个特征维度都能独立控制遗忘率,从而更精确地管理有限状态的 RNN 内存。此外,KDA 采用了一种特殊的对角加低秩(DPLR)矩阵变体来参数化其状态转移,并为此设计了专门的分块并行算法,该算法在保持与经典 delta 法则一致性的同时,显著减少了计算量。

Kimi Linear 架构将 KDA 层与全注意力层(Multi-Head Latent Attention, MLA)以 3:1 的比例交错排列。这种设计在保留全局信息流的同时,可将长序列生成过程中的内存和 KV 缓存使用量减少高达 75%。

通过在 1.4 万亿(1.4T)训练 tokens 上进行的公平对比实验,本文证明 Kimi Linear 在短上下文、长上下文和 RL 风格的后训练任务中,性能全面超越了强大的全注意力基线。在 100 万(1M)上下文长度下,其解码吞吐量可提升高达 6 倍。这些结果表明,Kimi Linear 可以作为全注意力架构的直接替代品,在性能和效率上均表现更优,尤其适用于长输入和长输出任务。


图 1: (a) 性能 vs. 加速。在 1.4T 训练 token 的严格公平比较下,在 MMLU-Pro(4k 上下文长度,红色星形)上,Kimi Linear 在相似速度下性能领先(51.0)。在 RULER(128k 上下文长度,蓝色圆形)上,它处于帕累托最优,实现了最高性能(84.3)和 3.98 倍的加速。(b) 每输出 token 时间(TPOT) vs. 解码长度。Kimi Linear(蓝线)保持较低的 TPOT,与 GDN-H 相当,并在长序列上优于 MLA。这使得可以采用更大的批次,在 1M token 时,其 TPOT 比 MLA 快 6.3 倍(1.84ms vs. 11.48ms)。

核心贡献列表:
* Kimi Delta Attention (KDA):一种线性注意力机制,通过改进循环记忆管理和硬件效率,优化了门控 delta 法则。
* Kimi Linear 架构:一种采用 3:1 的 KDA 与全局注意力比例的混合设计,在降低内存占用的同时,超越了全注意力模型的质量。
* 大规模公平实证验证:通过 1.4T token 的训练,Kimi Linear 在短/长上下文和 RL 风格的评估中均优于全注意力和其它基线,并公开发布了其内核、vLLM 集成和模型检查点。

A3 背景知识

2.1 符号表示

符号定义。本文中,我们定义 $\Box_t \in \mathbb{R}^{d_k}$ 或 $\mathbb{R}^{d_v}$,其中 $\Box \in \{q, k, v, o, u, w\}$ 代表第 $t$ 个查询/键/值/输出的列向量,$S_t \in \mathbb{R}^{d_k \times d_v}$ 表示矩阵形式的记忆状态。$M$ 和 $M^-$ 分别表示包含和不包含对角线元素的下三角掩码;为方便起见,我们也将其记为 Tril 和 StrictTril。

分块表示法。假设序列被分成 $L/C$ 个块,每个块的长度为 $C$。我们定义 $\Box[t] \in \mathbb{R}^{C \times d}$,其中 $\Box \in \{Q, K, V, O, U, W\}$ 是堆叠了第 $t$ 个块内向量的矩阵,$\Box_r[t] = \Box_{tC+r}$ 是该块的第 $r$ 个元素。注意 $t \in [0, L/C)$,$r \in [1, C]$。状态矩阵也重新索引,使得 $S_i[t] = S_{tC+i}$。此外,$S[t] := S_0[t] = S_C[t-1]$,即一个块的初始状态是前一个块的最终状态。

衰减表示法。我们定义累积衰减 $\gamma_{i \to j}[t] := \prod_{k=i}^j \alpha_k[t]$,并将 $\gamma_{1 \to r}[t]$ 简写为 $\gamma_r[t]$。此外,$A[t] := A_{i/j}[t] \in \mathbb{R}^{C \times C}$ 是元素为 $\gamma_i[t]/\gamma_j[t]$ 的矩阵。$\text{Diag}(\alpha_t)$ 表示细粒度的衰减,$\text{Diag}(\gamma_{i \to j}[t]) := \prod_{k=i}^j \text{Diag}(\alpha_k[t])$,而 $\Gamma_{i \to j}[t] \in \mathbb{R}^{C \times d_k}$ 是从 $\gamma_i[t]$ 到 $\gamma_j[t]$ 堆叠而成的矩阵。

2.2 线性注意力与门控 Delta 法则

线性注意力作为在线学习。线性注意力【【索引47,Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention,2020,ICML】】维持一个矩阵值的循环状态,该状态累积键值关联:
$$S_t = S_{t-1} + k_t v_t^T, \quad o_t = S_t^T q_t.$$
从快速权重(fast-weight)的角度【【索引83,Linear Transformers Are Secretly Fast Weight Programmers,2021,ICML】;【索引84,Learning Associative Inference Using Fast Weight Memory,2021,arXiv】】来看,$S_t$ 作为一个联想记忆,存储从键到值的瞬时映射。这个更新过程可以看作是在无界相关性目标函数上进行梯度上升:
$$\mathcal{L}_t(\mathbf{S}) = \langle \mathbf{S}^\mathsf{T} k_t, v_t \rangle,$$
该目标函数会持续强化最近的键值对而没有任何遗忘。然而,这样的目标函数没有提供擦除记忆的标准,导致累积的状态会无限制增长,在长上下文中引发干扰。

DeltaNet:基于重构损失的在线梯度下降。DeltaNet【【索引83,Linear Transformers Are Secretly Fast Weight Programmers,2021,ICML】】将这种循环重新解释为在重构目标上的在线梯度下降:
$$\mathcal{L}_t(\mathbf{S}) = \frac{1}{2}\|\mathbf{S}^\mathsf{T} \mathbf{k}_t - \mathbf{v}_t\|^2.$$
使用学习率 $\beta_t$ 进行一步梯度下降,得到:
$$ S_t = S_{t-1} - \beta_t \nabla_S L(S_{t-1}) = (\mathbf{I} - \beta_t \mathbf{k}_t \mathbf{k}_t^\top) S_{t-1} + \beta_t \mathbf{k}_t \mathbf{r}_t^\top $$
这个规则——即经典的 delta 法则——将 $S$ 视为一个可学习的联想记忆,它会不断地自我修正,以趋近于映射 $k_t \to v_t$。这种秩一更新结构等价于一个广义的 Householder 变换,支持硬件高效的分块并行化【【索引11,The WY Representation for Products of Householder Matrices,1987,SIAM Journal on Scientific and Statistical Computing】;【索引111,Parallelizing Linear Transformers with the Delta Rule over Sequence Length,2024,ArXiv】】。

Gated DeltaNet 作为权重衰减。虽然 DeltaNet 稳定了学习过程,但它仍然会无限期地保留过时的关联。Gated DeltaNet (GDN)【【索引110,Gated Delta Networks: Improving Mamba2 with Delta Rule,2025,ICLR】】引入了一个标量遗忘门 $\alpha_t \in [0, 1]$,得到:
$S_t = \alpha_t (\mathbf{I} - \beta_t k_t k_t^\mathsf{T}) S_{t-1} + \beta_t k_t v_t^\mathsf{T}.$
在这里,$\alpha_t$ 充当了对快速权重的一种权重衰减形式【【索引8,Atlas: Learning to optimally memorize the context at test time,2025,arXiv】】,实现了一种类似于数据依赖的 L2 正则化的遗忘机制。这个简单而有效的修改提供了一种有原则的方法来控制记忆的生命周期并减轻干扰,从而在保持 DeltaNet 可并行化结构的同时,提高了稳定性和长上下文泛化能力。从这个角度看,GDN 可以被解释为一种乘法位置编码,其转移矩阵是数据依赖和可学习的,放宽了 RoPE【【索引114,PaTH Attention: Position Encoding via Accumulating Householder Transformations,2025,arXiv】】的正交性约束。

A2 方法细节

3 Kimi Delta Attention: 通过细粒度门控改进 Delta 法则

KDA 简介。我们提出了 Kimi Delta Attention (KDA),这是一种新的门控线性注意力变体,它通过引入一个细粒度的对角化门控 $\text{Diag}(\alpha_t)$ 来改进 GDN 的标量衰减,从而实现了对记忆衰减和位置感知的精细控制(详见 §6.1)。我们首先介绍 KDA 的分块并行化方法,展示如何将一系列秩一矩阵变换压缩成一个密集的表示,同时在对角门控下保持稳定性。然后,我们重点介绍 KDA 相较于标准 DPLR 公式的效率优势。

$S_t = (1-k_t k_t^T) \text{diag}(\alpha)S_{t-1} + k_t r_t^T \in \mathbb{R}^{d \times d}, \quad \alpha_t = S_t^T q_t \in \mathbb{R}^d$

3.1 硬件高效的分块算法

分块并行化推导。通过将公式 1 的递归部分展开为分块形式,我们得到:
$$S_{[t]}^{r} = \left(\prod_{i=1}^{r} (I - \beta_{[i]}^{t} k_{[i]}^{t} (k_{[i]}^{t})^T ) \text{Diag}(\alpha_{[i]}^{t})\right) \cdot S_{[t]}^{0} + \beta_{[t]}^{t} k_{[t]}^{t} v_{[t]}^{t}$$
通常采用 WY 表示法【【索引11,The WY Representation for Products of Householder Matrices,1987,SIAM Journal on Scientific and Statistical Computing】】将一系列秩一更新打包成一个紧凑的表示。我们遵循 Comba【【索引39,Comba: Improving Nonlinear RNNs with Closed-loop Control,2025,arXiv】】中 P 的公式,以减少后续计算中对额外矩阵求逆的需求。
$$\mathbf{P}_{[t]}^{r} = \text{Diag}(\boldsymbol{\gamma}_{[t]}^{r}) - \sum_{i=1}^{r} \text{Diag}(\boldsymbol{\gamma}_{[t]}^{i \to r}) \boldsymbol{k}_{[t]}^{i} \boldsymbol{u}_{[t]}^{i \top}$$
$$\mathbf{H}_{[t]}^{r} = \sum_{i=1}^{t} \text{Diag}(\boldsymbol{\gamma}_{[t]}^{i \to r}) \boldsymbol{k}_{[t]}^{i} \boldsymbol{u}\_{[t]}^{i \top}$$
其中辅助向量 $w_t \in \mathbb{R}^{d_k}$ 和 $u_t \in \mathbb{R}^{d_v}$ 通过以下递归关系计算:
$$ \begin{array}{l} \boldsymbol{w}_{[t]}^{r}=\beta_{[t]}^{r}\left(\operatorname{Diag}\left(\boldsymbol{\gamma}_{[t]}^{r}\right) \boldsymbol{k}_{[t]}^{r}-\sum_{i=1}^{r-1} \boldsymbol{w}_{[t]}^{i}\left(\boldsymbol{k}_{[t]}^{i \top} \operatorname{Diag}\left(\boldsymbol{\gamma}_{[t]}^{i \leftrightarrow r}\right) \boldsymbol{k}_{[t]}^{r}\right)\right) \\ \boldsymbol{u}_{[t]}^{r}=\beta_{[r]}^{r}\left(\boldsymbol{v}_{[t]}^{r}-\sum_{i=1}^{r-1} \boldsymbol{u}_{[t]}^{i}\left(\boldsymbol{k}_{[t]}^{i \top} \operatorname{Diag}\left(\boldsymbol{\gamma}_{[t]}^{i \leftrightarrow r}\right) \boldsymbol{k}_{[t]}^{r}\right)\right) \end{array} $$

UT 变换。我们应用 UT 变换【【索引45,Accumulating Householder transformations, revisited,2006】】来减少非矩阵乘法(non-matmul)的浮点运算量(FLOPs),这对于在训练期间实现更好的硬件利用率至关重要。
$$ \mathbf{M}_{[\eta]} = \left(\mathbf{I} + \text{StrictTril}\left(\text{Diag}(\delta_{[t]})\left(\mathbf{\Gamma}_{[t]}^{\Gamma^C} \otimes \mathbf{K}_{[t]}\right)\left(\frac{\mathbf{K}_{[t]}}{\Gamma_{[t]}^{\Gamma^C}}\right)\right)\right)^{-1} \text{Diag}(\delta_{[t]}) \\ \mathbf{W}_{[t]} = \mathbf{M}_{[t]}\left(\mathbf{\Gamma}_{[t]}^{\Gamma^C} \otimes \mathbf{K}_{[t]}\right), \quad \mathbf{U}_{[t]} = \mathbf{M}_{[t]}\mathbf{V}_{[\eta]} $$
下三角矩阵的逆可以通过高斯消去法中的前向替换【【索引28,How ordinary elimination became Gaussian elimination,2011,Historia Mathematica】】,采用迭代的行方式高效计算。

矩阵形式的块更新。等价地,在矩阵形式下,我们可以分块更新状态:

$$\mathbf{S}_{[t+1]} = \text{Diag}(\boldsymbol{\gamma}_{[t]}^{C}) \mathbf{S}_{[t]} + \left( \boldsymbol{\Gamma}_{[t]}^{i \to C} \odot \mathbf{K}_{[t]} \right)^{\top} (\mathbf{U}_{[t]} - \mathbf{W}_{[t]} \mathbf{S}_{[t]}) \in \mathbb{R}^{d_k \times d_v}$$

输出阶段计算。在输出阶段,我们采用块间循环(inter-block recurrent)和块内并行(intra-block parallel)的策略,以最大化矩阵乘法吞吐量,从而充分利用张量核心(Tensor Cores)的计算潜力。
$$\mathbf{O}_{[t]} = \underbrace{(\boldsymbol{\Gamma}_{[t]}^{1 \to C} \odot \mathbf{Q}_{[t]})}_{\text{inter chunk}} \mathbf{S}_{[t]} + \text{Tril} \left( \underbrace{ \left( (\boldsymbol{\Gamma}_{[t]}^{1 \to C} \odot \mathbf{Q}_{[t]}) \left( \frac{\mathbf{K}_{[t]}}{\boldsymbol{\Gamma}_{[t]}^{1 \to C}} \right)^{\top} \right)}_{\text{intra chunk}} \underbrace{(\mathbf{U}_{[t]} - \mathbf{W}_{[t]} \mathbf{S}_{[t]})}_{\text{"pseudo" - value term}} \right) \in \mathbb{R}^{C \times d_v}$$

3.2 效率分析

与 DPLR 的比较。在表示能力方面,KDA 与广义的 DPLR 公式一致,即 $S_t = (D - a_t b_t^\top) S_{t-1} + k_t v_t^\top$,两者都表现出细粒度的衰减行为。然而,这种细粒度衰减在除法运算中会引入数值精度问题(例如,公式 9 中的块内计算)。为解决此问题,先前的工作如 GLA【【索引113,Gated Linear Attention Transformers with Hardware-Efficient Training,2024,ICML】】在对数域中进行计算,并引入了 FP32 精度的二级分块。然而,这种方法妨碍了半精度矩阵乘法的充分利用,并显著降低了算子速度。通过将变量 $a$ 和 $b$ 都绑定到 $k$,KDA 有效地缓解了这一瓶颈——将二级分块矩阵计算的数量从四个减少到两个,并进一步消除了三个额外的矩阵乘法。因此,与 DPLR 公式相比,KDA 的算子效率提高了大约 100%。详细分析见 §6.2。

图 2: 不同输入长度下内核的执行时间,批次大小统一为 1,头数为 16。

4 Kimi Linear 模型架构

架构概览。我们的模型主干遵循 Moonlight【【索引61,Muon is Scalable for LLM Training,2025,arXiv】】的架构。除了细粒度门控外,我们还利用了几个组件来进一步提升 Kimi Linear 的表达能力。Kimi Linear 的整体架构如图 3 所示。

神经参数化。设 $x_t \in \mathbb{R}^d$ 为第 $t$ 个 token 的输入表示,对于每个头 $h$,KDA 的输入通过以下方式获得:

其中 $d_k, d_v$ 分别表示键和值的头维度,在所有实验中均设置为 128。对于 $q, k, v$,我们遵循【【索引110,Gated Delta Networks: Improving Mamba2 with Delta Rule,2025,ICLR】】的做法,先应用一个短卷积(ShortConv),然后是一个 Swish 激活函数。$q$ 和 $k$ 的表示进一步使用 L2Norm 进行归一化,以确保特征值的稳定性,这是由【【索引111,Parallelizing Linear Transformers with the Delta Rule over Sequence Length,2024,ArXiv】】建议的。每个通道的衰减 $\alpha_t^h$ 通过一个低秩投影和一个类似于 GDN 和 Mamba【【索引110,Gated Delta Networks: Improving Mamba2 with Delta Rule,2025,ICLR】;【索引16,Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality,2024,CoRR】】中使用的衰减函数 $f(\cdot)$ 进行参数化。在通过 $W_o \in \mathbb{R}^{d \times d}$ 进行输出投影之前,我们使用了一个头级别的 RMSNorm【【索引121,Root mean square layer normalization,2019,NIPS】】和一个数据依赖的门控机制【【索引78,Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free,2025,arXiv】】,其参数化方式如下:


图 3: 我们的 Kimi Linear 模型架构示意图,它由一系列块堆叠而成,每个块包含一个 token 混合层和一个 MoE 通道混合层。具体来说,我们交错排列 N 个 KDA 层和一个 MLA 层进行 token 混合,其中 N 在我们的实现中设置为 3。
输出门采用低秩参数化(秩等于头维度)以确保参数量的公平比较,同时保持与全秩门控相当的性能并缓解注意力下沉(Attention Sink)【【索引78,Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free,2025,arXiv】】问题。非线性激活函数的选择在 §5.2 中进一步讨论。

混合模型架构。长上下文检索仍然是纯线性注意力的主要瓶颈,因此我们将 KDA 与少数全量全局注意力(Full MLA)层【【索引19,DeepSeek-V3 Technical Report,2025,arXiv】】混合。对于 Kimi Linear,我们选择了层级混合(交替使用整个层)而非头级混合(在层内混合不同的头),因其在基础设施简单性和训练稳定性方面更优。经验表明,统一的 3:1 比例,即每 3 个 KDA 层对应 1 个全 MLA 层,提供了最佳的质量与吞吐量权衡。我们在 § 7.2 中讨论了其他混合策略。

MLA 层的无位置编码 (NoPE)。在 Kimi Linear 中,我们对所有全注意力(MLA)层应用无位置编码(NoPE)。这种设计将编码位置信息和新近度偏见(recency bias)(见 § 6.1)的全部责任委托给 KDA 层。因此,KDA 被确立为主要的具备位置感知的算子,其作用类似于甚至强于短卷积【【索引3,Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers,2025,SSRN Electronic Journal】】或 SWA【【索引75,SWAN-GPT: An Efficient and Scalable Approach for Long-Context Language Modeling,2025,arXiv】】等辅助组件。我们的发现与先前【【索引109,Rope to Nope and Back Again: A New Hybrid Attention Strategy,2025,arXiv】;【索引7,Round and Round We Go! What makes Rotary Positional Encodings useful?,2025,ICLR】;【索引19,DeepSeek-V3 Technical Report,2025,arXiv】】的结果一致,他们同样证明了用一个专门的位置感知机制来补充全局 NoPE 注意力能够产生有竞争力的长上下文性能。我们注意到 NoPE 提供了实际优势,特别是对于 MLA。首先,NoPE 使其能够在推理时转换为高效的纯多查询注意力(MQA)。其次,它简化了长上下文训练,因为它避免了 RoPE 参数调整的需求,如频率基数调整或 YaRN【【索引71,Yarn: Efficient context window extension of large language models,2023,arXiv】】等方法。


图 4: 合成任务上的结果:回文、多查询关联回忆和状态追踪。

A4 实验环境

  • 模型架构:

    • Kimi Linear 与基线: 评估了 Kimi Linear、全注意力 MLA 基线和混合 Gated DeltaNet (GDN-H) 基线。为进行公平比较,所有模型共享相同的架构、参数量和训练设置。
    • 核心配置: 架构很大程度上与 Moonlight【【索引61,Muon is Scalable for LLM Training,2025,arXiv】】对齐,采用 MoE 结构,稀疏度为 32。每个模型激活 256 个专家中的 8 个(含一个共享专家),总参数量为 48B,激活参数量为 3B。
    • RoPE 基线: 为评估 NoPE 的有效性,引入了一个使用 RoPE 的混合 KDA 基线,称为 Kimi Linear (RoPE)。
  • 训练数据与配方:

    • 预训练: 所有模型在 4096 token 的上下文窗口下,使用 K2 预训练语料库【【索引49,Kimi k2: Open agentic intelligence,2025,arXiv】】中的 1.4 万亿 tokens 进行训练。最终发布的 Kimi Linear checkpoint 则使用了 5.7 万亿 tokens 以匹配 Moonlight。
    • SFT (监督微调): SFT 数据集在 Kimi K2 SFT 数据基础上增加了推理任务,特别强调数学和编码。采用多阶段 SFT 方法,先进行通用指令遵循训练,再进行推理密集型数据的针对性训练。
    • RL (强化学习): RL 训练的 prompt 集主要整合了数学、代码和 STEM 数据源,旨在提升模型的推理能力。为防止能力退化,训练中加入了 PTX 损失【【索引69,Training language models to follow instructions with human feedback,2022,NIPS】】。
  • 硬件与软件:

    • 硬件: 论文未明确指定 GPU 型号、数量等硬件配置。
    • 软件: KDA 内核与 vLLM 进行了集成。所有评估均使用源自 LM-Harness-Evaluation【【索引10,Lessons from the trenches on reproducible evaluation of language models,2024,arXiv】】的内部框架进行。
    • 优化器: 预训练使用 MuonClip 优化器和 WSD 学习率调度。
  • 数据集与评估基准:

    • 评估涵盖三大类:
      1. 语言理解与推理: Hellaswag, ARC-Challenge, Winogrande, MMLU, TriviaQA, MMLU-Redux, MMLU-Pro, GPQA-Diamond, BBH, LiveBench。
      2. 代码生成: LiveCodeBench v6, EvalPlus。
      3. 数学与推理: AIME 2025, MATH 500, HMMT 2025, PolyMath-en。
    • 长上下文: MRCR, RULER, Frames, HELMET-ICL, RepoQA, Long Code Arena, LongBench v2。
    • 中文: C-Eval, CMMLU。

A4 实验结果

5.1 合成任务测试

在回文(Palindrome)、多查询关联回忆(MQAR)和状态追踪(Stack)这三个合成任务上,KDA 相对于 GDN 和 Mamba2 表现出显著优势。
- 性能与收敛速度: KDA 在所有任务中都实现了最高的准确率,尤其是在序列长度从 256 增加到 2048 时。在回文和 MQAR 任务中,KDA 的收敛速度明显快于 GDN,这证实了细粒度衰减机制在选择性遗忘和保留关键信息方面的有效性(如图 4 所示)。
- Mamba2 的表现: Mamba2,作为一种仅使用乘法衰减而无 delta 法则的线性注意力模型,在实验设置下未能成功完成任何一项任务。

5.2 Kimi Linear 关键组件的消融研究

通过在一系列 16 层、16 头的模型上进行消融实验,验证了 Kimi Linear 各个关键组件的有效性,结果如表 1 所示。
- 输出门: 实验比较了 Sigmoid 门、无门控和 Swish 门。结果显示,移除门控会降低性能,而 Sigmoid 门的表现显著优于 Swish 门,与【【索引78,Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free,2025,arXiv】】的结论一致。
- 卷积层: 验证了轻量级深度卷积(核大小为 4)在捕捉局部 token 依赖中的积极作用,证明其在混合模型中依然不可或缺。
- 混合比例: 在 3:1、7:1、1:1 等不同 KDA 与 MLA 混合比例中,3:1 的配置在训练和验证损失上均达到最低,实现了模型性能和计算效率的最佳平衡。纯全注意力基线(0:1)表现不佳。
- NoPE vs. RoPE: Kimi Linear (NoPE) 在长上下文评估中表现出色,而 Kimi Linear (RoPE) 在短上下文任务上得分相似。分析认为,NoPE 设计使得位置偏见更均衡地分布于各层,从而提升了模型在长距离下的鲁棒性和外推能力。

表 1: KDA 与 MLA 注意力混合比例及其他关键组件的消融研究。我们列出了训练和验证困惑度(越低越好)以供比较。性能最佳的模型,即我们最终实验中使用的模型,以灰色突出显示。
表 1: KDA 与 MLA 注意力混合比例及其他关键组件的消融研究。我们列出了训练和验证困惑度(越低越好)以供比较。性能最佳的模型,即我们最终实验中使用的模型,以灰色突出显示。

5.3 Kimi Linear 的缩放定律

在一系列 MoE 模型上进行的缩放定律实验(模型配置见表 2)表明,Kimi Linear 相较于 MLA 基线具有更高的计算效率。
- 计算效率: 如图 5 所示,在遵循 Chinchilla 缩放定律进行计算最优训练时,Kimi Linear 实现了约 1.16 倍的计算效率提升。研究者预计,通过更仔细的超参数调优,KDA 的缩放曲线将表现更佳。

表 2: 缩放定律实验的模型配置和超参数。
图 5: MLA 和 Kimi Linear 的拟合缩放定律曲线。

5.5 主要结果 (基于 1.4T tokens 训练)

预训练结果 (见表 3):
- Kimi Linear 在通用知识(如 BBH, MMLU)、推理(如 GSM8K, CRUXEval)和中文任务(CEval, CMMLU)上,几乎全面超越了 MLA 和 GDN-H 基线,证明了其在短上下文预训练中的强大性能。

SFT 结果 (见表 4):
- 经过相同的 SFT 后,Kimi Linear 的领先优势得以保持。在通用任务(如 MMLU 系列, GPQA-Diamond)和数学与代码任务(如 AIME 2025, PolyMath-en)中,它持续优于两个基线。

长上下文性能 (见表 5):
- 在 128k 上下文长度的评估中,Kimi Linear 表现出明显的优越性,尤其是在 RULER (84.3) 和 RepoQA (68.5) 上大幅领先。其平均分(54.5)最高,确立了其在长上下文场景下的领先地位。

RL 结果 (见表 6):
- 在数学推理的 RL 训练中,Kimi Linear 的训练准确率增长速度和最终性能均显著优于 MLA,无论是在训练集还是测试集(如 MATH500, AIME2025)上,都展现出更快的收敛速度和更高的性能上限。

综合发现:
- 在预训练和 SFT 阶段,性能排序为 Kimi Linear > GDN-H > MLA。
- 在长上下文评估中,排序变为 Kimi Linear > MLA > GDN-H。
- 在 RL 阶段,Kimi Linear 同样优于 MLA。
- 结论: Kimi Linear 在所有阶段都始终是表现最佳的模型,是全注意力架构的有力替代品。

表 3: Kimi Linear 与全注意力 MLA 基线和混合 GDN 基线的性能比较,所有模型在预训练后使用相同的 SFT 配方。Kimi Linear 在短上下文指令调优基准上持续优于 MLA 和 GDN-H。每列的最佳结果已加粗。
表 4: Kimi Linear 与全注意力 MLA 基线和混合 GDN 基线的性能比较,所有模型在预训练后使用相同的 SFT 配方。Kimi Linear 在短上下文指令调优基准上持续优于 MLA 和 GDN-H。每列的最佳结果已加粗。
表 5: Kimi Linear 与 MLA、GDN-H 和 Kimi Linear (RoPE) 在长上下文基准上的比较。最后一列报告了总体平均分 (↑)。所有模型均在 1T tokens 上训练。每列的最佳结果已加粗。
图 6: Kimi Linear@1.4T 和 MLA@1.4T 在数学 RL 训练期间的训练和测试准确率曲线。Kimi Linear 在整个 RL 过程中始终以相当大的优势优于全注意力基线。

5.6 效率比较

预填充 (Prefilling) 和解码速度:
- 预填充 (图 7a): 尽管 KDA 引入了更细粒度的衰减机制,但其预填充延迟与 GDN-H 几乎没有差别,证明了其高效率。随着序列长度增加,Kimi Linear 的效率优势愈发明显,在 1M 序列上比 MLA 快 2.9 倍。
- 解码 (图 7b): Kimi Linear 在解码阶段的优势完全展现。在 1M 上下文长度下,其解码速度比全注意力快 6 倍。由于 KV 缓存大小固定,Kimi Linear 能够支持更大的批处理量,从而进一步提升吞吐量,理论上在 1M 上下文时可实现 6.3 倍的加速(见图 1b)。


图 7: (a) MLA(全注意力)、混合 GDN-H 和我们的 KDA-H 的预填充时间。(b) 解码期间 MLA、GDN-H 和 KDA-H 的每输出 token 时间(TPOT)。(测试时批次大小=1)

A7 补充细节

6.1 Kimi Delta Attention 作为可学习的位置嵌入

从广义注意力公式看位置编码。标准 Transformer 的注意力机制本身对序列顺序不敏感,因此需要明确的位置编码。像 RoPE【【索引87,Roformer: Enhanced transformer with rotary position embedding,2024,Neurocomputing】】这样的乘法位置编码机制,可以通过一个广义的注意力公式来分析:

其中,位置关系通过累积的矩阵乘积体现。RoPE 将变换矩阵 $R_j$ 定义为由 2D 旋转矩阵构成的块对角矩阵,从而将绝对位置信息转换为相对位置信息。

门控 Delta 法则作为位置编码。本文证明了带有门控 delta 法则的线性注意力可以表达为类似的形式,如公式 12 所示,并在表 6 中总结了其他注意力变体的等价形式。

从这个角度看,GDN 可以被解释为一种数据依赖的乘法位置编码,它放宽了 RoPE 的正交性约束,可能更具表达力【【索引114,PaTH Attention: Position Encoding via Accumulating Householder Transformations,2025,arXiv】】。这为解决 RoPE 因固定频率导致的上下文长度外推问题提供了一个潜在方案。鉴于 GDN 扮演着类似 RoPE 的角色,模型中的全局全注意力层(MLA)选择了无位置编码(NoPE),让位置信息由 KDA 动态捕获。

KDA 的细粒度优势。RoPE 的一个关键优势是其细粒度的位置编码,通过为每对维度分配不同的旋转频率实现。标准 GDN 使用的是每个注意力头共享的标量衰减,缺乏这种维度级别的多样性。这促使我们提出 KDA,它采用可学习的通道级门控,以实现更精细的位置感知。
表 6: 从数学上等价的循环形式 (ot) 和并行形式 (O) 审视各种注意力机制。为简洁起见,我们省略了归一化项和 βt。

6.2 与 DPLR 的关系

KDA 作为约束 DPLR。我们可以将公式 1 重写为 $S_t = (\text{Diag}(\alpha_t) - \beta_t k_t k_t^\top \text{Diag}(\alpha_t))S_{t-1} + \beta_t k_t v_t^\top$。这个公式等价于 DPLR 更新规则的一个约束变体,对应关系如下:

因此,KDA 保留了原始公式中固有的对角加低秩(DPLR)状态转移结构。此外,通过共享 $\alpha_t$,我们可以像公式 1 那样将其提取出来,从而实现对 $S_t$ 的细粒度乘法衰减,类似于 GLA【【索引113,Gated Linear Attention Transformers with Hardware-Efficient Training,2024,ICML】】,然后进行类似 DeltaNet【【索引83,Linear Transformers Are Secretly Fast Weight Programmers,2021,ICML】;【索引111,Parallelizing Linear Transformers with the Delta Rule over Sequence Length,2024,ArXiv】】的 Householder 式变换以实现高效的状态更新。

效率提升分析。我们并列比较了 DPLR 和 KDA 的分块 PyTorch 风格伪代码实现(列表 8a 和 8b)。关键改进如下:
* 数值稳定性与计算减少:分块形式中累积衰减项的倒数 $1/\Gamma$(公式 9)可能引入数值不稳定性。通过在 DPLR 公式中固定 $a = b = k$,KDA 无需进行两次二级分块步骤,从而显著减少了冗余操作并提高了整体效率。
* 矩阵乘法减少:KDA 在块间计算和输出计算中进一步减少了大约三次矩阵乘法,带来了显著的内核级加速。
我们在图 2 中进一步对内核速度进行了基准测试,结果显示对于高达 64k 的序列长度,KDA 的速度几乎是 DPLR 的 2 倍。


(a) 分块 DPLR 的 PyTorch 风格伪代码。


(b) 分块 KDA 的 PyTorch 风格伪代码。

6.3 复杂度分析

训练浮点运算量 (FLOPs)。Kimi Linear 的参数数量与全注意力 MLA 相似,线性投影的计算也相同。主要区别在于注意力计算的 FLOPs。根据门控 delta 法则内核的实现【【索引101,Understanding DeltaNet from the Perspective of Inference Frameworks,2025】】,对于单个注意力头(头维度为 $d_h$,固定块大小 $C=64$),在长度为 $T$ 的序列上,其理论 FLOPs 如下:

而对于全(全局)注意力,每个头的主要计算项是:

推理策略与成本。Kimi Linear 的推理策略采用混合方法优化计算和 I/O 效率。在预填充(prefill)阶段,模型使用计算密集型的分块内核(见 §3.1),而在自回归生成阶段,则切换到更高效的循环内核(公式 2)。KDA 的一个关键优势是其状态大小固定(每个头 $d_k \times d_v$,其中 $d_k = d_v = 128$),与序列长度无关。对于我们的混合模型,随着序列长度增加,受 I/O 限制的解码时间与全注意力相比,最大效率比接近 3:1。这一趋势在图 7b 中得到体现,Kimi Linear 在 1M token 上下文时实现了 2.3 倍的加速。此外,通过消除对随序列长度线性增长的大型 KV 缓存的需求,Kimi Linear 能够重新分配内存资源以支持更大的批次大小,从而提高整体吞吐量。在长上下文场景(最高 1M tokens)中,这种内存效率带来了高达 6.3 倍的理论解码速度提升(见图 1b)。

表 7: 从状态更新规则及其在 TTT 框架 [89] 下的学习目标的视角,对不同注意力机制的概述。为简洁起见,我们忽略了所有归一化项和激活/核函数。
表 7: 从状态更新规则及其在 TTT 框架 [89] 下的学习目标的视角,对不同注意力机制的概述。为简洁起见,我们忽略了所有归一化项和激活/核函数。

7.1 高效的次二次方注意力

研究背景。标准自注意力机制的二次方时间复杂度是处理长上下文的根本瓶颈,尤其在 LLM 需要处理百万级 token 序列的当下。为应对此挑战,研究主要分为两个方向:(1) 线性注意力和 (2) 稀疏注意力。

线性注意力。线性注意力将二次方的注意力图重构为核化的特征交互,通过两个关联矩阵乘积来计算,从而实现与序列长度呈线性关系的计算。后续工作通过更精细的内存控制(从数据无关的“衰减”到数据依赖的自适应机制)和更细的衰减粒度(从头级到通道级)显著增强了其性能。GLA【【索引112,FLA: A Triton-Based Library for Hardware-Efficient Implementations of Linear Attention Mechanism,2024】;【索引113,Gated Linear Attention Transformers with Hardware-Efficient Training,2024,ICML】】通过对角化的通道级门控在表达性和效率之间取得了平衡。这些方法将注意力视为一个紧凑的循环记忆,并通过并行前缀扫描算子进行更新。从快速权重记忆的角度看,状态是一个在线更新的低容量联想表。门控和衰减机制则用于缓解干扰和稳定优化。然而,线性注意力在精确复制和细粒度选择方面仍落后于全注意力,这催生了混合设计和如 GDN/KDA 中使用的门控 delta 法则,它引入秩一校正更新来提高目标保留能力。

带门控机制的线性注意力。为解决原始线性注意力【【索引47,Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention,2020,ICML】】缺乏 softmax 选择机制的问题,门控线性注意力模型应运而生。它们使用固定大小的矩阵状态和可学习的门来选择性地保留和遗忘信息,在保持推理时恒定时间和空间复杂度的同时,实现了与 softmax 注意力相当的表达能力。这类模型通用的循环更新公式为:

不同门控线性注意力的主要区别在于遗忘门 $A_t$ 的参数化方式,如表 7 所示。例如,RetNet【【索引91,Retentive Network: A Successor to Transformer for Large Language Models,2023,arXiv】】使用数据无关的标量衰减,Mamba2【【索引16,Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality,2024,CoRR】】使用数据依赖的标量,而 GLA【【索引113,Gated Linear Attention Transformers with Hardware-Efficient Training,2024,ICML】】则使用对角化的细粒度矩阵。

稀疏注意力。另一类工作通过利用注意力的内在稀疏性,只在部分 token 子集上计算注意力来降低复杂度。早期方法使用固定的静态模式(如滑动窗口),但结构僵硬。更先进的方法根据上下文动态确定重要位置(如聚类或路由机制),但选择过程会带来计算开销。近期的稀疏注意力方法开始注重硬件协同设计,如 NSA【【索引118,Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention,2025,arXiv】;【索引95,MiniCPM4: Ultra-Efficient LLMs on End Devices,2025,arXiv】】和 MoBA【【索引62,MoBA: Mixture of Block Attention for Long-Context LLMs,2025,arXiv】】,它们从 token 级选择转向块级选择。而 DeepSeek-V3.2-Exp Attention (DSA)【【索引18,DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention,2025】】则通过可学习的全注意力索引器回归到 token 级稀疏。

讨论。线性注意力和稀疏注意力是实现高效长上下文建模的两种不同路径。稀疏注意力在细粒度信息检索上更有效,但需要存储整个 KV 缓存,效率低于状态恒定的线性注意力。线性注意力基于“压缩即智能”的原则,能以固定大小的状态实现泛化,并可通过 Delta 学习规则获得更强的理论表达能力。尽管线性注意力传统上被认为检索能力较弱,但这可以通过状态扩展等技术来缓解。未来可以探索结合两者优势的混合模型。

7.2 混合模型

混合模型的动机。尽管效率很高,但纯线性注意力在精确记忆检索和复制任务上仍有困难【【索引44,Repeat After Me: Transformers are Better than State Space Models at Copying,2024,arXiv】;【索引103,Rnns are not transformers (yet): The key bottleneck on in-context retrieval,2024,arXiv】】,这限制了其在工业级 LLM 中的应用。研究表明,线性注意力和全注意力可以有效互补,从而产生了多种混合设计。

层内混合 (Intra-layer hybrid)。这类架构在每层内部自适应地融合不同机制的输出。常见实现方式是在每层内融合不同头的输出,例如结合标准注意力和状态空间模型(SSM)【【索引22,Hymba: A Hybrid-head Architecture for Small Language Models,2024,arXiv】;【索引55,Transmamba: Flexibly switching between transformer and mamba,2025,arXiv】】。另一种方法是在序列级别应用不同机制,例如对过去上下文使用线性注意力,对近期 token 使用滑动窗口注意力(SWA)【【索引122,Lolcats: On low-rank linearizing of large language models,2024,arXiv】;【索引53,Liger: Linearizing Large Language Models to Gated Recurrent Structures,2025,arXiv】;【索引66,Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention,2024,arXiv】】。

层间混合 (Inter-layer Hybrid)。层内混合的主要缺点是系统复杂性和推理开销增加。为解决此问题,层间混合成为 LLM 中更广泛采用的策略【【索引65,MiniMax-01: Scaling Foundation Models with Lightning Attention,2025,arXiv】;【索引56,Jamba: A Hybrid Transformer-Mamba Language Model,2024,arXiv】;【索引96,Hunyuan-turbos: Advancing large language models through mamba-transformer synergy and adaptive chain-of-thought,2025,arXiv】】。这种方法以预定比例堆叠不同类型的层。本文采用了一种简单而有效的策略:以固定的 3:1 比例交错排列线性和全注意力层。这种规则结构简化了 KV 缓存管理并与标准优化无缝集成。对于线性部分,本文没有使用常见的 Mamba2,而是采用了 KDA,因为它在检索和复制能力方面表现更优。

讨论。最近的研究表明,混合模型可能对 RoPE 基频的调整很敏感,这使得上下文窗口的扩展变得复杂【【索引125,Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance,2025,arXiv】】。为解决这个问题,近期的模型趋向于采用无位置嵌入(NoPE)的方案。例如,Falcon-H 使用极高的基频来使其位置编码接近 NoPE 状态;SwanGPT【【索引75,SWAN-GPT: An Efficient and Scalable Approach for Long-Context Language Modeling,2025,arXiv】】则交错使用基于 RoPE 的层和基于 NoPE 的全注意力层。与此方向一致,本文发现将 KDA 层与 NoPE 全注意力层混合是一种高效策略,有助于直接扩展上下文窗口。

A5 结论

本文介绍了 Kimi Linear,一种旨在满足智能体智能和测试时扩展的效率需求,同时不牺牲质量的混合线性注意力架构。Kimi Linear 的核心是 Kimi Delta Attention (KDA),这是一个先进的线性注意力模块,具有通道级门控机制,增强了内存控制,并使得 RNN 风格的模型能够在混合架构中使用。通过以 3:1 的比例交错排列 KDA 和全局注意力,Kimi Linear 将内存使用量减少了高达 75%,同时实现了高达 6.3 倍的解码吞吐量,并超越了全注意力基线。我们的方法为大型语言模型提供了一个可扩展、高效的解决方案,并通过开源 KDA 内核和预训练检查点来促进未来的研究。

A6 附录

B KDA 分块并行化的推导

KDA 的循环形式。我们首先回顾 KDA 的循环形式:

我们的目标是将 $P_r[t]$ 和 $H_r[t]$ 转换成适合并行计算的矩阵形式。

WY 表示法优化。我们证明了 $P_r[t]$,它涉及到广义 Householder 矩阵的累积乘积,可以使用经典的 WY 表示法进行优化。

命题 1. 矩阵 $P_r[t]$ 可以表示为:

其中辅助向量 $w_r[t] \in \mathbb{R}^{d_k}$ 通过以下递归关系计算:

证明. 我们通过数学归纳法进行证明。
归纳步骤:假设命题对 $r-1$ 成立,即 $P_{r-1}[t] = \text{Diag}(\gamma_{r-1}[t]) - \sum_{i=1}^{r-1} \text{Diag}(\gamma_{i \to r-1}[t]) k_i[t] w_i^\top[t]$。我们现在推导:

归纳步骤成立。

$H_r[t]$ 的并行形式。类似于 $P_r[t]$,$H_r[t]$ 也可以表示为可并行的形式。

命题 2. 矩阵 $H_r[t]$ 可以表示为:

其中辅助向量 $u_r[t] \in \mathbb{R}^{d_v}$ 通过以下递归关系计算:

证明. 我们再次使用数学归纳法。
归纳步骤:假设命题对 $r-1$ 成立。
$$ H_{ll} = (I - J_c^H K_c^H K_c J_c) Diag(\alpha_{ll}) H_{ll}^{-1} + J_c^H K_c^H K_c J_c $$
$$ = (I - J_c^H K_c^H K_c J_c) Diag(\alpha_{ll}) \left( \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l (k_i^l)^T \right) + J_c^H K_c^H K_c J_c $$
$$ = (I - J_c^H K_c^H K_c J_c) \left( \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l (k_i^l)^T \right) + J_c^H K_c^H K_c J_c $$
$$ = \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l (k_i^l)^T - J_c^H K_c^H K_c J_c \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l (k_i^l)^T + J_c^H K_c^H K_c J_c $$
$$ = \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l u_i^T - J_c^H K_c^H K_c J_c \left( \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l u_i^T \right) + J_c^H K_c^H K_c J_c $$
$$ = \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l u_i^T + J_c^H K_c^H K_c J_c \underbrace{\left( I - \sum_{i=1}^{L} (k_i^l)^T Diag(\gamma_i^{l}) k_i^l \right)}_{O_{ll}} $$
$$ = \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l u_i^T + J_c^H K_c^H K_c J_c $$
$$ = \sum_{i=1}^{L} Diag(\gamma_i^{l}) k_i^l u_i^T $$
归纳步骤成立。

C 分块 KDA 的伪代码

def chunk_kda(
    q: torch.Tensor,
    k: torch.Tensor,
    v: torch.Tensor,
    g: torch.Tensor,
    beta: torch.Tensor,
    initial_state: Optional[torch.Tensor] = None,
    chunk_size: int = 64
):
    dtype = v.dtype
    B, T, H, K, V, C = *q.shape, v.shape[-1], chunk_size
    N = T // C

    q, k, v, g, beta = map(
        lambda x: rearrange(x, 'b (n c) h ... -> b h n c ...', c=C).to(torch.float),
        [q, k, v, g, beta]
    )
    q = q * K**-0.5
    g = g.cumsum(-2)
    mask = torch.triu(torch.ones(C, C, dtype=torch.bool, device=q.device), diagonal=0)

    A = torch.zeros(B, H, N, C, C, dtype=torch.float, device=q.device)
    for i in range(C):
        k_i = k[..., i, :]
        g_i = g[..., i:i+1, :]
        A[..., i] = torch.einsum('... c d, d -> c', k * (g - g_i).exp(), k_i)
    A = A * beta[..., None]
    # matrix inverse by forward substitution
    A = -A.masked_fill(mask, 0)
    for i in range(1, C):
        A[..., i, :i] = A[..., i, :i].clone() + (A[..., i, :, None].clone() * A[..., :, :i].clone()).sum(-2)
    A = (A + torch.eye(C, dtype=torch.float, device=q.device)) * beta[..., None, :]

    w = A @ (g.exp() * k)
    u = A @ v

    S = k.new_zeros(B, H, K, V)
    if initial_state is not None:
        S += initial_state
    o = torch.zeros_like(v)
    # strictly lower triangular
    mask = torch.triu(torch.ones(C, C, dtype=torch.bool, device=q.device), diagonal=1)
    for i in range(0, N):
        # [B, H, C, ...]
        q_i, k_i, u_i, g_i, w_i = q[:, :, i], k[:, :, i], u[:, :, i], g[:, :, i], w[:, :, i]
        A = torch.zeros(B, H, C, C, dtype=torch.float, device=q.device)
        # secondary chunking for numerical stability
        for j in range(C):
            k_j = k[:, :, i, j]
            g_j = g[:, :, i, j:j+1, :]
            A[..., j] = torch.einsum('... c d, ... d -> ... c', q_i * (g_i - g_j).exp(), k_j)
        A = A.masked_fill(mask, 0)
        v_i = u_i - w_i @ S
        o[:, :, i] = (q_i * g_i.exp()) @ S + A @ v_i
        S = S * rearrange(g_i[:, :, -1].exp(), 'b h k -> b h k 1')
        S += rearrange((g_i[:, :, -1:] - g_i).exp() * k_i, 'b h c k -> b h k c') @ v_i
    return rearrange(o, 'b h n c d -> b (n c) h d').to(dtype)

D Kimi Linear@5.7T 结果

与 Moonlight 的比较。我们遵循 Moonlight 的做法,也使用一个扩展的 5.7T token 数据集训练了 Kimi Linear,以展示其有效性。凭借 3 倍的稀疏度和新的注意力架构设计,Kimi Linear 在几乎所有基准测试中都持续优于 Moonlight,凸显了新架构的有效性。基础模型和指令调优模型的结果分别显示在表 8 和表 9 中。Moonlight-Instruct 未在超过其 8K 上下文限制的任务上进行评估(“-”)。

长上下文性能。Kimi Linear@5.7T 在 1M 上下文长度的 RULER 基准上获得了 94.8 分。这种长上下文性能再次证明,Kimi Linear 是全注意力架构的一个有前景的替代品,能够在提供相当或更优结果的同时,可能提供更高效的资源利用。

表 8: Kimi-Linear-Base 和 Moonlight-Base 在不同任务上的性能。
表 8: Kimi-Linear-Base 和 Moonlight-Base 在不同任务上的性能。
表 9: Kimi-Linear-Instruct 和 Moonlight-Instruct 在不同任务上的性能。
表 9: Kimi-Linear-Instruct 和 Moonlight-Instruct 在不同任务上的性能。