Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation
Radial Attention: O(n log n) Sparse Attention with Energy Decay for Long Video Generation
作者/机构: Xingyang Li, Muyang Li, Tianle Cai, Haocheng Xi, Shuo Yang, Yujun Lin, Lvmin Zhang, Songlin Yang, Jinbo Hu, Kelly Peng, Maneesh Agrawala, Ion Stoica, Kurt Keutzer, Song Han (MIT, NVIDIA, Princeton, UC Berkeley, Stanford, First Intelligence)
A1 主要贡献
近期,扩散模型在高质量视频生成方面取得了显著进展,但额外的时间维度极大地增加了计算成本,使得在长视频上进行训练和推理变得异常昂贵。
核心问题: 视频合成中的时间维度导致Token数量远超图像,而自注意力机制的计算量随上下文长度呈二次方增长,这使得在长视频上进行训练和推理的计算成本过高,限制了模型的可扩展性。
研究目标: 针对视频生成中注意力机制的计算瓶颈,本文旨在提出一种高效的稀疏注意力机制,以降低计算复杂度,同时保持高质量的视频生成,并能够将预训练模型高效地扩展到更长的视频生成任务中。
创新点:
1. 时空能量衰减现象 (Spatiotemporal Energy Decay): 本文在视频扩散模型中发现了一个现象,即经过softmax后的注意力分数会随着Token之间空间和时间距离的增加而减弱,类似于自然界中信号或波在空间和时间中传播时的衰减。
2. 径向注意力 (Radial Attention): 基于上述观察,本文提出了一种名为径向注意力(Radial Attention)的可扩展稀疏注意力机制。
* $O(n \log n)$ 复杂度: 该机制将计算复杂度从标准的 $O(n^2)$ 降低到 $O(n \log n)$。
* 静态掩码设计: 它采用一个简单而有效的静态稀疏注意力掩码,将能量衰减的概念转化为计算密度的衰减。具体来说,每个Token关注空间上邻近的Token,而注意力窗口的大小随着时间距离的增加而呈指数级缩小。
- 高效的长视频扩展: 由于径向注意力仅修剪了不重要的Token关系,而没有修改底层的softmax注意力机制,因此它允许使用高效的、基于LoRA的微调方法,将预训练的视频扩散模型扩展到更长的序列生成。
主要成果:
* 默认长度加速: 在默认视频长度上,径向注意力能够将领先的视频扩散模型(如HunyuanVideo)的生成速度提升1.9倍,同时保持相当的视频质量。
* 长视频生成: 在生成4倍长度的视频时,与直接微调相比,它能将训练成本降低多达4.4倍;与稠密注意力推理相比,它能将推理速度提升多达3.7倍。
图 1:我们提出了径向注意力,这是一种计算复杂度为 O(n log n) 的稀疏注意力机制。径向注意力在 HunyuanVideo 【1, Hunyuanvideo: A systematic framework for large video generative models, 2024, arXiv preprint arXiv:2412.03603】的默认视频长度下,将其加速了1.9倍,同时保持了相当的视频质量。在生成4倍长的视频时,与稠密注意力相比,它将微调成本降低了多达4.4倍,并将推理速度提升了多达3.7倍。提示词:一位时尚的女性走在东京的街道上,街道上充满了温暖发光的霓虹灯和动画城市标牌。她穿着黑色皮夹克、红色长裙和黑色靴子,挎着一个黑色钱包。她戴着太阳镜,涂着红色口红。她自信而随意地走着。街道潮湿且反光,形成了五彩灯光的镜面效果。许多行人在四处走动。
图 2:径向注意力将注意力的计算复杂度从 O(n^2) 降低到 O(n log n)。在使用 HunyuanVideo 生成 509 帧的 720p 视频时,它将注意力计算量减少了 9 倍,实现了 3.7 倍的加速,并节省了 4.4 倍的微调成本。
图 3:SVG 【8, Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity, 2025, ICML】 和我们的径向注意力的注意力流程。为清晰起见,省略了 Softmax。(a) SVG 为每个注意力头动态选择空间或时间注意力以加速推理。然而,它没有克服原始模型的长度限制,并且无法在像更长视频这样的未见分布上进行训练。(b) 我们的径向注意力使用一个静态掩码,该掩码以 O(n log n) 的计算复杂度统一了空间和时间注意力。这种静态设计使得能够高效地适应更长的视频。
A3 背景知识/关键Observation/设计原则
相关工作
- 视频扩散模型: 扩散模型已在图像合成领域取得SOTA成果。早期视频生成方法通过增加时间模块来适配2D UNets。自Sora【4, Sora: Video generation models as world simulators, 2024, OpenAI】问世以来,DiT【18, Scalable diffusion models with transformers, 2023, ICCV】成为主流骨干网络。为捕捉长距离依赖和联合建模时空动态,近期的SOTA模型普遍采用3D稠密注意力,但这带来了巨大的计算挑战。
- 高效视频生成: 许多图像扩散模型的加速技术也适用于视频,但视频模型的瓶颈在于3D稠密注意力层。LLM领域的稀疏注意力方法(如Long LoRA【39, Longlora: Efficient fine-tuning of long-context large language models, 2024, ICLR】、PowerAttention【45, Powerattention: Exponentially scaling of receptive fields for effective sparse attention, 2025, arXiv preprint arXiv:2503.03588】)因忽略视频数据的时空结构而效果不佳。视频专用的稀疏注意力方法,如STA【47, Fast video generation with sliding tile attention, 2025, arXiv preprint arXiv:2502.04507】(滑动3D窗口)和SVG【8, Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity, 2025, ICML】(动态选择时空模式),在处理长视频时存在局限性:STA的固定感受野限制了长距离依赖,而SVG的运行时分析在未见过的长视频分布上可能不可靠。相比之下,本文的径向注意力采用一个静态的 $O(n \log n)$ 模式,能够同时加速训练和推理,并高效地扩展到更长的视频。
- 长视频生成: 由于稠密注意力的二次方成本,长视频的训练和推理非常昂贵。现有方法包括:RIFLEx【50, Riflex: A free lunch for length extrapolation in video diffusion transformers, 2025, ICML】通过修改RoPE频率来外推长度,但效果有限;分段生成并拼接【52, One-minute video generation with test-time training, 2025, arXiv preprint arXiv:2504.05298】;Framepack【53, Packing input frame context in next-frame prediction models for video generation, 2025, arXiv preprint arXiv:2504.12626】采用自回归策略;使用线性注意力【10, 9】替代稠密注意力,但通常会降低质量。本文的径向注意力在 $O(n^2)$ 稠密注意力和 $O(n)$ 线性注意力之间取得了平衡,实现了 $O(n \log n)$ 的复杂度,同时保持了视觉保真度。
- $O(n \log n)$ 复杂度的注意力: 已有方法如Reformer【61, Reformer: The efficient transformer, 2020, International Conference on Learning Representations】、H-Transformer【62, H-transformer-1d: Fast one-dimensional hierarchical attention for sequences, 2021】等,但这些方法通常对硬件不友好且可扩展性有限。本文方法采用简单、对块友好的静态掩码,可高效扩展。
预备知识
扩散模型通过对高斯噪声$X_T \sim N(0, I)$进行渐进式去噪来合成视频,最终生成清晰的潜变量$X_0$,再由解码器解码为最终视频。视频引入了时间维度,显著增加了潜变量Token的数量,例如在HunyuanVideo【1, Hunyuanvideo: A systematic framework for large video generative models, 2024, arXiv preprint arXiv:2412.03603】中生成一个5秒720p的视频需要约11万个Token。
为捕捉时空相关性,近期模型使用3D稠密注意力,其计算公式如下:
$$\text{Attention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax} \left( \frac{\boldsymbol{Q} \boldsymbol{K}^\top}{\sqrt{d}} \right) \boldsymbol{V},$$其中$Q, K, V \in \mathbb{R}^{n \times d}$分别是查询、键和值矩阵。$QK^\top$的计算导致了$O(n^2)$的时间和内存复杂度。尽管FlashAttention系列【66, 67】减少了内存开销,但二次方的时间复杂度仍然是瓶颈。
为减轻计算负担,稀疏注意力将交互限制在一部分Token对之间,通过添加一个稀疏掩码$M \in \{-\infty, 0\}^{n \times n}$来实现:
$$\text{SparseAttention}(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}) = \text{softmax} \left( \frac{\boldsymbol{Q}\boldsymbol{K}^{\top} + \boldsymbol{M}}{\sqrt{d}} \right) \boldsymbol{V}.$$值为$-\infty$的条目在softmax计算中被忽略。掩码构造方案分为静态方法(如STA【47, Fast video generation with sliding tile attention, 2025, arXiv preprint arXiv:2502.04507】)和动态方法(如SVG【8, Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity, 2025, ICML】)。动态方法表达能力更强,但引入了在线决策开销且不适用于训练。本文旨在设计一种静态注意力模式,既能匹配动态方法的表达能力,又能用于训练。
注意力中的时空能量衰减
图4(a)展示了两种注意力图。左图是空间注意力,每个Token主要关注相邻帧内的附近Token;右图是时间注意力,每个Token关注不同帧中相同空间位置的Token。图4(b)展示了这两种注意力图以及多头和多扩散步骤平均后的注意力分数分布。图4(b1)显示,在相同空间位置,Token间的平均注意力分数随着时间距离的增加而下降。图4(b2)显示,在同一帧内,Token间的平均注意力分数随着空间距离的增加而下降。这两种情况下,注意力分数都表现出随距离增加而明显衰减的模式,我们称之为时空能量衰减。回归分析表明,这种衰减非常接近指数分布(见5.3节)。
图 4:(a) HunyuanVideo 中空间和时间注意力图的示例(定义见第 4.1 节)。(b) 注意力分数分布。(b1):相同空间位置的 Token 之间的平均分数随时间距离的增加而降低。(b2):一帧内的平均注意力分数随空间距离的增加而降低。空间和时间注意力指的是从(a)中相应图得出的分布。平均值是指在多个随机图和扩散步骤上的平均。这些图表明,空间注意力表现出高的时间衰减和相对低的空间衰减,而时间注意力则表现出相反的特性。
该现象的数学形式化。假设视频潜变量包含$f$帧,每帧有$s$个Token(总计$n=fs$个Token)。考虑一个位于第$i_0$帧第$k_0$个空间位置的查询Token,其对应的softmax后注意力分数向量为$p = \text{softmax}(Q_{i_0s+k_0}K^\top)$。对于任意一个位于第$j$帧第$l$个空间位置的键Token,存在常数$\alpha, \beta > 0$和$C_{rel} > 0$,满足以下关系:
$$p_{js+l} \le C_{\mathrm{rel}} e^{-\alpha |j-i_0| - \beta |l-k_0|} p_{i_0s+k_0}.$$其中,参数$\alpha$和$\beta$分别控制时间和空间衰减。如图4(b)的经验曲线所示,高$\beta$(强空间局部性)和低$\alpha$模拟了时间注意力,而高$\alpha$和低$\beta$则捕捉了空间注意力。这一发现启发我们设计一个统一的稀疏模式,以一种有原则的方式同时利用空间和时间衰减。
A2 方法细节
径向注意力的核心思想是,注意力分数会随着时空距离的增加而衰减,因此可以根据固有的时空相关性来分配计算资源。
径向注意力:将能量衰减转化为计算密度衰减
径向注意力通过计算密度衰减来模拟能量衰减,以节省计算。
时间密度衰减。沿着时间维度,径向注意力应用了一个指数衰减规则:第$i$帧和第$j$帧中Token之间的计算密度为 $(\frac{1}{2})^{\lfloor\log_2(\max(|i-j|,1))\rfloor}$。这形成了一个如图5(a)所示的结构化模式,以主对角线(band 0)为中心,形成了$2\lceil\log_2(\max(f, 2))\rceil - 1$个对角带。主对角线上下的带分别索引为$1, 2, 3, \dots$和$-1, -2, -3, \dots$。每个带的宽度是前一个带的两倍,确保每个带的总计算量保持在一个常数范围内。第$i$帧到第$j$帧的注意力位于第 $\text{sign}(j - i) \cdot \lfloor\log_2 \max(|i - j|, 1)\rfloor$ 个带。中心带(band 0)保留100%的计算密度,而向外移动的每个连续带的计算密度是前一个的一半,从而产生颜色逐渐变浅的径向衰减效果。
图 5:(a) 计算密度模式。注意力图根据 Token 之间的时间距离被划分为 2⌈log(max(f, 2))⌉ − 1 个带(这里,帧数 f = 12)。中心带具有完整的计算密度,而每个连续的外部带的密度是前一个的一半。除了带 ±1,每个带的对角线宽度也是其前一个的两倍。(b) (a) 对应的注意力掩码。计算密度反映在每个帧到帧块的计算对角线宽度上。当对角线宽度降至 1 以下时,我们减少对角线的频率。我们还额外添加了一个注意力池。(c) HunyuanVideo 中使用的示例掩码,展示了实践中最终的稀疏模式。
空间密度衰减。如公式3所示,大部分注意力能量集中在跨帧的相似空间位置的Token上。我们保留这些高能量的交互,这在每个帧到帧的注意力块内产生类似对角线的结构。由于时间衰减,这些块的计算对角线宽度随着帧之间时间距离的增加而缩小。具体来说,如图5(b)所示,第$i$帧和第$j$帧之间的注意力对角线宽度由 $\lfloor \frac{s}{2^{\lfloor\log_2\max(|i-j|,1)\rfloor}} \rfloor$ 给出。如果宽度小于1,我们不再进一步缩小对角线,而是降低对角线的出现频率。具体地,我们只在满足 $|i-j| \pmod{\lceil \frac{2^{\lfloor\log_2\max(|i-j|,1)\rfloor}}{s} \rceil} = 0$ 的块中保留对角线,以保持相同的摊销注意力密度衰减。
形式化定义。径向注意力的掩码 $\tilde{M} \in \{-\infty, 0\}^{f \times f \times s \times s}$ 定义如下,其中 $\tilde{M}_{i,j,k,l} = 0$ 表示允许第$i$帧第$k$个位置的Token关注第$j$帧第$l$个位置的Token。
$$\begin{aligned} \tilde{M}_{i,j,k,l} = \begin{cases} 0, & \text{if } 2^{\lfloor \log_2 \max(|i-j|, 1) \rfloor} \leq s \text{ and } |k-l|+1 \leq \frac{s}{2^{\lfloor \log_2 \max(|i-j|, 1) \rfloor}} \\ 0, & \text{if } |i-j| \bmod \lceil \frac{2^{\lfloor \log_2 \max(|i-j|, 1) \rfloor}}{s} \rceil = 0 \text{ and } k=l \\ -\infty. & \text{otherwise} \end{cases} \end{aligned}$$最终用于注意力计算的掩码 $M \in \{-\infty, 0\}^{n \times n}$ 是通过展平帧和空间索引得到的:$M_{is+k, js+l} = \tilde{M}_{i,j,k,l}$。为了提高质量,我们还引入了一个注意力池(attention sink)【38, Efficient streaming language models with attention sinks, 2024, ICLR】【8, Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity, 2025, ICML】,因为第一帧的注意力至关重要。图5(c)展示了在HunyuanVideo中生成253帧720p视频时使用的掩码示例。该策略保留了时间邻近度高的空间交互,同时对远距离帧使用稀疏采样以保持效率。
与SVG的关系。径向注意力使用单一的注意力掩码统一了SVG【8, Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity, 2025, ICML】中的空间和时间注意力。我们掩码的中心带(图5(a)中的band 0)已经捕捉了密集的空间交互,实际上包含了SVG中的空间注意力。对于时间注意力,SVG忽略了时间衰减,为相关性低的远距离帧分配了不必要的计算。相比之下,径向注意力减少了对这些区域的关注,并将计算预算重新分配给时间上更近的Token,从而同时提高了效率和建模能力。
复杂度分析。该方法的计算成本与注意力掩码 $\tilde{M}$ 中零的数量成正比。当帧数$f$很大时,我们推导出以下上界:
$$\begin{aligned} \begin{aligned} \# \text{zeros in } \tilde{M} \leq & \underbrace{4s^2 f}_{\text{central band and sink}} + \underbrace{\sum_{r=1}^{\lfloor \log_2 s \rfloor} 2^{r+1} f \frac{2s^2}{2^r}}_{\text{diagonal width} \geq 1} + \underbrace{\sum_{r=\lfloor \log_2 s \rfloor + 1}^{\lceil \log_2 f \rceil - 1} 2^{\lfloor \log_2 s \rfloor + 1} f s}_{\text{diagonal width} < 1} \\ \leq & 4s^2 f \log_2 f = 4sn(\log_2 n - \log_2 s). \end{aligned} \end{aligned}$$详细推导见附录A.1。从公式6可以看出,对于具有固定分辨率$s$的长视频(即大的$f$),计算复杂度为 $O(n \log n)$。图2中HunyuanVideo的经验结果证实了这一趋势。对于4倍长的视频,径向注意力比稠密注意力减少了9倍的注意力计算量。
误差分析。根据公式3,我们推导了注意力分数的误差界。令$\tilde{p} = \text{softmax}(Q_{i_0s+k_0}K^\top + \tilde{M}_{i_0s+k_0})$表示加掩码后的注意力分数,我们近似注意力的$\ell_1$误差有如下界:
$$ \|\tilde{p}-p\|_{1} \leq C_{\text {rel }}\left[\frac{8 e^{-\beta\left(\frac{s}{2}+1\right)}}{\left(1-e^{-\alpha}\right)\left(1-e^{-\beta}\right)}+4 \frac{1+e^{-\beta}}{1-e^{-\beta}} \frac{e^{-\alpha(s+1)}}{1-e^{-\alpha}}\right]=O\left(C_{\text {rel }} e^{-\min (\beta / 2, \alpha) s}\right) . $$证明细节在附录A.2中提供。如公式7所示,误差随着衰减率$\alpha$和$\beta$的增大而指数级减小。在5.3节中,我们进一步将此误差界与SVG的误差界进行经验比较,结果表明径向注意力实现了更小的误差。
硬件友好的块稀疏性。为确保在现代硬件上高效执行,注意力计算是在128×128的块上进行的,而不是单个1×1的Token【68, 8, 40, 43, 44, 66】。
用于长视频的低秩自适应
尽管我们采用了高效的注意力机制,但预训练模型最初是在短视频上训练的。直接在长视频上训练计算成本过高。径向注意力将训练时间复杂度降低到 $O(n \log n)$,从而缓解了这一挑战。重要的是,它保留了softmax注意力中关键的Token间关系,使得原始的预训练权重可以基本保持不变,因此只需要进行最少的微调。为了进一步减少训练开销,我们将低秩适配器(LoRA)【11, Lora: Low-rank adaptation of large language models, 2022, ICLR】【39, Longlora: Efficient fine-tuning of long-context large language models, 2024, ICLR】集成到注意力机制中。具体来说,LoRA被应用于注意力层的查询、键、值和输出投影,从而以显著减少的内存和计算成本实现高效微调。经验上,我们发现使用径向注意力的LoRA微调不仅最小化了开销,还通过更有效地调整最关键的权重和注意力来提高视频质量。
A4 实验环境
-
模型:
- Mochi 1【22, Mochi 1, 2024, https://github.com/genmoai/models 】: 100亿参数,可生成最长5秒、480p分辨率、162帧的视频。
- HunyuanVideo【1, Hunyuanvideo: A systematic framework for large video generative models, 2024, arXiv preprint arXiv:2412.03603】: 130亿参数,可生成最长5秒、720p分辨率、125帧的视频。
- Wan2.1-14B【7, Wan: Open and advanced large-scale video generative models, 2025, arXiv preprint arXiv:2503.20314】: 140亿参数,可生成最长5秒、720p分辨率、81帧的视频。
-
数据集:
- 长视频微调使用 OpenVid-1M【74, Openvid-1m: A large-scale high-quality dataset for text-to-video generation, 2025, ICLR】 数据集。
- 为每个扩展长度,采样了2000个在美学和运动评分上得分最高的视频。
-
硬件配置:
- 推理: 使用单张NVIDIA H100 GPU测量延迟(Wan 2.1);使用8张H100 GPU评估HunyuanVideo和Mochi 1。
- 训练: 使用8张NVIDIA H100 GPU进行训练。
-
软件配置:
- 推理库: 使用FlashInfer【72, Flashinfer: Efficient and customizable attention engine for llm inference serving, 2025, MLSys】。
- 训练库: 使用Block-Sparse-Attention【73, Block Sparse Attention, 2024, https://github.com/mit-han-lab/Block-Sparse-Attention】及FlashAttention-2 【67, FlashAttention-2: Faster attention with better parallelism and work partitioning, 2024, ICLR】后端。
- 实现细节:
- 所有模型在前12个去噪步骤使用稠密注意力作为预热阶段。
- 保留第一个DiT块中的稠密注意力以维持质量。
- 训练时长:HunyuanVideo约16-21小时,Mochi 1约8-17小时,Wan 2.1约15小时。
A4 实验结果
主要结果
-
无训练的推理加速:
- 实验内容: 在HunyuanVideo和Wan2.1-14B的默认生成长度上,将径向注意力与SVG、STA和PA等稀疏注意力基线进行比较。
- 实验结果 (见表1): 在相同的计算预算下,径向注意力在PSNR、SSIM和LPIPS等指标上持续优于STA和PA,视频质量与SVG相当,并接近原始稠密注意力的水平。在单张H100上,HunyuanVideo和Wan2.1分别实现了1.9倍和1.8倍的端到端加速,与理论计算节省相符。
- 分析结论: 径向注意力在保持高质量视频的同时显著提升了推理效率。PA虽然复杂度同为 $O(n \log n)$,但因忽略了视频的时空局部性而表现不佳。
表 1:默认视频长度下的定量结果。在相同的计算预算下,我们的方法在PSNR、SSIM和LPIPS方面始终优于STA和PA,视频保真度与SVG相当,并在HunyuanVideo和Wan2.1-14B上使用单块H100 GPU实现了1.8倍的加速。
图 6:径向注意力与原始Wan2.1-14B在默认视频长度下生成的视频示例。径向注意力反映了原始模型的视频质量。 -
长视频生成:
- 实验内容: 在2倍和4倍原始长度上评估视频生成质量,并将径向注意力与多种基线(包括无微调、RIFLEx、其他稀疏注意力、SANA、LoRA微调的稠密注意力)进行比较。
-
实验结果 (见表2):
- 无微调的原始模型和RIFLEx在4倍长度时质量严重下降。
- 其他稀疏注意力和线性注意力(SANA)在微调后效果不佳。
- 径向注意力通过少量LoRA微调,其视频质量(Vision Reward及VBench多维度指标)与LoRA微调的稠密注意力模型相当,甚至略有提升。
- 在效率方面,生成4倍长视频时,径向注意力可节省高达4.4倍的训练成本,并带来高达3.7倍的推理加速。
-
分析结论: 径向注意力能够通过高效微调,在大幅降低成本和加速推理的同时,将模型能力扩展到长视频生成,并保持高质量。
表 2:在扩展(2倍和4倍)视频长度下的定量结果。通过最少的微调,我们的方法在长度增加时,在Vision Reward和多个VBench维度(主题一致性、美学质量和图像质量)上保持了质量。它还实现了高稀疏度,将训练成本降低了多达4.4倍,并提供了高达3.7倍的推理加速。
图 7:HunyuanVideo 在 4 倍长度扩展(509 帧)下的视觉比较。使用径向注意力进行 LoRA 微调的模型获得了更高的视觉奖励,优于稠密注意力基线,同时实现了 3.7 倍的加速并将微调成本降低了 4.4 倍。 -
与现有LoRA的兼容性:
- 实验内容: 将本文用于长度扩展的LoRA与预训练的风格LoRA权重进行合并。
- 实验结果: 成功合并,生成的长视频既保持了风格,也具备了时间连贯性。
- 分析结论: 径向注意力的长度扩展能力与现有的任务特定LoRA无缝兼容。
消融研究与分析
-
低秩自适应的有效性 (见图8(a)):
- 对于稠密注意力,LoRA微调的效果在4倍长度前不如全参数微调。
- 而对于径向注意力,LoRA微调的效果与全参数微调相当甚至更好,表明径向注意力使模型更容易适应长视频生成。
-
注意力误差:
- 径向注意力在Wan2.1-14B上的平均注意力输出均方误差(MSE)为$3.9 \times 10^{-3}$,显著低于SVG的$4.4 \times 10^{-3}$和STA的$1.5 \times 10^{-2}$,证明了其掩码设计的有效性。
-
回归结果 (见图8(b)):
- 使用指数函数 $y = \exp(-ax + b)$ 对图4中的平均注意力衰减曲线进行回归分析,拟合的$R^2$值超过0.985,表明指数函数能很好地模拟这种衰减现象。
图 8:(a) 径向注意力在生成质量上优于稠密注意力。与 LoRA 结合使用时,它进一步提高了质量,同时显著降低了训练成本。(b) 我们使用指数函数 y = exp(−ax + b) 对注意力衰减曲线进行建模。它很好地拟合了数据,实现了 R2 > 0.985。
A5 结论
本文提出了径向注意力,一种用于高效长视频生成的 $O(n \log n)$ 稀疏注意力机制。我们观察到视频扩散模型中的时空能量衰减现象,这启发我们设计了一种具有亚二次复杂度的统一注意力模式。在默认视频长度下,径向注意力实现了高达1.9倍的加速并保持高保真度。对于长达4倍的视频,径向注意力通过最少的LoRA微调,保持了视频质量,并在训练和推理中分别带来了高达4.4倍和3.7倍的加速。这项工作为可扩展、高质量的视频生成做出了贡献,并为更广泛的序列建模任务中的高效长程注意力提供了基础。
局限性与未来工作:
- 衰减假设: 注意力分数的指数衰减假设简化了真实视频数据中复杂的时空依赖关系。未来工作可以通过更深入地理解和建模底层数据结构来提高效率和性能。
- 分辨率扩展: 如公式6所示,本文方法在分辨率方面仍具有二次复杂度。未来的工作应探索更高效的注意力机制和预训练策略,以更好地支持长时高分辨率视频。
A6 附录
A. 推导与证明
A.1 复杂度
中心带与注意力池。首先,我们在中心带和注意力池内的帧间注意力块上应用稠密注意力。注意力池指每个Token都关注第一帧中的所有Token。这部分非零项的数量有界:
$$\text{\#zeros in } \tilde{M}^{(1)} \le 4 \cdot f \cdot s^2 = 4s^2 f.$$对角线宽度 ≥ 1 的带。第二部分是除了中心带之外,对角线宽度大于等于1的带。这部分零点数量有界:
$$\le \sum_{r=1}^{\lfloor \log_2 s \rfloor} \frac{2^{r+2}s^2 f}{2^r}$$对角线宽度 < 1 的带。最后一部分是那些对角线宽度小于1的带,我们在此减少对角线的频率。这部分零点数量有界:
$$\begin{aligned} \begin{aligned} \# \text{zeros in } \tilde{M}^{(3)} & \leq \sum_{r=\lfloor \log_2 s \rfloor+1}^{\lceil \log_2 f \rceil-1} \underbrace{2^{\lfloor \log_2 s \rfloor+1}}_{\text{number of diagonals}} \cdot \underbrace{n}_{\text{area bound of each diagonal}} \\ & \leq (\lceil \log_2 f \rceil - \lfloor \log_2 s \rfloor) 4s^2 f. \end{aligned} \end{aligned}$$综合上界。将三部分相加,我们得到径向注意力掩码中零点数量的总上界:
$$ \text{\# of zeros in } \tilde{M} \le 4s^{2}f \cdot \lfloor \log_{2} f \rfloor \le 4s \cdot n (\log_{2} n - \log_{2} s), $$对于长视频生成(即帧数$f$很大),该复杂度为 $O(n \log n)$。
A.2 误差界
本节从理论上界定径向注意力的近似误差。我们关注注意力矩阵单行的近似误差。
假设
* (A1) 相对指数衰减: 假设注意力矩阵的未归一化值$a_{j,l}$满足 $0 \le a_{j,l} \le C_{rel} e^{-\alpha|j-i_0|-\beta|l-k_0|} a_0$,其中$a_0$是参考Token的自注意力值,$\alpha$和$\beta$分别是时间和空间衰减率。
* (A2) 无限时间网格和有限空间网格: 为进行渐近分析,我们假设时间索引$j \in \mathbb{Z}$,空间索引$l \in \{1, \dots, s\}$。
推导过程。近似误差主要来自两个方面:(i) 被保留帧内被丢弃的空间尾部;(ii) 因下采样规则而被跳过的帧。通过对这两部分误差进行求和,并利用全变差误差的标准代数论证,可以推导出最终的误差界。
误差界。总变差误差($\ell_1$范数)的上界可以表示为:
$$\left\|\tilde{p}-p\right\|_{1} \leq C_{\mathrm{rel}}\left[\frac{8 e^{-\beta\left(\frac{s}{2}+1\right)}}{\left(1-e^{-\alpha}\right)\left(1-e^{-\beta}\right)}+4 \frac{1+e^{-\beta}}{1-e^{-\beta}} \frac{e^{-\alpha(s+1)}}{1-e^{-\alpha}}\right]=O\left(C_{\mathrm{rel}} e^{-\min \{\beta / 2, \alpha\} s}\right)$$这表明了近似误差是如何受衰减率$\alpha$和$\beta$以及每帧Token数$s$影响的。
B. 附加实现细节
在用于长视频生成的LoRA微调中,我们对HunyuanVideo【1, Hunyuanvideo: A systematic framework for large video generative models, 2024, arXiv preprint arXiv:2412.03603】和Mochi 1【22, Mochi 1, 2024, https://github.com/genmoai/models】使用全局批大小为1的序列并行进行微调, 对Wan 2.1【7, Wan: Open and advanced large-scale video generative models, 2025, arXiv preprint arXiv:2503.20314】使用全局批大小为8进行训练。所有微调实验均在8个H100 GPU上进行。训练期间,我们保持前两个DiT块为稠密注意力。HunyuanVideo的2倍和4倍长度视频生成分别训练2400和1200步。Mochi 1的2倍和4倍长度视频生成均训练5000步。Wan2.1-14B的2倍长度视频生成训练2500步。所有训练任务的LoRA秩均为128。
C. 生成视频的可视化
-
C.1 默认视频长度: 如图A和图B所示,与STA【47, Fast video generation with sliding tile attention, 2025, arXiv preprint arXiv:2502.04507】相比,径向注意力在HunyuanVideo和Wan2.1-14B上获得了更高的PSNR,有效保持了原始视频的高保真度。
-
C.2 更长视频长度: 如图C、D、E所示,在4倍(HunyuanVideo, Mochi 1)和2倍(Wan2.1-14B)长度的视频生成任务中,径向注意力在所有基线中取得了最高的平均Vision Reward【69, Visionreward: Fine-grained multi-dimensional human preference learning for image and video generation, 2024, arXiv preprint arXiv:2412.21059】分数,即使在长视频设置下也很好地保持了视频质量。
-
C.3 LoRA兼容性可视化结果: 如图F所示,将我们的长度扩展LoRA与现有的风格LoRA结合,可以在实现长视频生成的同时保持视觉质量。观察到合并后的LoRA生成的风格与原始LoRA有细微差异,这主要归因于用于训练长度扩展LoRA的数据集相对较小,可能引入了轻微的风格偏差。
D. 关于初始稠密注意力层和步骤的消融实验
-
D.1 初始稠密注意力步骤消融: 如表B所示,对于默认长度视频生成,12个预热步骤(即前25%的时间步使用全注意力)在所有指标上均达到最佳性能。如表C所示,对于4倍长视频生成,2个预热步骤取得了最高的Vision Reward。
-
D.2 初始稠密注意力层消融: 如表D所示,为了更好地捕捉全局信息,我们在训练期间将前两个DiT层保持为全注意力。与使用0、1或3个稠密层相比,使用2个全注意力层取得了最佳的视频质量。
-
D.3 与其他 $O(n \log n)$ 稀疏模式的比较: 如表A所示,我们将径向注意力与另一种具有$O(n \log n)$复杂度的注意力模式——谐波序列衰减注意力(HS)进行了比较。结果表明,径向注意力在所有指标上均优于HS。
Table A: 我们将径向注意力与另一个O(n log n)注意力基线,谐波序列(HS)进行比较。径向注意力在所有指标上都持续优于它。
Table B: 对Wan2.1-14B模型默认长度视频生成的初始全注意力(预热)步数的消融实验。12步预热在所有指标上都取得了最佳性能。
Table C: 对4倍长视频生成的预热步数进行消融。两步预热产生了最佳的Vision Reward。
Table D: 对训练期间初始全注意力(稠密)层数的消融实验。使用两个全注意力层产生了最高的Vision Reward。
💬 评论讨论
欢迎在这里分享您的想法和见解!