文章标题: 上下文混合用于长视频生成
作者: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
机构: 斯坦福大学, 字节跳动Seed, 约翰霍普金斯大学, 香港中文大学, 字节跳动

A1 主要贡献

核心问题：长视频生成本质上是一个长上下文记忆问题。模型必须在长时间范围内保留和检索显著事件，而不会出现内容崩塌或漂移。然而，将扩散变换器（Diffusion Transformers, DiTs）扩展到生成长上下文视频，从根本上受到自注意力机制的二次方成本限制，这使得长序列的内存和计算变得难以处理和优化。此外，核心困难不仅仅是计算问题，更是学习如何在正确的时间选择性地回忆正确的上下文。

研究目标与创新点：本文将长上下文视频生成重新定义为一个内部信息检索任务，并提出了一个简单、可学习的稀疏注意力路由模块——上下文混合（Mixture of Contexts, MoC），作为一种有效的长期记忆检索引擎。

本文的主要贡献如下：
1. 提出上下文混合（MoC）框架：该框架将长视频生成视为内部上下文检索问题。它用一个自适应的、内容对齐的MoC层取代了DiT骨干网络中的密集注意力。
2. 动态稀疏路由机制：在MoC中，每个查询（query）通过一个无参数但可训练的top-k路由器，动态地选择几个信息量最大的上下文“块”（chunks）以及强制性的“锚点”（如文本标题、局部窗口）进行注意力计算。这种机制使得模型能够将计算资源分配给历史中最重要的事件。
3. 内容对齐的分块与强制链接：MoC沿着视频的自然边界（如帧、镜头、文本）将多模态令牌流分割成内容对齐的块。同时，它强制激活了两种链接：所有文本令牌的跨模态链接和镜头内的局部窗口链接，以稳定局部保真度并为真正的长距离回忆保留路由能力。
4. 因果路由：应用了因果路由掩码，强制信息在时间上向前流动，形成一个有向无环交互图，从而防止了病态的循环闭合，提高了分钟级序列生成的稳健性。
5. 高效实现与显著性能提升：MoC与Flash-Attention内核高效结合，实现了近线性的计算扩展。实验表明，MoC能够剪除超过85%的令牌对，将注意力浮点运算（FLOPs）预算降低多达7倍，并在分钟级场景（约18万令牌）上实现2.2倍的端到端生成加速。
6. 涌现的长期记忆能力：通过在大量数据上逐步稀疏化路由进行训练，模型学会了关注显著的历史信息，在长达数分钟的内容中保持了身份、动作和场景的一致性。这证明了学习到的稀疏上下文路由可以克服二次方注意力的实际障碍，以接近短视频的成本有效地实现分钟级的长上下文视频记忆。

A3 背景知识与相关工作

自注意力机制的计算瓶颈。标准自注意力机制在Transformer架构【【37，Attention is all you need. NeurIPS 2017】，【28，Scalable diffusion models with transformers. ICCV 2023】】中 O(L²) 的计算成本，在处理长视频生成所涉及的巨大序列长度时成为主要障碍，同时在长时间跨度上保持连贯性并防止视觉质量下降也十分困难。我们的工作建立在高效序列建模和长视频生成框架的先前研究之上。

长视频生成

现有模型的局限性。现有的视频生成模型【【1，Lumiere: A space-time diffusion model for video generation. SIGGRAPH Asia 2024】，【5，Videocrafter1: Open diffusion models for high-quality video generation. arXiv 2023】，【6，Videocrafter2: Overcoming data limitations for high-quality video diffusion models. CVPR 2024】，【12，Preserve your own correlation: A noise prior for video diffusion models. CVPR 2023】，【13，Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. ICLR 2024】，【15，Ltx-video: Realtime video latent diffusion. arXiv 2024】，【17，Cogvideo: Large-scale pretraining for text-to-video generation via transformers. ICLR 2023】，【23，Hunyuanvideo: A systematic framework for large video generative models. arXiv 2023】，【36，Mochi 1. GitHub repository 2024】，【47，Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv 2024】，【51，Show-1: Marrying pixel and latent diffusion models for text-to-video generation. IJCV 2023】】大多局限于几秒钟。最近一些框架专门针对更长的视频生成，使用自回归模型对帧、块或段进行操作，例如CausVid【【48，From slow bidirectional to fast autoregressive video diffusion models. CVPR 2025】】。虽然这些框架扩展了生成能力，但它们常常面临序列预测中固有的误差累积问题【【38，Error analyses of auto-regressive video diffusion models: A unified framework. arXiv 2025】】，或者在扩展到更长持续时间时面临不确定的计算伸缩性问题。

缓解误差累积的策略。为了缓解这些问题，RollingDiffusion【【31，Rolling diffusion models. arXiv 2024】】和Diffusion Forcing【【3，Diffusion forcing: Next-token prediction meets full-sequence diffusion. NeurIPS 2025】】向历史上下文中注入受控噪声，并训练模型对其进行去噪，从而增强了对复合误差的鲁棒性。MAGI-1【【32，Magi-1: Autoregressive video generation at scale. arXiv 2025】】和SkyReels-V2【【4，Skyreels-v2: Infinite-length film generative model. arXiv 2025】】通过采用自回归去噪来扩展这些思想，旨在实现可能更长的持续时间。

上下文压缩策略。另一种策略是将整个过去的信息提炼成一个固定大小的潜在表示。TTTVideo【【7，One-minute video generation with test-time training. arXiv 2025】】使用一个可学习的多层感知机（MLP）在推理过程中对上下文进行编码，而FramePack【【55，Packing input frame contexts in next-frame prediction models for video generation. arXiv 2025】】则将任意数量的帧编码成一个固定向量用于下一帧预测。FramePack【【55】】还提出了对未来帧进行早期规划以缓解误差累积问题。这类似于使用关键帧或锚点帧【【16，Streamingt2v: Consistent, dynamic, and extendable long video generation from text. CVPR 2025】，【19，Storyagent: Customized storytelling video generation via multi-agent collaboration. arXiv 2025】，【26，Videostudio: Generating consistent-content and multi-scene videos. ECCV 2024】，【39，Artv: Auto-regressive text-to-video generation with diffusion models. arXiv 2023】，【43，Captain cinema: Towards short movie generation. arXiv 2025】，【45，Dreamfactory: Pioneering multi-scene long video generation with a multi-agent framework. arXiv 2024】，【46，Synchronized video storytelling: Generating video narrations with structured storyline. arXiv 2024】，【59，Moviedreamer: Hierarchical generation for coherent long visual sequences. ICLR 2025】】，其中某些帧被预定义，视频生成模型只负责插值采样。这些方法将视频生成扩展到一分钟范围，但在保持长上下文连贯性方面仍然面临硬性上限，因为它们依赖于上下文的有损压缩。

最相关的先前工作。与我们工作最密切相关的是Long-Context Tuning (LCT)【【14，Long context tuning for video generation. arXiv 2025】】，它从一个单镜头DiT开始，将其上下文窗口扩展到一个包含多达八个镜头（约8秒，每个约2.3×10⁴个令牌）的场景。LCT【【14】】保持了密集的注意力机制：在扩大的窗口内，所有文本和视频令牌在通过交错的3D RoPE定位后相互关注。虽然这种设计优雅地重用了预训练权重并产生了令人印象深刻的多镜头连贯性，但它继承了完全自注意力的二次方成本——FLOPs和内存随(8L_shot)²扩展。

视频生成的稀疏注意力

稀疏注意力的动机。稀疏注意力利用了注意力矩阵通常是稀疏的（许多分数接近于零）这一观察，只为一部分重要的令牌对计算注意力，这鉴于时空冗余性，非常适合视频生成。

训练无关的剪枝方法。训练无关的剪枝器包括SparseVideoGen【【41，Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity. arXiv 2025】】，它分析动态专精于空间或时间的注意力头，并为每个头选择一种模式；以及STA【【57，Fast video generation with sliding tile attention. arXiv 2025】】，它通过在FlashAttention友好的块上逐块操作来利用局部化的3D窗口【【8，FlashAttention-2: Faster attention with better parallelism and work partitioning. ICLR 2024】，【9，FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In NeurIPS 2022】】。

通用过滤器和动态模式。通用过滤器如SpargeAttn/SageAttention【【52，Sageattention2: Efficient attention with thorough outlier smoothing and per-thread int4 quantization. ICML 2025】，【53，Sageattention: Accurate 8-bit attention for plug-and-play inference acceleration. ICLR 2025】，【54，Spargeattn: Accurate sparse attention accelerating any model inference. ICML 2025】】将选择性令牌压缩与一个感知softmax的通道结合起来，以跳过QKT/PV的部分计算。AdaSpa【【42，Training-free and adaptive sparse attention for efficient long video generation. arXiv 2025】】提出了一种“块化”的动态模式，带有Fused LSE-Cached Search，可以在去噪步骤之间重用稀疏索引。Jenga【【58，Training-free efficient video generation via dynamic token carving. arXiv 2025】】使用训练无关的块级注意力分割和渐进式分辨率。

可训练或结构化的稀疏设计。除了这些后处理的剪枝器，最近的可训练或结构化设计包括VMoBA【【40，Vmoba: Mixture-of-block attention for video diffusion models. arXiv 2025】】，它学习一种块混合方案，具有层级分区和全局/阈值块选择功能，用于视频扩散模型（VDM）。VSA【【56，Vsa: Faster video diffusion with trainable sparse attention. arXiv 2025】】提出了一种硬件高效的从粗到细的稀疏内核，在训练和推理中都取代了全注意力。Radial Attention【【25，Radial attention: O(n log n) sparse attention with energy decay for long video generation. arXiv 2025】】则使用一个源自时空能量衰减的静态O(n log n)掩码，能够以接近密集的质量生成更长的视频。

与本文工作的区别。虽然这些进展显著降低了成本并加速了视频生成，但大多数方法要么修剪涌现的密集图，要么施加固定的稀疏性先验，专注于加速短视频的生成。相比之下，我们的上下文混合（MoC）学习对上下文源进行端到端的、有目的的路由，并专注于长上下文的记忆/一致性。

视觉生成中的上下文学习

将上下文作为学习信号。另一条互补的研究路线将上下文——过去的帧、状态或参考图像——视为学习和控制的一流信号。对于视频世界模型，当动作和相机位置信号可用时，WORLDMEM【【44，Worldmem: Long-term consistent world simulation with memory. arXiv 2025】】通过一个外部的帧和状态记忆库来增强模拟器，并通过视场（FoV）重叠来检索相关条目，以保持长期场景一致性。类似的工作Context-as-Memory【【49，Context as memory: Scene-consistent interactive long video generation with memory retrieval. arXiv 2025】】针对交互式长视频，明确地为每一步检索一小部分历史帧作为条件，以维持场景一致性，同样通过FoV重叠来选择相关帧。

图像空间中的上下文学习。回到图像空间，IC-LoRA【【20，In-context lora for diffusion transformers. arXiv 2024】】证明了DiT已经表现出上下文能力，并提出将参考图像与轻量级任务特定的LoRA【【18，Lora: Low-rank adaptation of large language models. ICLR 2022】】连接起来，以用少量样本适应不同任务。DSD【【2，Diffusion self-distillation for zero-shot customized image generation. CVPR 2025】】通过自蒸馏将上下文生成转化为配对监督：用视觉语言模型（VLM）策划图像网格，然后微调一个文本+图像到图像的模型。OminiControl【【35，Ominicontrol: Minimal and universal control for diffusion transformer. arXiv 2025】】为DiT中的图像条件控制提供了一个参数高效、统一的框架，无需辅助模块即可实现广泛的条件任务。最近的开源模型，如FLUX-Context【【24，Flux.1 kontext: Flow matching for in-context image generation and editing in latent space. arXiv 2025】】，连接文本和图像以统一上下文图像生成和编辑，并提高了连贯性。

本文工作的定位。这些工作表明，在足够大的训练规模下，路由和上下文学习在从上下文中提取有用信息方面非常强大。我们的上下文混合（MoC）遵循这一路线，并提出端到端地学习在多个上下文源之间进行路由，从而实现对上下文信号的有目的的选择和组合，而不是仅仅依赖于固定的检索或单一的条件化路径。

A2 方法细节

为了在不产生标准自注意力二次方成本的情况下生成长视频，我们的方法用一个自适应的、内容对齐的上下文混合（Mixture of Contexts, MoC）层替换了DiT【【28，Scalable diffusion models with transformers. ICCV 2023】】骨干网络的密集注意力。从高层次来看，MoC (i) 将每个查询只路由到最相关的上下文块，(ii) 将这些块与视频的自然边界（如帧、镜头和文本令牌）对齐，以及 (iii) 强制执行因果关系，使信息严格地在时间上向前流动。以下小节详细介绍了路由公式（3.1节）、交错式文本到视频生成的分块和选择策略（3.2节）以及计算效率（3.3节）。我们方法的总体流程如图1所示。

3.1 上下文混合（Mixture of Contexts）

图1. 我们的自适应上下文混合（MoC）概览。给定一个长的多模态令牌流，我们首先标记自然边界（帧、镜头、文本段），并将序列切分成内容对齐的块（蓝色和粉色块分别代表文本和视频）。然后，每个块的键（key）被均值池化以获得一个单一的代表性向量。对于每个查询令牌 q（绿色），我们计算 q 和每个池化键的点积，应用 top-k 操作，并添加强制链接（全局文本标题和镜头内边缘）。结果只获取了选定的块子集，这些子集被前传给 Flash-Attention——而所有其他令牌都被跳过，从而在检索到的块数量上实现了近线性的计算和内存消耗，而不是在总序列长度上呈二次方关系。

扩散变换器中的Vanilla Attention。我们首先回顾一下在最先进的视频生成模型骨干DiT【【28，Scalable diffusion models with transformers. ICCV 2023】，【37，Attention is all you need. NeurIPS 2017】】中常用的注意力模块。一个注意力模块定义为：

其中Q、K和V分别表示查询、键和值特征，而d代表特征维度。请注意，当我们将Q = {qᵢ}视为一组独立的向量时，公式1可以写成$Attn(q_i, K, V) = Softmax(q_iK^⊤/√d) · V$，这是按查询（query-wise）执行的。

通过Top-k选择实现动态路由。在视频DiT【【28】】中，对于一个480p、1分钟长的视频，序列长度很容易扩展到近20万。这使得自注意力的O(L²)计算变得极其昂贵。由于特征冗余，一种常见的做法是将视频序列分成几个块（chunks），让一个查询令牌只与这些块的一个子集进行交互。自回归视频生成工作【【3，Diffusion forcing: Next-token prediction meets full-sequence diffusion. NeurIPS 2025】，【4，Skyreels-v2: Infinite-length film generative model. arXiv 2025】，【48，From slow bidirectional to fast autoregressive video diffusion models. CVPR 2025】】通常按帧将上下文分割成块，其中查询qᵢ只关注最近的几个块，从而丢失了有限距离之外的上下文。相反，我们采用一种学习到的路由策略，其中每个qᵢ被路由到最相关的块：

其中Ω(·)产生一组路由索引，Ω(qᵢ)是查询qᵢ所有感兴趣的上下文位置的索引。

Top-k操作。给定所有块的列表Φ，对于每个qᵢ，只有少数几个块通过top-k操作被考虑用于注意力计算：

其中[·]连接并合并了top-k个块的所有索引。

均值池化描述符的合理性。qᵢ与块序列Kω之间的相关性由qᵢ与Kω的描述符ϕ(Kω)的内积决定。在这项工作中，我们使用简单、高效且有效的均值池化操作作为描述符变换ϕ。我们认为，这种均值池化操作对于视频生成任务是高度充分和富有表现力的。首先，均值池化在多模态匹配的成熟实践中得到了很好的验证，例如在CLIP【【30，Learning transferable visual models from natural language supervision. arXiv 2021】】中，全局图像表示是通过平均令牌嵌入来计算与文本嵌入的相似性。这种方法有效地捕捉了主导的语义特征，同时对局部变化具有鲁棒性，这一特性很自然地转移到视频块中，因为空间和时间上相邻的令牌通常表示冗余或相关的视觉元素（例如，静态背景或渐进运动）。

可训练性与自适应机制。在我们的可训练框架中，均值池化不是一个静态的启发式方法，而是一个自适应机制：虽然top-k本身是不可微的，但模型通过对选定块的注意力机制间接学习。具体来说，如果在注意力计算过程中一个选定的块被证明是无关的，损失的梯度将通过其键/值回传，而这正是均值池化描述符的来源。这个过程会削弱无用的表示，并鼓励查询/键投影在训练迭代中产生更具辨别力的相似性。这个自校正过程与硬路由MoE系统和稀疏注意力框架中看到的间接适应相一致（例如，尽管选择是离散且不可微的，但下游模块提供了学习信号）。这种端到端的可微性和无参数的路由器确保了看似简单的点积路由变得高度富有表现力，因为网络会塑造嵌入以强调稀疏注意力的辨别性特征，而无需引入额外的参数或计算开销。在预训练模型上的零样本应用进一步验证了其有效性，这将在我们的补充材料中详细介绍。

图2. 无因果关系下循环闭合的图示。左侧：来自一个没有因果掩码的消融模型的连续帧。在一个咖啡馆场景（上排）之后，故事本应切换到一个河岸镜头，同一个女人在看她的手机（下排）。然而，由于镜头9强烈地路由到镜头11，同时镜头11又路由回镜头9，模型陷入了一个双节点反馈循环，导致镜头9和11与早期镜头的通信受限，如路由计数（右侧）所示。

上下文丢弃与注入（Context Drop-off and Drop-in）。为了增强我们的上下文混合（MoC）的鲁棒性，并缓解类似于专家混合（MoE）系统中“死亡专家”问题（即某些专家或路由在训练期间可能未被充分利用或被忽略），我们引入了两种互补的正则化技术：上下文丢弃（context drop off）和上下文注入（context drop in）。这些扰动在训练期间随机应用，以模拟嘈杂或不完美的路由决策，鼓励模型学习更具弹性的表示，不过度依赖特定的块，同时确保在上下文空间中实现均衡利用。

具体实现。考虑到路由可能因嵌入噪声或不断变化的数据分布而存在不准确性，上下文丢弃会为每个查询令牌随机移除一部分top-k选定的块。具体来说，对于给定的查询qᵢ，在计算公式3中的路由索引Ω(qᵢ)后，我们采样一个丢弃概率p_drop ∼ Uniform(0, p_max)并从Ω(qᵢ)中随机屏蔽掉⌊p_drop · k⌋个块。这迫使模型即使在某些选定的上下文偶尔不可用时也能生成连贯的输出，从而促进了学习到的依赖关系中的冗余，并防止了因路由错误导致的灾难性失败。相反，上下文注入将无关的块注入到选定的集合中，以模拟过度包容的路由。对于每个查询，我们随机采样m ∼ Poisson(λ)个块加入到选定的池Ω(qᵢ)中。这种技术通过人为激活未被充分利用的块来解决死路由问题，确保梯度流经更广泛的上下文段，并随时间平衡路由分布。

正则化的作用。由于我们的路由器是无参数的，并且仅依赖于均值池化的特征相似性，这些正则化技术不会干扰路由机制本身的学习。如果一个块真的很重要，它的相关性将通过注意力模块中的反向传播自然增强，因为模型会调整查询和键的投影以放大有意义的相似性并减弱不相关的相似性。本质上，系统的端到端可微性意味着注意力过程隐式地作为路由器的学习信号，使框架在没有专门的路由参数的情况下具有自校正和自适应能力。

3.2 注意力分块与路由

内容对齐的分块策略。在上下文混合中一个关键且常被忽视的设计维度是如何将庞大的令牌流分割成候选块。在长上下文大语言模型中，这个决定很简单：输入是同质的一维子词令牌序列，赋予了单一的RoPE【【34，Roformer: Enhanced transformer with rotary position embedding. arXiv 2021】】，因此将其切成固定长度的窗口，如MoBA【【27，Moba: Mixture of block attention for long-context llms. arXiv 2025】】中那样，既保留了局部语义连贯性，又匹配了单调的位置度量。相比之下，视频生成DiT【【28】】通常是多模态的，并在一个异构的3D+模态格子上操作：一个扁平化的顺序，交织了空间补丁、时间帧、文本令牌，它们有独立的3D RoPE【【34】】因子。因此，两个相邻的索引可能在时空中相距甚远或跨越一个突然的镜头切换，而一个静态的背景补丁可能在数百帧中重复出现，旁边是一个高度熵的运动令牌。统一的窗口会模糊这些不同的信号，污染公式3中使用的均值池化键，并迫使top-k选择器在内部不一致的键上浪费槽位。我们转而沿着内容感知的边界——帧、镜头和模态条带——来划分序列，使得每个块在语义上是同质的，在3D位置流形中是几何局部的。这种对齐保留了公式3中均值池化键的辨别力，产生了信息更丰富的top-k检索，并在不牺牲长程连贯性的情况下大幅削减了二次方开销。这样的分块策略不仅可以处理现有的单镜头文本到视频生成器，还与现有的长视频生成方法【【14，Long context tuning for video generation. arXiv 2025】】兼容，后者直接在带有交错文本-视频对的极长序列上计算注意力。

固定的跨模态选择。除了动态路由的视觉块外，我们明确要求每个视觉查询令牌都关注序列中的所有文本令牌，因为文本令牌虽然通常占所有令牌的不到1%，但编码了最具语义信息量的信号——指定了全局风格、角色身份和关键动作。计算开销可以忽略不计，但好处是巨大的：将生成锚定到提示显著减少了提示漂移错误，并防止了在长视频生成过程中稀有属性词的褪色。此外，这种硬性的跨模态链接促进了梯度联合传播到文本和视觉嵌入中，收紧了它们共享的潜在空间，并显著提高了在下游任务（如文本引导的视频编辑）中的可编辑性。

固定的镜头内选择。长视频自然呈现出严格的层次结构，帧嵌套在镜头内，镜头嵌套在场景内。为了利用这一点，我们明确地在注意力机制中强制执行镜头内连接，确保每个令牌始终关注其所属的镜头——捕捉物体轨迹、光线连续性和其他预测性线索。这种设计使得上下文混合（MoC）框架能够将其稀疏的注意力预算分配给真正的长程依赖，而不是冗余地建模局部上下文。强制执行这种连接有几个好处：它防止了在场景切换处相邻令牌可能变得无关时出现语义不连续；它保证了每个注意力矩阵至少包含一个良态的块；并且即使在激进的自适应剪枝下，它也提供了一个连续的、内存高效的回退路径。这种策略在微调预训练的视频生成模型时尤其有效，因为它从一开始就保留了每个镜头的保真度，并使模型能够在训练过程中逐渐学会对齐更广泛的上下文信息。

稀疏MoC中的因果性。稀疏路由天生就在令牌交互图中引入了方向性，因为每个块为注意力选择了一组有限的其他块。然而，在没有明确排序约束的情况下，这个过程可能会退化为病态的闭合循环。例如，在每个块只允许选择一个同伴的消融研究中，我们经常观察到块5路由到块6，而块6同时路由回块5的情况，形成一个孤立的双节点循环（见图2）。这种自循环将信息局部化，阻碍了梯度传播，并在双向生成过程中表现为停滞的运动或重复的帧。为了解决这个问题，我们在路由阶段施加了一个因果掩码，限制每个块只关注序列中较早位置的键；具体来说，在top-k选择之前，任何边(i → j)如果j ≥ i都会被掩码掉。这个约束将路由图转化为一个有向无环图（DAG），确保信息严格地在时间上向前流动，并从结构上排除了闭合循环。经验上，因果路由不仅消除了孤立的反馈对，还促进了更丰富的长程依赖，从而实现了更平滑的时间动态和更稳定的训练。

3.3 计算效率

与Flash-Attention核的结合。处理内容对齐且大小极不相等的块比处理均匀分割的情况（如MoBA【【27】】和NSA【【50，Native sparse attention: Hardware-aligned and natively trainable sparse attention. arXiv 2025】】）要复杂得多。为了适应帧、镜头和模态结构同时保持效率，我们实现了一个完全在GPU上运行的自适应注意力机制，并明确利用了视频DiT【【28】】中的结构线索。我们首先用帧、镜头和标题边界标记扁平化的令牌流，并使用torch.bucketize和前缀和表（cu_seqlen, cu_shot等）来导出内容对齐的、可变长度的块，其开始和结束索引与这些边界重合，确保每个块在语义上是同质的。边界信息也用于构建一个预路由掩码：强制链接（例如，标题-视觉、镜头内自边缘）在top-k稀疏化步骤之前插入，保证路由器永远不会在已经是强制性的块上花费预算。对于每个幸存的块，我们通过即时的segment_reduce均值池化获得一个单一的代表性键，从而避免了物化整个块，即使块大小相差几个数量级，也能保持内存平坦。令牌按头主序（head-major order）组织（通过rearrange(..., ‘s x h d -> h s x d’)），以便后续的收集操作是合并的，异构的（查询，键）对被打包成一个单一的Flash-Attention【【8】，【9】】的var-len调用。这种设计产生了一个尊重视频特定约束的注意力内核，同时在数百万个令牌上保持内存和计算效率。由于所有涉及的操作都是头独立的（head-independent），我们可以充分利用张量并行化和跨设备的分片计算。

节省的FLOPs。对于每个注意力头，设L为序列长度或查询令牌数，C为内容对齐的块数，k为每个查询令牌保留的top-k块数，m̄为这些选定块的平均长度，d为头的维度。在每个块内对键进行均值池化仅需Ld次加法，可以忽略不计。路由然后为每个查询-块对评估一次内积，耗费2LCd FLOPs（×2因为一次内积是每次维度一次乘法+一次加法）。最后，对剪枝后的集合进行细粒度注意力计算，对每个查询令牌最多进行km̄个键的QK和PV乘积，大约为4Lkmd̄ FLOPs。将这三项相加得到：

与全注意力对比。对于相同的L和d，一个vanilla全注意力头的成本为：

FLOPs比例。它们的比率简化为：

这个比率随序列长度线性增长。

具体计算示例。例如，给定一个流行的VAE压缩率（空间16倍和时间4倍下采样率），一个分辨率为480P、12fps、时长1分钟的视频会变成一个大约有18万个令牌的序列。假设我们使用m̄ ≈ 1024, k = 5, C = 36, d = 128，我们可以计算出FLOPs_MoC ≈ 2.32 × 10¹²，而相比之下，对相同序列的密集自注意力成本为FLOPs_dense ≈ 1.66 × 10¹³，因此自适应上下文混合层将乘加运算减少了超过7倍。

A4 实验

我们主要在两个任务上进行实验：镜头级的文本到视频生成和包含多个镜头切换的场景级文本到视频生成。

实验环境

基础模型：我们的模型建立在一个长上下文视频生成器LCT【【14】】之上，该模型支持单镜头和多镜头视频生成。LCT采用了在图像、单镜头和多镜头视频的原始分辨率和时长上训练的3B参数MMDiT【【10，Scaling rectified flow transformers for high-resolution image synthesis. arXiv 2024】】架构。模型的全自注意力从单镜头范围扩展到最多八个镜头的场景级上下文窗口（约8秒，每个22k令牌），使用交错的3D RoPE【【34】】为每个镜头提供独特的绝对坐标，同时保留文本和视频令牌的相对布局。我们从预训练的LCT【【14】】初始化模型权重，并将其注意力模块替换为我们的MoC，然后使用与LCT【【14】】相同的训练方案进行微调。
基线模型：
- 单镜头视频生成：我们与作为LCT【【14】】和我们工作基础的原生3B MMDiT【【10】】视频生成模型进行比较。我们在分辨率为320×192、12FPS的8秒视频上进行测试，每个视频约有6300个令牌。
- 多镜头视频生成：我们与我们的基础模型LCT【【14】】进行比较。在这些实验中，我们在8个镜头的序列上进行测试，其中每个镜头是8秒的480p视频，帧率为12FPS。这导致每个64秒的场景大约有18万个令牌。
评估指标：对于短的单镜头视频生成和长的多镜头视频生成，我们都遵循先前工作【【48】，【55】】的做法，在流行的VBench【【21，VBench: Comprehensive benchmark suite for video generative models. CVPR 2024】，【22，Vbench++: Comprehensive and versatile benchmark suite for video generative models. arXiv 2024】】基准上进行评估。具体来说：
- 主体一致性 (Subject Consistency) 和 背景一致性 (Background Consistency)：表示输入图像中的主要主体和背景在整个视频中被忠实保留的程度。
- 运动平滑度 (Motion Smoothness)：评估运动的流畅性（没有抖动或突然的过渡）。
- 动态程度 (Dynamic Degree)：衡量视频中的运动程度（鼓励生成动态内容而非静态场景）。
- 我们还报告了单镜头视频的 美学质量 (Aesthetic Quality) 和 图像质量 (Image Quality)，以量化每帧的视觉吸引力和技术质量。
- 此外，我们还报告了计算指标，如稀疏度、FLOPs和与Flash Attention【【8】，【9】】相比的推理加速比。

实验结果

定量结果。表1和表2展示了我们的内容对齐上下文混合（MoC）模型与密集注意力基线在短单镜头片段和长多镜头场景上的定量比较。

单镜头视频（短序列）：对于短的单镜头视频（6k令牌），尽管进行了激进的稀疏化（83%），我们的方法在所有VBench指标上都与密集基线持平或超越（见表1）。这表明将计算资源导向最相关的块不仅减少了FLOPs，还使模型能够更好地保持角色保真度和场景连贯性。然而，对于如此短的序列，索引收集和池化的额外开销超过了计算节省，导致端到端流水线速度变慢。
多镜头视频（长序列）：相比之下，对于长的多镜头视频（180k令牌），MoC展现出明显的计算优势（见表2）。通过丢弃85%的上下文，我们的方法实现了2.2倍的加速。此外，它显著增强了我们模型的性能，特别是在运动多样性方面，动态程度从0.46增加到0.56，同时保持了运动平滑度。虽然增加的运动预算导致外观保真度略有下降，但所有质量指标仍然很高。
结论：总的来说，这些结果验证了我们方法的核心前提：学习到的、结构感知的稀疏性将计算从冗余帧重新分配到显著的视觉事件上，在不牺牲（有时甚至改善）感知质量的情况下，带来了显著的效率提升。

Table 1 单镜头视频生成定量比较。我们报告了VBench [21]指标和计算效率指标。尽管进行了激进的稀疏化（83%），我们的方法在所有VBench [21]指标上都与基础模型相当或更好。

Table 2 多镜头视频生成定量比较。在85%的稀疏度下，我们的方法将FLOPs减少了超过7倍，而整体性能通常有所提高。

定性结果。我们在图3和图4中分别展示了单镜头和多镜头视频生成任务的定性比较。我们认为，均值池化操作非常适合视频，因为空间上相近的像素和相邻的帧倾向于描绘相同的物体或背景区域。经过DiT【【28】】的补丁嵌入后，这些令牌占据了一个非常狭窄的子空间：它们的第一个主成分在实践中通常能解释超过90%的局部方差。算术平均值正是中心化数据的第一个主成分估计器，因此一个简单的平均已经捕捉了整个块的主导语义，同时丢弃了高频噪声。零样本实验支持了这一说法——将这种路由策略直接应用于预训练的视频生成模型，如我们的补充材料所示。

尽管公式3中的路由分数实际上只是查询和均值池化键之间的点积，但它不是一个固定的启发式方法：被平均的键向量和进行评分的查询向量都是由在训练期间更新的权重产生的。梯度通过均值池化操作和随后的top-k掩码反向传播到投影矩阵，使模型能够学习如何塑造每个块的池化键和每个查询，以便最好地区分有用和无关的上下文。在实践中，这使得表面上“简单”的均值+top-k规则变得高度富有表现力，而无需引入额外的路由参数或计算，因为网络会不断调整其内部表示以利用它。

提示：一个旋转的大堆老式电视，都在播放不同的节目。

提示：FPV视角飞越一个水下郊区社区，街道两旁是五彩斑斓的珊瑚。

提示：几只巨大的猛犸象踏雪穿过一片雪地草甸走来。
图3. 单镜头视频生成定性比较。尽管进行了激进的稀疏化，我们的结果与基础模型相当，甚至更好。

图4. 多镜头视频生成定性比较。尽管剪枝了超过四分之三的注意力计算，我们的结果在视觉上与LCT [14]难以区分。

MoC实现基准测试。我们在图5中对我们的自适应MoC与全注意力（使用Flash Attention 2【【8】，【9】】实现）的性能进行了基准测试。我们的方法在FLOPs和延迟方面相对于镜头数量（即序列长度L）保持了近线性的增长。除了稀疏性，这种效率的关键在于三个设计决策：（1）使用即时的segment_reduce池化避免了在内存中物化可变长度的块；（2）令牌按头主序组织，以确保在收集操作期间进行合并内存访问；（3）整个路由+注意力计算被包装在一个单一的Flash Attention【【8】，【9】】var-len调用中，保留了内核融合并最小化了开销。

图5. 我们的内容对齐上下文混合实现与全注意力（使用Flash Attention 2 [8, 9]实现）的性能基准测试。我们的方法相对于镜头数量（x轴，假设每个镜头8秒，12 FPS，约23k令牌），即序列长度L，保持了近线性的关系。

A5 结论

自适应上下文混合（MoC）证明了可学习的稀疏注意力路由可以作为一个强大的、数据驱动的记忆检索引擎。我们的工作可以说是第一个表明，通过使用高效且可学习的稀疏路由机制扩展训练数据，模型可以发展出一种复杂的长期回忆方法。这种方法以与短视频生成相当的成本实现了分钟级的记忆。关键是，这种能力是在没有明确的启发式方法（如3D先验或固定规则选择）的情况下涌现出来的；模型完全从数据中学习哪些历史上下文是显著的。由于路由是学习到的，并且在推理过程中实现速度快，MoC为下一代可扩展、可控且负责任的长视频生成模型提供了蓝图。它证明了消除二次方注意力瓶颈不仅是效率的提升，而且是解锁视频生成中涌现的长期记忆的直接途径。

局限性与未来工作。到目前-为止，我们已经在与LCT【【14】】相同的设置下进行了训练和测试。然而，MoC在更长序列上节省计算的能力尚待探索。虽然我们的方法已经以接近短视频的成本实现了分钟级的上下文，但当前的运行时间依赖于通用的可变长度注意力和框架级的收集操作。考虑到我们实现了7倍的FLOPs节省，仍有巨大的进一步加速空间，这可以通过硬件-软件协同设计来实现，例如，块稀疏、块感知的可变长度注意力以及更高效的定制CUDA/Triton内核、融合的路由+注意力操作符、持久执行以及改进的K/V布局或量化。此外，值得在更广泛的应用中探索MoC，例如视频世界模型数据集。我们将这些扩展留给未来的研究。

A6 附录

A 训练细节

单镜头模型。对于我们的单镜头视频生成模型，我们在图像和视频上进行联合训练。我们使用256的块大小和top-k=3，同时启用了块内链接和强制跨模态链接，即所有块都被强制关注自身和提示令牌。我们没有激活因果性，因为我们没有观察到病态的闭环效应。

多镜头模型。对于我们的多镜头生成模型，我们在图像、单镜头视频和多镜头视频上联合训练我们的模型，块大小从10240、5120、2560逐渐减小到1280，并且top-k=5，同时启用了镜头内链接和强制跨模态链接，即每个镜头总是执行自注意力，并且每个块都关注局部和全局提示。

学习率与迭代次数。两个模型都使用9e-5的学习率进行训练，其中单镜头模型训练10k次迭代，多镜头模型训练20k次迭代。

B 消融研究

我们系统地解构了我们的上下文混合的两个设计维度：（1）不同块大小和top-k路由中k值的影响，以及（2）我们的强制链接（跨模态和镜头内边缘）的好处。对于前者，我们在单镜头视频生成上进行评估；对于后者，我们专注于多镜头视频生成，因为强制链接在这里更为重要。

实验设置。对于消融研究，我们统一使用16个H100，单镜头实验训练30k次迭代，多镜头实验训练10k次迭代，学习率为2e-5。

Table 3 不同块大小和路由top-k的消融研究。

块大小和k值。关于不同块大小和k值的消融结果呈现在表3中。当我们固定检索的块数为k=3并扫描块长度从64到1024个令牌时，我们注意到微小的块（64, 128）虽然剪枝力度大，但会损害运动，可能是因为查询经常失去对远处上下文帧的访问，而陷入局部最优。当固定块大小为256并改变k时，我们也观察到类似的趋势（每个查询也保留自己的块，所以有效扇出是k+1）。这强烈表明，为了实现非常激进的稀疏化，可能需要一种渐进的方法，即从较大的块和较大的k开始，然后逐渐切换到较小的块和较小的k。

Table 4 强制链接效果的消融研究。

强制链接。关于强制路由链接效果的消融研究呈现在表4中。实验在块大小为5120和k=5的情况下进行。当不强制选择镜头内链接时，我们补偿模型使其能够额外选择四个块，这大致相当于每个镜头的令牌数量。我们注意到，当没有强制的镜头内链接来提供一个足够合理的下限时，训练变得极其不稳定。根据经验，我们发现这与学习率和批量大小高度相关，而添加镜头内链接使得训练稳定得多。我们还发现，添加跨模态链接可以提高模型的整体性能。

C Wan-2.1-1.3B 实验

通用性验证。为了展示MoA在通用开源骨干网络上的泛化能力，我们在Wan-2.1-1.3B模型上实现并测试了MoC。我们比较了两种设置：使用密集注意力和我们提出的注意力混合（Mixture-of-Attention）微调预训练模型。由于Wan-2.1-1.3B不是MMDiT模型而是常规的DiT模型，我们仅将其自注意力模块应用MoC，使用的超参数与我们的单镜头实验相同。

训练与结果。我们对这两种设置分别在32个GPU上训练了1天（2000次迭代），使用了Vchitect【【11，Vchitect-2.0: Parallel transformer for scaling up video diffusion models. arXiv 2025】，【33，Repvideo: Rethinking cross-layer representation for video generation. arXiv 2025】】数据集，分辨率为480p，块大小设置为1560——这是Wan-2.1-1.3B中一帧的令牌数。结果呈现在表5中。我们观察到与我们论文中单镜头实验类似的趋势，即稀疏注意力至少与密集注意力相当，并且通常更好。这是MoC对其他骨干网络具有泛化能力的有力证明，即使没有对MoC算法进行任何模型级的适配。我们还发现，只要稀疏度不是太低，我们的MoC在Wan-2.1-1.3B上即使不进行微调也能表现得相当好，没有太多可见的伪影。

Table 5 在Wan-2.1-1.3B上的单镜头视频生成定量比较。

D 零样本实验

实验目的。为了独立于微调，分离出均值池化描述符的好处，我们将我们的MoC内核直接插入到预训练的密集模型中，同时冻结所有权重。

实验结果。如图6所示，尽管在训练期间从未见过稀疏注意力且稀疏度很高（>75%），模型仍然合理地保持了一致性。因为描述符只是算术平均值，它近似于每个块的第一个主成分，而这已经与主导的前景/背景模式很好地对齐了。

结论。这个实验突出了路由规则本身是数据自适应的，即使没有权重更新，而学习可以优化查询/键的投影以更好地利用它并提高其准确性。这些结果验证了我们的设计选择：无参数的均值池化描述符是一个强大的、低开销的信号，即使在零样本设置下也能将密集注意力转换为检索步骤。我们注意到，同期的工作如VSA【【56】】也有类似的观察。

图6. 零样本稀疏化。我们将预训练DiT中的每个密集注意力块替换为我们的上下文混合（>75%稀疏度），不进行任何微调。模型仍然保留了一定程度的主体身份、背景布局和粗略运动，证实了简单的均值池化块键即使在权重从未接触过稀疏掩码的情况下，也已经提供了可用的检索信号。

E 外循环上下文路由

扩展到极长序列。为了进一步将我们的方法扩展到极长的视频序列，我们在实践中引入了一个外循环上下文路由机制，它独立于内部注意力计算运行。与上下文混合中 refining 注意力于选定块内的查询级路由不同，外循环在任何注意力计算之前对大规模上下文块（例如整个镜头段）进行初步选择。

工作机制。这种预选充当了一个粗略的过滤器，动态地策划全局上下文的一个子集，以馈送到后续的上下文混合层，从而减少了总的令牌池，并使序列超过百万令牌时能够实现线性扩展。形式上，给定一个被划分为高级块Ψ = {Ψ₁, Ψ₂, ..., Ψₚ}的扁平化令牌流，其中每个Ψⱼ包含多个低级块，外循环路由器计算每个Ψⱼ相对于当前生成上下文的全局相关性分数。我们再次采用简单而有效的评分器：一个均值池化描述符ϕ(Ψⱼ) = mean_pool(X[Ψⱼ])，其中X[Ψⱼ]表示Ψⱼ中所有令牌的特征。对于当前的查询块（例如，正在生成的镜头的令牌），我们将其令牌特征聚合为一个单一的代表性向量xg = mean_pool(Xg)，并计算相似性分数⟨xg, ϕ(Ψⱼ)⟩，然后选择得分最高的M个大块Ωg = arg max_{Ω⊆Ψ,|Ω|=M} Σ_{j∈Ω*} sⱼ。

层级解耦与优势。选定的高级块Ωg与强制性元素（例如，全局标题）连接起来，形成一个缩减的上下文流，然后传递给内部的上下文混合进行更精细的路由和更稀疏的注意力计算。这种内外层级结构将粗略的全局检索与局部的细化解耦：外循环剪除冗余的历史片段，而内循环则专注于策划子集内精确的令牌级交互。这在处理超出我们训练最大长度的极长上下文时特别有用，因为外循环将有效上下文大小压缩到模型的训练能力范围内，使得该方法对长度外推问题不敏感。与遭受位置嵌入退化（例如，RoPE【【34】】外推问题导致超出训练长度时性能不稳定或下降）的密集注意力机制不同，我们的层级路由通过在一个策划的、更短的子序列上操作来维持稳定的位置编码，确保即使对于任意长的输入也能保持一致的性能，而无需专门的外推技术或重新训练。外循环路由在自回归采样策略下，可以有效地将我们能够生成的镜头数量增加2-3倍。

F 社会影响

长视频生成器可以使动画和纪录片制作、教育内容和模拟大众化。然而，像所有强大的生成模型一样，它们也降低了制造虚假信息和未经同意的媒体合成的门槛。我们主张采取类似于当前大型图像和语言模型的门控发布、水印和提示过滤等措施。

方法细节中引用的参考文献汇总

以下是论文方法部分（Section 3）和相关工作（Section 2）中引用的参考文献列表，及其在文中的引用方式和上下文说明。

【2】Diffusion self-distillation for zero-shot customized image generation. CVPR 2025
- 引用位置：§2 相关工作
- 引用描述：在讨论图像空间中的上下文学习时，作为将上下文生成通过自蒸馏转化为配对监督的工作示例。
【3】Diffusion forcing: Next-token prediction meets full-sequence diffusion. NeurIPS 2025
- 引用位置：§2 相关工作, §3.1 方法细节
- 引用描述：在相关工作中，作为通过注入受控噪声来增强对复合误差鲁棒性的自回归视频生成框架之一。在方法细节中，作为按帧分割上下文的自回归视频生成工作示例，指出其上下文范围有限。
【4】Skyreels-v2: Infinite-length film generative model. arXiv 2025
- 引用位置：§2 相关工作, §3.1 方法细节
- 引用描述：在相关工作中，作为采用自回归去噪以追求更长视频生成的框架之一。在方法细节中，与【3】和【48】一同被提及，作为按帧分割上下文的自回归工作。
【7】One-minute video generation with test-time training. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为将历史信息压缩为固定大小潜在表示的方法之一，具体使用可学习的MLP在推理时编码上下文。
【8】FlashAttention-2: Faster attention with better parallelism and work partitioning. ICLR 2024
- 引用位置：§2 相关工作, §3.3 方法细节, §4 实验
- 引用描述：在相关工作中，与【9】一同作为STA [57]利用的FlashAttention友好块的引用。在方法细节中，作为MoC高效实现所集成的关键内核，支持可变长度序列（var-len call）。在实验部分，作为实现全注意力基线的内核，用于性能基准测试。
【9】FlashAttention: Fast and memory-efficient exact attention with IO-awareness. In NeurIPS 2022
- 引用位置：§2 相关工作, §3.3 方法细节, §4 实验
- 引用描述：与【8】的引用上下文相同。
【14】Long context tuning for video generation. arXiv 2025
- 引用位置：§2 相关工作, §3.2 方法细节, §4 实验, §5 结论
- 引用描述：在相关工作中，被描述为与本文最密切相关的工作，它通过扩展上下文窗口实现多镜头连贯性，但保留了密集的二次方注意力。在方法细节中，提到MoC的分块策略与其交错式文本-视频对方法兼容。在实验部分，作为多镜头生成任务的基础模型和主要比较基线。在结论中，作为本文测试设置的来源。
【18】Lora: Low-rank adaptation of large language models. ICLR 2022
- 引用位置：§2 相关工作
- 引用描述：在讨论IC-LoRA [20]时，作为其使用的轻量级自适应技术。
【20】In-context lora for diffusion transformers. arXiv 2024
- 引用位置：§2 相关工作
- 引用描述：作为图像空间中上下文学习的例子，证明了DiT具有上下文能力。
【24】Flux.1 kontext: Flow matching for in-context image generation and editing in latent space. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为最新的开源模型之一，通过连接文本和图像来统一上下文图像生成和编辑。
【25】Radial attention: O(n log n) sparse attention with energy decay for long video generation. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为可训练/结构化稀疏注意力设计的一个例子，它使用静态的O(n log n)掩码。
【27】Moba: Mixture of block attention for long-context llms. arXiv 2025
- 引用位置：§3.2 方法细节, §3.3 方法细节
- 引用描述：在方法细节中，作为在长上下文LLM中使用固定长度窗口进行分块的例子，与本文内容感知的可变长度分块形成对比。
【28】Scalable diffusion models with transformers. ICCV 2023
- 引用位置：§2 相关工作, §3 方法细节引言, §3.1 方法细节, §3.2 方法细节, §3.3 方法细节, §4 实验
- 引用描述：作为本文方法所基于的扩散变换器（DiT）架构的核心引用，被广泛提及，是视频生成模型的主流骨干。
【30】Learning transferable visual models from natural language supervision. arXiv 2021
- 引用位置：§3.1 方法细节
- 引用描述：在论证均值池化描述符的合理性时，引用CLIP作为成功使用均值池化获取全局表示以进行多模态匹配的先例。
【34】Roformer: Enhanced transformer with rotary position embedding. arXiv 2021
- 引用位置：§3.2 方法细节, §4 实验, Appendix E
- 引用描述：在方法细节中，作为视频DiT中用于位置编码的旋转位置嵌入（RoPE）技术的引用。在实验部分，作为LCT基础模型中使用的位置编码方法。在附录E中，提到密集注意力机制会因RoPE外推问题而性能下降，而本文的分层路由方法可以避免此问题。
【35】Ominicontrol: Minimal and universal control for diffusion transformer. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为DiT中图像条件控制的统一框架示例。
【37】Attention is all you need. NeurIPS 2017
- 引用位置：§2 相关工作, §3.1 方法细节
- 引用描述：作为Transformer架构和自注意力机制的开创性工作被引用。
【40】Vmoba: Mixture-of-block attention for video diffusion models. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为可训练/结构化稀疏注意力设计的一个例子，它学习一种块混合方案。
【41】Sparse videogen: Accelerating video diffusion transformers with spatial-temporal sparsity. arXiv 2025
- 引用位置：§1 引言, §2 相关工作
- 引用描述：作为先前通过施加固定稀疏模式来降低成本的努力之一。
【42】Training-free and adaptive sparse attention for efficient long video generation. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为一种提出“块化”动态稀疏模式的训练无关剪枝方法。
【44】Worldmem: Long-term consistent world simulation with memory. arXiv 2025
- 引用位置：§1 引言, §2 相关工作
- 引用描述：作为先前通过施加固定稀疏模式来降低成本的努力之一。在相关工作中，作为视频世界模型中使用外部记忆库和FoV重叠检索来保持场景一致性的例子。
【48】From slow bidirectional to fast autoregressive video diffusion models. CVPR 2025
- 引用位置：§2 相关工作, §3.1 方法细节, §4 实验
- 引用描述：在相关工作中，作为使用自回归模型进行长视频生成的例子。在方法细节中，作为按帧分割上下文的自回归工作示例。在实验部分，其工作被引用以说明评估指标的选择。
【49】Context as memory: Scene-consistent interactive long video generation with memory retrieval. arXiv 2025
- 引用位置：§1 引言, §2 相关工作
- 引用描述：作为先前通过施加固定稀疏模式来降低成本的努力之一。在相关工作中，作为通过FoV重叠检索历史帧来维持场景一致性的例子。
【50】Native sparse attention: Hardware-aligned and natively trainable sparse attention. arXiv 2025
- 引用位置：§3.3 方法细节
- 引用描述：作为处理均匀分割块设置的稀疏注意力方法示例，与本文处理可变大小块的复杂性形成对比。
【54】Spargeattn: Accurate sparse attention accelerating any model inference. ICML 2025
- 引用位置：§1 引言, §2 相关工作
- 引用描述：作为先前通过施加固定稀疏模式来降低成本的努力之一。
【55】Packing input frame contexts in next-frame prediction models for video generation. arXiv 2025
- 引用位置：§1 引言, §2 相关工作, §4 实验
- 引用描述：在引言和相关工作中，作为通过压缩历史（例如帧包）来降低成本的方法之一。在实验部分，其工作被引用以说明评估指标的选择。
【56】Vsa: Faster video diffusion with trainable sparse attention. arXiv 2025
- 引用位置：§2 相关工作, Appendix D
- 引用描述：在相关工作中，作为一种提出硬件高效的从粗到细稀疏内核的可训练稀疏设计。在附录D中，提到其工作与本文在零样本稀疏化方面有相似观察。
【57】Fast video generation with sliding tile attention. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为一种利用局部化3D窗口进行训练无关剪枝的方法。
【58】Training-free efficient video generation via dynamic token carving. arXiv 2025
- 引用位置：§2 相关工作
- 引用描述：作为使用训练无关的块级注意力分割和渐进式分辨率的方法。

Mixture of Contexts for Long Video Generation