Kling-Omni Technical Report

文章标题: Kling-Omni Technical Report
作者/机构: Kling Team, Kuaishou Technology

A1 主要贡献

核心问题: 在通用人工智能领域,长期以来的愿景是创造能够跨所有感官领域进行感知、推理和创造,并能生成反映人类通过语言、视觉演示和时间动态进行交流的视觉输出的多模态助手。尽管在统一建模方面取得了突破,但视频理解与生成的整合仍面临重大挑战。首先,当前的视频生成领域仍由零散的方法主导,多数模型专注于特定任务(如文本/图像到视频合成),并依赖于难以捕捉复杂视觉细节的静态文本编码器。视频编辑和理解则常依赖于独立的、任务特定的流程或外部适配器,这使得扩展和集成变得复杂。因此,现有视频架构尚无法实现需要感知与创造深度协同的高级功能,如多模态上下文生成、基于推理的精确视觉编辑以及响应交错的视频-文本指令。其次,通往统一视频生成系统的交互范式仍是瓶颈,仅依赖自然语言提示难以捕捉视觉想象的细微差别。最后,当前模型缺乏深度的原生智能,它们擅长像素级合成,但在语义推理和理解场景的物理或逻辑上存在困难。

研究目标与创新点: 本文旨在解决上述挑战,推出了 Kling-Omni,一个旨在统一多样化的视频生成、编辑和智能创作任务的通用框架。Kling-Omni 采用简洁的架构,是从专门的专家模型迈向无缝集成这些功能并消除任务边界的统一系统的重要一步。

为此,本文提出了多模态视觉语言 (Multimodal Vision Language, MVL) 作为一种新的交互范式,它通过将自然语言作为语义骨架与多模态描述相结合,构建统一的输入表示。这种方法将文本和视觉信号视为一种内聚的语言,增强了模型的基础理解和控制能力。

此外,Kling-Omni 代表了向多模型智能的迈进。MVL 的引入不仅优化了指令遵循,还使模型能够深入理解和推断用户意图。通过探索这种推理潜力,Kling-Omni 超越了死记硬背式的生成,展现出意想不到的推理能力。

A2 方法细节

2.1 模型架构概览


图 1 Kling-Omni 概览,这是一个引入多模态视觉语言作为交互机制的通用框架,支持视频生成、编辑和智能推理等多种任务。

通用生成框架Kling-Omni。我们提出了Kling-Omni,一个通用生成框架,旨在直接从多模态视觉语言(MVL)输入合成高保真视频。Kling-Omni采用端到端的视角,超越了脱节的流水线方法,将指令理解、视觉生成和精炼整合到一个整体系统中。该架构旨在接受多样化的用户输入——包括文本指令、参考图像和视频上下文——通过统一的接口处理它们,以产生具有高度智能的影院级质量的视频内容创作和编辑。

架构三大核心组件。如框架图所示,该架构由三个关键组件构成,并由一个强大的训练和基础设施生态系统支持。首先,为了弥合异构用户输入与模型表示之间的差距,一个提示增强器(Prompt Enhancer, PE)模块采用了一个多模态大语言模型(MLLM)来理解复杂的用户输入,并将其与学习到的世界知识相结合。通过这样做,它推断出创作者的具体创意意图,并相应地重新制定提示。这些精炼后的特征作为全能生成器(Omni-Generator)的输入,该生成器在共享的嵌入空间内处理视觉和文本标记,实现深度的跨模态交互,确保强大的视觉一致性和精确的指令遵循。生成的内容随后由一个多模态超分辨率(Multimodal Super-Resolution)模块进行精炼,该模块以原始的MVL信号为条件来精炼高频细节。整个系统由一个渐进式的多阶段训练策略赋能,范围从指令预训练、监督微调到强化学习(RL),并运行在一个高度优化的基础设施上,利用3D并行和模型蒸馏来提高训练和推理效率。

2.2 全能生成器的训练策略

2.2.1 预训练

构建基础的文生视频能力。在预训练阶段,我们利用大规模的文本-视频配对数据,为模型注入强大的基于指令的文本到视频生成能力。为确保模型能够适应广泛的用户输入,我们策划了从简洁提示到详尽叙述的各种标题,从而为理解多样的指令格式奠定了坚实的基础。此外,为了激发模型对多模态视觉语言(MVL)上下文的敏感性,我们将图像到视频的任务融入训练混合中,从而在视觉和文本模态之间建立早期的协同作用。

2.2.2 监督微调

持续训练以深化MVL对齐。此阶段专注于将模型与复杂的MVL输入进行深度对齐。我们引入了一个全面的课程,包括参考到视频的生成、图像/视频编辑,以及一系列用于语义理解的专门任务。这些任务的特点是图像、视频和文本条件的高度交错格式。通过让模型接触这种异构且信息丰富的数据,我们有效地增强了其解释复杂指令和执行初步推理的能力。

质量调优以提升生成效果。为了进一步提升模型的生成质量和多模态理解能力,我们精心构建了一个高质量的数据集,其特点是任务分布均衡且视频标准卓越。每个数据样本都配有精确的指令注释。通过在这个优质数据集上进行迭代式微调,我们逐步优化模型的输出分布,引导其走向更高视觉质量和理解能力的领域。

2.2.3 强化学习

采用DPO对齐人类偏好。为了弥合模型输出与人类审美偏好之间的差距,我们采用了直接偏好优化(DPO)【21, Direct preference optimization: Your language model is secretly a reward model. Advances in neural information processing systems, 2023】。我们之所以选择DPO而非其他算法如GRPO【26, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024】,是因为它避免了后者所需的计算成本高昂的轨迹采样,提供了一个简化的单步扩散前向过程。

优化目标与数据构建。我们的优化目标集中在关键的感知指标上,特别是运动动态和视觉完整性。在数据构建方面,我们采样了多种多样的MVL条件来形成一个候选池,随后使用不同的随机噪声生成多个视频变体。然后,这些变体将接受人类评估,以识别偏好对——区分出最优(偏好)和次优(不偏好)的结果。在训练过程中,这些偏好对及其对应的噪声和时间步长被用来计算DPO损失。通过多轮这种基于偏好对齐的训练,模型在视频生成质量上取得了显著提升,更紧密地与人类意图保持一致。

2.2.4 模型加速(蒸馏)

两阶段蒸馏方法。我们开发了一种两阶段蒸馏方法,旨在大幅降低推理的计算成本,同时保持输出的保真度。该加速流程结合了轨迹匹配蒸馏和分布匹配蒸馏,将模型推理压缩到10次数值函数评估(NFE),而在蒸馏前合成单个视频样本原本需要150 NFE。

第一阶段:轨迹匹配蒸馏。在第一阶段,该过程遵循轨迹匹配蒸馏的原则——以PCM【31, Phased consistency models. Advances in neural information processing systems, 2024】、HyperSD【22, Hyper-sd: Trajectory segmented consistency model for efficient image synthesis. Advances in Neural Information processing Systems, 2024】及相关方法为代表——以确保在训练早期阶段更紧密地遵循教师模型的轨迹。具体来说,我们采用了分阶段的时间结构化训练目标,将时间步调度器划分为几个阶段。学生模型应在任何反向步骤中预测与指定阶段终点对齐的时间上一致的去噪输出。与通常先将学生模型蒸馏到一个NFE已减少但仍超过预期NFE的中间状态的常规做法不同,我们在此阶段直接让学生模型使用10个采样步长的目标调度器执行。

第二阶段:分布匹配蒸馏。为了进一步增强生成性能,第二阶段进行分布匹配蒸馏。不同于其他基于分数的蒸馏算法如DMD【35, Improved distribution matching distillation for fast image synthesis. Advances in neural information processing systems, 2024】和SiD【37, Score identity distillation: Exponentially fast distillation of pretrained diffusion models for one-step generation. In Forty-first International Conference on Machine Learning, 2024】将学生模型表述为随机微分方程(SDE)过程,我们采纳了TDM【17, Learning few-step diffusion models by trajectory distribution matching. arXiv preprint arXiv:2503.06674, 2025】的见解,将学生模型蒸馏为执行少步常微分方程(ODE)采样,经验证明这种方法更适合我们的任务。此外,轨迹匹配目标在此阶段得以保留,作为一种“正则化”机制,防止模型显著偏离参考轨迹。类似的操作也已在【3, From structure to detail: Hierarchical distillation for efficient diffusion model. arXiv preprint arXiv:2511.08930, 2025】中被报道。

2.3 提示增强器

提示增强器(PE)的功能与目标。为了解决用户输入中固有的模糊性和高方差问题,我们为Kling-Omni引入了一个提示增强器(PE)模块。PE的主要功能是将多样化的用户提示映射到一个与模型训练数据分布一致的分布上。这种对齐对于提升生成质量至关重要,特别是在身份保持、空间连贯性和色彩保真度方面,同时通过文本推理【29, Thinking with video: Video generation as a promising multimodal reasoning paradigm. arXiv preprint arXiv:2511.04570, 2025】【33, Video models are zero-shot learners and reasoners. arXiv preprint arXiv:2509.20328, 2025】来提高物理合理性。

PE的构建与训练。PE基于一个多模态大语言模型(MLLM)构建,以适应多模态用户输入。由于通用的MLLM并未针对我们的特定生成任务进行优化,我们构建了一个专门的多语言数据集。我们的训练流程包括两个阶段:首先,我们利用监督微调(SFT)来启用模型的推理链(或“思维过程”)。随后是强化学习(RL),其奖励函数旨在最大化事实正确性、内容丰富性和语义合理性,以及处理后的提示与我们高质量训练数据之间的相似性。实验表明,PE模块显著提升了Kling-Omni的性能,使得生成的视频更具动态性和细节。此外,PE展示了强大的泛化潜力,赋予了模型智能创造力。

2.4 多模态超分辨率

级联扩散框架。为了提高生成器的训练和推理效率,我们提出了一种用于视频超分辨率(VSR)的级联扩散框架。我们的VSR模型以来自基础模型的低分辨率(LR)潜在表示和多模态视觉语言(MVL)信号为条件,作为一个统一的框架运行。这种内聚设计能够合成高保真、精细的视觉细节和纹理,满足多样化的应用需求。

架构设计与优化。我们采用了基础模型的架构,并使用其预训练权重来初始化我们的VSR模块。为了解决长时序上下文和高分辨率输入带来的计算开销,我们利用了视频数据固有的时空冗余性。具体来说,我们用局部窗口注意力取代了标准的全局注意力机制。为防止感受野隔离,我们在每个奇数层实施了一种移位窗口策略,将窗口偏移其大小的一半,以促进相邻非重叠窗口之间的信息流动,如图2所示。

非对称注意力机制。为了进一步最小化推理延迟,我们引入了一种非对称注意力机制。在此配置中,条件标记(作为查询)被限制为仅进行自注意力计算,而噪声标记则关注整个序列。这种解耦使我们能够缓存条件标记的键值(KV)特征,从而使其在后续采样步骤中得以重用。该策略在对视觉性能影响可忽略不计的情况下,提升了生成效率。


图 2 多模态超分辨率中的注意力图。左图展示了偶数层的图,右图展示了奇数层的图。跳过阴影区域的计算可大幅减少计算量,并支持使用KV缓存进行加速推理。

2.5 训练优化

端到端训练系统。我们开发了一个端到端的训练系统,该系统优化了多模态数据处理、并行执行和计算核心,以支持大规模预训练。

2.5.1 多模态数据流水线与负载均衡

应对序列长度变化。为了处理文本、图像和视频数据中显著的序列长度变化,我们采用了一种启发式调度策略,以减少流水线并行(PP)【6, Dapple: A pipelined data parallel approach for training large models. In Proceedings of the 26th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, 2021】【9, Pipedream: Fast and efficient pipeline parallel dnn training. arXiv preprint arXiv:1806.03377, 2018】【10, Re-evaluating the memory-balanced pipeline parallelism: Bpipe. arXiv preprint arXiv:2401.02088, 2024】【11, Gpipe: Efficient training of giant neural networks using pipeline parallelism. Advances in neural information processing systems, 2019】【19, Memory-efficient pipeline-parallel dnn training. In International Conference on Machine Learning, 2021】【20, Efficient large-scale language model training on gpu clusters using megatron-lm. In Proceedings of the international conference for high performance computing, networking, storage and analysis, 2021】和数据并行(DP)组之间的不平衡气泡。如图3所示,训练循环分为两个阶段:在线VAE/文本编码器推理和DiT训练。一个中央调度器将样本分配给DP组以确保工作负载均衡。对于VAE/文本编码器推理,标记在PP阶段之间动态划分,以平衡编码工作负载并提高利用率。

动态序列长度的进一步处理。为了进一步解决动态序列长度问题,我们引入了一种微批次级别的弹性Ulysses并行(UP)【13, Deepspeed ulysses: System optimizations for enabling training of extreme long sequence transformer models. arXiv preprint arXiv:2309.14509, 2023】【16, Ring attention with blockwise transformers for near-infinite context. arXiv preprint arXiv:2310.01889, 2023】切换机制【32, Flexsp: Accelerating large language model training via flexible sequence parallelism. In Proceedings of the 30th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2, ASPLOS ’25, 2025】,如图4所示。一个带有异步流水线的在线自适应调度器会预先确定每个微批次的UP程度,并动态调整对DP rank的分配,从而减少负载不平衡。为了缓解跨节点all-to-all通信造成的网络拥塞,我们采用了一种两层all-to-all策略(先进行节点内聚合,再进行节点间交换),以分散流量并减轻骨干交换机的工作负载。

2.5.2 高效多模态框架与激活值削减

DiT训练优化。在DiT训练中,输入被展平为带最小填充的一维序列【5, Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution. Advances in Neural Information Processing Systems, 2023】,并且计算图被重构以保留模态独立的计算,从而最小化冗余数据移动和布局转换的开销。我们开发了一个打包版本的多模态FlashAttention【25, Flashattention-3: Fast and accurate attention with asynchrony and low-precision. Advances in Neural Information Processing Systems, 2024】算子(MM-FlashAttention),以支持在单个核心内处理任意的跨模态掩码和可变长度序列,同时保持高性能。

激活值削减策略。对于激活值削减,我们选择性地重新计算【36, Accelerating the training of large language models using efficient activation rematerialization and optimal hybrid parallelism. In 2024 USENIX Annual Technical Conference (USENIX ATC 24), 2024】最具成本效益的算子,而流水线感知的卸载【36, Accelerating the training of large language models using efficient activation rematerialization and optimal hybrid parallelism. In 2024 USENIX Annual Technical Conference (USENIX ATC 24), 2024】通过将激活值移至CPU进一步减少了GPU内存。核心融合减少了内存流量和启动开销,这对于打包阶段至关重要。一种虚拟流水线阶段感知机制可以在具有相同输入的模型块之间重用激活值,从而在多视图、多流场景中大幅削减内存和计算量。


图 3 在线训练数据流水线。原始数据使用推理调度器在DP/PP组之间分发。推理后,训练调度器重新排序数据以实现负载均衡。


图 4 Kling-Omni中的流水线调度。VAE/TE的推理过程分布在数据并行和流水线并行上,遵循交错的1F1B流水线调度。引入了流水线感知的卸载和加载以减少GPU内存消耗,而不阻塞前向或后向传播,并且一个在线负载均衡调度器在CPU上运行,以确定ulysses并行的大小和每个微批次的工作负载。

2.5.3 可靠性与高可用性

高效的训练恢复。我们通过压缩恢复时间,实现了97%的有效训练时间比率。一个自动化的故障检测系统监控RDMA流量,能够在一分钟内检测到挂起,将最坏情况下的退出时间减少到分钟级别。一个定制的TCP同步层和从NVMe并发加载构件使得重启时间达到亚分钟级别。并行化的预热过程将NCCL初始化和核心编译与I/O操作重叠,将首次迭代的开销降低到秒级。

保障运行时稳定性。通过请求-训练重叠来优化I/O操作。数据集洗牌产生的随机读取通过预先洗牌的Parquet文件转换为顺序访问。非阻塞异步检查点和硬件隔离防止了干扰。一个统一的可观察性堆栈将MFU(模型浮点运算利用率)下降与数据变化和核心停滞相关联,以进行自动化的根本原因分析。

2.6 推理优化

模型并行。为了缓解长序列视频生成带来的巨大GPU内存消耗和推理延迟,我们采用了一种混合并行推理策略,包括Ulysses并行【14, Deepspeed ulysses: System optimizations for enabling training of extreme long sequence transformer models, 2023】和张量并行【27, Megatron-lm: Training multi-billion parameter language models using model parallelism, 2020】。此外,为了减少通信开销,我们设计了一种计算-通信重叠方案,该方案可以隐藏大部分通信成本,并且几乎不影响计算。

量化。为了进一步减少推理延迟和降低内存使用,我们设计了一套全面的混合量化方案,实现了几乎无损的加速。该方案具有三个主要特点:
* 广泛的量化覆盖。模型中的大多数GEMM操作和自注意力模块都被量化为FP8。
* 零开销的量化。所有的量化和反量化算子都被融合到其他核心中,最大限度地减少了量化引入的额外开销。
* FP8通信。使用FP8进行通信进一步减少了通信开销。当与通信-重叠技术结合时,大部分通信开销可以被有效隐藏。

缓存。Kling-Omni模型将大量的参考图像和参考视频作为输入,这些长的条件输入显著增加了推理时间。我们为Kling-Omni设计了一个量身定制的缓存方案,实现了大约2倍的加速。此外,我们开发了一个缓存-卸载解决方案,极大地缓解了缓存机制可能引入的内存压力。

A3 数据系统

数据方法论。本节描述了我们统一的视频生成和编辑框架 underlying 的数据方法论,其结构围绕两个关键维度:数据收集和数据处理系统。


图 5 我们构建的数据系统中跨模态和跨任务的数据分布。

整体数据基础设施。受高保真视频合成需求的驱动,特别是在时间一致性、语义稳定性、多图像参考对齐和复杂编辑约束方面,我们设计了一个整体的数据基础设施。该系统横跨两个关键维度:跨模态(图像/文本/视频)和跨任务(图像到视频、视频到视频、编辑和基于参考的生成等),为模型训练确保了坚实的基础,如图5所示。

3.1 数据收集

构建训练语料库。为了构建一个具有高度多样性、一致性和可控性的训练语料库,我们的数据收集系统整合了大规模真实世界数据采集与面向任务的合成数据构建。

真实世界数据采集。我们策划了一个全面的视频和图像数据集合,以确保广泛的场景覆盖。这些来源提供了必需的自然先验知识,涵盖了多样的主题、复杂的场景和风格变化。为了将任务覆盖范围扩展到静态数据集之外,我们开发了一个用于大规模互联网数据挖掘的自动化流水线。该流水线利用内部的嵌入模型,识别并构建语义相关或主题一致的跨模态样本,以增强模型在不同生成场景中的泛化能力。

合成数据构建。由于仅依赖真实世界数据不足以学习精确的可控性,我们采用了一个由专家模型驱动的合成流水线。我们利用内部的图像编辑和视频理解模型,为编辑和多图像参考等任务生产高质量样本。此外,为了支持高保真视频生成任务,我们构建了一个自动逆向合成策略。这些方法构建了强大的参考到视频的训练样本,这些样本在保留自然视频时间一致性的同时,提供了明确的控制信号。

3.2 数据处理

数据质量的重要性。在大型多模态训练中,数据质量直接决定了模型的时间一致性、语义稳定性和跨模态对齐能力。我们构建了一个三层处理系统,涵盖了基础治理、时间稳定性和跨模态对齐,以确保训练数据呈现出稳定、干净和可解释的分布,如图6所示。

基础过滤。为了建立一个坚实的质量基线,我们实施了一套严格的治理协议,用于过滤掉不可用或受损的样本。此过程首先是严格的分辨率和时长阈值,以确保视觉有效性,其次是使用帧级和时间指纹的去重机制,以防止模型因冗余内容产生偏见。此外,我们应用了视听损坏检测来消除存在结构错误的样本,并执行内容安全协议以排除NSFW材料。这个基础层保证了原始数据池的纯净度,防止训练过程受到噪声的干扰。

时间质量评估。鉴于时间连续性在视频生成中的关键重要性,我们采用了专门的筛选机制来评估视觉和时间稳定性。我们利用质量评分指标来识别并惩罚模糊、抖动和压缩噪声等伪影。为防止模型学习到不自然的非连续性,系统会检测并移除突兀的场景变化和不连贯的镜头转换。此外,我们过滤掉了动作语义密度过低的视频,从而提高了动态内容的有效训练比例,并确保模型学习到高质量的时间连贯性。

视频-文本与图像-视频对齐。为了支持文本、图像和视频的统一建模,我们建立了一个系统的跨模态对齐检测机制。这包括评估视频标题与实际视觉内容之间的语义一致性,以及评估生成任务中参考图像与目标视频的保真度。我们进一步验证了编辑指令与其执行结果之间的一致性。至关重要的是,对于以人为中心的任务,我们实施了严格的角色身份一致性检查。这些策略确保模型学习到跨模态的准确映射关系,从而促进在复杂编辑和生成场景中的稳健性能。

A4 实验环境

  • 数据集: 本文并未指定使用特定的公开数据集,而是描述了一个全面的自建数据系统。该系统包含:

    • 数据来源: 结合了大规模真实世界数据(涵盖多种场景、主题和风格)和面向任务的合成数据(使用内部专家模型生成,用于编辑、多图像参考等特定任务)。
    • 数据处理: 构建了一个三层数据处理系统,对数据进行基础治理(如去重、NSFW过滤)、时间质量评估(如运动稳定性筛选)和跨模态对齐(如视频-文本一致性检测),以确保训练数据的多样性、一致性和可控性。
  • 模型架构: Kling-Omni 是一个基于 Diffusion Transformer 的通用框架,集成了提示增强器(基于 MLLM)、全能生成器和多模态超分辨率模块。具体模型参数(如层数、维度)未在报告中提供。

  • 硬件配置: 报告中提到了训练和推理优化,如3D并行、流水线并行、Ulysses并行、张量并行,以及利用GPU和CPU进行协同计算(如激活卸载),但未提供具体的硬件型号(如GPU型号/数量、CPU型号)或平台细节。
  • 软件配置: 报告中提及了FlashAttention、NCCL等底层技术和库,但未提供具体的实现语言、代码库或操作系统等软件配置信息。

A4 实验结果

4.1 人工评估

为验证 Kling-Omni 的性能,本文构建了 OmniVideo-1.0 基准测试集,并进行了全面的双盲人工评估。

  • 基准测试集 (OmniVideo-1.0): 该基准包含超过 500 个精心设计的案例,覆盖了人类、卡通角色、动物等多种主体类别,以及专业视频制作、电商广告等多种应用场景,并包含了复杂动作、广角视角、情感表达等多重挑战。
  • 评估指标: 评估系统包含多个核心维度:

    1. 动态质量: 评估视频的时间性能,包括帧间连续性、属性稳定性及运动合理性。
    2. 提示词遵循度: 衡量生成视频与输入提示在语义和约束上的准确匹配程度。
    3. 身份一致性: 评估模型在各种变化(如视角、表情、动作)下保持参考主体身份特征的能力。
    4. 视频一致性 (针对视频编辑): 衡量模型在编辑时对未编辑区域的保真度。
  • 评估方法与结果: 评估者采用“好-相同-差 (Good–Same–Bad, GSB)”对 Kling-Omni 与行业领先模型进行并排比较。如图 7 所示,在图像参考生成任务上,Kling-Omni 与 Veo 3.1 相比,在动态质量、视觉质量、提示词遵循度和身份一致性等所有维度均表现出明显优势。在视频编辑任务上,Kling-Omni 与 Runway-Aleph 相比,同样在所有评估维度上展现了不同程度的优越性,验证了其在复杂生成和编辑场景下的鲁棒性和可靠性。


图 6 视频和图像样本的数据过滤流程,展示了质量控制、时间一致性和多模态对齐的各个阶段。


Kling-Omni vs Veo3.1 - 元素到视频的整体GSB:247%
Kling-Omni vs Runway-Aleph 的整体GSB:230%
图 7 Kling-Omni 与 SOTA 方法在视频生成和视频编辑任务上的定量比较。整体 GSB 是在所有评估指标上计算得出的。

4.2 Kling-Omni 功能展示

本节展示了 Kling-Omni 的各项强大功能。表 1 对比了 Kling-Omni 与其他SOTA视频生成和编辑模型的能力,显示 Kling-Omni 支持更广泛的功能集。

表 1 模型能力对比:Kling-Omni vs. SOTA 视频生成与编辑模型。

  • 多模态多维度精确参考: Kling-Omni 支持基于图像、视频和文本的精细化控制。其独特的主体库机制允许用户提供同一主体的多张图像(不同视角、姿态、表情等),从而建立更稳健的主体表示,实现更稳定的身份保持。如图 8 至图 14 所示,模型能够完成复杂的组合生成(图 8-10)、新机位生成动作迁移(图 11)、相机运动迁移(图 12)、下一镜头/上一镜头生成(图 13)以及灵活参考(如图 14 中的草图参考)。

  • 时间叙事: 模型能够理解一组相关的图像(如故事板或多格漫画),并生成一个连贯的、按时间顺序流动的视频叙事。如图 15 和图 16 所示,Kling-Omni 智能地填补帧间的视觉空白,将静态的故事板转化为动态的视频体验。

  • 高自由度交互式编辑: Kling-Omni 支持不受时空限制的交互式视频操控。如图 17 至图 23 所示,用户可以对视频内容进行任意维度的控制,包括元素的增、删、改(图 17-18)、背景替换(图 19)、风格化(图 20)、状态/材质改变(图 21)、添加特效(图 22)以及改变天气(图 23)。

  • 灵活的任务组合: Kling-Omni 能够在单次生成过程中处理复杂的组合指令,无需顺序执行任务或手动分解。如图 24 和图 25 所示,这种统一的方法简化了工作流程,避免了顺序编辑中常见的误差累积,确保了结果的一致性和准确性,同时提高了生成效率。

4.3 Kling-Omni 的更广泛潜力

  • 通过视觉信号的可控生成: 实验探索了由视觉信号驱动的视频生成。如图 26 所示,用户可以通过视觉标注(如绘制箭头指示角色轨迹、使用边界框指定交互)来表达意图。模型能够解释这些视觉提示,将抽象的用户概念转化为具体的生成约束,展示了在角色身份和场景动态精细控制方面的巨大潜力。

  • 推理增强生成: 集成了更强大的视觉-语言推理引擎,Kling-Omni 能够将抽象的用户提示与具体的视觉执行联系起来。如图 27 所示,系统利用世界知识(如解释GPS坐标以识别埃菲尔铁塔)来将用户指令置于现实世界背景中。此外,如图 28 所示,系统展示了逻辑推理能力,包括用于排序任务的几何与关系推理,以及用于完成视觉谜题的语义结构推理。这些能力推动视频生成从纯粹的描绘走向动态、智能的问题解决。

A5 结论

本报告介绍了 Kling-Omni,一个通用的生成模型,它打破了视频生成、编辑和多模态推理之间的传统界限。通过利用与视觉-语言模型对齐的扩散变换器,Kling-Omni 建立了一个共享的嵌入空间,实现了深度的跨模态交互。Kling-Omni 有效地用一个单一、整体的系统取代了零散的专家模型,该系统能够处理多模态视觉语言(MVL)输入,以产生高保真、物理上合理的视频内容。

我们的贡献不仅限于模型架构,还包括一个强大的训练和数据基础设施。我们构建了一个全面的数据工程流水线,确保了时间稳定性和语义对齐,并实现了一个高度优化的基础设施,以保证可扩展性和效率。广泛的评估表明,Kling-Omni 在复杂任务中达到了最先进的性能。

展望未来,Kling-Omni 代表了朝着构建能够感知、推理、生成和与动态复杂世界互动的多模态世界模拟器的基础性一步。

A7 补充细节

贡献者

所有贡献者按姓氏字母顺序列出。

Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang†, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu.

图像参考示例

指令: @Image_1 穿着 @Image_3,手持 @Image_4,在 @Image_7 中行走,@Image_4 燃烧着 @Image_6,@Image_5 站在 @Image_1 的肩膀上,@Image_2 跟在 @Image_1 后面,环绕拍摄,电影感。

输出视频:


图 8 基于图像参考的视频生成示例。

元素库参考


图 9 元素库参考示例。Kling-Omni支持同一主体的多表情参考。

图像参考 + 元素库参考

指令: 在@Image_1所示的场景中,@Capybara和@Guinea_Pig都坐在红色的碰碰车里。镜头拉近到两个角色的特写。

输出视频:


图 10 图像参考与元素库参考结合的示例。

新机位生成

指令: 将角度改为仰视视角。

动作迁移

指令: 使用视频中的动作来驱动@Image_1中的人物。


图 11 视频参考中的新机位生成和动作迁移示例。

相机运动迁移

指令: 将视频中的相机运动转移到@Image_1上。


指令: 将视频中的相机运动转移到@Image_1上。
图 12 视频参考中的相机运动迁移示例。

下一镜头生成

指令: 生成视频的下一个镜头,从男孩的过肩视角展示女孩的脸。女孩站起来,准备离开。

上一镜头生成

指令: 生成视频的上一个镜头:镜头向右平移,跟随一名中老年男子走向画面右侧的驾驶座车门。该男子用左手打开车门,进入驾驶座。年轻男子看着中老年男子说话。


图 13 视频参考中的下一镜头生成和上一镜头生成示例。

灵活参考

指令: “参考参考图中的设计稿,生成一个3D雕塑的视频。雕塑是绿色的,矗立在摩天大楼外的广场上。”

指令: “根据参考图的色彩风格为视频中的角色上色,同时保留角色原有的外观和形状。”


图 14 灵活图像和视频参考的示例,例如草图参考。上方案例展示了由参考图像中的草图控制的视频生成,而下方案例则说明了将颜色参考整合到视频的序列草图参考中的视频风格化。

时间叙事

指令: 根据@Image_1中的漫画生成一个故事板视频。

输出视频:


图 15 图像参考中的时间叙事示例。输入为多格图像。

时间叙事

指令: 将参考图像中的故事板网格转换为连续的视频。

参考图像:


@Image_1

输出视频:


图 16 图像参考中的时间叙事示例。输入为多格图像。

添加

指令: 一个男人走过来抱起猫,把它抱在怀里。

移除

指令: 移除背景中的人群。

替换

指令: 把视频里的人的头发变成白色。


图 17 视频编辑中的添加、移除和替换示例。

使用参考图像添加

指令: 按照参考图像所示,添加一只蓝鲸,在宇航员最终注视的方向轻轻摆动尾巴。注意蓝鲸与背景的无缝融合;它看起来自然而逼真。

使用参考图像替换

指令: 用参考图像中的巨型姜饼人替换雕像。


图 18 视频编辑中由参考图像引导的添加和替换示例。

背景替换

指令: 将视频背景改为火山熔岩场景。


指令: 将视频背景替换为绿幕。

使用参考图像进行背景替换

指令: 将视频的背景更改为参考图像。


图 19 视频编辑中的背景替换示例。

风格化

指令: 将视频改为折纸风格。

使用参考图像进行风格化

指令: 将视频转换为参考图像中所示的动画风格。


图 20 视频编辑中的视频风格化示例。

状态改变

指令: 冻结水面。

材质改变

指令: 把视频里的人变成玻璃材质。


图 21 视频编辑中的属性操控示例。

特殊效果

指令: 为视频中的剑添加冰霜效果。


指令: 为视频中的剑添加闪电效果。


指令: 为视频中的剑添加闪电和火焰效果。


指令: 随机为视频中的剑应用一种效果。
图 22 视频编辑中的特殊效果示例。

天气变化

指令: 将视频中的天气改为雨天。


指令: 将视频中的天气改为傍晚,有日落。


指令: 将视频中的天气改为下雪天。


指令: 将视频中的天气改为有闪电的雨夜。


图 23 视频编辑中的天气变化示例。

图像参考 + 元素库参考 + 风格化

输出视频:

指令: 以日本动漫风格,@Girl中的韩国女孩穿着@Image_1中的服装,戴着@Image_2中的帽子,在京都的街道上缓缓漫步,双手插在口袋里,脚下的雪发出轻柔的嘎吱声。


图 24 任务组合示例:Kling-Omni 结合了女孩的元素库、参考图像和一个视频风格化提示,生成了一个一致的风格化视频。

新机位生成 + 添加

指令: 生成视频的特写视图,稍微偏向一侧,同时给女孩戴上@Image_1中的发带。

替换 + 添加 + 风格化

指令: 将背景改为@Image_1,在火车的右侧添加@Image_2中所示的站台,并将视频改为黏土动画风格。


图 25 两个任务组合的示例:(上)生成新机位同时添加参考的发带;(下)替换背景、添加火车月台元素,并将视频转换为黏土动画风格。

视觉提示理解


图 26 视觉信号引导的视频生成示例,支持对包含视觉信号的图像中用户意图的智能解读。

推理增强生成

元素到视频


图 27 利用世界知识进行推理增强生成的示例。上方案例通过将主体合成到由GPS坐标定义的特定位置(埃菲尔铁塔)来展示地理空间推理。下方案例展示了时间推理,模型根据“6小时后”的指令,准确地调整了山地景观的环境光照和阴影。

推理增强生成


下一镜头生成指令: 按面数从左到右升序排列。

指令: 完成拼图。


图 28 逻辑任务的推理增强生成示例。上方案例展示了按面数升序对几何形状(四面体、立方体、八面体)进行排序。下方案例展示了通过选择并放置正确的字块来完成两个相交的中文成语,从而解决一个语言谜题。