LongCat-Flash-Omni Technical Report

作者/机构: Meituan LongCat Team
联系方式: longcat-team@meituan.com

A1 主要贡献

本文介绍了LongCat-Flash-Omni，一个拥有5600亿参数的先进开源全模态（omni-modal）模型，擅长实时音视频交互。它解决了训练一个兼具强大离线多模态理解能力和实时音视频交互能力的模型所面临的四大挑战：

跨模态异质性：不同模态间存在巨大差异，难以统一表示和融合。为解决此问题，模型采用了精心设计的多阶段大规模预训练流程。基于早期的文本预训练基础模型，逐步将音频和视觉数据融入训练过程。通过均衡的多模态数据混合和有效的早期融合策略，模型实现了跨模态的深度综合理解，同时保持了强大的单模态性能。
统一离线与流式能力：整合离线多模态理解与流式音视频交互是一个重大挑战。为解决此问题，模型引入了“人在环路”（human-in-the-loop）策略来构建高质量的交互数据，并特别考虑了长期记忆和多轮对话处理。同时，从现有的视觉-文本语料库中派生出视觉-语音问答数据，以实现自然的语音输出，并将强大的离线多模态理解能力迁移到交互场景中。
实时交互：在大型模型中实现低延迟的音视频交互非常困难。为解决此问题，模型在所有模块设计上都投入了大量精力。它采用LongCat-Flash中的ScMoE架构（带有零计算专家的快捷连接混合专家）作为LLM骨干。为了处理流式输入，采用高效的音视频编码器进行特征提取，并引入同步的块状交错策略进行实时处理。为了高效的音频重建，采用了具有较粗时间分辨率的多码本音频去标记化方案。此外，还设计了高效的流式服务管道，以最小化端到端的服务器延迟。
训练效率：模型和数据内的异质性给分布式策略的设计带来了巨大挑战。为解决此问题，提出了一种模态解耦并行（Modality-Decoupled Parallelism, MDP）策略。该方法能够独立优化LLM、视觉编码器和音频编码器的性能和内存使用。实验结果表明，该策略在多模态训练中能够维持纯文本训练90%以上的吞吐量。

核心特性总结如下：
* SOTA和统一的全模态模型：在开源模型中，LongCat-Flash-Omni在跨模态理解性能上达到顶尖水平，并在单一框架内无缝集成了强大的离线多模态理解与实时音视频交互能力。
* 大规模与实时音视频交互：利用高效的LLM骨干、轻量级的模态编码器和解码器，以及块状音视频特征交错机制，实现了低延迟、高质量的音视频处理和流式语音生成。支持高达128K令牌的上下文窗口。
* 有效的早期融合训练：采用创新的多阶段预训练流程，在均衡的数据策略和早期融合训练范式下，逐步整合文本、音频和视觉模态，确保了强大的全模态性能，且任何单一模态的性能均未下降。
* 高效的训练基础设施：提出了模态解耦并行训练方案，显著提升了大规模、高挑战性多模态训练的效率。
* 开源贡献：提供了关于LongCat-Flash-Omni训练方法和数据策略的全面概述，并开源模型以促进社区的未来研究。

A2 方法细节

2 架构

LongCat-Flash-Omni是一个完全端到端的全模态模型，可以接收文本、音频、图像、视频及其任意组合作为输入，并能直接从LLM骨干生成语音令牌。该模型采用一个视觉编码器和一个音频编码器作为多模态感知器，一个LLM处理多模态输入并生成文本和音频令牌，最后由一个音频解码器从LLM生成的语音令牌中重建波形。所有模块都经过精心设计以支持高效的流式推理。音频编码器、视觉编码器和音频解码器均为约6亿参数的轻量级组件，而大规模LLM骨干则采用了LongCat LLM家族中新颖高效的架构设计【Meituan, 2025a,b】。

图2：LongCat-Flash-Omni模型架构概览。该模型是完全端到端的，并在单一大型语言模型框架内统一了文本、图像、视频和音频的跨模态理解与生成。视觉编码器和音频编码器分别用于获取视觉特征和音频特征，然后将其投影到共享的潜在令牌空间并送入LongCat-Flash LLM骨干。LLM解码器直接生成与文本令牌并行的多码本语音令牌，这些语音令牌随后由音频解码器转换为音频波形。LongCat-Flash中提出的带零计算专家的快捷连接MoE（ScMoE）模块被用于实现高效的多模态融合。视觉和音频特征被分块交错以支持流式音视频输入。

2.1 Vision Encoder

LongCat-ViT作为视觉编码器。为有效编码图像和视频等视觉输入，LongCat-Flash-Omni集成了一个精心设计的视觉Transformer（ViT），称为LongCat-ViT【Qiao et al., 2025】。LongCat-ViT在多模态任务上表现出色，原生支持各种分辨率和宽高比的输入，并为图像和视频数据提供统一的编码能力。

架构设计。LongCat-ViT是一个基于Transformer的编码器，保留了传统视觉Transformer的核心结构，同时集成了几个关键增强功能：用于原生图像和视频输入的统一补丁化（patchification）模块、二维旋转位置嵌入（2D-RoPE）【Su et al., 2024】、SwiGLU激活函数、RMSNorm层、一个LayerScale模块和查询-键归一化。为了在实时交互中提高视频帧编码的计算效率同时保持模型性能，我们采用了相对轻量级的模型配置，详细超参数见表1。视觉-语言投影器采用一个带预归一化的两层多层感知机（MLP）来对齐视觉和文本表示。此外，沿空间维度应用了2倍像素反洗牌（pixel-unshuffle）操作，以缓解高分辨率输入带来的二次计算复杂度问题。

Table 1: LongCat-ViT的详细架构配置。
表1：LongCat-ViT的详细架构配置。

原生分辨率编码。传统的ViT模型（如CLIP【Radford et al., 2021】、SigLIP【Zhai et al., 2023】）通常将输入图像调整为固定分辨率，这会导致信息丢失。LongCat-ViT通过在原生分辨率下编码视觉输入来缓解这一限制，保留了视觉数据固有的空间和上下文信息。对于每个图像或视频帧，如果补丁数量在预定义范围（训练期间为576-5832）内，则仅进行最小尺寸调整以确保两维度均可被112整除；否则，图像将被重新缩放以适应此范围，同时保持其宽高比。

对比视觉-语言预训练。LongCat-ViT采用了一种渐进式训练方案，该方案整合了两种互补的适应策略：（1）渐进式分辨率适应，利用课程学习从固定的低分辨率（如224）预训练过渡到原生分辨率微调；（2）渐进式视觉模态适应，将视频数据的引入推迟到最终训练阶段以减少计算开销。为了在早期阶段促进收敛，引入了来自冻结的预训练视觉模型的特征蒸馏作为辅助目标，并且该目标的权重在后期阶段逐渐降低。模型在对比预训练阶段从零开始，共训练了146亿个样本。

2.2 Audio Tokenizer, Encoder, and Decoder

不同训练阶段采用不同的音频输入格式。在预训练的1-4阶段，使用一个音频分词器（tokenizer）将原始语音转换为四码本离散令牌，以实现一致的下一令牌预测并提高训练效率。然而，这种离散化会妨碍模型捕捉细粒度的声学细节。因此，从预训练第5阶段（3.2.6节）开始，我们引入一个音频编码器，将原始语音转换为连续的音频特征再输入LLM。对于语音生成，为了与固有的下一令牌预测范式保持一致，LLM始终输出四码本离散令牌，这些令牌随后由音频解码器转换回波形。

图3：音频解码器架构。
图4：音频编码器架构。

音频分词器和解码器。我们采用LongCat-Audio-Codec【Zhao et al., 2025a】作为音频分词器和解码器，因为它具有强大的语义建模、灵活的声学特征提取和低延迟的流式合成能力。该分词器以16.67赫兹的帧率将音频波形离散化为四个码本，其中一个码本表示语义信息，另外三个捕捉声学细节。为了在实时交互场景中实现低延迟推理，我们直接使用LongCat-Audio-Codec的解码器来从令牌重建波形，而不是依赖传统的code2mel模型和声码器。它支持仅需三帧前瞻的流式音频解码。如图3所示，音频解码器由LSTM层、卷积块和因果转置卷积层组成，并在生成对抗网络（GAN）框架下进行训练。

音频编码器。为了优化响应延迟并适应任意时长的语音输入，音频编码器采用流式架构设计。如图4所示，音频编码器以80维的Fbank特征作为输入。该架构包含一个Pre-FFN模块，通过帧拼接下采样技术将音频序列长度减少八倍，每帧代表一个80毫秒的时间窗口。核心处理由一个流式编码器执行，该编码器保持了类似Transformer的结构，同时引入了几个关键修改：（1）采用Pre-Norm配置以增强训练稳定性；（2）用FSMN层【Zhang et al., 2018】替换标准自注意力模块，以在受限的上下文窗口内实现高效的特征处理。为了平衡延迟和性能，我们实现了一种混合方法，其中只有最后六层包含一帧前瞻机制，而之前的层则保持严格的因果关系。该架构以一个Post-FFN模块结尾，用于进一步的特征细化。音频编码器在监督学习下使用CTC损失【Graves et al., 2006】和语音识别数据进行训练。

2.3 LLM Backbone

基于LongCat-Flash的LLM骨干。LongCat-Flash-Omni建立在LongCat-Flash【Meituan, 2025a】之上，这是一个拥有5600亿参数的混合专家（MoE）语言模型。LongCat-Flash采用了多头潜在注意力（MLA）【Liu et al., 2024a】、快捷连接MoE【Cai et al., 2024】和零计算专家，通过激活186亿至313亿参数（平均270亿）对每个令牌执行可变计算，从而统一了效率、性能和稀疏性。LongCat-Flash-Omni保留并扩展了这些特性，以支持多模态理解和音视频交互。

2.4 Video Strategy and Streaming Audio-Visual Interaction

离线理解与低延迟交互的结合。LongCat-Flash-Omni旨在无缝集成强大的离线多模态理解与低延迟的音视频交互。音频和视频流分别由音频编码器和视觉编码器独立处理。提取的特征随后进行时间对齐，并分块为同步的片段，这些片段被交错送入LLM解码器进行多模态理解。本节详细阐述了LongCat-Flash-Omni采用的视频策略以及如何处理音视频输入以支持流式交互。

2.4.1 Video Strategy

高效视频处理的挑战与策略。由于视频属性（如时长和分辨率）的巨大差异，高效处理视频仍然是一个重大挑战。为了应对这些挑战，我们采用了一系列策略来有效平衡模型性能和计算效率。

动态视频帧采样。我们采用默认每秒2帧（2 FPS）的采样率，并根据视频时长进行动态调整。训练期间，较短的视频以更高的帧率采样以捕获更密集的时间信息，确保至少有16帧用于有效信息利用。相反，对于过长的视频，将根据最大帧数限制进行均匀采样。这个帧数上限通过调节内存消耗和保持计算效率来进一步促进训练。

文本时间戳。LongCat-Flash-Omni在每个输入视频帧之前引入时间戳，以增强模型的时间感知能力并提高其识别特定时间点的能力。时间戳以纯文本形式输入，自然地与文本空间对齐。类似于【Chen et al., 2024a】的做法，当在第i秒采样一个视频帧时，我们会在其对应的视觉令牌前加上文本“Second{i}”。最终的输入序列结构为“Second{i}||$V_i$||Second{j}||$V_j$||...”，其中Second{i}是文本时间戳，$V_i$代表第i秒视频帧的视觉令牌，||表示拼接。

视频输入中的分层令牌压缩。我们通过三个连续步骤压缩视频输入：首先，根据2.1节中描述的补丁数量上限重新缩放每帧。然后，在将视频送入视觉编码器之前，应用一个时间步长为2的3D卷积，将N个输入帧在时间维度上压缩到N/2。最后，在视频被视觉投影器处理成视觉令牌后，如果视觉令牌数量超过预定义限制，我们会对视觉令牌进行插值下采样。

2.4.2 Streaming Audio-Visual Interaction

流式音视频交互机制。流式音视频交互机制是LongCat-Flash-Omni的核心组件，它能够实时整合视频和语音信号以支持交互式通信。该音视频交互框架具有两个关键特点。

流式音视频特征交错。与离线音视频理解任务不同，实时音视频交互要求音频和视频流的特征尽可能早地预填充（prefill）到LLM骨干中，以在收到用户查询后最小化响应延迟。为此，我们设计了一种时间同步的、分块的音视频特征交错机制。音视频特征块的结构为 “<|timestamp|>:<|video-tokens|><|audio-starttoken|><|audio-tokens|><|timestamp|>:<|video-tokens|><|audio-tokens|>...<|audio-end-token|>”，其中时间戳以文本形式表示，如2.4.1节所述。

稀疏-密集采样策略。我们设计了一种稀疏-密集采样策略，以在用户与模型的轮流交互中优化计算成本和信息损失的平衡。具体来说，在信息输入期间，我们采用1秒的块大小以尽可能多地保留音视频信息，并使用更密集的2 FPS视频采样率。在模型响应期间，视频帧以更稀疏的采样率（即2秒的块大小，0.5 FPS）进行缓冲，并附加到下一个用户回合的开头。这种设计有效地平衡了模型响应期间的视觉信息保留和计算开销，实现了高质量的音视频交互。

3 预训练

本节描述了LongCat-Flash-Omni的数据整理过程（3.1节）和训练策略（3.2节）。

3.1 Data Curation

大规模多模态语料库。我们收集了一个超过2.5万亿令牌的大规模、多样化的多模态语料库用于预训练。该语料库包括音频数据、通用图文数据、OCR、定位和GUI数据、STEM数据、多图数据、视频数据以及长上下文多模态数据。

3.1.1 Audio Data

语音-文本交错数据。我们的数据包含数千万小时的多样化音频。我们采用以下流程来提取具有一致主题的高质量语音音频：首先，使用VAD系统将长音频分割成说话片段并移除非说话区域。接着，使用两个专有的ASR模型进行交叉验证，过滤掉转录结果差异显著的片段。然后，应用多语言语音对齐器【Pratap et al., 2024】进行强制对齐，得到精确的转录时间戳。我们通过计算每个片段的语音时长与文本长度的比率来进一步优化数据集，并丢弃比率在0.5至99.5百分位范围之外的片段。最后，我们合并由短于10秒的静音分隔的相邻说话片段，形成训练样本。为了构建语音-文本交错的训练数据，我们将每个训练样本用标点符号分割成片段（(A1, T1), (A2, T2), ..., (An, Tn)），然后随机屏蔽某些片段的音频或文本部分，得到最终的训练输入。

音频理解数据。我们整理了一个音频理解数据集，涵盖音频描述、语义音频理解、副语言分析、声学场景和事件检测、音频问答以及音乐理解等广泛任务。该数据集包含开源数据集和内部专有数据集的组合。我们应用了文本翻译作为语音识别数据集的数据增强，使用多种语音模型进行伪标签生成和标签质量过滤，并为每个任务设计了多样的提示以增强指令的可变性。

3.1.2 Generic Image-Text Data

图像描述数据。高质量的图像描述对于将视觉表示与语言模型的知识空间对齐至关重要。为此，我们通过一个多阶段的清洗流程构建了一个大规模的图像描述数据集，该流程在文本、图像和图文对级别上进行。我们通过精心优化的启发式规则移除了质量差的样本。在图文对级别，我们使用SigLIP相似度阈值进一步过滤样本。然后，我们通过重新描述来改进数据集，以生成密集、细粒度的描述，并结合原始标注中的世界知识。我们还应用了额外的过滤措施，以帮助减轻幻觉并确保最终的图文对准确、信息丰富且上下文相关。

数据多样性与平衡。为了扩大语义覆盖范围并避免过拟合，我们显著增强了数据的多样性和平衡性。我们根据图像和文本的联合嵌入对图文对进行聚类，并从每个聚类中重新采样以确保长尾内容的代表性。此外，为了解决多模态数据集中固有的长尾分布问题，我们采用了受MetaCLIP【Xu et al., 2023】启发的基于概念的重采样策略，通过扩展词汇表并为更广泛的概念覆盖进行重采样，实现了跨语义类别的更均衡分布。

交错图文数据。交错的图文数据提供了更广泛的视觉-文本覆盖范围并提高了少样本性能，但通常质量不均。我们通过一个两阶段的过滤和多样性采样流程从开源数据中构建了一个高质量的数据集。在过滤阶段，我们移除了包含噪声、敏感内容和过于复杂的样本，并丢弃了损坏或低分辨率的图像。然后，我们通过SigLIP相似度得分为每个图像匹配最相关的文本段落来改善图文对齐。为了采样一个多样化且均匀分布的子集，我们应用了类似于【Abbas et al., 2024】的基于密度的修剪和语义聚类。这个过程将原始数据集减少了约74%，同时保持了多模态预训练的多样性和质量。

领域知识与推理能力增强。为了增强领域知识和推理能力，我们进一步整理了一个内部高质量的图文交错数据集，该数据集源自包含教育材料的视频内容。我们使用自动化流程仅选择教学视频片段。利用ASR和OCR提取文本信息，然后由一个LLM进行优化以提高准确性和一致性。视频被分割成有意义的场景，关键帧被提取并与优化后的文本根据时间和语义对应关系对齐。

3.1.3 OCR, Grounding and GUI Data

OCR数据。我们整理了包含PDF、论文和网页等多种内容类型的丰富标注训练样本，这丰富了我们的文档解析数据集。我们还纳入了涵盖场景文本、结构化文档、手写体和数学表达式的多样化OCR数据集，并合成了多页和区域级别的OCR样本。对于OCR相关的VQA，我们整合了文本中心VQA、文档VQA、表格VQA和图表VQA等领域的多种数据集。

定位数据（Grounding Data）。为了增强模型的定位能力，我们采用了几个广泛使用的开源目标检测数据集【Krishna et al., 2017; Mao et al., 2016; Lin et al., 2014; Shao et al., 2019】。我们进行了数据质量验证以过滤掉不正确和冗余的样本。利用这些高质量的开源数据集，我们构建了两种类型的问答数据：定位数据和区域描述数据。我们统一采用归一化到0-1000范围的相对坐标，并将数据处理成JSON格式。我们还整合了PixMo数据集【Deitke et al., 2024】以增强模型的计数能力。

GUI数据。图形用户界面（GUI）数据包含丰富的视觉理解和任务规划信息，可实现移动和桌面平台的自动化交互。为此，我们利用了多种类型的GUI相关数据来增强模型的感知、定位和规划能力【Zeng et al., 2025】。对于GUI感知，我们使用了大量来自各种PC和移动应用截图的图文对。对于GUI定位，我们根据来自不同平台和设备的视觉截图构建了指令-答案对。对于GUI规划，我们收集了来自移动和桌面的具有丰富上下文的多样化导航路径。

3.1.4 STEM Data

科学、技术、工程和数学（STEM）数据集。为了加强模型在科学推理和解决问题方面的基础能力，我们构建了一个大规模、多模态的STEM数据集。收集的数据经过精心处理，并结构化为多项选择题和开放式生成问答格式。我们实施了严格的多阶段过滤流程，以确保事实准确性、消除歧义并标准化格式。最终形成了一个高保真的预训练数据集，包含1500万个图文对，涵盖了从K12教育到高等大学研究的广泛学科。

3.1.5 Multi-Image Data

多图像数据。为了增强模型的细粒度图像理解能力，我们构建了一个包含各种粗粒度和细粒度能力的分类体系，例如“情感识别”、“车辆识别”和“用时钟计算时间”。基于这个分类体系，我们采用多种策略来收集多图像问答数据，包括使用经过仔细数据筛选和增强的开源数据集，以及使用专用工具合成图像。

3.1.6 Video Data

视频数据来源与处理。我们的视频数据集主要来源于广泛的公开语料库，涵盖视频分类、时间定位、检测、描述和问答等多种任务类型。我们设计了一个全面的数据处理流程，以严格的质量过滤和有针对性的增强为中心，从而产生一个为大规模预训练量身定制的、精炼的高质量数据集。

自研数据集。此外，我们从公开可用的视频内容中整理了一个内部数据集，包含三个部分：
1. 高质量视频描述数据：使用类似于Koala【Wang et al., 2025a】的场景检测算法将视频分割成连贯的场景，然后对场景进行聚类和采样，最后使用专有模型生成详细的描述。
2. 时间定位视频问答数据：通过基于规则的转换，将时间动作检测、分割、视频摘要和时间句子定位等任务的标注转换为问答对，并通过专有模型生成更具挑战性的问答对来丰富数据复杂性。
3. 动作识别视频问答数据：为了加强模型的动作识别能力，我们将几个公开的视频识别数据集【Carreira et al., 2019; Goyal et al., 2017】转换为多项选择题和开放式视频问答对。

3.1.7 Long-Context Multimodal Data

长上下文多模态数据集。为了应对长上下文多模态场景中的挑战，我们构建了一个专门的长上下文多模态数据集。该数据集包含两大部分：（1）从开源数据和内部预训练数据中精心筛选的样本，重点是长度超过三分钟的视频；（2）内部合成的长上下文数据。我们的内部长上下文数据集包括图文交错数据和长视频问答数据，前者通过拼接相同主题的单图数据或将长文本中的某些文本段落渲染成图像来构建，后者通过对视频进行分段、生成描述并构建时间定位的详细问答对来构建。

3.2 Training Strategy

训练策略的挑战与设计。训练全模态模型最根本的挑战之一在于不同模态数据分布的显著异质性。文本是高度压缩和抽象的符号表示，而语音是带有副语言信息的序列信号，但其语义密度远低于文本。视觉信息引入了空间结构，而视频数据进一步增加了时空动态的复杂性。基于这些观察，我们采用了一种受课程学习启发的渐进式训练策略，从简单的序列建模任务逐渐过渡到更复杂的任务，如图5所示。

渐进式训练流程。我们从大规模文本预训练（阶段0）开始，然后引入与文本结构更接近的语音数据（阶段1）以对齐声学表示。一旦语音-文本对齐建立，我们便引入大规模图文对和图文交错语料库（阶段2）进行视觉-语言对齐。接着，我们引入最复杂的视频数据以实现时空推理（阶段3），同时整合更高质量和更多样化的图像数据集以增强视觉理解。为了支持长上下文推理，我们将模型的上下文窗口从8K扩展到128K令牌（阶段4）。最后，为了减轻离散语音令牌表示的音频输入中的信息损失，我们引入了一个音频编码器对齐阶段（阶段5），使模型能够直接处理连续的音频特征。

3.2.1 Stage-0 Text Pre-Training

文本预训练。为建立坚实的文本基础，文本预训练阶段遵循与LongCat-Flash【Meituan, 2025a】初始阶段相同的程序。模型在一个高质量、多样化的文本语料库上训练了约16万亿个令牌，并采用恒定的学习率。在整个训练过程中，高质量推理数据（如STEM和代码）的比例逐步增加，以加强模型的推理和编程能力。

3.2.2 Stage-1 Text-Speech Continued Pre-Training

文本-语音联合预训练。在阶段0的文本基础模型之上，我们使用文本数据、语音-文本交错数据和ASR数据的混合体继续进行预训练。所有语音样本都被离散化为四码本令牌序列。训练中，我们联合优化多个目标：纯文本下一令牌预测（NTP）、文本-语音交错NTP以及ASR风格的任务。如图6所示，文本和音频嵌入在送入LLM解码器之前进行融合。我们引入了四个音频预测头，使模型能够直接生成音频令牌。模型同时预测文本令牌、语义令牌和声学令牌。

损失函数。整体训练目标定义如下：
$$ L_{\text {total }}=a L_{\text {pure-text }}+b L_{\text {audio }}+c L_{\text {audio-text }}+d L_{\text {first-audio }} $$
其中，a、b、c和d是损失权重。$L_{pure-text}$表示纯文本数据的损失，而$L_{audio}$和$L_{audio-text}$对应于文本-语音数据中的音频损失和文本损失项。$L_{first-audio}$是应用于语义音频令牌的附加损失项。经过超参数调整，我们设定a = 1.75, b = 0.25, c = 1.5, d = 0.1。此训练阶段使用了约5.1万亿令牌，文本令牌与音频令牌的比例为2:1，并应用了轻微的学习率衰减。

3.2.3 Stage-2 Multimodal Continued Pre-Training

引入视觉模态。在阶段1的模型基础上，我们进一步将大规模图文数据（包括图像描述数据和交错图文数据）纳入预训练程序。我们使用一个从LongCat-ViT模型（2.2节）初始化的ViT来获取图像的视觉特征，并使用一个随机初始化的视觉投影器来将视觉特征与LLM骨干的潜在空间对齐。我们保持文本与音频的数据比例为2:1，文本与视觉的数据比例也为2:1。此阶段总共消耗超过3万亿令牌。ViT模块和投影器的参数与LLM解码器参数一起进行联合训练，学习率几乎恒定。我们重用阶段1的损失权重，并将额外的视觉相关损失权重设为0.25。

3.2.4 Stage-3 Multimodal Annealing Training

多模态退火训练。预训练阶段之后，模型进入一个多模态退火阶段，在该阶段，模型使用经过筛选的更高质量的数据，在退火的学习率下继续训练。我们进一步引入视频数据（包括视频描述和问答数据集），以及更广泛的图像相关数据，如OCR、定位、GUI、多图和STEM数据集。我们保持阶段2的数据比例，即文本:视觉:语音的令牌比例为2:1:1，总共消耗0.33万亿令牌。

基于困惑度（PPL）的数据采样。我们采用基于困惑度（PPL）差距的信号来自动指导数据采样分配。语料库首先根据语义和任务被分割成不同的子集。在训练过程中，我们监控每个子集的PPL收敛情况：如果一个子集的收敛落后于预期的参考水平，其采样权重将被动态增加。对于每个子集，我们构建一个相应的验证集，并使用一个现成的视觉-语言模型来计算其每个样本的PPL作为预期的参考水平【Xie et al., 2023; Michel et al., 2022】。

3.2.5 Stage-4 Context-Length Extension Training

上下文长度扩展。为了增强模型捕捉跨多种模态的扩展序列关系的能力，我们将上下文长度逐步扩展到32K，然后是128K令牌。我们使用1000亿训练令牌将上下文长度从8K扩展到32K，并将RoPE的基础频率【Su et al., 2024】从1M调整到5M。然后，上下文长度用额外的200亿令牌进一步扩展到128K，需要将RoPE的基础频率相应增加到10M。

长序列数据处理。在长序列多模态建模中，一个关键挑战是保持多图像组合或扩展视频序列中的细粒度视觉信息。为了解决这个问题，我们整合了原生分辨率编码策略，实现了双重优化：它在原始保真度下保持关键视觉细节，同时智能地管理令牌分配效率。我们还额外加入了25%的长上下文多模态数据。对于文本和语音模态，我们使用了高质量的文本语料库和精心策划的语音数据。我们保持了与预训练阶段相同的2:1:1的文本-视觉-语音比例。

3.2.6 Stage-5 Audio Encoder Alignment Training

音频编码器对齐训练。在此阶段，我们冻结LLM参数，仅训练音频编码器。这一方法旨在（1）保留LLM已建立的多模态处理能力，（2）增强音频理解能力，同时将连续语音输入与LLM的语义空间对齐。为加速收敛，我们从2.2节介绍的用语音识别训练的音频编码器初始化音频编码器（不包括投影器），而投影器模块参数则随机初始化。训练期间，输入格式为：“任务提示 + 语音输入 + LLM响应”，损失仅在“LLM响应”部分计算。

4 后训练

后训练阶段将预训练的基础模型转化为一个任务自适应、与人类对齐的系统。此阶段包括两个部分：（1）监督微调（SFT），通过高质量和多样化的指令数据，赋予模型多模态指令遵循、推理和口语交互的能力；（2）强化学习（RL），通过直接偏好优化（DPO）【Rafailov et al., 2023】进一步增强模型的行为对齐、连贯性和一致性。

4.1 Supervised Fine-Tuning

SFT阶段的目标。SFT阶段专注于两个互补的目标。首先，通过利用大规模、高质量和多样化的指令数据来增强模型的多模态指令遵循和推理能力。其次，通过利用精心策划的交互数据，包括语音到语音的对话数据和音视频交互数据，来加强模型的多模态交互能力。

4.1.1 High-quality and Diverse Instruction Data Curation

图文SFT数据。我们整理了一个高质量、多样化的图文SFT数据集，涵盖了广泛的视觉-语言任务，包括：基本技能（图像描述、视觉问答）、专业技能（文档和图表理解、OCR、视觉定位、代理任务执行和STEM相关视觉推理）。为确保高质量，我们采用了一个“LLM作为评判者”的评估框架，过滤掉不一致、低质量或语义不准确的样本，最终得到约300万个精心策划的数据集。

视频-文本SFT数据。我们构建了一个约300万个视频的大规模视频数据池，涵盖通用视频理解、分类、推理、定位、分割和高光检测等任务。我们使用一个包含48个子类别的预定义分类体系来指导有针对性的采样，以丰富代表性不足的能力。对于特别具有挑战性的任务，如动作计数、关系比较、事件定位和属性变化，我们加入了手动标注的样本。通过迭代采样、增强和质量优化，我们整理了一个约70万个样本的高质量视频-文本SFT数据集。

音频理解数据。我们重新利用了前一阶段（音频编码器对齐训练）的综合音频理解数据集的一个子集用于SFT阶段。这些抽样数据专门针对ASR、音频到语音翻译（AST）、副语言理解以及音频条件下的描述和问答等任务。

视觉-语音问答数据。我们设计了一个新的视觉-语音问答数据集，以增强模型基于视觉输入进行流畅语音问答的能力。它将视觉输入（图像或视频）与口语提示配对，并要求模型以语音形式输出答案。我们从现有的SFT数据集中获取基于文本的问答对，并使用LLM重写以增强口语流畅性，最后使用TTS引擎将所有文本响应转换为高保真语音。

音视频理解数据。为了培养联合音视频理解能力，我们整理了一个内部时间同步的音视频数据集。通过提示一个强大的多模态语言模型，生成涉及视频中音频和视觉内容的高质量文本问答对。所有样本都以交错的块格式组织，使模型能够更好地感知和推理时间上对齐的音视频内容。

4.1.2 Multimodal Interaction Data Curation

多模态交互数据。为了赋予LongCat-Flash-Omni实时口语和音视频交互能力，我们构建了两种类型的专门交互数据集：（1）语音到语音交互数据，旨在增强基于语音的对话的自然性和表现力；（2）音视频交互数据，旨在提高模型管理多轮、上下文相关的音视频对话的能力。

语音到语音交互数据。我们通过两阶段方法构建了一个大规模的语音对话数据集。（1）基于文本的数据集改编：我们过滤掉公式、代码等内容，并用LLM重写响应，以产生适合语音的对话语言。（2）面向语音的对话生成：我们提示LLM生成多样化的主题，并创建新的多轮对话。专业配音演员录制了涵盖多种情感、说话风格和主要中文方言的对话，这些录音被用来微调一个专门的TTS引擎，以确保音调一致、高保真和自然的韵律。

音视频交互数据。由于收集大规模真实的音视频交互数据不切实际，我们开发了一个半自动化的数据生产流程，该流程利用模型驱动的自动化进行初始生成，然后通过“人在环路”阶段进行验证和优化。
* 模型驱动的自动化：我们首先建立了一个包含六个主要维度的能力分类体系。然后，使用一个强大的多模态语言模型为每个视频片段生成多轮逐步深入且具有上下文感知的问答对。我们还应用自动验证流程，使用“LLM作为评判者”的框架来评估和丢弃低质量或不一致的问答对。
* 长上下文视频交互：为了增强长期记忆和上下文推理，我们构建了一个长上下文多轮视频交互数据集。在该数据集中，对话序列被重新排序，使得某些查询在时间上远离其对应的视觉片段，从而鼓励模型在扩展的时间跨度内保留和检索信息。
* 人在环路：通过人工验证，我们发现生成的问答数据经常出现事实不一致、响应不充分、指代模糊等错误。由于使用多模态LLM自动纠正这些错误可能会引入新的错误，我们因此采用人工标注进行质量优化。最终，我们应用TTS引擎将文本问答对转换为语音，并将其集成到视频中，得到最终的音视频语音交互数据集。

4.1.3 SFT Training Recipe

SFT训练细节。在SFT期间，我们冻结音频编码器，同时更新所有其他模块。这种选择性微调策略可以稳定收敛并避免对低级听觉特征的灾难性遗忘。除了多模态SFT数据，我们还加入了用于开发LongCat-Flash的纯文本SFT数据。我们使用AdamW优化器，β1 = 0.9，β2 = 0.95，权重衰减为0.1。学习率在前4%的步骤中进行线性预热，然后从峰值1 × 10⁻⁵余弦衰减到零。SFT阶段进行一个周期的训练，批量大小为1024。

4.2 Reinforcement Learning

DPO联合优化。为了进一步增强模型的多模态能力和人类对齐，我们在强化学习阶段采用了直接偏好优化（DPO）。由于LongCat-Flash-Omni支持多模态输入和文本、语音的并行流式输出，我们将DPO扩展为联合优化文本和语音输出，以提高跨模态的对齐和稳定性。

联合损失函数。由于模型包含一个文本头和多个音频头，我们修改了DPO目标函数以同时优化所有头。总损失定义为：
$$ L_{proj} = \alpha L_{proj}(\text{text}_{shared}, \text{text}_{projected}) + \beta \sum_{i=1}^{N} L_{proj}(\text{audio}_{shared}^i, \text{audio}_{projected}^i) $$
其中N表示音频头的数量。$L_{DPO}(text_{chosen}, text_{rejected})$关注文本头的语义质量，而每个音频头的$L_{DPO}(audio_i^{chosen}, audio_i^{rejected})$则强调相应语音输出的语言和发音稳定性。

4.2.1 Data Construction

DPO训练数据。我们的DPO训练数据由两部分组成：通用DPO数据和模型生成的DPO数据。通用数据涵盖关注安全性、帮助性和响应风格的样本。模型生成的数据从一个SFT检查点采样，用于通过模型产生的响应之间的偏好比较来优化更广泛的多模态能力。我们利用了SFT数据集中的所有提示类型。对于每个提示，模型生成6个rollouts以确保候选响应的多样性。为了保证数据质量，我们采用了一种混合评估策略，结合了人工标注和来自一个强大的多模态语言模型的自动评分。

4.2.2 Training Details

DPO训练细节。我们训练一个周期，批量大小为256。学习率遵循余弦衰减计划，预热比例为0.03，从1 × 10⁻⁶逐渐降低到0。为了平衡文本头和语音头之间的偏好学习，我们通过设置α : β = 1 : 1来设定它们的损失权重比。为了减轻与SFT模型的偏离，我们加入了一个权重因子为0.1的KL散度正则化器。

5 训练基础设施

核心设计原则。我们的核心设计原则在很大程度上受到开发LongCat-Flash所用训练基础设施的启发，特别强调在严格确保数值一致性的同时最大化训练效率。为了效率，我们解耦了LLM、视觉编码器和音频编码器的组件，使其性能和内存使用能够独立优化。实验结果表明，在多模态设置下，我们的系统保持了纯文本训练90%以上的吞吐量。

5.1 Multimodal Decoupling Framework

多模态训练的挑战。在多模态场景中，由于数据和模型的异质性，优化训练性能具有挑战性。数据异质性源于语音、视觉和文本在令牌分布上存在显著且动态的差异（图7）。模型异质性体现在LongCat-Flash-Omni的三个核心组件：视觉编码器、音频编码器和LLM解码器之间计算工作负载的巨大差异（表2）。

表2：SFT阶段不同模态下每个微批次的计算分布。
图7：SFT阶段不同模态的序列令牌长度分布。

模态解耦并行（MDP）。基于Optimus【Feng et al., 2025】的方法，我们开发了模态解耦并行（MDP），这是一种简单而有效的多模态训练策略。其核心思想是在分布式级别上完全解耦模态编码器和LLM骨干，从而实现计算资源的独立调度和更高效的利用。

5.1.1 Modality-Decoupled Parallelism

MDP实现细节。在我们的实现中，我们将模态编码器和LLM解码器共同部署。模态编码器利用混合分片数据并行（HSDP）【Zhao et al., 2023】来减少静态内存，并采用完全激活重计算来减少激活内存使用。LLM解码器采用包括流水线并行（PP）、ZeRO-1数据并行（DP）、上下文并行（CP）和专家并行（EP）的组合分布式策略。为了简化数据映射，我们引入了InnerDP并行策略。如图8所示，MDP的执行时间线包括四个阶段：

数据加载：每个训练迭代开始时，inner_dp = 0的rank获取所有微批次，并广播元数据。微批次按文本数据序列长度排序以平衡工作负载。
模态编码器前向传播：BalanceData模块首先分发模态数据，然后模态编码器计算相应的视觉和音频嵌入。最后，ModalityBridge模块在inner_dp = 0的rank上聚合这些嵌入，作为LLM解码器的输入。
LLM解码器前向和后向传播：模态嵌入在CP rank上分区并输入LLM解码器。视觉和音频嵌入的梯度返回给模态编码器的后向传播阶段。
模态编码器后向传播：ModalityBridge模块将模态嵌入梯度重新分发，然后执行模态编码器的后向传播。

图8：模态解耦并行（MDP）概览。模态编码器和LLM骨干在分布式层面完全解耦，从而实现独立调度和更高的计算效率。

5.1.2 ModalityBridge

ModalityBridge的作用。在MDP中，ModalityBridge作为多模态编码器和LLM解码器之间的通信层，负责转换数据组织格式。当处理较长的上下文长度时，inner_dp = 0的rank会出现显著的内存压力。为解决此挑战，我们在ModalityBridge中采用了基于块（chunk-based）的处理，有效缓解了内存瓶颈，同时保持了比特级的数值一致性。如图9所示，该模块包括三个核心组件：

图9：基于块的ModalityBridge概览。示例配置为num_chunk = 3，在4个GPU（DP = 1, CP = 2, PP = 2）上处理4个微批次，每个微批次含8张图像。

嵌入重分布（Embedding Redistribution）：采用两阶段分块方法进行数据收集和散布，将完整的数据转换分解为num_chunk次迭代。
模态嵌入存储（Modality Embedding Storage）：存储所有收集后散布的块数据，同时维护全局偏移信息以供后续索引。
嵌入索引（Embedding Indexing）：在LLM的前向和后向阶段提供微批次级别的嵌入检索和梯度反向传播。

通过这些组件，我们完成了不同阶段数据格式的转换。分块方案将峰值内存使用量减少到原来的1/num_chunk，显著缓解了内存压力，同时确保了比特级的数值对齐。

5.2 Performance Tuning

性能调优策略。我们的总体策略是双重的：首先，通过分析核心算子效率来选择分布式配置；其次，通过有针对性的内存优化来满足配置的内存预算。在通信方面，快捷连接架构使得EP通信和计算可以在每个微批次内重叠。在CPU受限的情况下，我们采用融合算子来减少核函数启动开销并提高端到端吞吐量。

5.2.1 Optimal Distributed Configuration

选择最优分布式配置。在LLM预训练中，核心算子效率主要受序列长度限制；增加序列长度通常会提高模型FLOPs利用率（MFU）。因此，我们的系统设计增加了每个EP rank的有效序列长度。硬件特定的基准测试结果进一步表明，减少CP可以显著提高核心算子的效率，如图10所示。

5.2.2 Communication Optimizations

通信优化。我们的训练基础设施包含多个计算-通信重叠，主要包括基于快捷连接的EP重叠和点对点（P2P）重叠。我们为每种场景调整分配给通信和计算核的流式多处理器（SM）数量以最大化硬件利用率，并使用不同的P2P组/流，以便阶段间的流水线并行（PP）通信不会相互干扰。

5.2.3 Kernel Optimizations

核函数优化。为了优化MoE模型的训练效率，我们在保持计算确定性的同时，对关键计算路径实施了核函数优化和融合。我们的技术贡献包括：
* 优化的Grouped GEMM：通过动态SwapAB、可配置的SM使用、微调和调度策略，我们的Grouped GEMM优化实现了约75%的MFU。
* 融合的Permute：采用一个高效的融合permute核来重新排列令牌以进行专家对齐，同时集成了元数据计算和令牌丢弃等关键功能。
* 融合的RoPE：我们将RoPE融合到MLA的序言核中，消除了中间数据写入和重新加载的开销，实现了3倍的加速。
* 确定性的FA (Flash Attention)：我们采用基于信号量的同步方案，确保了后向传播中QK归约的确定性，并实现了非确定性版本约0.8倍的性能。

5.3 Memory Optimization Strategies

内存优化策略。未经优化，我们目标配置所需的内存约为每个设备137 GB（表3）。考虑到80 GB的设备和EP不平衡的峰值，我们将理论内存占用限制在约72 GB。我们结合了表4中的技术：（i）V形PP调度；（ii）对低FLOPs、高激活的算子进行选择性重计算；（iii）内存高效的permute；（iv）为NCCL通信器进行细粒度的SM预算；以及（v）用于模态编码器的混合分片数据并行（HSDP）。为了应对潜在的EP负载不平衡，我们实现了动态专家重计算。

表3：按组件划分的朴素内存使用情况。
表4：不同优化设置下的内存占用。

5.4 Numerical Consistency

确保数值一致性。大型语言模型预训练资源消耗巨大。为确保训练框架的正确性，我们对所有计算、通信和数据流强制执行确定性实现，确保每个实验都是可复现的，并保持比特级对齐的损失值。对于新功能，我们优先考虑比特对齐的实现。对于无法实现比特对齐的功能，我们系统地分析所有数值偏差的来源，并通过与黄金参考实现进行基准测试来减轻其影响。

6 推理与部署

6.1 Decoupled Framework

解耦的推理框架。我们提出了一个解耦的多模态推理框架，该框架将特定模态的编码器/解码器与LLM分开以进行优化部署。每个模块部署在为其计算特性量身定制的专用硬件和加速器上，减轻了跨模态的资源竞争。与传统的混合部署相比，这种分离实现了更低的延迟和更高的吞吐量，尽管存在微小的通信开销。

6.2 Asynchronous Streaming Pipeline

异步流式管道。我们设计了一个高效的异步流式模型服务管道。如图11所示，它由四个顺序连接并并发执行的阶段组成：VAD与帧采样、音视频编码、LLM预填充与解码以及音频解码。
* 稀疏-密集采样策略：一个语音活动检测（VAD）模块被部署来实时检测用户是否在说话。当用户说话时，使用密集采样的帧和音频作为模型输入；否则，仅使用稀疏采样的帧。
* 推测性预填充-解码切换：为减少首包延迟，我们采用推测性预填充-解码切换策略。LLM在一个较早的推测点t3开始解码，以重叠VAD端点检测的延迟。如果用户随后恢复说话，则会触发回滚。
* 音频交付与中断：一旦VAD模型明确检测到一轮对话结束（标记为t4），音频将被交付给用户。如果用户在t5中断音频生成，该过程将立即终止。

通过这种异步管道，用户可以在端点检测后100毫秒内接收到模型响应，实现了实时的全模态交互。

A4 实验

实验环境

论文未提供专门的实验环境章节，但从各部分描述中可以总结出以下信息：
* 模型架构：LongCat-Flash-Omni是一个拥有5600亿总参数（平均激活270亿）的ScMoE模型。视觉编码器（LongCat-ViT）和音频编解码器参数量均约为6亿。上下文长度最高支持128K tokens。
* 硬件配置：训练基础设施部分提到使用了80 GB显存的设备（推测为NVIDIA A100或H100），但未指明具体型号和数量。
* 软件配置：训练框架基于PyTorch，使用了FSDP（Fully Sharded Data Parallelism）等分布式训练技术，并自研了大量优化的CUDA核函数。

实验结果

我们对LongCat-Flash-Omni进行了全面的评估，涵盖了视觉、音频、文本、跨模态理解和音视频交互能力。

7.1 视觉能力评估

图像理解。如表5所示，在通用领域、STEM与推理、多图像、文本识别与文档理解、定位与计数以及GUI等六个维度的基准测试中，LongCat-Flash-Omni的性能与Gemini-2.5-Flash相当，并优于开源的Qwen3-Omni。尤其在多图像任务上优势明显，这得益于其高质量交错图文、多图和视频数据集的训练。

表5：图像理解评估。标*的值来源于公开报告。由于GPT-4o不支持图像定位，我们未报告其在RefCOCO和ScreenSpot-v2上的结果。

视频理解。如表6所示，在短视频、长视频和STEM与推理三个维度的评估中，LongCat-Flash-Omni在视频转文本任务上取得了SOTA性能。特别是在短视频理解上，它显著超越了所有对比模型。在长视频任务上，其性能与Gemini-2.5-Pro和Qwen3-VL等领先模型相当。这归功于其先进的视频处理策略（动态帧采样和分层令牌聚合）以及高效骨干网络带来的强大长上下文建模能力。

7.2 音频能力评估

基础模型评估。如表7和表8所示，预训练各阶段产生的基础模型在ASR、TTS和语音续写任务上均表现出有竞争力的性能，即使依赖离散化的音频特征。这为后续的交互模式提供了坚实基础。

表7：预训练阶段基础模型的ASR和TTS性能。报告了单词错误率（WER）（英文）或字符错误率（CER）（中文）的百分比。
表8：预训练阶段基础模型的语音续写性能。准确率以百分比报告。

指令模型评估。
* 语音识别与翻译：如表9所示，在多个ASR和S2TT基准上，LongCat-Flash-Omni的性能优于包括Gemini-2.5-Pro、GPT-4o-Audio在内的竞争对手，展示了其强大而全面的基础语音理解能力。
* 音频理解：如表10所示，在音乐、声音事件和语音理解等多种音频理解任务上，LongCat-Flash-Omni在所有评估维度上持续优于大多数竞争模型，并在多个基准上达到SOTA性能。
* 音频到文本聊天：如表11所示，在使用OpenAudioBench和VoiceBench评估音频驱动的文本对话能力时，LongCat-Flash-Omni在所有基准子集上均表现出色，展示了其进行复杂推理和对话的卓越能力。

表9：自动语音识别（ASR）和语音到文本翻译（S2TT）评估结果。
表10：音频理解评估结果。
表11：音频到文本聊天评估结果。

7.3 文本能力评估

基础模型评估。如表12所示，尽管激活/总参数规模紧凑，LongCat-Flash-Omni基础模型在通用任务、推理、数学和编码等基准上，性能与SOTA基础模型相当。经过广泛的多模态数据训练后，其文本能力没有下降。

表12：LongCat-Flash-Omni与其他基础模型在纯文本基准上的比较。标*的值来源于公开报告。

指令模型评估。如表13所示，在通用领域、指令遵循、数学推理、通用推理和编码等多个维度的评估中，LongCat-Flash-Omni保持了卓越的文本能力。与作为其基础的LongCat-Flash相比，它不仅没有性能下降，在某些领域甚至表现更优，证明了训练策略的有效性和不同模态间的潜在协同作用。

表13：前沿聊天/指令模型的评估结果。标*的值来源于其他公开报告。注意DeepSeek-V3.1, Qwen3-235B-A22B, Gemini2.5-Flash, 和 Claude Sonnet-4 在其非思考模式下进行评估。

7.4 跨模态评估

跨模态理解。如表14所示，在OmniBench、WorldSense、DailyOmni和新引入的UNO-Bench等基准上，LongCat-Flash-Omni的性能优于Gemini-2.5-Flash，并与Gemini-2.5-Pro相当。它在强调真实世界音视频理解的WorldSense和DailyOmni上表现尤为出色，显著超越了其他开源全模态模型，确立了其作为领先开源全模态模型的地位。

表14：跨模态理解评估。我们使用了内部校正版本的OmniBench，因为公开发布的版本存在评分缺陷。

实时音视频交互。为了评估真实世界用户体验，我们构建了一个专有的端到端框架。如表15的定量评估所示，LongCat-Flash-Omni在端到端交互的自然度和流畅性方面得分第三，仅次于Doubao和GPT-4o，但优于其他商业产品和所有开源模型。如表16和图12的定性分析所示，模型在副语言理解、相关性和记忆能力方面表现出色，与顶级模型相当。但在实时性、类人性（偶尔出现发音错误）和准确性（处理文本和数字信息时性能下降）方面与领先模型仍有差距。

表15：实时音视频交互评估。
图12：实时音视频交互的定性分析。
表16：定性分析中良好案例的百分比。

A5 结论

本文介绍了LongCat-Flash-Omni，一个新一代的开源全模态模型，它在单一框架内统一了强大的离线多模态理解与实时音视频交互。通过精心设计的多阶段早期融合预训练流程、人在环路的数据构建策略和高效的ScMoE架构，模型成功解决了跨模态异质性、统一离线与流式能力以及低延迟交互等关键挑战。

全面的评估表明，LongCat-Flash-Omni不仅在Omni-Bench和WorldSense等全模态基准上取得了SOTA性能，还在图像、视频和音频理解等关键单模态任务上达到或超过了闭源系统。主观评估也证实了模型能够提供自然、低延迟、高质量的交互体验。

LongCat-Flash-Omni为全模态智能的持续发展奠定了坚实的基础。未来的工作将聚焦于扩展训练数据的多样性和规模、集成自适应思考模式、优化流式和生成能力，以及探索更丰富的具身和交互式智能。模型的开源将加速多模态理解与生成的研究，并启发构建以人为中心的、面向AGI的系统的新应用和范式。