MiMo-Audio: Audio Language Models are Few-Shot Learners

作者/机构: LLM-Core Xiaomi

A1 主要贡献

本文的核心论点是，通过大规模的下一词元预测预训练，可以像文本领域的GPT-3一样，在音频领域实现任务的泛化能力。现有的音频语言模型通常依赖于针对特定音频任务的微调，缺乏人类所拥有的那种仅通过少量示例或简单指令就能泛化到新音频任务的灵活性。

核心问题与研究目标:
现有音频语言模型在理解和生成方面缺乏固有的声音智能和泛化能力，需要为不同任务（如语音对话、语音翻译、声音风格迁移）进行专门的数据集微调。本文假设，通过在海量语音语料库上使用下一词元预测目标进行预训练，可以赋予模型在广泛语音任务上的强大泛化能力。研究目标是验证这一假设，并为生成式语音预训练提供一个全面的蓝图。

关键设计原则与创新点:
为了实现这一目标，作者认为有两个关键方面：
1. 无损信息流架构：确保语音信号中的所有信息（包括副语言信息）都能在模型中无损流通，这与当前主流的、会损失信息的方法不同。
2. 规模化：将预训练数据量扩展到超过一亿小时，比现有最大的开源语音模型大一个数量级，以期望获得持续的性能提升和涌现能力。

具体贡献如下:
* 分词器（Tokenizer）: 提出了 MiMo-Audio-Tokenizer，这是一个12亿参数的Transformer模型，它在1000万小时的语料上从头开始训练。该分词器通过结合语义和重构目标，在保证高保真度音频重构的同时，也便于下游的语言建模。它以25Hz的帧率运行，通过8层残差矢量量化（RVQ）每秒生成200个词元。
* 模型架构: 提出了一种新颖的 Patch Encoder + LLM + Patch Decoder 架构。Patch Encoder将连续4个时间步的RVQ词元聚合成一个Patch，将序列降采样到6.25Hz以输入LLM，从而缓解语音和文本模态之间的长度差异。Patch Decoder则自回归地生成完整的25Hz RVQ词元序列。
* 训练策略: 设计了一个 两阶段预训练策略，使用MiMo-7B-Base进行初始化。第一阶段专注于语音理解，第二阶段则统一了理解和生成任务。在这个过程中，作者观察到了模型自发涌现出的语音上下文学习能力。
* 数据规模: 将预训练语料库扩展到 超过1亿小时 的语音数据，并为此构建了端到端的数据处理、标注和筛选流水线。
* 评估体系: 开发了一个全面的基准测试，用于严格评估模型在语音领域的上下文学习能力，涵盖了模态无关的通用知识、听觉理解与推理以及多种语音到语音的生成任务。
* 关键发现与模型表现:
* 涌现能力 (“GPT-3时刻”): 首次通过实验证明，将无损、基于压缩的语音预训练扩展到1亿小时，可以解锁模型的涌现任务泛化能力，表现为强大的少样本学习能力。
* MiMo-Audio-7B-Base: 预训练后的基础模型在多个语音智能和音频理解基准测试中，在开源模型中取得了SOTA性能。它能泛化到训练数据中没有的任务，如声音转换、风格迁移和语音编辑，并能生成高度逼真的脱口秀、辩论等语音内容。
* MiMo-Audio-7B-Instruct: 经过指令微调后的模型，通过引入“思维链”数据，在音频理解基准（MMSU, MMAU等）、口语对话基准（Big Bench Audio等）和指令TTS评估中取得了开源SOTA，性能接近或超过闭源模型。

A2 方法细节

2.1 MiMo-Audio-Tokenizer

现有音频分词方法的挑战。现有音频分词方法面临在音频信号的语义和声学信息之间进行有效权衡的挑战。语义词元（通常来自自监督学习模型或ASR模型）与语言内容强相关，易于与文本模态对齐，但缺点是会丢失细粒度的声学信息，限制了原始波形的重构质量。相反，由神经音频编解码器产生的声学词元能够实现高保真度的音频重构，但难以与文本语义空间建立有效对齐。

现有解决方案的局限性。为了同时捕捉语义和声学信息，先前的工作如SpeechTokenizer【58, Speechtokenizer: Unified speech tokenizer for speech large language models, 2023, arXiv】和Mimi【10, Moshi: a speech-text foundation model for real-time dialogue, 2024, Technical report】尝试将语义蒸馏策略融入神经音频编解码器，但受限于其编码器规模，难以完全缓解语义与声学信息的冲突。其他方法如X-Codec【52, Codec does matter: Exploring the semantic shortcoming of codec for audio language model, 2025, Proceedings of the AAAI Conference on Artificial Intelligence】和XY-Tokenizer【15, Xytokenizer: Mitigating the semantic-acoustic conflict in low-bitrate speech codecs, 2025, arXiv】采用双流架构，分别使用语义和声学编码器，但这些方法仍依赖预训练的语义模型，且双编码器架构导致语义和声学信息源于不同的表示空间。

MiMo-Audio-Tokenizer的提出。为解决上述局限性，本文提出了MiMo-Audio-Tokenizer，这是一个从头开始训练的统一分词器，既能捕捉语义信息，又能实现高保真度音频重构。通过扩大模型参数和训练数据规模，MiMo-Audio-Tokenizer进一步缓解了语义-声学表示冲突，从而提升了跨模态对齐和语音重构质量。

2.1.1 架构

模型组件。如图2所示，MiMo-Audio-Tokenizer的架构包含四个主要部分：音频编码器、离散化模块、音频解码器和声码器（vocoder）。音频编码器由一个中央Transformer编码器（使用双向注意力）构成，其输入和输出端各有一个2倍下采样层。中央编码器包含32层、20个注意力头，并采用旋转位置嵌入（RoPE）【41, Roformer: Enhanced transformer with rotary position embedding, 2024, Neurocomputing】和GELU激活函数【17, Gaussian error linear units (gelus), 2016, arXiv】。模型维度设为1280，FFN内部维度为5120。为了缓解语义和声学信息之间的冲突，作者将第3层的隐藏状态与最后一层的输出进行逐元素求和。离散化模块是一个20层的残差矢量量化器（RVQ）【45, Neural discrete representation learning, 2018, arXiv；55, Soundstream: An end-to-end neural audio codec, 2021, IEEE/ACM Transactions on Audio, Speech, and Language Processing】，前两层的码本大小为1024，其余层为128。音频解码器采用与编码器镜像的结构，但使用因果自注意力以支持流式生成。声码器遵循Vocos设计【38, Vocos: Closing the gap between time-domain and fourier-based neural vocoders for high-quality audio synthesis, 2024, arXiv】，但将ConvNeXt【28, A convnet for the 2020s, 2022, arXiv】骨干网络替换为Transformer，以通过序列打包实现更高效的训练。该Transformer有16层、16个头，模型维度256，FFN维度1024，并集成了RoPE和窗口大小为[40, 10]的滑动窗口注意力，为声码器提供了[6.4秒, 1.6秒]的感受野。

处理流程。给定一个24kHz采样的单声道音频波形 $x$，首先将其转换为帧率为100Hz的梅尔频谱图。该频谱图被送入音频编码器，转换为一个长度为 $T$、帧率为25的连续表示序列。离散化模块中的RVQ随后将这些连续表示量化为一个离散索引的二维矩阵 $Z \in N^{L \times T}$，其中 $L$ 是RVQ的层数。这些索引用于通过查找并加和码本中相应的嵌入来重构量化表示 $Q$。最后，音频解码器和声码器从 $Q$ 重构出音频波形 $\hat{x}$。

2.1.2 训练

两阶段训练范式。受Wu等人【50, Mimo: Unlocking the reasoning potential of language model – from pretraining to posttraining, 2025, arXiv】的启发，本文采用两阶段训练范式以提高训练效率，如图2所示。第一阶段，模型在超过1100万小时的大规模数据集上进行多任务学习，使其能同时编码语义和声学信息。第二阶段，冻结音频编码器和离散化模块的参数，引入判别器来训练音频解码器和声码器，专注于提升原始音频波形细粒度细节的重构并消除声码器伪影。

阶段一：统一表示学习。在第一阶段，结合音频重构任务和音频到文本（A2T）任务，以对齐音频和文本的表示空间，同时确保声学信息的保留。为了给A2T目标提供监督，引入了一个与MiMo-Audio-Tokenizer联合训练的LLM。MiMo-Audio-Tokenizer和LLM的所有参数都从头开始训练。A2T目标被定义为应用于LLM文本输出的下一词元预测损失：

其中 $y = [y_1, ..., y_S]$ 是目标文本序列，$\tilde{Q}$ 是量化后的音频表示，$S$ 是文本序列的总长度。

对于音频重构任务，采用多尺度梅尔频谱图重构损失，定义为 $L_1$ 距离：

其中 $S_k$ 表示尺度 $k$ 下的梅尔频谱图，包含 $2^k$ 个频箱，使用窗口大小为 $15 \cdot 2^{k-1}$ 和跳跃长度为 $15 \cdot 2^{k-2}$ 的归一化短时傅里叶变换（STFT）计算。尺度集合定义为 $K = \{5, 6, 7\}$。最后，包括来自离散化模块的承诺损失（commitment loss）$L_{commit}$，第一阶段的总损失是一个加权和：

其中权重为 $\lambda_{A2T}=10.0$, $\lambda_{recon}=1.0$, $\lambda_{commit}=1.0$。

阶段二：对抗式微调。在第二阶段，引入额外的判别器进行对抗性训练，以提高波形重构质量。此阶段，所有参与音频分词过程的参数都被冻结，以保持音频词元空间的语义结构。采用多任务GAN训练方法，联合优化（i）来自第一阶段的梅尔频谱图重构损失，（ii）对抗性损失，以及（iii）判别器特征匹配损失。为了在时域和频域提供监督，采用了多周期判别器（MPD）【23, Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis, 2020, arXiv】和多尺度STFT判别器（MS-STFT）【11, High fidelity neural audio compression, 2022, arXiv】。采用Hinge-GAN【27, Geometric gan, 2017, arXiv；30, Spectral normalization for generative adversarial networks, 2018, arXiv】训练框架，对所有判别器层应用谱归一化，并在判别器训练期间禁用权重衰减。令 $D = \{D_k\}_{k=1}^K$ 表示MPD和MS-STFT中所有子判别器的集合。给定真实波形 $x$ 和生成波形 $\hat{x}$，判别器目标可表示为：

生成器的对抗性目标为：

其中通过 $1/K$ 进行归一化，以防止子判别器的数量主导优化过程。对于特征匹配，最小化中间判别器激活之间的 $l_1$ 距离：

表格1 在Seed-TTS-Eval数据集上对音频分词器的评估。中文/英文分割结果在每行的同一系统中报告。kBPS表示分词后音频流的有效比特率（千比特每秒）

其中 $D_{k, \ell}(\cdot)$ 返回 $D_k$ 的第 $\ell$ 层特征，$L_k$ 表示包含的中间层数量。在构成复合目标时，为各个损失分配固定权重，以使其梯度大小保持在可比较的尺度上。生成器使用以下公式训练：

其中权重为 $\lambda_{recon}=1.0$, $\lambda_{adv}=1.0$, $\lambda_{fm}=2.0$。

2.1.3 评估

评估设置。本文使用多个指标评估音频分词中声学信息的保留情况，包括：说话人相似度（SIM），计算自预训练说话人验证模型的嵌入余弦相似度；短时客观可懂度（STOI）【44, A short-time objective intelligibility measure for time-frequency weighted noisy speech, 2010, IEEE international conference on acoustics, speech and signal processing】；以及语音质量感知评估（PESQ）【34, Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs, 2001, IEEE international conference on acoustics, speech, and signal processing. Proceedings (Cat. No. 01CH37221)】。所有评估均在Seed-TTS-Eval【1, Seed-tts: A family of high-quality versatile speech generation models, 2024, arXiv】的真实录音上进行。比较的基线包括GLM-4-Voice-Tokenizer【56, Glm-4-voice: Towards intelligent and human-like end-to-end spoken chatbot, 2024, arXiv】、Baichuan-Audio-Tokenizer【26, Baichuanaudio: A unified framework for end-to-end speech interaction, 2025, arXiv】、XY-Tokenizer【15, Xytokenizer: Mitigating the semantic-acoustic conflict in low-bitrate speech codecs, 2025, arXiv】、Mimi【10, Moshi: a speech-text foundation model for real-time dialogue, 2024, Technical report】、XCodec【53, Llasa: Scaling traintime and inference-time compute for llama-based speech synthesis, 2025, arXiv】和BigCodec【50, Mimo: Unlocking the reasoning potential of language model – from pretraining to posttraining, 2025, arXiv】。考虑到下游MiMo-Audio仅使用MiMo-Audio-Tokenizer前八个码本产生的音频词元进行训练，本文评估并比较了仅使用这些码本解码的波形重构质量。该评估方案忠实地反映了下游语言模型可访问的音频保真度。为保持一致性，Mimi也采用相同的方案进行评估。

结果。如表1所示，MiMo-Audio-Tokenizer在Seed-TTS-Eval上展现了强大的重构质量。在中文和英文数据分割上，它在PESQ-NB/WB、SIM和STOI上均取得了最高分，在相当的比特率下显著优于所有基线模型。关键的是，这些增益是在下游建模实际使用的码本上测得的，表明MiMoAudio保留了语音信息的全部保真度，这反过来又使其在多样化的语音任务上获得了强大的泛化能力。

2.2 MiMo-Audio

模型概述。MiMo-Audio是一个统一的生成式音频-语言模型，它联合建模文本和音频词元序列，如图3所示。该模型接受文本和音频词元作为输入，并自回归地预测文本或音频词元，从而支持涉及文本和音频模态任意组合的全面任务。

序列建模。形式上，令 $X = [x_1, ..., x_M]$ 表示文本序列，音频词元序列定义为：

其中 $M$ 表示文本序列长度，$T$ 表示音频序列长度，$L' = 8$ 是用于LLM训练的RVQ码本数量。由于音频序列的信息密度相对较低，单个音频帧传递的信息远少于文本词元。为了缓解这种跨模态的粒度不匹配问题并促进跨模态知识迁移，本文将音频序列划分为连续的 $K$ 帧组，形成音频补丁（audio patches）：

统一自回归训练。MiMo-Audio的输入是文本词元和音频补丁的交错序列。令 $U = [u_1, ..., u_N]$ 表示交错序列，其中每个元素 $u_i$ 可以是文本词元或音频补丁。模型进行自回归训练：

其中 $p(u_i | u_1, ..., u_{i-1})$ 在 $u_i$ 是文本词元时表示下一词元预测，在 $u_i$ 是音频补丁时表示下一补丁预测。这种统一的建模方法使得模型能够无缝处理任意的文本-音频交错序列。MiMo-Audio包含三个主要组件：一个补丁编码器、一个LLM骨干网络和一个补丁解码器，下文将详细描述。

2.2.1 补丁编码器

功能与实现。补丁编码器将每个补丁内的音频词元转换为单个隐藏向量。模型维护了 $L'$ 个独立的嵌入表 $\{E_j\}_{j=1}^{L'}$，用于将音频词元映射到其对应的嵌入向量。对于每个音频词元 $a_{t,j}$，其嵌入为 $e_{t,j} = E_j(a_{t,j})$。对于第 $t$ 帧，所有RVQ码本的嵌入被聚合起来形成一个统一的表示：

每个补丁内的结果序列由一个包含 $N_{\text{enc}} = 6$ 层的Transformer编码器处理。每层隐藏维度为1024，有64个注意力头，FFN维度为4096。编码器采用双向自注意力，使模型能够捕捉帧间的局部上下文信息。补丁内所有帧的输出随后被连接起来，并通过一个线性变换层进行投影，以匹配LLM的输入维度。

2.2.2 大语言模型

骨干网络。本文采用MiMo-7B-Base【50, Mimo: Unlocking the reasoning potential of language model – from pretraining to posttraining, 2025, arXiv】作为LLM骨干网络。该模型在每个位置接受的输入可以是文本词元嵌入，也可以是补丁编码器产生的音频补丁表示。其产生的隐藏状态可以经过一个输出投影层用于文本词元预测，或被送入补丁解码器用于音频补丁生成。

2.2.3 补丁解码器

功能与架构。补丁解码器在音频生成过程中自回归地生成每个补丁内的音频词元。它由 $N_{\text{dec}} = 16$ 个Transformer层组成，每层隐藏维度为1024，有64个注意力头，FFN维度为4096。解码器在自注意力机制中采用因果掩码。补丁解码器与补丁编码器使用相同的 $L'$ 个嵌入表，每个RVQ码本一个。为了方便RVQ词元的生成，该Transformer配备了 $L'$ 个独立的输出头，每个头专门用于预测特定RVQ码本的词元。

朴素生成方法及其问题。形式上，给定来自LLM的隐藏状态h，令 $A = [a_1, ..., a_K]$ 表示待生成的音频补丁。朴素的方法是在每个补丁内沿时间维度自回归地生成音频帧：

其中每帧 $a_t$ 的概率在 $L'$ 个码本上分解：

然而，由于不同RVQ层之间的词元存在依赖关系，在每个时间步同时预测所有RVQ词元具有挑战性，并常导致音频生成质量不佳。

延迟生成机制。为了解决这个限制，本文引入了一种音频词元生成的延迟机制，灵感来源于Copet等人【8, Simple and controllable music generation, 2023, Advances in Neural Information Processing Systems】。具体来说，引入了层特定的延迟 $\delta = [\delta_1, ..., \delta_{L'}]$，其中 $\delta_j$ 表示在RVQ第 $j$ 层生成词元的延迟（以时间步为单位）。延迟后的音频补丁形式化为：

其中

对于 $t \in [1, K + \max(\delta)]$ 和 $j \in [1, L']$。这里的0表示一个空词元，在编码和解码过程中都会被忽略。补丁解码器按照前述公式自回归地对这些延迟的音频补丁进行建模，并在解码阶段维持该延迟模式。详细的模型配置见表2。

A3 背景知识/关键Observation/设计原则

3.1 数据

语料库构成。本文的预训练语料库包含单模态数据（纯文本和纯语音）和多模态数据（语音-文本）。纯文本语料库的构建过程在MiMo【50, Mimo: Unlocking the reasoning potential of language model – from pretraining to posttraining, 2025, arXiv】中有描述。对于语音模态，目标是为模型提供大规模、高质量且多样化的音频数据。为此，开发了一个集数据收集、自动化处理、多维度标注和质量控制于一体的综合数据流水线。

3.1.1 数据预处理

数据来源与多样性。预训练数据包含数亿小时的野外音频数据，并确保了数据在来源和内容上的多样性。
* 来源多样性: 数据涵盖了公共播客、有声读物、新闻广播、访谈和会议录音等多种来源。这种多源、异构的数据组合确保了模型不会偏向于特定的录音环境或说话风格。
* 内容多样性: 数据涵盖了日常交流、娱乐媒体、商业创业、艺术文化和科学研究等主题领域，使模型能够学习丰富的知识领域。

自动化处理流水线。为将大规模原始音频转化为高质量训练数据，本文设计并实现了一个高效且可扩展的自动化流水线，灵感来自先前的工作【53, Llasa: Scaling traintime and inference-time compute for llama-based speech synthesis, 2025, arXiv；16, Emilia: An extensive, multilingual, and diverse speech dataset for large-scale speech generation, 2024, arXiv；21, Libriheavy: a 50,000 hours asr corpus with punctuation casing and context, 2024, arXiv；39, Touchtts: An embarrassingly simple tts framework that everyone can touch, 2024, arXiv】。该流水线集成了音频归一化、说话人分割、语音活动检测（VAD）、自动语音识别（ASR）和音频质量评估等模块。

3.1.2 数据标注

多维度自动化标注系统。为了准确评估和筛选预训练数据，本文构建了一个覆盖语义和非语义维度的自动化标注系统，为每条数据生成丰富的结构化属性标签。
* 语义维度: 基于ASR等模块的转录结果，构建了一个文本质量评估模型。该模型可以从对话质量、知识密度和逻辑推理等多个维度对内容进行语义价值评分。
* 非语义维度: 为获取非语义层面的信息，训练了一个音频字幕（audio captioning）模型。该模型能直接为音频生成丰富的自然语言描述（如音色特征、情感风格和背景环境等非语义信息）。

双维度标注的优势。这种双维度标注方法不仅衡量了数据质量，还为语料库赋予了更细粒度的属性信息，从而支持更高效、更有针对性的筛选和训练。

3.1.3 数据策展

严格的数据筛选与采样。在多维度数据标注的基础上，对数据进行了严格的筛选和采样。
* 低质量数据过滤: 根据预设的质量阈值，移除了包含过多噪音、低质量和不安全内容的片段，确保了最终语料库的可靠性。
* 高质量数据采样: 综合了语义和非语义维度的评分指标，设计了一种采样策略，以确保模型能够从高质量语料库中高效学习。

3.2 训练

训练起点与目标。训练从MiMo-7B-Base模型开始。为了最大程度地保留其文本能力，同时赋予模型语音理解和生成能力，MiMo-Audio采用了一种渐进式的两阶段预训练方法。

3.2.1 理解训练

阶段一目标与数据构成。在第一阶段，训练模型的补丁编码器和LLM组件。此阶段旨在使模型掌握语音理解能力。共构建了2.6T词元的数据集，包括1.2T文本词元和1.4T语音相关词元（按6.25Hz语音帧率计算）。数据包括四种任务格式：语音-文本交错数据、ASR数据、通用音频字幕数据和纯文本预训练数据。在此阶段，仅计算文本词元的损失。

训练配置。如表3所示，补丁编码器的学习率为2e-4，而LLM的学习率为3e-5，采用恒定学习率调度器。每个批次包含16.8M词元，训练上下文长度为8192。

3.2.2 理解-生成联合训练

阶段二目标与数据构成。在第二阶段，训练模型的所有参数，包括补丁编码器、LLM和补丁解码器。此阶段旨在为模型提供语音理解和生成的综合能力。训练数据集有5T词元，包括2.6T文本词元和2.4T音频词元（按6.25Hz语音帧率计算）。这包括七种任务格式：语音续写、语音-文本交错数据、ASR、TTS、通用音频字幕、指令跟随TTS和文本预训练数据。

训练配置与损失权重。在此阶段，同时计算文本和音频词元的损失。文本词元的损失权重为100，而各RVQ词元的权重分别为12、8、6、4、2、2、1和1。如表3所示，补丁编码器和解码器的学习率为2e-4，LLM的学习率为3e-5，学习率调度器遵循余弦衰减。批次大小和上下文长度与第一阶段保持一致。

A4 实验

实验环境

模型架构:
- MiMo-Audio-7B-Base: 预训练后的基础模型。
- MiMo-Audio-7B-Instruct: 在基础模型上进行指令微调后的模型。
- Tokenizer: MiMo-Audio-Tokenizer (1.2B 参数)。
- LLM Backbone: MiMo-7B-Base。
- 详细参数见方法部分的表2。
数据集与基准测试:
- 预训练数据: 超过1亿小时的语音数据和大规模文本数据。
- 指令微调数据: 整合了高质量的开源和自建数据集，涵盖音频理解、语音生成和口语对话，并通过MiMo-TTS-7B系统合成了大量风格可控的口语对话数据。
- 评估基准:
  - 少样本上下文学习:
    - SpeechMMLU: 基于MMLU构建的语音版本，用于评估模态无关的通用知识。
    - MMAU: 用于评估听觉理解和推理能力，涵盖语音、环境音和音乐。
    - 自定义语音到语音生成任务: 评估声音转换、风格迁移等能力。
  - 音频理解: MMSU, MMAU, MMAR, MMAU-Pro。
  - 口语对话: Big Bench Audio, MultiChallenge Audio。
  - ASR: LibriSpeech test-clean (英语), AISHELL-1 test (中文)。
  - TTS: Seed-TTS-Eval (中英), InstructTTSEval (指令跟随TTS)。
硬件配置: 论文未明确提及。
软件配置:
- 代码库和评估套件在 https://github.com/XiaomiMiMo/MiMo-Audio 上提供。

实验结果

预训练阶段 (MiMo-Audio-7B-Base)

涌现能力: 如图1所示，模型在多个评估基准（如5-shot SpeechMMLU、16-shot声音转换）上表现出明显的涌现能力。在训练数据量达到约0.7万亿词元之前，模型在这些任务上的性能可以忽略不计。但一旦超过这个阈值，性能便出现急剧的、非线性的飙升，呈现出典型的“相变”特征。这一发现支持了本文的论点，即大规模、无损的预训练能够使模型自发学习解决复杂的、未见过的任务，实现了任务泛化，构成了语音领域的“GPT-3时刻”。
语音智能:
- 在SpeechMMLU基准上，MiMo-Audio在S2S（语音到语音）、S2T（语音到文本）和T2S（文本到语音）任务中均取得最高分（表6），表现出强大的语音推理和知识问答能力。
- 模态鸿沟（文本-文本得分与语音-语音得分之差）极小，仅为3.4分，远低于其他模型（如Step-Audio2的22.3分），表明其核心推理能力在不同模态间保持了高度一致性。
通用音频理解: 在MMAU基准测试中，MiMo-Audio的总分达到66.0，显著高于其他开源模型。其在语音、音效和音乐三个子领域表现均衡，没有明显短板（表6）。
语音任务泛化: 在16-shot上下文学习设置下，模型展现出强大的语音到语音生成能力，如图1所示的声音转换和语音翻译任务。这些能力与SpeechMMLU上的能力在相似的训练规模上共同涌现，表明模型正在形成一种共享的底层语音能力。
语音续写: 模型能够根据简短的语音提示，生成语义连贯、声学特征（说话人身份、韵律、环境声）一致的续写内容。应用场景包括游戏直播、教学、诗歌朗诵、唱歌、脱口秀和辩论等。例如，在脱口秀续写中能生成观众的欢呼声，在辩论续写中能生成观点一致的双人对话。

表格6 SpeechMMLU和MMAU上的结果。我们将MiMo-Audio-7B-Base与BaichuanAudio-Base、Kimi-Audio-Base和Step-Audio2-miniBase进行比较。

后训练阶段 (MiMo-Audio-7B-Instruct)

音频理解: 如表8所示，MiMo-Audio-7B-Instruct在MMSU和MMAU基准上的总分超过了所有开源模型以及Gemini 2.5 Flash和Gemini 1.5 Pro等闭源模型。在更具挑战性的音频推理任务MMAR和MMAU-Pro上，其性能也处于领先地位，接近Gemini 2.5 Flash。
口语对话: 如表8所示，在Big-Bench-audio和Multi-Challenge-Audio两个基准上，模型在所有开源模型中表现最佳，结果接近专有模型gpt-4o。这表明模型具有强大的对话智能和指令跟随能力。
语音识别与生成:
- 如表9所示，在ASR和标准TTS任务上，MiMo-Audio-7B-Instruct的性能与其他领先的开源模型（如StepAudio2-mini）相当。
- 在更高级的指令TTS评估（InstructTTS）中，MiMo-Audio-7B-Instruct在中英文子集上均优于gpt-4o-mini-tts，显示了其在可控文本到语音生成方面的领先地位。

表格8 音频理解和口语对话基准测试结果。粗体表示总体最佳性能，下划线表示开源模型中的最佳性能。+Think表示开启思考模式。

A5 结论

本文证明，通过对大规模、无损的音频数据进行下一词元预测预训练，是实现通用语音智能的可行路径。通过在一个前所未有的、超过1亿小时的语料库上进行预训练，MiMo-Audio成功克服了现有音频语言模型依赖于任务特定微调的局限性。

主要贡献是实验验证了在语音领域可以实现“GPT-3时刻”。当数据量超过一个关键阈值后，模型明显涌现出强大的少样本学习能力，使其能够在没有特定任务训练的情况下，泛化到包括复杂的声音转换、风格迁移和语音编辑在内的多种任务。

此外，本文为这一范式提出了一个全面的蓝图，包括一个新颖的统一高保真音频分词器、一个可扩展的架构和一个分阶段的训练策略。经过后训练的MiMo-Audio-7B-Instruct在多个基准测试上达到了SOTA性能，并与闭源系统相媲美。

总而言之，这项研究为构建真正通用的音频语言模型提供了基础方法论，标志着向创造更自然、灵活、智能，并能以类似人类的适应性来理解和生成语音的系统迈出了重要一步。

A6 附录

贡献与致谢

我们谨向所有贡献者表示诚挚的感谢，感谢他们宝贵的支持和努力，包括小米LLM-Plus、NGK、MiChat、Mify、数据平台和CloudML团队，以及那些未在本文中明确列出的贡献者。每个角色内的作者按其名字的字母顺序排列。

核心贡献者
Cici
董章 (Dong Zhang)
王刚 (Gang Wang)
薛金龙 (Jinlong Xue)
房凯 (Kai Fang)
赵亮 (Liang Zhao)
马瑞 (Rui Ma)
任书淮 (Shuhuai Ren)
刘硕 (Shuo Liu)
郭涛 (Tao Guo)
庄伟基 (Weiji Zhuang)
张欣 (Xin Zhang)
宋兴辰 (Xingchen Song)
严一涵 (Yihan Yan)
何永哲 (Yongzhe He)

部署与评估
沈博文 (Bowen Shen)
朱承轩 (Chengxuan Zhu)
马冲 (Chong Ma)
陈纯 (Chun Chen)
陈和宇 (Heyu Chen)
李嘉伟 (Jiawei Li)
李雷 (Lei Li)
朱梦航 (Menghang Zhu)
李沛典 (Peidian Li)
王启颖 (Qiying Wang)
邓思睿 (Sirui Deng)
熊伟民 (Weimin Xiong)
黄文山 (Wenshan Huang)
杨文宇 (Wenyu Yang)
蒋逸林 (Yilin Jiang)
杨一鑫 (Yixin Yang)
田园园 (Yuanyuan Tian)
马悦 (Yue Ma)
于越 (Yue Yu)
张子涵 (Zihan Zhang)
岳子豪 (Zihao Yue)

其他贡献者
肖邦俊 (Bangjun Xiao)
夏秉权 (Bingquan Xia)
高博飞 (Bofei Gao)
叶博文 (Bowen Ye)
蔡灿 (Can Cai)
刘畅 (Chang Liu)
何晨虹 (Chenhong He)
李楚南 (Chunan Li)
朱大为 (Dawei Zhu)
张铎 (Duo Zhang)
施丰源 (Fengyuan Shi)
王国安 (Guoan Wang)
张海林 (Hailin Zhang)
吕航龙 (Hanglong Lv)
李瀚宇 (Hanyu Li)
田浩 (Hao Tian)
屈恒 (Heng Qu)
徐宏燊 (Hongshen Xu)
张厚斌 (Houbin Zhang)
刘华秋 (Huaqiu Liu)
多江山 (Jiangshan Duo)
左建光 (Jianguang Zuo)
韦建宇 (Jianyu Wei)
肖洁宝 (Jiebao Xiao)
董金浩 (Jinhao Dong)
石军 (Jun Shi)
胡君豪 (Junhao Hu)
包凯南 (Kainan Bao)
周康 (Kang Zhou)
张凌皓 (Linghao Zhang)
陈猛 (Meng Chen)
陈诺 (Nuo Chen)
张鹏 (Peng Zhang)
陈千里 (Qianli Chen)
王乾通 (Qiantong Wang)
李让 (Rang Li)
刘少辉 (Shaohui Liu)
王圣凡 (Shengfan Wang)
李仕成 (Shicheng Li)
于仕华 (Shihua Yu)
曹世杰 (Shijie Cao)
陈世茂 (Shimao Chen)
顾舒豪 (Shuhao Gu)
王维坤 (Weikun Wang)
马文翰 (Wenhan Ma)
邓翔威 (Xiangwei Deng)
雍兴 (Xing Yong)
张星 (Xing Zhang)
王旭 (Xu Wang)
宋逸凡 (Yifan Song)
赵一豪 (Yihao Zhao)
赵英博 (Yingbo Zhao)
高一钊 (Yizhao Gao)
程宇 (Yu Cheng)
涂宇 (Yu Tu)
王宇东 (Yudong Wang)
黄兆军 (Zhaojun Huang)
唐正举 (Zhengju Tang)
林真如 (Zhenru Lin)
宋志超 (Zhichao Song)
徐志鹏 (Zhipeng Xu)
郑志贤 (Zhixian Zheng)
蒋子涵 (Zihan Jiang)

A7 补充细节

6 局限性与未来工作

上下文学习能力有限。MiMo-AudioBase的上下文学习能力仍然有限。虽然预训练模型可以通过上下文学习完成其预训练范围之外的多种新任务，但在某些场景下表现不佳，例如带有背景音乐的语音生成和处理复杂声音事件。未来，我们的目标是增强MiMo-Audio在通用音频生成方面的能力。

口语对话性能不稳定。MiMo-Audio-Instruct在语音对话中表现出一些局限性，包括音色不连续、音频质量不稳定、发音错误以及对系统提示的遵循不一致。值得注意的是，它在发音复杂符号和公式时极易出错，并且在对话过程中的风格控制也不稳定。在未来的工作中，我们将利用强化学习（RL）来提高模型性能的稳定性。

思维机制性能有限。在整合思维机制时，MiMo-Audio-Instruct仅在与语音相关的理解任务中带来性能提升，而在声音和音乐理解任务中却导致性能下降。对失败案例的分析表明，这种现象源于模型在思考过程中引入的幻觉。未来，我们计划通过强化学习（RL）来增强模型的音频理解能力。

PaperCache

MiMo-Audio: Audio Language Models are Few-Shot Learners

MiMo-Audio: Audio Language Models are Few-Shot Learners

A1 主要贡献