MiMo-V2-Flash Technical Report
MiMo-V2-Flash Technical Report
LLM-Core Xiaomi
A1 主要贡献
本文介绍了 MiMo-V2-Flash 模型,这是一款高效且经济的大型语言模型(LLM),旨在提供强大的推理和智能体性能。当前,通往通用人工智能(AGI)的进展主要由高级推理链和自主智能体工作流驱动,但这两者都面临一个共同的瓶颈:长上下文建模必须同时兼具速度和强度。
MiMo-V2-Flash 旨在解决这一核心问题。其主要研究目标和创新点如下:
1. 高效的混合注意力架构:MiMo-V2-Flash 是一个拥有3090亿总参数和150亿激活参数的专家混合(MoE)模型。为了解决全注意力机制的二次复杂度问题,模型采用了混合注意力机制,交错使用局部滑动窗口注意力(SWA)和全局注意力(GA)。滑动窗口大小为128个token,局部与全局的混合比例为5:1,这使得在处理长上下文时,KV缓存存储和注意力计算量减少了近6倍。借助可学习的注意力汇偏置(attention sink bias),该混合架构即使在积极的滑动窗口和混合比例下,依然保持了强大的长上下文建模能力。
2. 多词元预测(MTP)以提升效率:模型集成了多词元预测(MTP)来提高训练性能和加速推理解码。MTP通过作为推测解码的草稿模型,能够显著提升解码速度,这对于扩展LLM智能至关重要的强化学习(RL)部署(rollout)阶段尤其有益。
3. 先进的预训练和长上下文扩展:模型在27万亿词元上进行了预训练,原生上下文长度为32K,后续扩展至256K。预训练模型 MiMo-V2-Flash-Base 在通用基准测试中表现出色,并在专注于推理的任务上超越了同类模型。
4. 新颖的后训练范式(MOPD):为了高效地扩展后训练计算,特别是提升推理和智能体能力,本文提出了一种名为“多教师在线策略蒸馏”(Multi-Teacher On-Policy Distillation, MOPD)的新范式。该框架通过一个三阶段过程解决学习效率低下和能力不平衡的问题:
* 第一阶段:通用的监督微调(SFT)。
* 第二阶段:通过专门的RL/SFT训练特定领域的教师模型。
* 第三阶段:学生模型从两个互补信号中学习——来自不同领域专业教师的密集、词元级别的奖励,以及可验证的、基于结果的奖励。
.
- 卓越的性能表现:经过MOPD后训练,MiMo-V2-Flash在多数推理基准测试中达到了与Kimi-K2-Thinking和DeepSeek-V3.2-Thinking相媲美的性能。在长上下文评估中,它超越了更大的全注意力模型。特别是在软件工程任务SWE-Bench上,模型取得了73.4%(Verified)和71.7%(Multilingual)的成绩,成为开源模型中的领先者。
A2 方法细节
2.1 整体架构
模型整体架构。如图2所示,MiMo-V2-Flash 遵循一个标准的 Transformer(【索引78,Attention Is All You Need,2017,Advances in neural information processing systems】)骨干网络,并增加了专家混合(MoE)(【索引70,Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,2017,arXiv preprint】)和混合注意力机制(【索引9,Language models are few-shot learners,2020,Advances in neural information processing systems】;【索引18,Gemma 2: Improving open language models at a practical size,2024,arXiv preprint】;【索引19,Gemma 3 technical report,2025,arXiv preprint】;【索引38,Kimi linear: An expressive, efficient attention architecture,2025a,arXiv preprint】;【索引41,Minimax-01: Scaling foundation models with lightning attention,2025,arXiv preprint】;【索引64,Qwen3-next: Towards ultimate training & inference efficiency,2025,http://qwen.ai blog】)。MiMo-V2-Flash 主要由重复的混合块构成,这些混合块交替使用局部滑动窗口注意力(SWA)和全局注意力(GA)。模型堆叠了 M = 8 个混合块,每个混合块的结构是 N = 5 个连续的 SWA 块后跟一个 GA 块。唯一的例外是第一个 Transformer 块,它使用全局注意力和一个密集的前馈网络(FFN)来稳定早期的表示学习。MiMo-V2-Flash 中使用的滑动窗口大小 W 为 128。SWA 块和 GA 块都使用了稀疏的 MoE FFN。每个 MoE 层总共包含 256 个专家,每个 token 激活 8 个,并且没有共享专家。
MTP集成。MiMo-V2-Flash 还集成了多词元预测(MTP)(【索引20,Better & faster large language models via multi-token prediction,2024,arXiv preprint】;【索引44,Deepseek-v3 technical report,2024,arXiv preprint】;【索引82,Mimo: Unlocking the reasoning potential of language model–from pretraining to posttraining,2025,arXiv preprint】)来提升模型性能(包括质量和效率)。值得注意的是,MTP 块使用密集 FFN 而不是 MoE,并采用 SWA 而非 GA,这使其在推测解码时非常轻量。每个 MTP 块的参数量仅为 0.33B。
详细配置。表1总结了MiMo-V2-Flash的详细配置。该模型包含39个SWA层和9个GA层。SWA和GA都使用了分组查询注意力(GQA)(【索引3,Gqa: Training generalized multi-query transformer models from multi-head checkpoints,2023,arXiv preprint】)。具体来说,SWA有64个查询头和8个键值头,而GA有64个查询头和4个键值头。SWA和GA的每个头的维度相同(查询和键为192,值为128)。旋转位置嵌入(RoPE,【索引73,Roformer: Enhanced transformer with rotary position embedding,2024,Neurocomputing】)被部分应用于查询和键的前64个维度。遵循近期的最佳实践,我们采用了类似于DeepSeek-V3(【索引44,Deepseek-v3 technical report,2024,arXiv preprint】)的FP8混合精度框架。具体而言,我们将注意力输出投影以及嵌入和输出头参数保留为BF16精度,同时将MoE路由器参数维持在FP32精度。这种混合精度配置在不显著影响训练效率或内存占用的情况下,提高了数值稳定性。
表1 MiMo-V2-Flash的详细模型配置。
2.2 混合滑动窗口注意力架构
混合滑动窗口注意力机制。滑动窗口注意力(【索引8,Longformer: The long-document transformer,2020,arXiv preprint】)将每个词元的注意力范围限制在一个局部窗口内,而不是整个序列,从而显著降低了计算和内存复杂性。这自然催生了交替使用滑动窗口注意力和全局注意力的混合注意力架构。然而,以往的研究表明,过度使用SWA,例如非常小的滑动窗口或高SWA:GA比率,可能导致模型性能大幅下降(【索引19,Gemma 3 technical report,2025,arXiv preprint】),尤其是在长上下文任务中。最近,引入的可学习注意力汇偏置(learnable attention sink bias)极大地增强了基于SWA架构的建模能力,它允许模型在需要时为某些词元分配很少或没有注意力(【索引2,gpt-oss-120b & gpt-oss-20b model card,2025,arXiv preprint】)。尽管注意力汇机制的精确理论基础仍是一个活跃的研究领域(【索引23,When attention sink emerges in language models: An empirical view,2024b,arXiv preprint】;【索引62,Gated attention for large language models: Non-linearity, sparsity, and attention-sink-free,2025,arXiv preprint】;【索引74,Massive activations in large language models,2024,arXiv preprint】;【索引84,Efficient streaming language models with attention sinks,2023,arXiv preprint】),我们通过经验观察到,可学习的注意力汇偏置显著提升了混合SWA模型的性能,达到甚至超过了全GA层的基线模型。
注意力汇偏置的实现。在MiMo-V2-Flash中,我们的实现遵循了gpt-oss(【索引2,gpt-oss-120b & gpt-oss-20b model card,2025,arXiv preprint】)中使用的设计,即对每个注意力头的softmax分母应用一个可学习的注意力汇偏置 $sink \in \mathbb{R}$。具体来说,单个注意力头中词元 $i$ 和 $j$ 之间的注意力logits为:
$$a_{ij} = \frac{q_i k_j^\top}{\sqrt{d}},$$其中 $q_i$ 和 $k_j$ 分别表示词元 $i$ 的查询和词元 $j$ 的键,而 $d$ 是头的维度。注意力权重则由下式给出:
$$s_{ij} = \frac{\exp \left(a_{ij} - m_i\right)}{\exp \left(\text{sink} - m_i\right) + \sum_{j'} \exp \left(a_{ij'} - m_i\right)},$$ $$m_i = \max \left( \max_{j} a_{ij}, sink \right).$$最后,查询 $i$ 的注意力输出是通过对值进行加权求和得到的:
$$o_i = \sum_{j=1}^{n} s_{ij}v_j.$$2.2.1 模型架构实验
实验设置与基线。为了验证我们设计选择的有效性,我们对一个32B参数的密集模型进行了探索性和经验性研究,保持其查询-键维度和旋转嵌入配置与上述描述一致。
基线与基准测试。我们在一个比较性设置中评估了四种模型架构变体。这些变体包括一个全全局注意力(All GA)基线模型,一个没有注意力汇偏置的128词元窗口的混合SWA模型,以及两个分别使用128和512窗口大小并增强了注意力汇偏置的混合SWA模型。所有变体共享相同的训练流程:在250B词元上使用8192序列长度进行预训练,在额外的40B词元上将长上下文扩展到32768,然后进行长上下文SFT和带有思维链监督的推理SFT。我们跨越通用能力、长上下文理解和复杂推理等基准测试对模型变体进行评估。通用领域的结果(表2)来自未经长上下文扩展的预训练基础模型,评估了MMLU【索引27,Measuring massive multitask language understanding,2021a,ICLR 2021】、BBH【索引75,Challenging BIG-bench tasks and whether chain-of-thought can solve them,2023,ACL 2023】、TriviaQA【索引36,TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension,2017,ACL 2017】、GSM8K【索引12,Training verifiers to solve math word problems,2021,ArXiv preprint】、MATH【索引28,Measuring mathematical problem solving with the math dataset,2021b,ArXiv preprint】、CMMLU【索引42,Cmmlu: Measuring massive multitask language understanding in chinese,2023,ArXiv preprint】和MBPP【索引4,Program synthesis with large language models,2021,ArXiv preprint】上的通用知识和推理能力。长上下文结果(表3)评估了经过长上下文扩展的基础模型在GSM-Infinite【索引89,Gsm-infinite: How do your llms behave over infinitely increasing context length and reasoning complexity?,2025,arXiv preprint】、NoLiMa【索引54,Nolima: Long-context evaluation beyond literal matching,2025,arXiv preprint】和RULER-32k【索引29,Ruler: What’s the real context size of your long-context language models?,2024,arXiv preprint】上的表现,以及长上下文SFT模型在MRCR【索引79,Michelangelo: Long context evaluations beyond haystacks via latent structure queries,2024,arXiv preprint】上的表现。对于GSM-Infinite和Nolima,我们构建了内部的少样本基准测试,以在受控的长上下文设置下评估基础模型。复杂推理结果(表4)评估了推理SFT模型在AIME24&25【索引53,American invitational mathematics examination - aime,2024,American Invitational Mathematics Examination - AIME】、LiveCodeBench【索引32,Livecodebench: Holistic and contamination free evaluation of large language models for code,2024,ArXiv preprint】和GPQA-Diamond【索引66,Gpqa: A graduate-level google-proof q&a benchmark,2024,First Conference on Language Modeling】上的表现。
表2 不同注意力配置的通用基准测试结果。
表3 不同注意力配置的长上下文基准测试结果。
表4 不同注意力配置的复杂推理基准测试结果。
关键实证发现。我们重点介绍以下关键的经验性发现:
* 注意力汇偏置的消融研究 如表2所示,混合SWA(W = 128,无汇)在通用基准测试中表现出明显的性能下降,而引入注意力汇偏置后,性能一致地恢复或超过了全GA基线。因此,在我们后续的实验中,我们默认应用了注意力汇偏置。
* 滑动窗口注意力大小 混合SWA(W = 128)和混合SWA(W = 512)在通用基准测试上表现相似(表2)。然而,在长上下文扩展和长上下文SFT之后,混合SWA(W = 128)超过了全GA基线,而SWA(W = 512)则经历了显著的性能下降(表3)。
* 推理能力 如表4所示,混合SWA(W = 128)在不同具有挑战性的推理基准测试中均超过了全GA基线,显示出在复杂推理能力上的明显提升。
2.2.2 总结与讨论
性能提升的假设。我们的实验表明,混合SWA(W = 128)不仅优于混合SWA(W = 512),甚至可以超越全GA基线,这可能看起来有悖直觉。我们假设这是由更好的正则化和有效的稀疏性共同作用的结果。较小的窗口迫使模型专注于局部上下文,这作为一种归纳偏置,减轻了对虚假模式的过拟合。此外,更紧凑的窗口(W = 128)迫使SWA模型化局部信息,同时将长程依赖关系委托给全局注意力层,从而实现了更清晰的劳动分工和更准确、高效的学习。相比之下,较大的窗口(W = 512)可能会模糊这种区别,导致SWA部分地自行处理长程依赖,这稀释了局部和全局信息之间的分离,从而导致次优性能。
发现的局限性。我们强调,这些观察和发现是经验性的,并且源于我们特定的实验设置,包括模型规模、数据集和训练过程。尽管如此,我们希望这些观察能为当前关于在推理和智能体AI模型时代的高效注意力架构的持续讨论提供一个额外的视角,并激励社区对高效架构进行更广泛的深入研究。
2.3 轻量级多词元预测(MTP)
2.3.1 使用MTP的动机
MTP动机。先前的工作表明,MTP是一种强大的训练目标,可以提高训练效率和模型质量(【索引20,Better & faster large language models via multi-token prediction,2024,arXiv preprint】;【索引44,Deepseek-v3 technical report,2024,arXiv preprint】;【索引82,Mimo: Unlocking the reasoning potential of language model–from pretraining to posttraining,2025,arXiv preprint】)。除了这些训练上的好处,我们更强调利用MTP作为自推测解码的原生草稿模型,以实现实际部署时的加速。接下来,我们从两个角度阐述MTP如何加速推理:通用的LLM解码加速和RL训练加速。
加速LLM解码。LLM解码由于算术强度低,本质上是内存密集型的。批次级并行通常用于增加FFN的算术强度,但对注意力计算没有帮助,因为每个请求都维护自己的KV缓存。相比之下,MTP通过生成多个草稿词元,然后由主模型并行验证,从而提升了FFN和注意力的算术强度。这种方法无需增加KV缓存的I/O即可实现词元级并行。
加速RL训练。MTP加速特别适用于RL训练(【索引65,Introducing miles — rl framework to fire up large-scale moe training,2025,http://lmsys.org blog】),其中rollout阶段因推理和解码成本而一直是主要瓶颈。MTP解决了RL训练中的两个关键挑战:
- 它使得小批量的高效和有效RL成为可能。当前的RL训练依赖于大批量、离线策略算法来最大化吞吐量(【索引45,Deepseek-v3. 2: Pushing the frontier of open large language models,2025,arXiv preprint】;【索引68,Proximal policy optimization algorithms,2017,arXiv preprint】;【索引87,Group sequence policy optimization,2025,arXiv preprint】)。然而,在线策略训练通常更稳定有效,但其小批量未能充分利用GPU资源。MTP通过扩展词元级并行而不是批量大小来缓解这一限制,使得小批量、在线策略的RL训练更加实用。
- 它减轻了长尾掉队者(long-tail stragglers)造成的GPU闲置。随着rollout阶段的进行,处理长序列且批量大小较小(通常接近1)的长尾掉队者可能导致严重的GPU闲置(【索引16,Rollpacker: Mitigating long-tail rollouts for fast, synchronous rl post-training,2025,arXiv preprint】;【索引88,Optimizing {RLHF} training for large language models with stage fusion,2025,NSDI 25】)。在这种情况下,MTP增强了注意力和FFN的计算效率,从而显著降低了整体延迟。
2.3.2 MiMo-V2-Flash中的轻量级MTP设计
轻量化MTP设计。在MiMo-V2-Flash中,MTP块被刻意设计得非常轻量,以防止其成为新的推理瓶颈。我们使用一个小的密集FFN而不是MoE来限制参数数量,并采用SWA而非全局注意力(GA)来减少KV缓存和注意力计算成本。在预训练期间,模型只附加一个MTP头以避免额外的训练开销。在后训练阶段,这个头被复制K次以形成一个K步MTP模块,并且所有头都进行联合训练以进行多步预测。每个头接收主模型的隐藏状态和词元嵌入作为输入,从而提供更丰富的预测信息。尽管其设计轻量,MTP模块仍然非常有效,并实现了高接受率。详细结果将在第5节中介绍。
3 预训练
预训练语料库。MiMo-V2-Flash的预训练语料库包含27万亿个词元,来源于多样化的高质量数据源,包括公共网络内容、书籍、学术论文、代码、数学以及更广泛的STEM材料。我们的数据处理流程在很大程度上遵循了MiMo-7B(【索引82,Mimo: Unlocking the reasoning potential of language model–from pretraining to posttraining,2025,arXiv preprint】)的做法,但有意地转向了展现长程依赖性的数据。特别地,我们强调长篇网络文档和精心策划的代码语料库,如仓库级别的代码、拉取请求、问题和提交历史,以增强模型捕捉扩展上下文关系和执行复杂多步推理的能力。
3.1 数据调度器
预训练阶段。MiMo-V2-Flash的预训练分为三个连续的阶段:
* 第一阶段(预训练,0 – 22T)。模型在一个多样化、高质量的通用语料库上进行训练,使用32K词元的上下文长度,以建立强大的基础语言能力。
* 第二阶段(中期训练,22 – 26T)。我们修改了数据混合比例,上采样了以代码为中心的数据,并加入了约5%的合成推理数据,以进一步增强逻辑推理和程序合成能力。
* 第三阶段(上下文扩展,26 – 27T)。遵循第二阶段的数据分布,我们将模型的上下文窗口扩展到256K词元,并上采样具有长程依赖性的数据,从而能更有效地建模扩展上下文和长时程推理。
3.2 超参数
模型超参数。我们将MiMo-V2-Flash配置为48个Transformer层,包括39个滑动窗口注意力层和9个全局注意力层。隐藏维度设置为4096。除了第一层外,所有层都配备了稀疏MoE。每个MoE层包含256个路由专家,每个token激活8个专家,每个专家的中间隐藏维度为2048。密集层FFN的中间隐藏维度设置为16384。所有可学习参数均以0.006的标准差进行随机初始化。模型在预训练期间使用单个MTP层。总体而言,MiMo-V2-Flash拥有3090亿总参数,其中150亿为激活参数。
训练超参数。我们采用AdamW优化器,其中$\beta_1 = 0.9$,$\beta_2 = 0.95$,权重衰减为0.1。梯度裁剪的最大范数为1.0。学习率调度分为两个阶段。在第一阶段,学习率在前500亿个词元上从0线性预热到$3.2 \times 10^{-4}$,随后在12T个词元上保持$3.2 \times 10^{-4}$的恒定值,最后在10T个词元上余弦衰减至$1.0 \times 10^{-4}$。第二阶段从$1.0 \times 10^{-4}$开始,在4T个词元上余弦衰减至$3.0 \times 10^{-5}$。批量大小在前5000亿个词元上线性预热至2048,并在两个阶段的剩余时间内保持不变。关于辅助损失,MoE序列辅助损失系数在所有阶段均设置为$1.0 \times 10^{-5}$。专家偏置更新因子在第一和第二阶段设置为0.001。MTP损失权重在第一阶段设置为0.3,在第二和第三阶段设置为0.1。
长上下文扩展。在第一阶段,我们将预训练序列长度设置为32,768,GA的RoPE基础频率为640,000,SWA为10,000。在第三阶段,序列长度扩展到262,144,GA的RoPE基础频率调整为5,000,000。第三阶段的学习率遵循余弦调度从$3.0 \times 10^{-5}$衰减至$1.0 \times 10^{-5}$,批量大小固定为256。专家偏置更新因子在第三阶段减少到$1.0 \times 10^{-5}$。
4 后训练
4.1 多教师在线策略蒸馏(MOPD):一种新的后训练范式
后训练的挑战。现代语言模型越来越依赖广泛的后训练来增强其智能和能力。然而,当前的后训练流程面临着根本性挑战:能力不平衡,即提升一项技能会导致其他技能的退步(“跷跷板”效应);以及学习效率低下,即现有方法在结合多个专业模型的知识时未能充分利用训练信号。
MOPD框架。我们提出了多教师在线策略蒸馏(MOPD),这是一种统一的后训练范式,通过一个三阶段框架来解决这些挑战,如图3所示:
表5 MiMo-V2-Flash与其他开源基础模型的比较。星号(*)表示该模型未遵循少样本示例的格式。
表6 MiMo-V2-Flash与其他开源基础模型的长上下文性能。星号(*)表示该模型可能未能遵循提示。所有基线模型的最大模型长度均短于256K。
- 第一阶段:监督微调(SFT) 我们通过在高质量的指令-响应对上进行监督学习,建立基础的指令遵循能力,使模型能够理解和执行跨多个领域的用户请求。
- 第二阶段:领域专业化训练 我们通过在专注任务上进行独立的RL优化,训练一系列领域专业化的教师模型,这些任务包括智能体能力(搜索、编码、通用工具使用)和非智能体任务(数学推理、通用推理、安全对齐)。每个教师通过针对性的领域特定奖励信号优化,在其各自的领域内达到卓越性能。
- 第三阶段:多教师在线策略蒸馏 我们没有合并模型参数或从专家生成静态的离线数据集,而是将多教师知识整合构建为一个在线策略强化学习过程。学生模型从其自身不断演化的分布中采样,并通过KL散度奖励从领域特定的教师那里接收词元级别的监督(【索引1,On-policy distillation of language models: Learning from self-generated mistakes,2023,ICLR】;【索引24,Minillm: Knowledge distillation of large language models,2024c,ICLR】;【索引47,On-policy distillation,2025,Thinking Machines Lab: Connectionism】),从而有效地结合专业能力,避免了传统的权衡(表7)。
MOPD的优势。这个统一的框架相比传统的后训练方法具有几个关键优势:
* 高效且有效。与参数合并或顺序训练(这些方法通常会牺牲某些能力)不同,MOPD能在所有领域中保留最强教师的顶尖性能。此外,使用来自教师logits的密集、词元级别的奖励进行在线策略蒸馏,确保了稳定的信誉分配和快速收敛。通过从自身分布中学习,学生模型避免了在静态数据集上训练的离线策略方法中常见的暴露偏差和分布不匹配问题。
* 模块化且可扩展。教师模型的选择非常灵活:它可以是具有强大能力的专业RL衍生模型、不同的SFT模型,甚至是学生模型本身。解耦的设计使得可以轻松集成新的教师,而无需重构整个流程。此外,该框架与现有的结果奖励模型(ORM)无缝协作,并且对于复杂的智能体任务尤其有利,否则建立独立的训练流程会非常繁琐。
* 迭代共同进化。MOPD自然支持教师-学生共同进化的循环。经过蒸馏的学生模型可以重新进入专业RL阶段,以产生更强的教师,这些教师反过来又为下一代学生提供更高质量的监督,形成一个自我强化的改进循环,从而实现持续的能力扩展。
章节结构。在接下来的小节中,我们将详细介绍MOPD范式的每个阶段,从监督微调(§4.2)开始,接着是针对智能体和非智能体任务的专业RL(§4.3),最后以多教师蒸馏机制的技术阐述(§4.4)结束。
4.2 监督微调(SFT)
SFT的目标。SFT阶段是我们后训练流程的基础,它将基础模型转变为一个能够遵循指令并在各种任务中有效响应的有用助手。这一阶段对于激活模型在预训练期间获得的潜在能力,以及使其输出与期望的格式和风格对齐至关重要。
SFT数据。为了实现这一点,我们策划了数百万个跨越不同领域的训练样本,包括一般对话、推理、编码和智能体任务。这些样本覆盖了思考和非思考模式,响应由我们内部的领域专业模型检查点生成。这种多样化的训练混合确保了模型在其预期用例中全面激活能力。
MoE SFT的稳定性。通过初步实验,我们为MoE SFT训练确定了一个关键的稳定性指标:梯度为零的参数数量(num-zeros)。这个指标为训练不稳定性提供了早期预警信号:增加的num-zeros表明专家之间的负载均衡正在恶化,而减少的num-zeros则表明模型正在严重过拟合训练数据。因此,在整个训练过程中保持稳定的num-zeros对于成功的SFT至关重要。此外,这种稳定性对于确保后续RL阶段的鲁棒性和收敛性至关重要。
SFT超参数。我们的实验表明,num-zeros的稳定性关键取决于两个超参数:专家偏置更新率和AdamW优化器中的$\epsilon$参数。基于这些发现,我们配置了以下训练超参数。我们采用余弦衰减学习率调度器,从$5.0 \times 10^{-5}$降至$5.0 \times 10^{-6}$,批量大小为128,AdamW的$\epsilon$设置为$1.0 \times 10^{-8}$。MoE专家偏置更新率设置为$1.0 \times 10^{-4}$,序列辅助损失系数设置为$1.0 \times 10^{-6}$。
4.3 扩展强化学习(RL)
RL的目标。强化学习将模型的能力推向了仅靠监督微调无法达到的高度。我们根据任务是否涉及智能体行为采用不同的RL策略,同时扩展非智能体和智能体RL训练,以在不同领域最大化性能。
4.3.1 非智能体RL训练
非智能体RL的目标。非智能体RL训练专注于提高模型在单轮任务上的性能,即模型生成完整响应而无需交互式反馈或多步执行。主要目标是提高模型在可验证领域(如数学、编码、逻辑)的推理准确性,同时在开放式对话中使其输出对齐于有用性和安全性。
奖励信号生成。我们生成奖励信号的方法因任务特性而异。对于结果可验证的领域,我们采用一个混合验证系统,结合程序化工具和LLM裁判,根据精心策划的问题-解决方案对自动评估正确性。对于主观质量如有用性和安全性,我们实施一个基于评分准则的框架,其中一个先进的LLM裁判根据详细的评分准则和参考答案评估响应,产生精细的奖励信号,引导模型朝向期望的行为。
4.3.2 智能体RL训练
智能体RL的目标与扩展维度。非智能体RL专注于单轮推理和生成,而智能体RL则训练模型在需要规划、动作执行和根据反馈进行适应的交互式、多轮环境中操作。我们沿着两个关键维度扩展智能体RL:环境多样性和计算资源。
扩展智能体环境多样性。我们构建了一套多样化的智能体训练环境,涵盖代码调试、终端操作、Web开发和通用工具使用(表8)。每个环境都针对不同的能力,但共同要求多步推理和执行。下面,我们详细阐述智能体环境的细节。
表8 我们不同智能体类型的训练数据构成摘要。我们利用真实世界和合成生成的数据为在各种环境中训练智能体创建了多样化的任务集。
代码智能体。我们基于真实的GitHub问题进行大规模代码智能体任务训练,模型在智能体循环中操作,以读取和编辑文件、执行命令,并根据可验证的单元测试获得奖励。我们的关键见解是,持续扩展可用任务能够推动代码智能的持续改进。为了在超过10万个代码任务上实现高效的RL训练,我们开发了两个基础设施组件。首先,我们构建了一个自动化的环境设置管道,该管道从仓库快照中配置开发环境,并将其打包成容器化镜像,在8种编程语言中实现了70%的成功率,并由一个运行超过10,000个并发pod的大规模Kubernetes集群支持。其次,我们实现了一个轻量级的智能体脚手架,该脚手架与Kubernetes、Docker或本地后端无缝集成,仅通过shell命令与执行后端交互,暴露了三个原子工具(bash、str_replace、finish)。这种设计消除了基于服务器的工具实现,并采用了一个没有预定义工作流的最小系统提示,允许模型在训练过程中发现最佳实践。
终端智能体。除了GitHub问题,我们还使用来自Stack Overflow和Stack Exchange的任务来加强基于终端的问题解决能力。我们选择需要高级技术专长的材料,并将其转化为具有相应查询、Dockerfile和测试用例的计算任务。在验证环境安装并根据难度和可靠性进行筛选后,我们获得了大约30,000个具有已验证执行环境的查询。基于通过率的额外筛选移除了那些正确性判断不可靠或复杂性不足以进行有效RL训练的任务。
Web开发智能体。为了改进Web开发代码的生成,我们构建了一个基于真实世界的合成数据集,并配有一个多模态验证器。我们收集高质量的用户编写的网页,使用Playwright执行生成的代码以获得渲染视频,并应用一个多模态视觉判别器来仅保留高质量样本,其中基于视频的评估相比静态截图减少了视觉幻觉。我们从策划的页面中反向工程用户查询作为种子提示,以合成覆盖八个与真实世界使用情况紧密匹配的Web类别的大规模RL数据。我们的基于视觉的验证器从录制的视频中对rollout执行进行评分,共同评估视觉质量、功能正确性和可执行性,以确保奖励既反映外观又反映行为。
通用智能体。我们发展了两种通用智能体能力。我们的搜索智能体采用一个提供三个核心工具(search、open、find)的脚手架,用于自主网络探索。我们通过从种子实体进行递归事实图扩展来构建查询,其中难度随关系链深度和细节混淆程度而增加,从而能够自动生成具有可验证答案的挑战性搜索问题。我们的函数调用智能体在具有定制工具集的合成应用环境中进行训练,这些工具集通过生成基于显式数据依赖(直接的输入-输出关系)和隐式逻辑依赖(对隐藏系统状态的推理)的工具调用图来构建,要求模型具备数据传播和状态推断能力。
扩展智能体计算。在前面多样化的智能体环境(表8)上进行训练,我们发现扩展智能体RL计算不仅提升了代码智能体的性能,而且有效地泛化到其他任务类型。图4显示了我们代码智能体的RL训练曲线,其中模型在约12万个环境中执行了在线策略的rollout和更新。这种扩展显著提高了SFT基础模型在SWE-Bench-Verified和SWE-Bench-Multilingual上的性能。此外,图5表明,大规模代码智能体RL训练能有效地泛化到其他智能体任务,以及数学、代码和通用推理基准测试,这表明智能体训练发展了广泛可迁移的问题解决能力。
4.4 MOPD的技术形式化
MOPD技术形式化。在通过SFT奠定基础并通过领域特定的RL训练了专业教师之后,我们现在将多教师在线策略蒸馏机制形式化,该机制将这些专业能力整合到一个统一的学生模型中。
MOPD目标函数。具体来说,我们将多教师蒸馏构建为一个在线策略强化学习目标。设 $\pi_\theta$ 表示在训练引擎中优化的目标学生策略,$\mu_\theta$ 表示在推理引擎中采用的学生采样策略,$\pi_{\text{domain}_x}$ 表示针对从分布 D 中采样的提示 x 的领域而专门化的教师策略。设 sg[·] 表示停止梯度操作符。学生和教师之间的反向KL散度损失定义为:
$$\mathcal{L}_{\text{reverse-KL}}(\theta) = -\mathbb{E}_{x \sim \mathcal{D}, y_t \sim \pi_{\theta}(\cdot|x,y_{<t})} \log \frac{\pi_{\text{domain}_x}(y_t|x, y_{<t})}{\pi_{\theta}(y_t|x,y_{<t})}.$$ <p>其梯度为: $$\nabla_{\theta} \mathcal{L}_{\text {reverse-KL}}(\theta)=-\mathbb{E}_{x \sim \mathcal{D}, y_{<t} \sim \pi_{\theta}\left(\cdot \mid x, y_{<t}\right)}\left[\log \frac{\pi_{\text {domain}_x}\left(y_{t} \mid x, y_{<t}\right)}{\pi_{\theta}\left(y_{t} \mid x, y_{<t}\right)} \nabla_{\theta} \log \pi_{\theta}\left(y_{t} \mid x, y_{<t}\right)\right].$$ <p>代理损失函数。遵循Zhao等人(【索引86,Small leak can sink a great ship–boost rl training on moe with icepop!,2025,ringtech.notion.site】)的方法,我们应用训练-推理重要性采样,并丢弃表现出较大差异的词元。然后我们将MOPD的代理损失定义为: $$\mathcal{L}_{\text{MOPD}}(\theta) = -\mathbb{E}_{x \sim \mathcal{D}, y \sim \mu_\theta(\cdot|x)} \left[ \frac{1}{|y|} \sum_{t=1}^{|y|} w_t \hat{A}_{\text{MOPD},t} \log \pi_\theta(y_t|x, y_{<t}) \right],$$ <p>其中 $$\begin{aligned} w_t(\theta) = \begin{cases} \text{sg} \left[ \frac{\pi_\theta(y_t|x, y_{<t})}{\mu_\theta(y_t|x, y_{<t})} \right], & \epsilon_{\text{low}} \leq \frac{\pi_\theta(y_t|x, y_{<t})}{\mu_\theta(y_t|x, y_{<t})} \leq \epsilon_{\text{high}}, \\ 0, & \text{other}, \end{cases} \quad \hat{A}_{\text{MOPD},t} = \text{sg} \left[ \log \frac{\pi_{\text{domain}_x}(y_t|x, y_{<t})}{\pi_\theta(y_t|x, y_{<t})} \right]. \end{aligned}$$ <p>与ORM结合。默认情况下,我们将MOPD的优势与其他类型的优势相结合,例如使用结果奖励模型(ORM)计算的优势,包括GRPO(【索引69,Deepseekmath: Pushing the limits of mathematical reasoning in open language models,2024,URL https://arxiv.org/abs/2402.03300】)。设$\hat{A}_{\text{ORM}}$表示由ORM计算的优势;最终的优势由下式给出 : $$\hat{A}_{\text{MOPD},t} = \text{sg}\left[ \log \frac{\pi_{\text{domain}_x}(y_t|x, y_{<t})}{\pi_{\theta}(y_t|x, y_{<t})} \right] + \alpha \hat{A}_{\text{ORM}}.$$ <p>MOPD有效性验证。图6展示了MOPD与传统后训练方法相比的有效性。在数学推理(AIME 2025)和编码(LiveCodeBench)基准测试中,MOPD成功地保留并结合了来自多个教师的专业能力,在大多数领域中达到或超过了最强教师的性能。5 MTP 加速
5.1 MTP 接受长度
MTP接受长度与熵的关系。我们分析了模型的预测不确定性(通过下一个词元的交叉熵衡量)与多词元预测(MTP)模块效率之间的关系。如图7所示,我们评估了在不同基准测试上使用3个MTP层的平均接受长度,这些基准测试从代码生成(如WebDev、LiveCodeBench)到复杂推理任务(如AIME25、MMLU Pro)不等。
结果分析。结果显示出强烈的负相关关系:熵较低的上下文(如WebDev)允许显著更长的接受序列,达到约3.6个词元。相反,具有较高内在不确定性的任务(如MMLU Pro)由于预测分歧增加而表现出较短的接受长度。这种行为可以通过一个对数变换拟合($y = 4(1 - 0.58x^{0.58})$)精确建模,其$R^2$值为0.995,这表明下一个词元的交叉熵是MTP吞吐量的主要决定因素。
5.2 MTP 推理加速
MTP推理加速测量。我们测量了MiMo-V2-Flash在不同批量大小(每节点)和接受长度下,使用3层MTP的解码加速效果,输入长度为16K,输出长度为1K。表10中的结果表明,MTP在没有额外硬件成本的情况下,始终优于基线。值得注意的是,加速比与接受长度成线性关系。在不同的批量大小下,MTP表现出不同的加速效果,这取决于相应的计算和I/O需求以及核函数效率。在实践中,研究人员和工程师应根据硬件的roofline模型来调整批量大小和MTP层数,以优化速度与成本的权衡。
表10 MiMo-V2-Flash使用3层MTP与不使用MTP在不同批量大小(每节点)和接受长度下的解码加速比,输入长度为16K,输出长度为1K。
A7 补充细节
4.6 RL 基础设施
基础设施概述。我们的RL(和MOPD)基础设施使用SGLang(【索引87,Sglang: Efficient execution of structured language model programs,2024,Advances in neural information processing systems】)作为推理引擎,Megatron-LM(【索引71,Megatron-lm: Training multi-billion parameter language models using model parallelism,2019,arXiv preprint】)作为训练引擎。为了实现稳定、高效和灵活的RL训练,我们实现了三个扩展模块:Rollout Routing Replay(【索引48,Stabilizing moe reinforcement learning by aligning training and inference routers,2025,arXiv preprint】)(第4.6.1节)、数据调度器(第4.6.2节)以及工具管理器结合工具箱(第4.6.3节)。
4.6.1 通过Rollout Routing Replay(R3)实现稳定训练
通过R3实现稳定训练。由于数值精度问题,MoE模型在rollout和训练过程中的专家路由不一致(【索引25,Defeating nondeterminism in llm inference,2025,Thinking Machines Lab: Connectionism】;【索引85,Your efficient rl framework secretly brings you off-policy rl training,2025,fengyao.notion.site】)。我们提出了Rollout Routing Replay (R3)(【索引48,Stabilizing moe reinforcement learning by aligning training and inference routers,2025,arXiv preprint】),使用与rollout中相同的路由专家进行RL训练,通过优化的数据类型和通信重叠使其开销可以忽略不计。对于多轮智能体训练,我们在rollout期间采用请求级前缀缓存。该缓存存储了先前轮次的KVCache和MoE路由专家,允许它们在同一请求的后续生成步骤中被重用。与当前推理引擎中常用的radix缓存不同,我们的请求级前缀缓存避免了重新预填充或请求间的输出缓存共享,确保了路由专家的采样一致性。
4.6.2 数据调度器
数据调度器。对于MiMo-V2-Flash,我们扩展了Seamless Rollout Engine(【索引82,Mimo: Unlocking the reasoning potential of language model–from pretraining to posttraining,2025,arXiv preprint】)并实现了一个数据调度器,以无缝地调度细粒度的序列而不是微批次,从而解决了分布式MoE训练中的GPU闲置问题。在动态采样中,当序列返回进行奖励计算时,我们会参考历史通过率,并在必要时,通过负载均衡向GPU分配新的提示。我们集成了部分rollout(【索引15,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2025,arXiv preprint】;【索引39,Kimi k1. 5: Scaling reinforcement learning with llms,2025b,arXiv preprint】),将过长的轨迹划分到多个步骤中,同时限制了每个批次中部分样本的陈旧度和比例。通过对部分rollout采用感知陈旧度的截断重要性采样,我们在不牺牲模型质量的情况下显著加快了RL训练。
数据调度器功能。数据调度器支持针对特定数据源的配置(样本配额、调度优先级、长度限制、温度),并拟合通过率以按配置比例接受样本。基于优先级的调度可以重叠不同时间模式的数据源之间的奖励计算和推理,确保了高GPU利用率。
4.6.3 工具箱和工具管理器
工具箱和工具管理器。我们实现了工具箱(Toolbox)和工具管理器(Tool Manager)来解决RL智能体训练中的全局资源竞争和局部效率低下问题。这些模块利用Ray(【索引57,Ray: A distributed framework for emerging {AI} applications,2018,13th USENIX symposium on operating systems design and implementation (OSDI 18)】)进行高效调度。
工具箱功能。工具箱作为中心化的资源分配器,对跨并发任务的工具强制执行资源配额和QPS限制。它采用容错的Ray actor池,消除了冷启动延迟。
工具管理器功能。工具管理器与工具箱协同,通过环境预热和序列级异步奖励计算来加速训练。它通过超时恢复和实时监控来维持训练稳定性。通过将工具管理和rollout工作流解耦,工具箱将任务特定逻辑与系统级策略隔离开来,实现了模块化的可扩展性,而不损害稳定性。
A4 实验环境
-
数据集
- 预训练:在一个包含27万亿词元的多样化高质量语料库上进行,来源包括公共网络内容、书籍、学术论文、代码、数学和STEM材料,特别强调具有长程依赖性的数据。
- 后训练(SFT):使用了数百万个覆盖通用对话、推理、编码和智能体任务的指令-响应对样本。
- 后训练(RL):构建了多样化的智能体训练环境,包括超过12万个代码任务(来自GitHub)、约3万个终端任务(来自Stack Overflow/Exchange)、大规模Web开发任务以及15万搜索任务和5万通用智能体任务。
- 评估:使用了广泛的基准测试,包括但不限于MMLU、BBH、GPQA-Diamond、AIME、LiveCodeBench、SWE-Bench、LongBench V2、MRCR、Arena-Hard、Terminal-Bench、BrowseComp等。
-
模型架构
- 总参数/激活参数:3090亿/150亿。
- 架构:基于Transformer的专家混合(MoE)模型,采用混合注意力机制。
- 层数:48层(39层SWA + 9层GA)。
- 隐藏维度:4096。
- 注意力:SWA(64查询头/8键值头,窗口128)和GA(64查询头/4键值头)均使用分组查询注意力(GQA)。
- MoE:每层256个专家,激活8个。
- MTP:采用轻量级设计,使用密集FFN和SWA,参数量为0.33B。
-
硬件配置
- 论文未明确指出GPU型号、数量或平台细节。
- 在智能体RL训练中提到了一个大规模Kubernetes集群,可运行超过10,000个并发pod。
-
软件配置
- 训练/推理框架:使用Megatron-LM作为训练引擎,SGLang作为推理引擎。
- 依赖库:在RL基础设施中使用了Ray进行分布式调度。
- 其他工具:为智能体训练环境使用了Kubernetes、Docker。为Web开发智能体评估使用了Playwright。
- 精度:采用FP8混合精度进行训练。
A4 实验结果
预训练模型(MiMo-V2-Flash-Base)评估
- 实验内容:将MiMo-V2-Flash-Base与Kimi-K2-Base、DeepSeek-V3.1-Base、DeepSeek-V3.2-Exp-Base等领先的开源基础模型在通用、数学、代码、中文、多语言及长上下文等多个维度的基准测试上进行比较。
-
实验结果:
- 在通用基准上,MiMo-V2-Flash-Base表现出有竞争力的性能,并在MMLU-Pro、GPQA-Diamond、AIME等推理密集型任务上持续优于同类模型(见表5)。
- 在代码任务SWE-Bench上,其表现甚至超过了参数量大得多的Kimi-K2-Base(见表5)。
- 由于参数量相对有限,在知识密集型任务SimpleQA上表现略逊于更大模型(见表5)。
- 在长上下文检索任务NIAH-Multi上,模型在32K到256K的长度范围内实现了近100%的成功率。在长上下文推理基准GSM-Infinite上,从16K扩展到128K时性能下降极小,展现了混合SWA架构的有效性和可扩展性(见表6)。
-
分析结论:MiMo-V2-Flash-Base模型在保持通用能力的同时,在推理任务和长上下文场景下展现出强大的性能,验证了其混合SWA架构、原生32K预训练和上下文扩展训练的有效性。
后训练模型(MiMo-V2-Flash)评估
- 实验内容:将经过MOPD后训练的MiMo-V2-Flash与Kimi-K2-Thinking、DeepSeek-V3.2-Thinking等顶尖开源模型以及Gemini-3.0 Pro、Claude Sonnet 4.5、GPT-5 High等闭源模型进行比较,评估其在推理、通用写作、长上下文、代码智能体和通用智能体方面的能力。
-
实验结果:
- 在MMLU-Pro、GPQA-Diamond、AIME 2025等大多数推理基准上,MiMo-V2-Flash的性能与Kimi-K2-Thinking和DeepSeek-V3.2-Thinking相当(见表9)。
- 在长上下文评估(LongBench V2, MRCR)中,模型超越了参数量远大于自身的完全全局注意力模型Kimi-K2-Thinking(见表9)。
- 在代码智能体任务上表现突出,SWE-Bench Verified达到73.4%,SWE-Bench Multilingual达到71.7%,成为软件工程任务中最强的开源LLM(见表9)。
- 在通用智能体任务上,BrowseComp得分45.4(使用上下文管理后提升至58.3),T2-Bench得分80.3,展现了强大的工具使用能力(见表9)。
-
分析结论:MOPD后训练范式成功地将多个专业教师的能力整合到MiMo-V2-Flash中,使其在推理、长上下文和特别是智能体任务中达到了顶尖水平,验证了超大规模RL训练和MOPD框架的有效性。
MTP 加速效果评估
-
实验内容:
- 分析MTP的平均接受长度与下一个词元交叉熵之间的关系。
- 测量在不同批量大小和接受长度下,使用3层MTP相对于不使用MTP的解码速度提升。
-
实验结果:
- MTP的平均接受长度与词元预测的交叉熵(不确定性)呈强烈的负相关。在低熵任务(如WebDev)上,平均接受长度可达3.6;在高熵任务(如MMLU Pro)上则较短(见图7)。
- MTP带来了显著的解码加速,加速比随接受长度线性增长。例如,在批量大小为64时,接受长度为3.6可带来2.53倍的加速。加速效果也受批量大小影响(见表10)。
-
分析结论:MTP作为一种有效的自推测解码机制,能够显著提升模型的推理吞吐量,尤其是在预测性较强的任务中。其加速效果证明了MTP在实际部署中的价值。
A5 结论
MiMo-V2-Flash 通过其混合滑动窗口注意力架构、轻量级多词元预测以及MOPD后训练范式,实现了强大的推理和智能体能力,以及快速的推理速度。凭借这些优势,MiMo-V2-Flash 可与 DeepSeek-V3.2 和 Kimi-K2 等更大的开源模型相媲美。然而,与最强的闭源模型之间仍存在明显差距,我们计划通过扩大模型规模和训练计算来缩小这一差距。此外,我们目前的架构探索仍处于初步阶段,对设计权衡的分析有限。未来的工作将专注于设计更稳健、更高效、面向智能体的模型架构。此外,我们计划扩展MOPD中教师和学生迭代共同进化的计算资源,以充分释放其潜力。
A6 附录
B SWE-Bench 的奖励作弊问题
SWE-Bench中的奖励作弊问题。与SWE-Bench社区近期的发现一致,我们同样在官方的SWE-Bench镜像中发现了bug,即基准答案的提交(ground truth commits)未被正确删除。在RL训练期间,这可能导致奖励作弊(reward hacking)和虚高的评估结果,模型倾向于通过窥视未来的提交来获得奖励,如图8所示。为了解决这个问题,我们更新到了最新的SWE-Bench镜像进行评估。对于我们自建的训练镜像,我们也遵循了官方SWE-Bench关于git作弊的解决方案,并反复确认我们的模型没有表现出任何奖励作弊行为。
C 上下文管理
上下文管理策略。虽然微调和强化学习优化的是模型参数$\theta$,但上下文管理则策略性地优化条件上下文C,即在$P(y|C, \theta)$中的C。我们的方法解决了两个互补的挑战。
上下文增强与整合。对于上下文增强,我们采用了一种受Unix启发的抽象:工具、文档和数据库被统一地视为文件,使模型能够通过Bash命令检索信息——这利用了其原生的代码生成能力。对于上下文整合,我们通过实施积极的内存压缩来对抗“中间遗忘”(Lost in the Middle)现象。当上下文利用率超过一个阈值(低至30%)时,系统会提示模型进行总结,将完整的历史记录归档到一个可检索的内存文件中,并用该摘要替换活动上下文。
实验结果与核心洞见。经验证明,这种方法在深度研究(Deep Research)任务上带来了5-10%的准确率提升。我们的结果与DeepSeek V3的发现一致,即丢弃工具调用历史优于保留策略;通过复制他们激进的重置协议,我们在可比的基准测试上达到了58.3分。其核心见解是反直觉的:更少但经过策略性管理的上下文,能产出更专注和准确的生成结果。
💬 评论讨论
欢迎在这里分享您的想法和见解!