Qwen3 Technical Report

文章标题:Qwen3技术报告
作者/机构:Qwen团队

A1 主要贡献

本文介绍了Qwen模型家族的最新版本——Qwen3。Qwen3系列大型语言模型(LLMs)旨在提升性能、效率和多语言能力,其核心研究目标是通过一系列创新设计,打造在各类任务和领域中达到顶尖水平的开源大模型。

核心问题与研究目标
1. 弥合开源与闭源模型的性能差距:尽管顶级闭源模型(如GPT-4o, Claude 3.7)性能强大,但开源社区也在迅速追赶。Qwen3的目标是进一步缩小这一差距,提供性能可与最先进闭源模型相媲美的开源模型。
2. 统一复杂推理与快速响应:用户通常需要在为聊天优化的模型(如GPT-4o)和专门的推理模型(如QwQ-32B)之间切换。Qwen3旨在将这两种能力——“思考模式”(用于复杂、多步推理)和“非思考模式”(用于快速、上下文驱动的响应)——集成到单一的统一框架中。
3. 提升模型的可控性与效率:为了平衡延迟和性能,用户需要更精细地控制模型的计算资源。Qwen3致力于引入一种“思考预算”机制,允许用户在推理过程中自适应地分配计算资源。
4. 增强多语言能力与全球可及性:为了满足全球化的应用需求,模型需要支持更广泛的语言。Qwen3的目标是将其前身Qwen2.5支持的29种语言扩展到119种语言和方言。
5. 优化小模型的构建:构建高性能的小型模型通常需要大量的计算资源。Qwen3探索利用旗舰模型的知识,通过强到弱的蒸馏方法,显著减少构建小型模型所需的资源,同时确保其具有高竞争力。

创新点与主要贡献
1. 统一的思考/非思考模式框架:Qwen3创新性地将用于复杂推理的“思考模式”和用于快速响应的“非思考模式”集成到单一模型中。用户无需切换模型,即可通过用户查询或聊天模板动态切换模式,极大地提升了模型的灵活性和易用性。
2. 思考预算机制:引入了“思考预算”(thinking budgets)功能,允许用户根据任务的复杂性,精细地控制模型在推理时投入的“思考”程度(即生成的思考过程token数量),从而在延迟和性能之间实现最佳平衡。
3. 大规模多语言预训练:Qwen3在高达36万亿token的数据上进行了预训练,覆盖了119种语言和方言。训练数据通过多模态方法(使用Qwen2.5-VL从PDF中提取文本)和领域专用模型(使用Qwen2.5-Math和Qwen2.5-Coder生成合成数据)进行了扩展,显著提升了模型的跨语言理解和生成能力。
4. 先进的多阶段训练策略
* 预训练:采用三阶段策略,首先通过30万亿token建立通用知识基础,其次通过知识密集型数据增强STEM和编码等领域的推理能力,最后通过长上下文数据将最大上下文长度扩展到32,768。
* 后训练:采用四阶段后训练方法,前两阶段通过长思维链(long-CoT)冷启动微调和强化学习来培养强大的推理能力;后两阶段将带与不带推理路径的数据融合进行微调,并应用通用领域强化学习,使模型能够同时处理两种模式的输入。
5. 高效的强到弱蒸馏:对于小型模型,采用强到弱的知识蒸馏方法,利用大型模型进行离策略(off-policy)和在策略(on-policy)的知识转移。这种方法在性能和训练效率上均显著优于传统的强化学习方法。
6. SOTA性能表现:实证评估表明,Qwen3在代码生成、数学推理、Agent任务等多种基准测试中取得了最先进的成果,其性能可与更大的混合专家(MoE)模型和专有模型相媲美。旗舰模型Qwen3-235B-A22B在多个高难度基准上表现卓越。

所有Qwen3模型均在Apache 2.0许可下公开发布,以促进社区的研究和发展。

A2 方法细节

2 架构

Qwen3系列模型构成。Qwen3系列包含6个密集模型(Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B)以及2个混合专家(MoE)模型(Qwen3-30B-A3B和Qwen3-235B-A22B)。旗舰模型Qwen3-235B-A22B总参数量为2350亿,每个token激活的参数量为220亿。

密集模型架构。Qwen3密集模型的架构与Qwen2.5【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】相似,采用了分组查询注意力(GQA)【Ainslie et al., 2023, GQA: Training generalized multi-query Transformer models from multi-head checkpoints, EMNLP】、SwiGLU【Dauphin et al., 2017, Language modeling with gated convolutional networks, ICML】、旋转位置嵌入(RoPE)【Su et al., 2024, Roformer: Enhanced Transformer with rotary position embedding, Neurocomputing】以及带有预归一化(pre-normalization)的RMSNorm【Jiang et al., 2023, Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and efficient pre-LN Transformers, CoRR】。此外,移除了在Qwen2【Yang et al., 2024a, Qwen2 technical report, CoRR】中使用的QKV偏置(QKV-bias),并引入了QK-Norm【Dehghani et al., 2023, Scaling vision transformers to 22 billion parameters, ICML】到注意力机制中,以确保Qwen3训练的稳定性。模型的关键架构信息在表1中提供。


表1:Qwen3密集模型的模型架构。

MoE模型架构。Qwen3 MoE模型的基础架构与Qwen3密集模型相同。关键架构信息见表2。该系列模型沿用了Qwen2.5-MoE【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】的设计,并实现了细粒度专家分割【Dai et al., 2024, DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models, CoRR】。Qwen3 MoE模型共有128个专家,每个token激活8个。与Qwen2.5-MoE不同的是,Qwen3-MoE的设计排除了共享专家。此外,模型采用了全局批量负载均衡损失(global-batch load balancing loss)【Qiu et al., 2025, Demons in the detail: On implementing load balancing loss for training specialized mixture-of-expert models, CoRR】来鼓励专家的特化。这些架构和训练上的创新显著提升了模型在下游任务中的性能。


表2:Qwen3 MoE模型的模型架构。

分词器。Qwen3模型使用Qwen的分词器【Bai et al., 2023, Qwen technical report, CoRR】,该分词器实现了字节级字节对编码(BBPE)【Brown et al., 2020, Language models are few-shot learners, NeurIPS; Wang et al., 2020, Neural machine translation with byte-level subwords, AAAI; Sennrich et al., 2016, Neural machine translation of rare words with subword units, ACL】,词汇表大小为151,669。

3 预训练

本节描述了预训练数据的构建、预训练方法的细节,并展示了在标准基准上评估基础模型的实验结果。

3.1 预训练数据

数据规模与多样性的扩展。与Qwen2.5【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】相比,Qwen3的训练数据在规模和多样性上都得到了显著扩展,具体体现在预训练token数量增加了一倍,覆盖的语言数量增加了三倍。所有Qwen3模型都在一个包含119种语言和方言、总计36万亿token的大规模多样化数据集上进行训练。该数据集涵盖了编码、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本和合成数据等多个领域的高质量内容。

数据扩充方法。为了进一步扩充预训练数据语料库,首先使用Qwen2.5-VL模型【Bai et al., 2025, Qwen2.5-VL technical report, arXiv preprint arXiv:2502.13923】对大量类PDF文档进行文本识别。然后,使用Qwen2.5模型【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】对识别出的文本进行精炼以提升质量,通过这一两步过程,获得了数万亿个高质量的额外文本token。此外,还利用Qwen2.5【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】、Qwen2.5-Math【Yang et al., 2024c, Qwen2.5-Math technical report: Toward mathematical expert model via self-improvement, CoRR】和Qwen2.5-Coder【Hui et al., 2024, Qwen2.5-Coder technical report, CoRR】模型合成了数万亿个不同格式的文本token,包括教科书、问答、指令和代码片段,覆盖了数十个领域。最后,通过整合额外的多语言数据并引入更多语言来进一步扩展预训练语料库,支持的语言数量从Qwen2.5的29种大幅增加到119种,增强了模型的语言覆盖范围和跨语言能力。

数据标注与混合优化。开发了一套多语言数据标注系统,用于提升训练数据的质量和多样性。该系统已应用于大规模预训练数据集,在教育价值、领域、主题和安全性等多个维度上对超过30万亿的token进行了标注。这些详细的标注支持了更有效的数据过滤和组合。与以往在数据源或领域级别优化数据混合的研究【Xie et al., 2023, Doremi: Optimizing data mixtures speeds up language model pretraining, NeurIPS; Fan et al., 2023, DoGE: Domain reweighting with generalization estimation, arXiv preprint arXiv:2310.15393; Liu et al., 2024b, RegMix: Data mixture as regression for language model pre-training, arXiv preprint arXiv:2407.01492】不同,本研究通过在小型代理模型上进行广泛的消融实验,并利用这些细粒度的数据标签,在实例级别上优化了数据混合。

3.2 预训练阶段

三阶段预训练流程。Qwen3模型通过一个三阶段的过程进行预训练:
1. 通用阶段 (S1):在第一个预训练阶段,所有Qwen3模型使用4,096 token的序列长度,在超过30万亿token的数据上进行训练。此阶段,模型在语言能力和通用世界知识方面得到了充分的预训练,训练数据覆盖了119种语言和方言。
2. 推理阶段 (S2):为了进一步提升推理能力,优化了此阶段的预训练语料库,增加了STEM、编码、推理和合成数据的比例。模型使用4,096 token的序列长度,在约5万亿更高质量的token上进行进一步的预训练,并在此阶段加速了学习率的衰减。
3. 长上下文阶段:在最后一个预训练阶段,收集了高质量的长上下文语料库来扩展Qwen3模型的上下文长度。所有模型使用32,768 token的序列长度,在数百亿token上进行预训练。长上下文语料库中,75%的文本长度在16,384到32,768 token之间,25%在4,096到16,384 token之间。沿用Qwen2.5【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】的方法,使用ABF技术【Xiong et al., 2023, Effective long-context scaling of foundation models, CoRR】将RoPE的基础频率从10,000增加到1,000,000。同时,引入了YARN【Peng et al., 2023, YaRN: Efficient context window extension of large language models, CoRR】和双块注意力(Dual Chunk Attention, DCA)【An et al., 2024, Training-free long-context scaling of large language models, CoRR】,以在推理过程中实现序列长度容量的四倍增长。

超参数优化。与Qwen2.5【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】类似,基于上述三个预训练阶段,为最优超参数(如学习率调度器和批量大小)的预测建立了缩放定律(scaling laws)。通过广泛的实验,系统地研究了模型架构、训练数据、训练阶段和最优训练超参数之间的关系。最终,为每个密集或MoE模型设定了预测的最优学习率和批量大小策略。

4 后训练


图1:Qwen3系列模型的后训练流程。

后训练的双重核心目标。Qwen3的后训练流程经过精心设计,旨在实现两个核心目标:
1. 思考控制(Thinking Control):集成了“非思考”和“思考”两种截然不同的模式,使用户可以灵活选择模型是否进行推理,并通过指定思考过程的token预算来控制思考的深度。
2. 强到弱蒸馏(Strong-to-Weak Distillation):旨在简化和优化轻量级模型的后训练过程。通过利用大型模型的知识,显著降低了构建小规模模型所需的计算成本和开发工作。

四阶段训练流程。如图1所示,Qwen3系列中的旗舰模型遵循一个复杂的四阶段训练过程。前两个阶段专注于发展模型的“思考”能力。接下来的两个阶段旨在将强大的“非思考”功能集成到模型中。

轻量化模型的蒸馏方法。初步实验表明,直接将教师模型的输出logits蒸馏到轻量级学生模型中,可以有效提升其性能,同时保持对其推理过程的精细控制。这种方法避免了为每个小规模模型单独执行详尽的四阶段训练过程的必要性。它不仅带来了更好的即时性能(如更高的Pass@1分数),还提升了模型的探索能力(如改进的Pass@64结果)。此外,与四阶段训练方法相比,该方法实现了更高的训练效率,仅需1/10的GPU小时。

后续章节内容。在以下部分,将介绍四阶段训练过程,并详细解释强到弱蒸馏方法。

4.1 长思维链(Long-CoT)冷启动

数据集构建。首先构建了一个全面的数据集,涵盖了数学、代码、逻辑推理和通用STEM问题等广泛类别。数据集中的每个问题都配有经过验证的参考答案或基于代码的测试用例。该数据集是长思维链(long-CoT)训练“冷启动”阶段的基础。

两阶段过滤流程。数据集的构建涉及一个严格的两阶段过滤过程:查询过滤和响应过滤。在查询过滤阶段,使用Qwen2.5-72B-Instruct来识别并移除不易验证的查询,例如包含多个子问题或要求进行通用文本生成的查询。此外,还排除了Qwen2.5-72B-Instruct无需使用CoT推理就能正确回答的查询,这有助于防止模型依赖表面猜测,确保只包含需要更深层次推理的复杂问题。同时,使用Qwen2.5-72B-Instruct为每个查询标注其领域,以保持数据集中领域分布的平衡。

响应筛选与训练目标。在保留一个验证查询集后,使用QwQ-32B【Qwen Team, 2025, QwQ-32B: Embracing the power of reinforcement learning, Qwen Blog】为每个剩余查询生成N个候选响应。当QwQ-32B持续无法生成正确解决方案时,由人类标注员手动评估响应的准确性。对于Pass@N为正的查询,会应用更严格的过滤标准,以移除那些(1) 最终答案错误,(2) 包含大量重复,(3) 明显是猜测而缺乏足够推理,(4) 思考与总结内容不一致,(5) 涉及不当的语言混合或风格转换,或(6) 疑似与潜在的验证集项目过于相似的响应。随后,使用一个精心挑选的精炼数据集子集进行推理模式的初始冷启动训练。此阶段的目标是向模型灌输基础的推理模式,而不是过分强调即时的推理性能。这种方法确保了模型的潜力不受限制,为后续的强化学习(RL)阶段留下了更大的灵活性和提升空间。为有效实现此目标,在此准备阶段最好尽量减少训练样本数量和训练步数。

4.2 推理强化学习(Reasoning RL)

查询-验证器对筛选标准。在推理RL阶段使用的查询-验证器对必须满足以下四个标准:(1) 在冷启动阶段未使用过。(2) 对于冷启动模型是可学习的。(3) 尽可能具有挑战性。(4) 覆盖广泛的子领域。最终收集了总共3,995个查询-验证器对,并采用GRPO【Shao et al., 2024, DeepSeekMath: Pushing the limits of mathematical reasoning in open language models, CoRR】来更新模型参数。研究发现,使用大的批量大小和每个查询高的 rollout 数量,并结合离策略(off-policy)训练来提高样本效率,对训练过程有益。同时,通过控制模型的熵以使其稳定增加或保持稳定,来平衡探索与利用,这对维持稳定的训练至关重要。因此,在单次RL运行过程中,无需任何手动干预超参数,就实现了训练奖励和验证性能的持续提升。例如,Qwen3-235B-A22B模型在总共170个RL训练步骤中,AIME'24分数从70.1提高到85.1。


表9:在思考模式融合阶段,用于思考和非思考模式的SFT数据示例。对于思考模式,/think 标志可以省略,因为它代表默认行为。此功能已在Hugging Face的tokenizer支持的聊天模板1中实现,其中可以使用额外参数enable_thinking=False来禁用思考模式。

4.3 思考模式融合

目标与方法。思考模式融合阶段的目标是将“非思考”能力集成到先前已开发的“思考”模型中。这种方法允许开发者管理和控制推理行为,同时也降低了为思考和非思考任务部署独立模型的成本和复杂性。为实现这一点,在推理RL模型上进行了持续的监督微调(SFT),并设计了一个聊天模板来融合这两种模式。此外,研究发现能够熟练处理两种模式的模型在不同的思考预算下表现始终良好。

SFT数据构建。SFT数据集结合了“思考”和“非思考”数据。为了确保第二阶段模型的性能不受额外SFT的影响,“思考”数据是通过在第一阶段的查询上使用第二阶段模型本身进行拒绝采样生成的。而“非思考”数据则经过精心策划,以覆盖包括编码、数学、指令遵循、多语言任务、创意写作、问答和角色扮演在内的多样化任务。此外,还采用自动生成的清单来评估“非思考”数据的响应质量。为了增强在低资源语言任务上的性能,特别增加了翻译任务的比例。

聊天模板设计。为了更好地集成两种模式并让用户能够动态切换模型的思考过程,为Qwen3设计了聊天模板,如表9所示。具体来说,对于思考模式和非思考模式的样本,分别在用户查询或系统消息中引入了/think/no think标志。这使得模型能够根据用户的输入选择相应的思考模式。对于非思考模式的样本,在助手的响应中保留了一个空的思考块。这种设计确保了模型内部格式的一致性,并允许开发者通过在聊天模板中拼接一个空的思考块来阻止模型进行思考行为。默认情况下,模型在思考模式下运行;因此,添加了一些用户查询不包含/think标志的思考模式训练样本。对于更复杂的多轮对话,在用户的查询中随机插入多个/think/no think标志,模型响应遵循遇到的最后一个标志。

思考预算。思考模式融合的另一个优势是,一旦模型学会了以非思考和思考两种模式响应,它自然就发展出了处理中间情况的能力——即基于不完整的思考生成响应。这种能力为实现对模型思考过程的预算控制奠定了基础。具体来说,当模型的思考长度达到用户定义的阈值时,会手动停止思考过程并插入停止思考的指令:“考虑到用户限定的时间,我现在必须直接基于思考给出解决方案。\n</think>.\n\n”。插入此指令后,模型会根据其截至该点的累积推理继续生成最终响应。值得注意的是,这种能力并非通过显式训练获得,而是作为应用思考模式融合的自然产物而出现的。

4.4 通用强化学习(General RL)

目标与核心能力。通用RL阶段旨在广泛增强模型在多样化场景下的能力和稳定性。为此,建立了一个覆盖超过20个不同任务的复杂奖励系统,每个任务都有定制的评分标准。这些任务专门针对提升以下核心能力:
* 指令遵循 (Instruction Following):确保模型准确理解并遵循用户指令,包括内容、格式、长度和结构化输出的要求,提供符合用户期望的响应。
* 格式遵循 (Format Following):除了显式指令外,期望模型遵守特定的格式约定。例如,它应能正确响应/think/no think标志以切换思考模式,并始终使用指定的token(如<think></think>)来分隔思考和响应部分。
* 偏好对齐 (Preference Alignment):对于开放式查询,偏好对齐侧重于提升模型的有用性、吸引力和风格,最终提供更自然、更令人满意的用户体验。
* Agent能力 (Agent Ability):涉及训练模型通过指定接口正确调用工具。在RL rollout期间,允许模型与真实环境执行反馈进行完整的多轮交互循环,从而提高其在长远决策任务中的性能和稳定性。
* 特定场景能力 (Abilities for Specialized Scenarios):在更专业的场景中,设计了针对特定上下文的任务。例如,在检索增强生成(RAG)任务中,加入了奖励信号,引导模型生成准确且符合上下文的响应,从而最大限度地降低产生幻觉的风险。

奖励类型。为了为上述任务提供反馈,利用了三种不同类型的奖励:
1. 基于规则的奖励 (Rule-based Reward):在推理RL阶段已广泛使用,并且对于指令遵循【Lambert et al., 2024, Tulu 3: Pushing frontiers in open language model post-training, CoRR】和格式遵守等通用任务也很有用。精心设计的基于规则的奖励可以高精度地评估模型输出的正确性,防止奖励 hacking 等问题。
2. 带参考答案的基于模型的奖励 (Model-based Reward with Reference Answer):在这种方法中,为每个查询提供一个参考答案,并提示Qwen2.5-72B-Instruct根据此参考答案对模型的响应进行评分。这种方法可以更灵活地处理多样化的任务,而无需严格的格式要求,避免了纯粹基于规则的奖励可能出现的假阴性。
3. 无参考答案的基于模型的奖励 (Model-based Reward without Reference Answer):利用人类偏好数据,训练了一个奖励模型来为模型响应分配标量分数。这种不依赖于参考答案的方法可以处理更广泛的查询,同时有效地增强模型的吸引力和有用性。

4.5 强到弱蒸馏(Strong-to-Weak Distillation)

蒸馏流程设计。强到弱蒸馏流程专为优化轻量级模型而设计,包括5个密集模型(Qwen3-0.6B、1.7B、4B、8B和14B)和一个MoE模型(Qwen3-30B-A3B)。该方法在提升模型性能的同时,有效地赋予了其强大的模式切换能力。蒸馏过程分为两个主要阶段:
1. 离策略蒸馏 (Off-policy Distillation):在初始阶段,将教师模型在/think/no think两种模式下生成的输出结合起来进行响应蒸馏。这有助于轻量级学生模型发展基本的推理技能和在不同思考模式间切换的能力,为下一阶段的在策略训练奠定坚实的基础。
2. 在策略蒸馏 (On-policy Distillation):在此阶段,学生模型生成在策略序列用于微调。具体来说,采样提示,然后学生模型以/think/no think模式产生响应。接着,通过将其logits与教师模型(Qwen3-32B或Qwen3-235B-A22B)的logits对齐来微调学生模型,以最小化KL散度。

A4 实验环境

模型架构
- 密集模型:Qwen3-0.6B, Qwen3-1.7B, Qwen3-4B, Qwen3-8B, Qwen3-14B, Qwen3-32B。具体参数(如隐藏层大小、注意力头数量等)见表1。
- MoE模型:Qwen3-30B-A3B, Qwen3-235B-A22B。旗舰模型Qwen3-235B-A22B总参数235B,激活参数22B,共128个专家,激活8个。具体参数见表2。

数据集
- 预训练
- 规模:总计36万亿tokens,覆盖119种语言和方言。
- 来源:高质量的编码、STEM、推理任务、书籍、多语言文本和合成数据。通过Qwen2.5-VL从PDF文档中提取文本,并使用Qwen2.5-Math和Qwen2.5-Coder生成合成数据进行扩充。
- 预训练评估基准
- 通用任务:MMLU, MMLU-Pro, MMLU-redux, BBH, SuperGPQA。
- 数学与STEM:GPQA, GSM8K, MATH。
- 编码任务:EvalPlus, MultiPL-E, MBPP-3shot, CRUX-O。
- 多语言任务:MGSM, MMMLU, INCLUDE。
- 后训练评估基准
- 通用任务:MMLU-Redux, GPQA-Diamond, C-Eval, LiveBench。
- 对齐任务:IFEval, Arena-Hard, AlignBench v1.1, Creative Writing V3, WritingBench。
- 数学与文本推理:MATH-500, AIME’24, AIME’25, ZebraLogic, AutoLogi。
- Agent与编码:BFCL v3, LiveCodeBench (v5), Codeforces Ratings。
- 多语言任务:Multi-IF, INCLUDE, MMMLU, MT-AIME2024, PolyMath, MlogiQA。
- 长上下文能力:RULER。
- 内部基准:CounterFactQA, LengthCtrl, ThinkFollow, ToolUse。

硬件与软件配置
- 报告中未明确提供具体的硬件配置(如GPU型号/数量、CPU型号等)和软件配置(如操作系统、具体代码库版本等)。

A4 实验结果

预训练评估结果(3.3节)

预训练模型在通用知识、推理、数学、科学知识、编码和多语言能力等15个基准上进行了全面评估。

  • Qwen3-235B-A22B-Base (旗舰MoE模型)

    • 实验内容:与Llama-4-Maverick-Base, DeepSeek-V3-Base, Qwen2.5-72B-Base等领先开源模型进行对比。
    • 实验结果:在大多数基准上取得了最高分(见表3)。尽管总参数量和激活参数量远少于DeepSeek-V3-Base,但在15个基准中的14个上表现更优。与参数量两倍的Llama-4-Maverick-Base相比,在多数基准上仍有优势。与前代旗舰模型Qwen2.5-72B-Base相比,以不到1/3的激活参数在所有基准上超越对方。
    • 结论:Qwen3旗舰基础模型展示了卓越的性能和成本效益,证明了其在预训练数据、训练策略和模型架构上的显著优势。
  • Qwen3-32B-Base (旗舰密集模型)

    • 实验内容:与Gemma-3-27B, Qwen2.5-32B, Llama-4-Scout以及参数量更大的Qwen2.5-72B-Base进行对比。
    • 实验结果:在多数基准上优于同尺寸模型(见表4)。令人惊讶的是,尽管参数量不到Qwen2.5-72B-Base的一半,但在15个基准中的10个上超越了它,尤其在编码、数学和推理任务上优势明显。
    • 结论:Qwen3-32B-Base实现了性能上的飞跃,可以用更小的模型规模达到甚至超过前代更大模型的水平。
  • Qwen3-14B-Base & Qwen3-30B-A3B-Base

    • 实验内容:与Gemma-3-12B, Qwen2.5-14B, Qwen2.5-Turbo, Qwen2.5-32B-Base进行对比。
    • 实验结果:Qwen3-14B-Base在所有15个基准上显著优于同尺寸模型(见表5)。Qwen3-30B-A3B-Base以仅1/5的激活非嵌入参数,在所有任务上超越Qwen2.5-14B-Base,并达到与Qwen3-14B-Base和Qwen2.5-32B-Base相当的性能。
    • 结论:Qwen3中等规模模型表现出强大的竞争力,MoE架构在推理和训练成本上带来了巨大优势。
  • Qwen3-8B/4B/1.7B/0.6B-Base (端侧模型)

    • 实验内容:与相应尺寸的Qwen2.5, Llama-3, Gemma-3基础模型对比。
    • 实验结果:Qwen3的小尺寸模型在几乎所有基准上都保持了强劲性能(见表6-8)。Qwen3-8B/4B/1.7B-Base在超过一半的基准上甚至优于尺寸更大的Qwen2.5-14B/7B/3B-Base模型,尤其在STEM和编码任务上。
    • 结论:Qwen3的小模型系列性能提升显著,反映了Qwen3整体的改进。

后训练评估结果(4.6节)

后训练模型在思考(Thinking)和非思考(Non-thinking)两种模式下进行了评估。

  • Qwen3-235B-A22B (旗舰模型)

    • 实验内容:在思考模式下与OpenAI-o1, DeepSeek-R1等推理模型对比;在非思考模式下与GPT-4o, DeepSeek-V3等通用模型对比。
    • 实验结果
      • 思考模式:在23个基准中的17个上超越DeepSeek-R1,特别是在数学、Agent和编码等需要推理的任务上,性能达到开源模型SOTA水平,并与OpenAI-o1等闭源模型高度可比(见表11)。
      • 非思考模式:超越了包括DeepSeek-V3, LLaMA-4-Maverick在内的其他领先开源模型,并在23个基准中的18个上超越了GPT-4o-2024-11-20(见表12)。
    • 结论:Qwen3旗舰模型在两种模式下均展示了顶级的综合能力,极大地缩小了开源模型与闭源模型在推理能力上的差距。
  • Qwen3-32B (旗舰密集模型)

    • 实验内容:在思考模式下与OpenAI-o3-mini, QwQ-32B等对比;在非思考模式下与GPT-4o-mini, LLaMA-4-Scout, Qwen2.5-72B-Instruct对比。
    • 实验结果
      • 思考模式:在23个基准中的17个上超越了QwQ-32B,成为32B尺寸下新的SOTA推理模型(见表13)。
      • 非思考模式:在几乎所有基准上都优于基线模型,与Qwen2.5-72B-Instruct在通用任务上持平,但在对齐、多语言和推理相关任务上优势显著(见表14)。
    • 结论:Qwen3-32B以更小的模型尺寸,在性能上全面超越了前代旗舰模型Qwen2.5-72B-Instruct。
  • 轻量级模型 (Qwen3-30B-A3B, 14B, 8B, 4B, 1.7B, 0.6B)

    • 实验内容:与相应尺寸或更大尺寸的开源模型进行对比。
    • 实验结果:所有轻量级模型,无论在思考还是非思考模式下,其性能均持续优于参数量相近甚至更多的基线模型(见表15-20)。例如,Qwen3-30B-A3B以不到QwQ-32B十分之一的激活参数,达到了与之相当的性能。
    • 结论:强到弱蒸馏方法取得了巨大成功,使得以显著降低的成本和努力构建高性能的轻量级Qwen3模型成为可能。

A7 补充细节

4.7 讨论

思考预算的有效性。为了验证Qwen3是否可以通过增加思考预算来提升其智能水平,在数学、编码和STEM领域的四个基准上调整了分配的思考预算。结果如图2所示,Qwen3的性能随着分配的思考预算增加而呈现出可扩展且平滑的提升。此外,研究观察到,如果将输出长度进一步扩展到32K以上,模型的性能有望在未来得到进一步提升,但这部分探索将作为未来工作。


图2:Qwen3-235B-A22B的性能随思考预算的变化情况。

在策略蒸馏的有效性和效率。通过比较从同一个离策略蒸馏的8B检查点开始,分别进行蒸馏与直接强化学习后的性能和计算成本(以GPU小时衡量),来评估在策略蒸馏的有效性和效率。为简化比较,此部分仅关注数学和代码相关的查询。如表21所示,蒸馏方法在性能上显著优于强化学习,同时所需GPU小时仅为后者的约1/10。此外,来自教师logits的蒸馏使学生模型能够扩展其探索空间并增强其推理潜力,这体现在AIME'24和AIME'25基准测试中,经过蒸馏后的pass@64分数相较于初始检查点有所提高。相比之下,强化学习并未带来pass@64分数的任何提升。这些观察结果凸显了利用更强教师模型指导学生模型学习的优势。


表21:Qwen3-8B上强化学习与在策略蒸馏的比较。括号中的数字表示pass@64分数。

思考模式融合与通用RL的效果。为了评估后训练过程中思考模式融合和通用强化学习(RL)的有效性,对Qwen-32B模型不同阶段进行了评估。除之前提到的数据集外,还引入了几个内部基准来监控其他能力,包括:
* CounterFactQA:包含反事实问题,模型需要识别问题非事实并避免产生幻觉答案。
* LengthCtrl:包含有长度要求的创意写作任务;最终得分基于生成内容长度与目标长度的差异。
* ThinkFollow:涉及随机插入/think/no think标志的多轮对话,测试模型是否能根据用户查询正确切换思考模式。
* ToolUse:评估模型在单轮、多轮和多步工具调用过程中的稳定性。得分包括意图识别准确率、格式准确率和工具调用过程中的参数准确率。


表22:Qwen3-32B在推理RL(阶段2)、思考模式融合(阶段3)和通用RL(阶段4)后的性能。带*的基准为内部数据集。

实验结论。结果如表22所示,可以得出以下结论:
1. 阶段3(思考模式融合) 将非思考模式集成到模型中。ThinkFollow基准得分为88.7,表明模型已初步具备模式切换能力。该阶段还增强了模型在思考模式下的通用和指令遵循能力,CounterFactQA提升10.9分,LengthCtrl提升8.0分。
2. 阶段4(通用RL) 进一步加强了模型在两种模式下的通用、指令遵循和Agent能力。值得注意的是,ThinkFollow得分提高到98.9,确保了模式切换的准确性。
3. 性能权衡。对于知识、STEM、数学和编码任务,思考模式融合和通用RL并未带来显著提升。相反,对于像AIME’24和LiveCodeBench这样的挑战性任务,思考模式下的性能在这两个训练阶段后反而有所下降。推测这种退化是由于模型在更广泛的通用任务上进行训练,可能会损害其处理复杂问题的专业能力。在Qwen3的开发过程中,选择接受这种性能权衡,以增强模型的整体通用性。

A5 结论

本技术报告介绍了Qwen系列的最新版本Qwen3。Qwen3具备思考模式和非思考模式,允许用户动态管理用于复杂思考任务的token数量。该模型在一个包含36万亿token的广泛数据集上进行了预训练,使其能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在其预训练和后训练版本中,均在代码生成、数学、推理和Agent等一系列标准基准测试中表现出强大的性能。

在不久的将来,研究将集中在几个关键领域。将继续通过使用质量更高、内容更多样化的数据来扩大预训练规模。同时,将致力于改进模型架构和训练方法,以实现有效压缩、扩展到极长上下文等目标。此外,计划增加用于强化学习的计算资源,特别关注基于Agent的RL系统,这些系统能从环境反馈中学习,从而构建能够处理需要推理时扩展(inference time scaling)的复杂任务的Agent。

A6 附录

A.1 附加评估结果

A.1.1 长上下文能力

RULER基准评估。为了评估长上下文处理能力,在RULER基准【Hsieh et al., 2024, RULER: What’s the real context size of your long-context language models?, CoRR】上报告了结果,如表23所示。为实现长度外推,使用了YARN【Peng et al., 2023, YaRN: Efficient context window extension of large language models, CoRR】,缩放因子为4。在思考模式下,将思考预算设置为8192个token,以减轻在极长输入上过于冗长的推理。


表23:Qwen3模型在RULER基准上的性能。

结果分析。结果显示:
1. 在非思考模式下,Qwen3在长上下文处理任务中优于同等规模的Qwen2.5模型。
2. 在思考模式下,模型性能略有下降。推测思考内容对这些不依赖推理的检索任务没有提供显著益处,反而可能干扰了检索过程。我们致力于在未来版本中增强思考模式下的长上下文能力。

A.1.2 多语言能力

多语言基准测试。表24-35展示了在西班牙语、法语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、印度尼西亚语、俄语、越南语、德语和泰语等多种语言上的详细基准分数。这些表格的结果表明,Qwen3系列模型在所有评估的基准中都取得了有竞争力的性能,展示了其强大的多语言能力。

Belebele基准评估。为了评估Qwen3在更广泛语言范围内的性能,使用了Belebele【Bandarkar et al., 2023, The Belebele benchmark: A parallel reading comprehension dataset in 122 language variants, CoRR】这一自然语言理解基准。在基准支持的80种语言上进行了评估,排除了42种未优化的语言,如表36所示(按语系组织)。Qwen3与其他基线模型在Belebele基准上的性能比较见表37。结果显示,Qwen3取得了与同等规模Gemma模型相当的性能,同时显著优于Qwen2.5。

(由于篇幅限制,表24至表37的具体内容在此省略,但它们共同证明了Qwen3强大的多语言能力。)


表36:Qwen3在Belebele基准测试中支持的语系和语言代码。


表37:Qwen3与其他基线模型在Belebele基准测试中的性能比较。分数最高者以粗体显示,次高者带下划线。

方法细节中的引用汇总

以下是论文方法章节(第2、3、4节)中引用的参考文献及其在文中的作用说明:

  • 【Yang et al., 2024b, Qwen2.5 technical report, arXiv preprint arXiv:2412.15115】

    • 引用位置:第2节 架构;第3.1节 预训练数据;第3.2节 预训练阶段
    • 引用描述
      • 第2节:用于说明Qwen3密集模型的架构与Qwen2.5相似,并指出Qwen3 MoE模型沿用了Qwen2.5-MoE的设计。
      • 第3.1节:用于对比说明Qwen3在训练数据规模和多样性上相较于Qwen2.5的扩展,并指出用于数据精炼和合成的Qwen2.5模型。
      • 第3.2节:用于说明Qwen3在长上下文阶段沿用了Qwen2.5的RoPE基础频率调整方法,并提到Qwen3同样为超参数预测建立了缩放定律。
  • 【Ainslie et al., 2023, GQA: Training generalized multi-query Transformer models from multi-head checkpoints, EMNLP】

    • 引用位置:第2节 架构
    • 引用描述:作为Qwen3密集模型采用的核心技术之一(分组查询注意力 GQA)被引用。
  • 【Dauphin et al., 2017, Language modeling with gated convolutional networks, ICML】

    • 引用位置:第2节 架构
    • 引用描述:作为Qwen3密集模型采用的核心技术之一(SwiGLU)被引用。
  • 【Su et al., 2024, Roformer: Enhanced Transformer with rotary position embedding, Neurocomputing】

    • 引用位置:第2节 架构
    • 引用描述:作为Qwen3密集模型采用的核心技术之一(旋转位置嵌入 RoPE)被引用。
  • 【Jiang et al., 2023, Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and efficient pre-LN Transformers, CoRR】

    • 引用位置:第2节 架构
    • 引用描述:作为Qwen3密集模型采用的核心技术之一(RMSNorm)被引用。
  • 【Yang et al., 2024a, Qwen2 technical report, CoRR】

    • 引用位置:第2节 架构
    • 引用描述:用于说明Qwen3架构移除了Qwen2中使用的QKV偏置。
  • 【Dehghani et al., 2023, Scaling vision transformers to 22 billion parameters, ICML】

    • 引用位置:第2节 架构
    • 引用描述:作为Qwen3为保证训练稳定性而在注意力机制中引入的新技术(QK-Norm)被引用。
  • 【Dai et al., 2024, DeepSeekMoE: Towards ultimate expert specialization in mixture-of-experts language models, CoRR】

    • 引用位置:第2节 架构
    • 引用描述:用于说明Qwen3 MoE模型实现了细粒度专家分割。
  • 【Qiu et al., 2025, Demons in the detail: On implementing load balancing loss for training specialized mixture-of-expert models, CoRR】

    • 引用位置:第2节 架构
    • 引用描述:用于说明Qwen3 MoE模型采用了全局批量负载均衡损失来鼓励专家特化。
  • 【Bai et al., 2023, Qwen technical report, CoRR】

    • 引用位置:第2节 架构
    • 引用描述:用于说明Qwen3模型使用的分词器来源。
  • 【Brown et al., 2020, Language models are few-shot learners, NeurIPS; Wang et al., 2020, Neural machine translation with byte-level subwords, AAAI; Sennrich et al., 2016, Neural machine translation of rare words with subword units, ACL】

    • 引用位置:第2节 架构
    • 引用描述:这三篇文献共同作为Qwen分词器所实现的字节级字节对编码(BBPE)技术的参考文献。
  • 【Bai et al., 2025, Qwen2.5-VL technical report, arXiv preprint arXiv:2502.13923】

    • 引用位置:第3.1节 预训练数据
    • 引用描述:用于说明使用Qwen2.5-VL模型从PDF文档中进行文本识别,以扩充预训练数据。
  • 【Yang et al., 2024c, Qwen2.5-Math technical report: Toward mathematical expert model via self-improvement, CoRR】

    • 引用位置:第3.1节 预训练数据
    • 引用描述:用于说明使用Qwen2.5-Math模型合成数学相关的预训练数据。
  • 【Hui et al., 2024, Qwen2.5-Coder technical report, CoRR】

    • 引用位置:第3.1节 预训练数据
    • 引用描述:用于说明使用Qwen2.5-Coder模型合成代码相关的预训练数据。
  • 【Xie et al., 2023, Doremi: Optimizing data mixtures speeds up language model pretraining, NeurIPS; Fan et al., 2023, DoGE: Domain reweighting with generalization estimation, arXiv preprint arXiv:2310.15393; Liu et al., 2024b, RegMix: Data mixture as regression for language model pre-training, arXiv preprint arXiv:2407.01492】

    • 引用位置:第3.1节 预训练数据
    • 引用描述:作为先前在数据源或领域级别优化数据混合的研究工作的代表被引用,以凸显Qwen3在实例级别进行优化的不同。
  • 【Xiong et al., 2023, Effective long-context scaling of foundation models, CoRR】

    • 引用位置:第3.2节 预训练阶段
    • 引用描述:用于说明在长上下文阶段,使用ABF技术来调整RoPE的基础频率。
  • 【Peng et al., 2023, YaRN: Efficient context window extension of large language models, CoRR】

    • 引用位置:第3.2节 预训练阶段
    • 引用描述:作为在推理时扩展序列长度容量而引入的技术(YARN)被引用。
  • 【An et al., 2024, Training-free long-context scaling of large language models, CoRR】

    • 引用位置:第3.2节 预训练阶段
    • 引用描述:作为在推理时扩展序列长度容量而引入的技术(双块注意力 DCA)被引用。
  • 【Qwen Team, 2025, QwQ-32B: Embracing the power of reinforcement learning, Qwen Blog】

    • 引用位置:第4.1节 长思维链(Long-CoT)冷启动
    • 引用描述:用于说明在构建Long-CoT冷启动数据集时,使用QwQ-32B模型为查询生成候选响应。
  • 【Shao et al., 2024, DeepSeekMath: Pushing the limits of mathematical reasoning in open language models, CoRR】

    • 引用位置:第4.2节 推理强化学习
    • 引用描述:作为在推理RL阶段用于更新模型参数的算法(GRPO)被引用。
  • 【Lambert et al., 2024, Tulu 3: Pushing frontiers in open language model post-training, CoRR】

    • 引用位置:第4.4节 通用强化学习
    • 引用描述:用于说明基于规则的奖励在通用任务(如指令遵循)中的有效性。