Gemini 3 Pro Model Card

Gemini 3 Pro 模型卡

发布 / 模型发布日期: 2025年11月

A1 主要贡献

Gemini 3 Pro是Gemini系列模型的下一代产品,是一套功能强大、原生多模态、具备推理能力的高级模型套件。作为谷歌目前最先进的模型,Gemini 3 Pro旨在处理复杂任务,能够理解和处理来自文本、音频、图像、视频以及完整代码库等不同信息源的海量数据集和挑战性问题。

研究目标与核心能力:该模型的目标是成为一个更智能、适应性更强的模型,能够帮助解决现实世界中的复杂问题,特别是那些需要增强推理能力、智能、创造力、战略规划和逐步改进能力的任务。

核心创新与适用场景
* 原生多模态能力:能够直接处理和理解文本、图像、音频和视频文件。
* 超长上下文窗口:支持高达100万个token的上下文输入窗口,输出窗口为64K个token。
* 先进的模型架构:采用稀疏专家混合(MoE)的Transformer架构,在不增加每个token计算成本的情况下,扩展了模型总容量。
* 强化学习与复杂推理:通过强化学习技术进行训练,利用了多步推理、问题解决和定理证明数据。
* 特定应用优势:特别适用于需要代理性能、高级编码、长上下文和/或多模态理解、以及算法开发的应用。

A3 背景知识与设计原则

模型信息

  • 模型描述 Gemini 3 Pro是Gemini系列模型的下一代产品,是一套功能强大、原生多模态、具备推理能力的高级模型套件。Gemini 3 Pro现已成为谷歌用于处理复杂任务的最先进模型,能够理解来自文本、音频、图像、视频和整个代码库等不同信息源的庞大数据集和具有挑战性的问题。

  • 模型依赖 该模型不是对先前模型的修改或微调。

  • 模型输入 模型接受文本字符串(例如,问题、提示、待摘要的文档)、图像、音频和视频文件,其token上下文窗口最高可达100万。

  • 模型输出 模型输出为文本,输出token数量最高可达64K。

  • 模型架构 Gemini 3 Pro是一个基于Transformer(【Vaswani et al., 2017】)的稀疏专家混合(MoE)模型(【Clark et al., 2022】; 【Du et al., 2021】; 【Fedus et al., 2021】; 【Jiang et al., 2024】; 【Lepikhin et al., 2020】; 【Riquelme et al., 2021】; 【Roller et al., 2021】; 【Shazeer et al., 2017】),原生支持文本、视觉和音频输入的多模态。稀疏MoE模型通过学习将token动态路由到参数子集(专家),从而为每个输入token激活模型参数的一个子集;这使得它们能够将模型的总容量与每个token的计算和服务器成本解耦。模型架构的改进为性能相较于前代模型家族的显著提升做出了贡献。

模型数据

  • 训练数据集 预训练数据集是一个大规模、多样化的数据集合,涵盖了广泛的领域和模态,其中包括公开可用的网络文档、文本、代码、图像、音频(包括语音和其他音频类型)和视频。后训练数据集包括不同类型的指令微调数据、强化学习数据和人类偏好数据。Gemini 3 Pro使用强化学习技术进行训练,这些技术可以利用多步推理、问题解决和定理证明数据。

  • 训练数据集来源 训练数据集还包括:可随时下载的公开可用数据集;通过爬虫获得的数据;通过商业许可协议获得的授权数据;根据谷歌相关服务条款、隐私政策、服务特定政策并在适当情况下根据用户控制,从谷歌产品和服务用户那里收集的用于训练AI模型的数据(即用户数据),以及用户与模型的交互数据;谷歌在其业务运营过程中或直接从其员工处获取或生成的其他数据集;以及AI生成的合成数据。

  • 训练数据处理 数据过滤和预处理包括了多种技术,例如去重、遵守robots.txt协议、符合谷歌致力于安全负责地推进AI承诺的安全过滤,以及旨在降低风险和提高训练数据可靠性的质量过滤。数据收集后,会进行清洗和预处理,使其适合训练。根据具体情况,此过程涉及过滤不相关或有害的内容、文本和其他模态,包括过滤色情、暴力或违反儿童性虐待材料(CSAM)法律的内容。

A4 实验环境

  • 硬件配置:Gemini 3 Pro使用谷歌的张量处理单元(TPUs)进行训练。TPUs是专门为处理训练大语言模型(LLMs)所涉及的大规模计算而设计的,与CPU相比可以显著加快训练速度。TPUs通常配备大量高带宽内存,允许在训练期间处理大型模型和批量大小,从而可能带来更好的模型质量。TPU Pods(大型TPU集群)也为处理日益复杂的大型基础模型提供了可扩展的解决方案。训练可以分布在多个TPU设备上,以实现更快、更高效的处理。通过使用TPUs获得的效率符合谷歌可持续运营的承诺。

  • 软件配置:训练使用了JAX和ML Pathways。

A4 实验结果

  • 评估方法:Gemini 3 Pro在一系列基准测试中进行了评估,包括推理、多模态能力、代理工具使用、多语言性能和长上下文。关于评估方法、结果及其方法论的更多基准和详细信息可以在 http://deepmind.com/models/evals-methodology/gemini-3-pro 中找到。

  • 实验结果:在需要增强推理和多模态能力的多个基准测试中,Gemini 3 Pro显著优于Gemini 2.5 Pro。截至2025年11月的结果如下表所示。从表中可以看出,Gemini 3 Pro在Humanity's Last Exam、AIME 2025、MMMU-Pro、Vending-Bench 2等多个测试集上取得了远超Gemini 2.5 Pro、Claude Sonnet 4.5以及GPT-5.1的性能。特别是在AIME 2025数学竞赛基准上,借助代码执行工具,Gemini 3 Pro达到了100%的准确率。

各模型在不同基准测试上的性能对比
各模型在不同基准测试上的性能对比

A7 补充细节

预期用途与局限性

  • 益处与预期用途 Gemini 3 Pro是我们迄今为止最智能、适应性最强的模型,能够帮助处理现实世界的复杂性,解决需要增强推理能力和智能、创造力、战略规划以及逐步改进的问题。它特别适用于需要代理性能、高级编码、长上下文和/或多模态理解,以及/或算法开发的应用。

  • 已知局限性 Gemini 3 Pro可能表现出基础模型的一些普遍局限性,例如产生幻觉。也可能偶尔出现响应缓慢或超时的问题。Gemini 3 Pro的知识截止日期为2025年1月。

  • 可接受用途 谷歌的《生成式AI禁止使用政策》适用于根据相关服务条款使用该模型的场景。此外,该模型不应被集成到某些系统中(同样在谷歌的《生成式AI禁止使用政策》中规定),包括那些:(1) 从事危险或非法活动,或以其他方式违反适用法律法规的系统;(2) 损害他人或谷歌服务安全的系统;(3) 从事色情、暴力、仇恨或有害活动的系统;(4) 从事错误信息、失实陈述或误导性活动的系统。

伦理与内容安全

  • 评估方法 Gemini 3 Pro是与内部的安全、安保和责任团队合作开发的。我们进行了一系列的评估和红队测试活动,以帮助改进模型并为决策提供信息。这些评估和活动符合谷歌的AI原则和负责任的AI方法,以及谷歌的生成式AI政策(例如《生成式AI禁止使用政策》和《Gemini API附加服务条款》)。评估类型包括但不限于:

    • 训练/开发评估:在模型训练期间和之后持续进行的自动化和人工评估,以监控其进展和性能;
    • 人类红队测试:由模型开发团队之外的专家团队进行,针对各项政策和期望进行测试,故意寻找弱点并确保模型遵守安全政策和预期结果;
    • 自动化红队测试:大规模地动态评估Gemini的安全和安保考量,补充人类红队测试和静态评估;
    • 伦理与安全审查:在模型发布前进行。
  • 安全策略 Gemini的安全策略旨在防止我们的生成式AI模型生成有害内容,包括:

    1. 与儿童性虐待材料和剥削相关的内容
    2. 仇恨言论(例如,对受保护群体的成员进行非人化描述)
    3. 危险内容(例如,宣传自杀,或指导可能导致现实世界伤害的活动)
    4. 骚扰(例如,鼓励对他人施暴)
    5. 色情内容
    6. 与科学或医学共识相悖的医疗建议
  • 训练与开发评估结果 在开发阶段进行的一些内部安全评估的结果如下所列。评估结果是自动化评估的结果,不包括人类评估或红队测试。分数表示与指定模型相比性能的绝对百分比增加或减少。总体而言,Gemini 3 Pro在安全性和语气方面均优于Gemini 2.5 Pro,同时保持了较低的不合理拒绝率。我们用绿色标记改进,用红色标记退步。我们持续改进内部评估,包括优化自动化评估以减少假阳性和假阴性,以及更新查询集以确保平衡并保持高标准的结果。下文报告的性能结果是使用改进后的评估计算得出的,因此不能与之前Gemini模型卡中的性能结果直接比较。我们预计自动化安全评估结果会出现波动,因此我们会审查被标记的内容以检查是否存在恶劣或危险的材料。我们的人工审查确认,性能下降的案例绝大多数是a) 假阳性或b) 非恶劣情况。

Gemini 3 Pro与Gemini 2.5 Pro的安全评估对比
Gemini 3 Pro与Gemini 2.5 Pro的安全评估对比
  • 人类红队测试结果 我们由模型开发团队之外的专家团队进行人工红队测试。高层次的发现会反馈给模型团队。对于儿童安全评估,Gemini 3 Pro满足了必要的发布门槛,这些门槛由专家团队制定,旨在保护儿童在线安全并履行谷歌对我们模型和谷歌产品中儿童安全的承诺。对于包括儿童安全在内的内容安全政策,我们观察到与Gemini 2.5 Pro相比,安全性能相似或有所提高。与2.5 Pro相比,红队测试的范围扩大到覆盖我们严格政策之外更多潜在问题,并且没有发现恶劣的问题。

  • 风险与缓解措施 安全和责任在Gemini 3 Pro的整个训练和部署生命周期中都被内置其中,包括预训练、后训练和产品层面的缓解措施。缓解措施包括但不限于:

    • 数据集过滤;
    • 有条件的预训练;
    • 监督式微调;
    • 基于人类和评论家反馈的强化学习;
    • 安全政策和期望;
    • 产品层面的缓解措施,如安全过滤。
      Gemini 3 Pro的主要风险是:a) 越狱漏洞(与Gemini 2.5 Pro相比有所改进,但仍是一个开放的研究问题),以及b) 在多轮对话中可能出现的性能下降。

前沿安全

  • 评估框架与结果 我们根据最新的《前沿安全框架》(2025年9月)对Gemini 3 Pro进行了评估,发现它没有达到下表中概述的任何关键能力级别(critical capability levels, CCL)。
Gemini 3 Pro的前沿安全评估结果
Gemini 3 Pro的前沿安全评估结果

A5 结论

Gemini 3 Pro模型卡展示了其作为谷歌下一代旗舰模型的强大能力。它在推理、多模态理解、长上下文处理和代码生成等多个方面相较于前代模型和其他业界领先模型均有显著提升。该模型在设计、训练和部署的全流程中都集成了全面的安全与伦理考量,并通过了严格的内部评估、红队测试以及前沿安全框架的检验,结果表明其在受控范围内,未达到任何关键风险能力级别。尽管如此,模型仍然存在如幻觉、越狱漏洞等基础模型的固有局限性,这些仍是未来需要持续研究和解决的挑战。