作者/机构: Gemini Team, Google

A1 主要贡献

本文介绍了Gemini 1.5模型系列，这是一个新一代的高计算效率多模态模型家族。其核心研究目标是突破现有大语言模型（LLM）在上下文长度上的限制，实现对数百万词元（tokens）级别的长上下文进行细粒度的信息回忆与推理。

核心问题与创新点：
1. 超长上下文处理能力：Gemini 1.5系列模型能够处理至少1000万词元的上下文，这在当代LLM中是前所未有的，远超Claude 3.0（20万）和GPT-4 Turbo（12.8万）。这一能力使得模型可以一次性处理整套文档集、数小时的视频和近五天时长的音频。
2. 高效率与高性能的结合：通过在稀疏和密集扩展、训练、蒸馏及服务基础设施方面的创新，Gemini 1.5 Pro在性能上超越了前代Gemini 1.0 Pro和1.0 Ultra，同时训练所需的计算量显著减少。其轻量级变体Gemini 1.5 Flash在效率更高的同时，性能也超越了1.0 Pro，并在多个基准上与1.0 Ultra相当。
3. 近乎完美的跨模态长上下文检索：在“大海捞针”式的合成测试中，Gemini 1.5 Pro在文本、视频和音频三种模态下，均能在高达100万词元的上下文中实现超过99.7%的“针”信息召回率，并将这一高性能维持到1000万词元的文本上下文中。

图1 | Gemini 1.5 Pro在所有模态（文本、视频和音频）中，在高达1M词元的“干草堆”中实现了近乎完美的“针”召回率（>99.7%）。在文本模态中，它甚至在扩展到10M词元（约700万单词）时仍保持了这种召回性能；音频模态为9.7M词元（长达107小时）；视频模态为9.9M词元（长达10.5小时）。x轴表示上下文窗口，y轴表示在给定上下文长度中放置“针”的深度百分比。结果用颜色编码表示：绿色表示成功检索，红色表示不成功。请注意，所有模态的性能都是使用之前报告的2024年2月版Gemini 1.5 Pro获得的。

4. 在现实世界长上下文任务中达到SOTA：在长文档问答（QA）、长视频QA和长上下文自动语音识别（ASR）等任务上，Gemini 1.5 Pro的表现优于所有竞争模型，即使这些模型配备了外部检索方法。
5. 涌现出的新能力：上下文语言学习：当模型在上下文中获得一种全球仅有不到200人使用的巴布亚语言——卡拉芒语（Kalamang）的教学材料（一本500页的语法书、一本词典和约400个平行句子）时，Gemini 1.5 Pro和Flash能够学会将英语翻译成卡拉芒语，其翻译质量与从相同材料中学习的人类相当。这是首次证明LLM可以利用混合模态文档（包括45分钟的卡拉芒语录音）在上下文中学习一门新语言的语音识别。
6. 核心能力未受影响：超长上下文能力的提升并未牺牲模型的核心多模态能力。与Gemini 1.0系列相比，Gemini 1.5 Pro和Flash在数学、科学、推理、多语言、视频理解、代码和函数调用等核心能力上均有显著提升，如表1和表2所示。Gemini 1.5 Pro在超过一半的基准测试中优于1.0 Ultra。

模型对比概览：
- 表1 & 表2：展示了Gemini 1.5 Pro和1.5 Flash相较于Gemini 1.0家族的胜率。数据显示，即使上下文窗口增加，新模型仍保持高水平性能。1.5 Pro在50项评估中有44项优于1.0 Pro，在45项评估中有35项优于1.0 Ultra。1.5 Flash在50项评估中有41项优于1.0 Pro，并在视觉基准上表现优于1.0 Ultra。

表1 | Gemini 1.5 Pro与2024年2月发布的Gemini 1.5 Pro以及Gemini 1.0家族的胜率对比。Gemini 1.5 Pro即使在上下文窗口增加的情况下也保持了高水平的性能。详细结果见表10。* 在语音识别中，普遍认为任何在3%相对范围内的词错误率（WER）差异不具有统计显著性，可视为噪音，我们将此类情况归为最新系统的胜利。

表2 | Gemini 1.5 Flash与Gemini 1.0家族的胜率对比。Gemini 1.5 Flash虽然更小、更高效、服务速度更快，但即使在上下文窗口增加的情况下也保持了高水平的性能。详细结果见表10。

A3 改进版的Gemini 1.5 Pro

持续迭代与性能提升 自2024年2月首次发布以来，Gemini 1.5 Pro经历了一系列的预训练和后训练迭代。这些迭代使得模型在各种能力上都取得了显著的性能提升。与先前版本的1.5 Pro相比，我们在评估中平均观察到超过10%的相对改进。

具体基准测试提升 图2展示了在一系列基准测试中的性能亮点。在推理基准上，1.5 Pro在MATH【Hendrycks et al., Measuring mathematical problem solving with the MATH dataset, 2021b】上的性能从58.5%提升至67.7%，在GPQA【Rein et al., Gpqa: A graduate-level google-proof q&a benchmark, 2023】上得分从41.5%提升至46.2%。我们在多模态任务上也看到了类似的情况，1.5 Pro在所有图像理解基准和大多数视频理解基准上都有所改进；在MathVista【Lu et al., Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts, 2023】上，Gemini 1.5 Pro的性能从52.1%提升至63.9%，在InfographicVQA【Mathew et al., Infographicvqa, 2022】上从72.7%提升至81.0%，在EgoSchema【Mangalam et al., EgoSchema: A diagnostic benchmark for very long-form video language understanding, 2023】上从65.1%提升至72.2%。Gemini 1.5 Pro目前在多个多模态基准上取得了最先进的结果，包括AI2D、MathVista、ChartQA、DocVQA、InfographicVQA和EgoSchema。

Gemini 1.5 Pro在基准测试中的改进（2024年2月至5月）图2 | Gemini 1.5 Pro（2024年5月）与初始版本（2024年2月）在多个基准测试上的比较。最新的Gemini 1.5 Pro在所有推理、编码、视觉和视频基准上均有改进；音频和翻译性能保持中立。请注意，对于FLEURS，分数越低越好。

A2 方法细节

3. 模型架构

3.1. Gemini 1.5 Pro

稀疏混合专家（MoE）架构 Gemini 1.5 Pro是一款基于Transformer的稀疏混合专家（MoE）模型，它建立在Gemini 1.0【Gemini-Team et al., Gemini: a family of highly capable multimodal models, 2023】的研究进展和多模态能力之上。Gemini 1.5 Pro也借鉴了Google在MoE领域的长期研究历史（【Clark et al., Unified scaling laws for routed language models, 2022】、【Du et al., GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2022】、【Fedus et al., Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity, 2021】、【Lepikhin et al., GShard: Scaling giant models with conditional computation and automatic sharding, 2020】、【Riquelme et al., Scaling vision with sparse mixture of experts, 2021】、【Shazeer et al., Outrageously large neural networks: The sparsely-gated mixture-of-experts layer, 2017】、【Zoph et al., Designing effective sparse expert models, 2022】）以及更广泛的语言模型研究文献。MoE模型使用一个学习到的路由函数将输入引导到模型参数的一个子集进行处理。这种形式的条件计算（【Bengio et al., Estimating or propagating gradients through stochastic neurons for conditional computation, 2013】、【Davis and Arel, Low-rank approximations for conditional feedforward computation in deep neural networks, 2014】、【Jacobs et al., Adaptive mixtures of local experts, 1991】）允许模型增加其总参数数量，同时保持对任何给定输入激活的参数数量恒定。

长上下文能力与效率 横跨几乎整个模型技术栈（架构、数据、优化和系统）的一系列改进，使得Gemini 1.5 Pro能够达到与Gemini 1.0 Ultra相当的质量（见第6节），同时使用的训练计算量显著减少，服务效率也显著提高。Gemini 1.5 Pro还进行了一系列重大的架构变革，使其能够理解长达1000万词元的输入而性能不下降。转化为现实世界的数据，这种上下文长度使得Gemini 1.5 Pro模型能够轻松处理近五天的音频录音（即107小时）、超过1440页书籍《战争与和平》（587,287词）的十倍以上内容、整个Flax【Heek et al., Flax: A neural network library and ecosystem for JAX, 2023】代码库（41,070行代码），或以每秒1帧的速度处理10.5小时的视频。此外，由于该模型是原生多模态的，并支持不同模态数据的交错输入，它可以在同一输入序列中支持音频、视觉、文本和代码的混合输入。在第5.1节中，我们重点介绍这些进步所带来的新颖能力，包括在长达1000万词元的上下文长度上取得积极结果的评估。我们注意到，理解这些能力的极限并研究其激动人心的能力和应用仍然是一个持续研究探索的领域。

3.2. Gemini 1.5 Flash

高效轻量级设计 Gemini 1.5 Flash是一款Transformer解码器模型，具有与Gemini 1.5 Pro相同的超过200万词元的上下文和多模态能力，专为高效利用张量处理单元（TPU）而设计，具有较低的模型服务延迟。例如，Gemini 1.5 Flash并行计算注意力（attention）和前馈（feedforward）组件【Chowdhery et al., PaLM: Scaling Language Modeling with Pathways, 2023b】，并且是从更大的Gemini 1.5 Pro模型进行在线蒸馏（online distilled）【Agarwal et al., On-policy distillation of language models: Learning from self-generated mistakes, 2024b】、【Anil et al., Large scale distributed neural network training through online distillation, 2018】、【Beyer et al., Knowledge distillation: A good teacher is patient and consistent, 2021】、【Bucila et al., Model compression, 2006】、【Hinton et al., Distilling the knowledge in a neural network, 2015】得到的。它采用高阶预处理方法【Becker and LeCun, Improving the convergence of back-propagation learning with second-order methods, 1989】、【Duchi et al., Adaptive subgradient methods for online learning and stochastic optimization, 2011】、【Heskes, On “Natural” Learning and Pruning in Multilayered Perceptrons, 2000】进行训练，以提高质量。

3.3. 服务效率与延迟

延迟性能评估 除了服务超过200万词元的上下文外，Gemini 1.5模型被设计为在所有上下文长度下都具有高效率和低延迟。对于大多数查询，在Transformer推理期间，每个输出字符的时间主导了总请求延迟【Pope et al., Efficiently scaling transformer inference, 2023】，这对于使用链式提示和智能体工作流的应用来说会更加复杂。

多语言延迟测试 为了评估Gemini 1.5与其它基础模型API在多种语言上的延迟，我们报告了在英语、日语、中文和法语查询中每个输出字符的平均时间。延迟测量数据来自Gemini 1.5和Claude 3的Vertex AI流式API，以及GPT 3.5和GPT 4的OpenAI流式API。为了考虑流量负载的变化，我们计算了32个查询的每个输出字符的平均时间，并报告了32个请求中的最小值。

测试结果对比 在所有四种被评估的语言中，Gemini 1.5 Flash在所有模型中产生了最快的输出，而Gemini 1.5 Pro的生成速度也比GPT-4 Turbo、Claude 3 Sonnet和Claude 3 Opus快（见表3）。对于英语查询，Gemini 1.5 Flash每秒生成超过650个字符，比被评估模型中速度第二快的Claude 3 Haiku快30%以上。

表3 | 不同API在输入10,000个字符时，对英语、日语、中文和法语响应的每个输出字符的时间（毫秒）。Gemini 1.5 Flash在所有测试语言中实现了最快的输出生成。

4. 训练基础设施和数据集

训练硬件与数据集 与Gemini 1.0系列一样，Gemini 1.5模型在谷歌TPUv4加速器的多个4096芯片Pod上进行训练，这些Pod分布在多个数据中心，并使用了各种多模态和多语言数据。我们的预训练数据集包括来自许多不同领域的数据，如网络文档和代码，并包含了图像、音频和视频内容。在指令微调阶段，我们在一个包含配对指令和相应响应的多模态数据集合上对Gemini 1.5模型进行了微调，并根据人类偏好数据进行了进一步的调整。我们建议读者参考Gemini 1.0技术报告【Gemini-Team et al., Gemini: a family of highly capable multimodal models, 2023】以获取更多信息。

5. 评估结果

评估现有基准的局限性 现有评估方法正日益受到大型多模态模型新兴且快速发展能力的影响。这些评估通常侧重于单一模态和/或局限于上下文长度较短的任务。因此，越来越需要能够体现真实世界长混合模态用例细微需求的基准。其中，我们强调跨长混合模态序列的推理能力的量化评估是一个关键挑战。

三类评估方法 考虑到评估日益强大的模型的挑战，我们对Gemini 1.5系列的评估首先侧重于理解和评估其新颖的能力。随后，我们探索核心基准，涵盖了在Gemini 1.0技术报告【Gemini-Team et al., Gemini: a family of highly capable multimodal models, 2023】中研究的能力。具体来说，我们从三个主要类别对Gemini 1.5进行评估：
1. 定性长上下文多模态评估：手动探测和压力测试模型的长上下文能力，特别是对于没有定量基准的新颖能力。
2. 定量长上下文多模态评估：在具有明确定义指标的合成和真实世界任务上，衡量模型的长上下文能力。
3. 定量核心能力评估：识别在核心能力（例如，编码、数学、科学、多语言和指令遵循）方面的进步和退步。

5.2. 长上下文评估

长上下文研究背景 在过去几年中，LLM研究优先扩展了模型可以整合信息的上下文窗口【Anthropic, Model Card and Evaluations for Claude Models, 2023a】、【OpenAI, GPT-4 Technical Report, 2023a】。这一重点源于一个认识：更宽的上下文窗口允许模型在推理时整合更多训练数据中未见过的、特定于任务的新信息，从而在各种自然语言或多模态任务中提高性能。最近改进模型长上下文能力的方法可分为几类，包括新颖的架构方法、训练后修改、检索增强模型、记忆增强模型以及构建更连贯的长上下文数据集的技术。这项活动在过去几个月中导致了LLM长上下文能力的显著提升，最近Liu等人【Liu et al., World model on million-length video and language with ringattention, 2024】的同期工作探索了7B模型在高达1M多模态词元上的上下文窗口。值得注意的是，在最先进的LLM中，Anthropic已成功将其纯文本Claude 2模型的上下文扩展到100k词元，而OpenAI最近发布了达到128k词元的GPT-4 Turbo。最后，该系列的最新成员是Claude 3，其上下文窗口高达1M词元。

Gemini 1.5 Pro/Flash的长上下文能力 Gemini 1.5 Pro将这一上下文长度前沿显著扩展到数百万词元，且性能几乎没有下降，从而可以处理大得多的输入。与具有200k词元上下文窗口的Claude 2.1相比，Gemini 1.5 Pro在200k词元时实现了100%的召回率，超过了Claude 2.1的98%。这种100%的召回率一直保持到530k词元，在1M词元时召回率为99.7%。当从1M词元增加到10M词元时，模型保持了99.2%的召回率。此外，Gemini 1.5 Pro的原生多模态能力使其能够处理数小时的音频和视频记录，可以与文本并列或交错。这些召回能力总结在图1中。下面我们报告了在所有三种模态（即文本、视觉和音频）上的长上下文评估结果。同样，Gemini 1.5 Flash在所有三种模态上，在高达2M词元的上下文中实现了近乎完美的召回率，文本召回率为100%，视频为99.8%，音频为99.1%。

长上下文评估方法学 我们用来衡量Gemini 1.5模型长上下文能力的评估方法包括两个部分：一是针对长上下文能力的诊断性探测试验（例如，长序列上的困惑度、大海捞针检索研究），二是专为多模态长上下文任务设计的现实评估（例如，长文档问答、长上下文自动语音识别、仅凭一本书学习翻译新语言以及长上下文视频问答）。为了提供一个参考点，在本节中，我们将Gemini 1.5模型与每个任务上外部可用的领先模型进行比较。通过我们为Gemini 1.5模型开发的评估工具，我们能够可靠地量化长达10M词元的长上下文理解能力的质量。

图7 | 长文档和代码数据中，累积平均负对数似然（NLL）作为词元位置的函数。值越低表示预测越好。Gemini 1.5 Pro在长文档中显示出高达1M词元的预测改进，在代码中高达10M词元，而Gemini 1.0 Pro仅在32K词元内有所改进。Gemini 1.5 Flash在长文档中显示出高达1M词元的改进，在代码中高达2M词元。Gemini 1.5 Pro的NLL在1M词元（文档）和2M词元（代码）之前遵循幂律趋势，在10M词元处趋势有所偏离。

5.2.1. 诊断性长上下文评估

5.2.1.1 长序列上的困惑度

文本模态NLL分析 我们首先报告文本模态的结果。为了评估模型利用极长上下文来改善下一词元预测（这是训练语言模型的目标函数）的能力，我们记录了来自保留文本（即未用于训练）的输入序列中不同位置词元的负对数似然（NLL）。这里，较低的值意味着更好的预测。通常，我们预期序列开头的词元具有较高的NLL，因为模型可用于预测的上下文很少；而序列后面的词元具有较低的NLL，因为模型可用的信息更多。所得曲线的形状表明了模型在长上下文上进行推理的能力。下降趋势表示模型利用长上下文来减少模型的不确定性。相反，上升趋势表示模型无法有效利用先前上下文的信息，并且预测质量可能正在恶化，这突显了其在长上下文理解能力上的局限性。

数据集与结果 我们在两个数据源上进行了这项分析：（a）一个包含最多100万词元的长文档数据集，以及（b）一个通过首先随机打乱所有文件然后将它们连接起来构建的代码仓库数据集。代码数据集包含超过100万词元的序列，并具有某种自然的语义关联形式（例如，整个仓库），从而可以进一步评估长达10M词元的序列。图7显示了截至特定词元索引的累积NLL。我们还对这些数据点拟合了一个形式为 $y(x) = ax^b + c$ 的幂律（虚线）。

幂律趋势与发现 我们在图7中发现，NLL随序列长度单调递减，因此预测准确性在测试的序列长度内（长文档为1M，代码为10M）持续提高，这表明我们的模型即使在非常长的上下文长度下也能利用整个输入。这表明Gemini 1.5模型能够通过在词元中找到有用的模式来改善其预测，即使这些模式出现在数百万个词元之前，就像在代码的情况下一样。

幂律拟合与偏离 最后，我们看到这种改进的预测遵循一个规则的幂律结构。虽然众所周知，语言模型在训练计算量与模型性能（NLL）方面遵循幂律【Kaplan et al., Scaling laws for neural language models, 2020】，直至非常大的规模，但我们证明了幂律可以在对数损失和上下文长度之间保持，直至极长的上下文长度。我们看到，对于Gemini 1.5 Pro，幂律拟合在长文档中高达1M词元和代码中约2M词元时都相当准确。通过检查接近10M的更长代码词元预测，我们发现增加的上下文偶尔会提供超大的好处（例如，由于代码块的重复），这可能解释了幂律的偏离。然而，这值得进一步研究，并且可能取决于所使用的确切数据集。

5.2.1.2 文本大海捞针

“大海捞针”评估设置 接下来，我们使用最近引入的“大海捞针”评估【Kamradt, 2023】来测试长上下文召回能力，该评估测试模型从一个序列（即“干草堆”）中检索插入在不同位置的文本（即“针”）的能力。遵循先前的工作【Dhinakaran, 2024】，我们使用一组由Paul Graham撰写的连接并重复的文章来填充所需的上下文长度。我们在从上下文开始到结束的线性间隔处插入一个“针”，这个“针”是“The special magic {city} number is: {number}”，其中城市和数字对每个查询都不同，然后查询模型返回特定城市的魔法数字。我们报告在不同上下文长度（x轴-干草堆）下，魔法数字的召回是否正确，这取决于它在输入序列中的位置，以深度百分比表示（y轴），例如，100%的深度表示“针”插入在输入的末尾，而0%表示在输入的开头。

Gemini 1.5 Pro/Flash结果 从图8可以看出，Gemini 1.5 Pro在高达530k词元时实现了100%的召回率，在高达1M词元时实现了>99.7%的召回率。这个任务虽然简单，但清楚地表明Gemini 1.5 Pro能够可靠地从长达1M词元的长文档中检索信息。作为参考，我们报告了GPT-4 Turbo在其API支持的最高128K序列长度下的结果。为了测试图7中困惑度图所展示的能力是否能转移到采样任务中，我们继续在超过1M词元的“大海捞针”任务上评估Gemini 1.5 Pro。图8中的结果显示，该模型仍然能够以99.2%的准确率找到并提取信息，直至10M词元。在同一任务上，我们还评估了Gemini 1.5 Flash在高达2M词元的情况下的表现，并获得了100%的完美召回率，这表明了它在其同类模型中独一无二的、一流的长上下文文本检索性能。

图8 | 文本大海捞针。此图比较了Gemini 1.5 Pro与GPT-4 Turbo在文本“大海捞针”任务上的表现。绿色单元格表示模型成功检索到秘密数字，灰色单元格表示API错误，红色单元格表示模型响应未包含秘密数字。顶行显示了Gemini 1.5 Pro的结果，从1k到1M词元（左上），以及从1M到10M词元（右上）。底行显示了GPT-4 Turbo在最大支持的128k词元上下文长度下的结果。

对抗性测试 在第9.4.1节中，我们还展示了此“大海捞针”任务的“对抗性”版本，用于长上下文安全评估。

5.2.1.3 视频大海捞针

跨模态视频“大海捞针”设置 由于Gemini 1.5 Pro是原生多模态的，其长上下文能力直接转化为其他模态，使其能够跨越数小时的视频检索特定信息。为了测试这一能力，我们改编了文本“大海捞针”评估，并将其转化为一个跨模态评估，其中“针”隐藏在一种模态中，而检索查询以文本形式给出。我们不是要求模型从文本语料库中检索一个随机插入的短语，而是要求模型检索嵌入在一个10.5小时长视频（“干草堆”）中随机一帧（“针”）的信息，该视频以每秒一帧的速度采样。

实验细节与结果 具体来说，我们将文本“The secret word is "needle"”叠加在一个随机抽样的视频帧上，该视频由七个完整的AlphaGo纪录片【Kohs, Alphago, 2017】副本背靠背连接而成（总共37994帧，或9.9M词元）。有关嵌入帧的示例，请参见附录中的图28。在输入视频后，我们要求模型回答问题“What is the secret word?”。如图9所示，Gemini 1.5 Pro在各种视频长度和10.5小时视频中随机插入的“针”位置范围内成功回答了这个问题。相比之下，GPT-4V API仅支持大约前3分钟的视频长度。我们还在视频“大海捞针”问题上评估了Gemini 1.5 Flash，上下文长度高达2M词元，获得了>99.8%的召回率，展示了其在视觉模态中一流的长上下文检索性能。

图9 | 视频大海捞针。此图比较了Gemini 1.5 Pro与GPT-4V在视频“大海捞针”任务上的表现，模型被给予不同长度的视频片段，最长可达10.5小时，并被要求检索嵌入在片段中不同位置的作为文本的秘密词。所有视频片段均以每秒一帧（1 fps）的速度采样。左侧的第一对10 × 50的干草堆图比较了Gemini 1.5 Pro与GPT-4V在AlphaGo纪录片前一小时的表现。x轴代表视频时长，范围从1.2分钟到1小时，y轴代表深度，即“针”的相对偏移量（例如，左上角的单元格代表向模型提供前1.2分钟的视频，并将“针”插入在该修剪视频的前七秒内随机采样的帧中）。绿色单元格表示模型成功检索到“针”，而灰色单元格表示API错误。GPT-4V API仅支持大约前3分钟的视频长度，而Gemini 1.5 Pro在整个小时的所有深度百分比中都成功检索到插入的秘密词，如全绿图所示。最后，右侧的10 × 10网格显示了Gemini 1.5 Pro在10.5小时视频中的完美检索能力，该视频由七个AlphaGo纪录片副本背靠背连接而成。

5.2.1.4 音频大海捞针

跨模态音频“大海捞针”设置 我们采用类似的策略来测试Gemini 1.5 Pro在音频理解上的长上下文能力。我们将一个持续几秒钟的短音频片段（其中说话者说“the secret keyword is needle”）隐藏在一个长达近五天（即107小时）的音频信号（干草堆）中。模型的任务是，在给定一个文本问题的情况下，检索这个秘密关键词，这需要跨模态推理。为了在增加上下文之外进一步挑战模型，这个大型音频信号是根据VoxPopuli数据集【Wang et al., Voxpopuli: A large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation, 2021】中的一个未标记语音语料库构建的，因此输入信号包含多个说话者。在图10中，我们绘制了当输入音频范围从12分钟到107小时（或9.9M词元）时，在信号的不同位置插入“针”的实验结果。红色框表示得分为0.0（意味着模型未识别出关键词），绿色表示得分为1.0（意味着模型正确识别了关键词）。Gemini 1.5模型在所有情况下都成功找到了秘密关键词，Gemini 1.5 Pro的总体准确率为100%，Gemini 1.5 Flash在该任务上的准确率为98.7%。

与现有模型对比 与Gemini 1.5 Pro和Gemini 1.5 Flash不同，现有模型本身无法处理超过几秒钟的音频上下文。因此，为了与它们进行公平比较，我们需要采用一种策略，即首先使用几十秒的窗口将音频转录为文本，然后依赖文本模型来扩展到该有限窗口之外。

Whisper+GPT-4 Turbo流水线 具体来说，为了与Whisper进行比较，我们将音频输入分块为30秒的片段，使用该模型转录音频以生成文本转录本，连接每个块的转录本，最后提示GPT-4 Turbo在给定文本转录本的情况下找到“秘密关键词”。图10显示了每个深度百分比和小时数的性能。Whisper与GPT-4 Turbo结合识别“针”的总体准确率约为94.5%。

图10 | 音频大海捞针。此图展示了“大海捞针”实验的音频版本，比较了Gemini 1.5 Pro和Whisper与GPT-4 Turbo的组合。在此设置中，“针”是一个短的音频片段，被插入到一个包含连接音频片段的非常大的音频段（长达107小时）中。任务是检索在“针”中揭示的“秘密关键词”。红色表示模型未识别出关键词，而绿色表示模型正确识别了关键词。

5.2.1.5 改进的诊断测试

“多针”测试设置 尽管Gemini 1.5 Pro和Gemini 1.5 Flash在所有三种模态的“大海捞针”任务上表现出色，显著超越了先前报告的结果（文本>99.7%，视频100%，音频100%），我们同时也展示了观察到的局限性的初步发现。从设计上讲，“大海捞针”任务是一个衡量召回率的检索任务，到目前为止我们考虑的是最简单的设置。一个自然的扩展任务是增加每个干草堆中独特“针”的数量，并要求模型全部检索出来。对于长达1M词元的上下文长度，我们插入了100个不同的“针”，并测量了检索到的正确“针”的总数。

“多针”测试结果 图11比较了Gemini 1.5 Pro和GPT-4 Turbo在该任务上的召回率。我们看到Gemini 1.5 Pro在高达128K词元的情况下，召回率优于GPT-4 Turbo。值得注意的是，GPT-4 Turbo的上下文长度限制为128K词元，其检索质量在较长的上下文长度下波动较大，在128K词元时平均召回率约为50%。相比之下，Gemini 1.5 Pro在高达128K词元时保持约70%的召回率，在高达1M词元时保持>60%的召回率。我们在附录12.2中报告了该任务的更多结果，包括不同数量“针”的结果，我们观察到了一致的趋势。

图11 | “多针入干草堆”任务的检索性能，该任务要求在单轮中检索100个独特的针。在比较Gemini 1.5 Pro与GPT-4 Turbo时，我们观察到在较短的上下文长度下召回率更高，并且在接近1M词元时召回率下降非常小。

提示鲁棒性观察 与LLM文献中的其他任务一致，我们也观察到提示方法的选择和“针”的类型会影响模型的最终性能，未来版本的“大海捞针”式测试应考虑提示的鲁棒性。

多轮共指消解（MRCR）任务 我们还在另一个维度上调整检索难度：针的相似性。在多轮共指消解（MRCR）任务中，模型会看到一段用户与模型之间的长对话，用户请求就不同主题（例如诗歌、谜语、散文）进行写作，随后是模型的回复。在每次对话中，两个用户请求（包含与对话其余部分不同的主题和写作格式）被随机放置在上下文中。给定对话，模型必须重现由两个请求之一（关键字）产生的模型输出（针）。为了制造一个与查询关键字相似的对抗性单一关键字，格式、主题或两者都有重叠。例如，请求“重现关于企鹅的诗”要求模型区分关于企鹅的诗和关于火烈鸟的诗，“重现第一首关于企鹅的诗”则要求模型进行排序推理。我们通过模型输出与正确响应之间的字符串相似性度量来对MRCR进行评分。

MRCR结果对比 图12比较了Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4 Turbo 01-25-2024和04-09-2024版本、Claude 3模型以及Claude 2.1在MRCR上的能力。Gemini 1.5 Pro在约32K词元时超过了GPT-4 Turbo 04-09-2024和Claude 3 Opus，在约8K词元时超过了GPT-4 Turbo 01-25-2024。而Gemini 1.5 Flash在约5K词元时持续优于Claude 3 Sonnet（尽管在<5K词元时表现相当），在约20K词元时超过了GPT-4 Turbo 01-25-2024，并且始终严格优于Claude 3 Haiku。在32K词元之后，Gemini 1.5 Flash与GPT-4 Turbo 04-09-2024和Claude 3 Opus不相上下，并将此性能保持到1M词元。两个Gemini模型在1M词元时均达到约75%的平均分。GPT-4 Turbo和Claude 3模型的性能随着上下文长度的增加而稳步下降，直至128K词元，尽管GPT-4 Turbo 04-09-2024和Claude 3 Opus与其家族中的其他模型相比，下降斜率较小。Claude 2.1（上下文长度可达200K词元）表现不如其他模型，它会幻觉认为针不在上下文中并回避解决任务的请求，尽管遵循了Claude 2.1的检索任务提示指南【Anthropic, Long context prompting for Claude 2.1, 2023b】。

图12 | 在2000个MRCR任务实例上，累积平均字符串相似度分数作为上下文长度的函数。当比较Gemini 1.5 Pro和Gemini 1.5 Flash与GPT-4 Turbo和Claude 3模型时，我们观察到在32K词元后，Gemini 1.5 Pro的性能优于Claude 3 Opus和GPT-4 Turbo（04-09-2024）。Gemini 1.5 Flash从约5K词元开始优于Claude 3 Sonnet，从约20K词元开始优于GPT-4 Turbo（01-25-2024），并且始终优于Claude 3 Haiku和Claude 2.1。与所有竞争对手相比，Gemini 1.5 Pro和Gemini 1.5 Flash在上下文长度达到1M词元时性能下降幅度更小。

诊断任务总结 我们强调，“多针入干草堆”和MRCR捕捉了检索任务的不同方面：MRCR更难，需要更强的推理和消歧能力，而“多针”挑战则是对模型召回能力的测试，这解释了在8K词元以内模型排序的差异。令人印象深刻的是，Gemini 1.5 Pro和Gemini 1.5 Flash在这两个轴上都避免了严重的性能下降，一直到1M词元。

未来评估方向 尽管“多针入干草堆”和MRCR评估提供了两个具有挑战性的设置，以不同方式对长上下文检索和推理能力进行压力测试，我们主张进一步推动边界。评估模型在需要对散布在长上下文中的多个信息片段进行复杂推理的任务上的表现，将为我们提供对其真实能力的更深刻见解。这可能涉及需要整合不同事实、进行推断或解决检索信息中不一致之处的任务。通过将此类评估与提示鲁棒性研究相结合，我们可以对模型如何有效利用长上下文进行高级推理和知识提取获得更全面、更细致的理解。

5.2.2. 现实场景长上下文评估

转向现实任务 在使用一系列诊断性测试研究了模型处理长上下文的多模态能力之后，我们现在转向一系列新颖的多模态任务，这些任务旨在更好地反映该模型的潜在用途，从而以更现实的方式对模型进行压力测试。

5.2.2.1 上下文语言学习——从一本书中学习翻译一门新语言

MTOB基准测试设置 为了测试超长上下文所带来的上下文学习能力，我们在“从一本书进行机器翻译”（MTOB）基准【Tanzer et al., A benchmark for learning to translate a new language from one grammar book, 2023】上评估了Gemini 1.5 Flash和1.5 Pro。MTOB衡量的是从教学材料中学习在英语和卡拉芒语（ISO 639-3语言代码：kgv）之间进行句子级翻译的能力。卡拉芒语的使用者不足200人，因此在网络上几乎没有存在感，这意味着模型必须依赖于上下文中给出的数据（而不是存储在其训练时权重中的知识）。卡拉芒语的可用资源包括：田野语言学文档，包括一本约500页的参考语法书【Visser, A grammar of kalamang: The papuan language of the karas islands, 2020b】，一个约2000个词条的双语词汇表【Visser, Kalamang dictionary, 2020a】，以及一组约400个额外的平行句子【Visser, Kalamang dictionary, 2020a】。总共，卡拉芒语的可用资源加起来约25万个词元。这种任务框架为使用超长上下文模型支持那些在预训练语料库中代表性不足的语言提供了希望，可以通过独立方创建和部署的精选资源来实现。

实验设置与对比 为了执行该任务，我们向Gemini 1.5 Flash和1.5 Pro提供了其输入上下文中的全部材料。为了与GPT-4 Turbo（2024-04-09版）和Claude 3进行公平比较，由于全部材料无法放入它们公开发布的上下文窗口（分别为128K和200K），我们还报告了仅使用半本语法书（约100k词元）的结果。此外，为了测试模型在多大程度上利用了上下文中的信息，而不是依赖于其预训练数据中的知识，我们还运行了一个0-shot设置。最后，我们与MTOB的人类表现参考进行了比较，在该参考中，一个人从完全相同的全套材料中学习了卡拉芒语。

评估方法 为了评估性能，我们进行了一项人类评估，其中同一个人语言学习者被给予输入句子和参考翻译，并对预测翻译的质量进行评分，评分范围为0到6，6为优秀翻译。该评分者是一位非母语、非流利的说话者，可以识别自己的翻译，因此分数应在上下文中解释。我们还报告了使用自动指标的结果，即用于卡拉芒语到英语（kgv→eng）的BLEURT【Sellam et al., BLEURT: Learning robust metrics for text generation, 2020】和用于英语到卡拉芒语（eng→kgv）的chrF【Popović, chrF: character n-gram F-score for automatic MT evaluation, 2015】。

0-shot结果 Gemini 1.5、GPT-4 Turbo和Claude 3在0-shot设置下（即上下文中没有额外的卡拉芒语信息）的表现基本上是随机的。这些模型有时能成功复制专有名词，识别出像马来语这样高资源语言的借词，或者利用问号等风格线索来缩小生成范围。它们对eng→kgv的生成被谷歌翻译识别为各种其他语言，通常是格式错误的。这些结果表明，正如预期的那样，模型的训练数据中没有包含大量的卡拉芒语数据，如果有的话。

表4 | MTOB上卡拉芒语→英语翻译的定量结果 (Tanzer et al., 2023)。我们呈现了0到6分的人工评估分数，6分表示优秀翻译。括号中包含了自动指标（BLEURT）。

上下文学习结果 Gemini 1.5 Pro在半本书设置中，以较大优势优于GPT-4 Turbo和Claude 3在相同设置下的表现；见表4和5。在最佳设置下，Gemini 1.5 Pro在kgv→eng翻译上获得4.14的人类评估分数，而“人类语言学习者”分数为5.52；在eng→kgv翻译上获得5.46分，而“人类语言学习者”为5.58分。在kgv→eng翻译上仍存在显著的质量差距，但eng→kgv翻译平均与人类语言学习者相似。Gemini 1.5 Flash也表现出色，不出所料地低于Gemini 1.5 Pro，但轻松超越GPT-4 Turbo，并根据翻译方向，其表现介于Claude 3 Haiku和Sonnet之间，或Sonnet和Opus之间。更多细节、实验和定性示例见附录12.17。

结论与展望 Gemini 1.5 Pro的性能凸显了长上下文理解和为在上下文中学习新技能提供足够上下文的重要性。通过利用上下文中提供的大量田野语言学文献，Gemini 1.5 Pro能够实现与人类语言学习者相当的卓越翻译质量，并且能够为一种在模型训练期间几乎没有接触过的语言做到这一点。这一发现为利用具有足够长上下文能力的LLM来支持濒危语言的保护和复兴，以及促进不同语言社区之间的交流和理解开辟了令人兴奋的可能性。随着该领域研究的继续，探索提高双向翻译质量（例如，卡拉芒语到英语）的技术，并解决评估LLM在低资源和代表性不足语言上性能的挑战将至关重要，我们相信这也适用于教育和语言学习的其他领域。

表5 | MTOB上英语→卡拉芒语翻译的定量结果 (Tanzer et al., 2023)。我们呈现了0到6分的人工评估分数，6分表示优秀翻译。括号中包含了自动指标（chrF）。

5.2.2.2 上下文语言学习——在上下文中学习转录新语言的语音

任务背景与重要性 Gemini 1.5在超长上下文学习翻译方面表现出色，无论是在卡拉芒语（MTOB）上，还是在其他低资源语言（见下文的标准基准）上。卡拉芒语和许多其他濒危语言一样，主要是口头语言；因此，应用程序必须支持语音才能具有社会实用性。我们朝着这些应用迈出了下一步——同时对Gemini 1.5的混合模态上下文学习能力进行压力测试——通过评估它能多好地从上下文中的文本和音频文档中学习转录卡拉芒语语音。由于Gemini 1.5原生支持音频，这种任务框架在LLM中首次成为可能。

ASROB基准测试 我们展示了一个新基准——ASROB（从一本书进行自动语音识别）的初步结果。ASROB扩展了MTOB，增加了来自卡拉芒语语料库【Visser, The Kalamang collection: an archive of linguistic and cultural material from Karas, 2020c】的104个语音录音（总计15小时），这些录音带有转录和翻译的卡拉芒语语音。这里我们报告了在6个录音（45分钟）子集上的实验结果，这些录音带有手动重新对齐的短语级字幕；我们使用其中5个录音（约800个短语）作为上下文内训练集，1个（约100个短语）作为测试集。测试录音中的说话者也出现在3个训练录音中。

实验设置 我们报告了在各种文本上下文（来自MTOB的约2000词条双语词汇表和约400个平行句子）和音频上下文（多达800个卡拉芒语语音/文本对）组合下的字符错误率（CER）。我们无法直接与GPT-4或Claude 3进行比较，因为在撰写本文时它们不提供音频输入接口。

表6 | Gemini 1.5 Pro在上下文中学习卡拉芒语ASR的字符错误率（CER，↓）

实验结果 我们在表6中看到，Gemini 1.5 Pro在没有任何上下文示例的情况下表现非常出色（提示指示模型使用印尼语正字法转录卡拉芒语语音），达到了35.0%的CER。从输出结果来看，模型清楚地听到了语言的声音，但不知道如何分词或拼写其中的单词，尤其是词缀。随着我们为多样本学习【Agarwal et al., Many-shot in-context learning, 2024a】添加文本和音频上下文，ASR质量相对平稳地提高，在最佳设置下达到了22.9%的CER。这些输出的分词和拼写要好得多，有些示例被完美转录，但仍有很大的改进空间——特别是要确保所有输出都是语法正确的卡拉芒语。Gemini 1.5 Flash（表7）的轨迹与Pro相似，但各项得分都较差。

表7 | Gemini 1.5 Flash在上下文中学习卡拉芒语ASR的字符错误率（CER，↓）

5.2.2.3 扩展上下文学习用于低资源机器翻译

图13 | 低资源翻译的上下文学习扩展结果（chrF↑）。上图：Flores测试集上的结果。我们使用Flores开发集进行提示，并将样本数量扩展到约1K个（包括约90K词元）。下图：内部评估集上的结果。我们使用Gatitos进行提示，并将样本数量扩展到约4K个（包括约30K词元）。随着样本数量的增加，Gemini 1.5的翻译性能越来越好，显著超过GPT-4 Turbo。

大规模上下文学习（ICL） Gemini 1.5令人印象深刻的上下文语言学习能力，启发我们重新审视大规模的上下文学习（ICL）。ICL允许LLM在推理时从提供的输入-输出示例中学习新任务。虽然ICL在各种任务和模型中被广泛观察到，但由于上下文长度限制和/或次优的长上下文能力，探索的上下文示例数量通常有限，从几个到几十个不等【Brown et al., Language models are few-shot learners, 2020】、【Min et al., Rethinking the role of demonstrations: What makes in-context learning work?, 2022】、【Zhang et al., Prompting large language model for machine translation: a case study, 2023a】。相比之下，Gemini 1.5数百万词元的上下文为将ICL扩展到数千个示例（即多样本ICL机制【Agarwal et al., Many-shot in-context learning, 2024a】、【Bertsch et al., In-context learning with long-context models: An in-depth exploration, 2024】）开辟了新的机会。在本节中，我们探讨Gemini 1.5在多大程度上可以利用增加的上下文示例（或样本）来改进低资源语言的机器翻译，扩展了先前探索少样本学习在机器翻译中极限的工作【Garcia et al., The unreasonable effectiveness of few-shot learning for machine translation, 2023】。

评估设置 我们评估从英语翻译到6种不同的低资源语言，包括阿乔利语（Acholi）、阿布哈兹语（Abkhaz）、纳瓦霍语（Navajo）、本巴语（Bemba）、埃维语（Ewe）和库尔德语（Kurdish）。这些语言每种都有几十万到几百万的使用者，在互联网上的曝光率相对较低。由于这种低资源的性质，它要求模型理解和学习给定的上下文示例，而不是从预训练数据中学习，并在适当时获取关于该语言的新知识。

数据集与指标 我们创建了两种评估设置：公共的和内部的，这取决于测试数据对公众的可访问性。公共设置涵盖本巴语、埃维语和库尔德语，使用Flores-200【Team et al., No language left behind: Scaling human-centered machine translation, 2022】的开发集（多达997个示例和90K词元）作为上下文示例集，及其开发测试集的前200个示例作为测试集；内部设置涵盖阿乔利语、阿布哈兹语和纳瓦霍语，使用Gatitos【Jones et al., Bilex rx: Lexical data augmentation for massively multilingual machine translation, 2023】（包括多达4K个示例和30K词元）作为上下文示例集，和200个由专业翻译人员注释的保留句对作为测试集。我们使用附录12.16.15中介绍的翻译提示。我们报告了三次运行的平均性能，每次都有新采样的上下文示例，并使用chrF【Popović, chrF: character n-gram F-score for automatic MT evaluation, 2015】作为评估指标。

结果分析 图13显示了ICL扩展性能。虽然以前的ICL研究通常看到性能在几十个示例后饱和，但随着我们扩展样本数量，Gemini 1.5几乎提供了持续的改进。相对于零样本翻译的质量增益可能相当可观，例如，1.5 Pro/Flash在本巴语上+11.1/+21.4 chrF，在纳瓦霍语上+9.5/+15.9 chrF，尽管这在不同语言之间差异很大。我们看到Gemini 1.5 Flash在阿乔利语上的少样本ICL性能有所下降，但进一步扩展ICL显著改善了翻译。总的来说，与1.5 Pro相比，Gemini 1.5 Flash呈现出更显著的多样本扩展效果，这可能与其较小的模型尺寸有关：它更多地依赖上下文示例来执行翻译，而不是其隐含知识。

与GPT-4 Turbo的比较 虽然当我们扩展样本数量时，GPT-4 Turbo也显示出一些积极的趋势，但Gemini 1.5 Pro在不同语言和样本数量上通常以较大优势优于GPT-4 Turbo。一个有趣的例外是阿布哈兹语的翻译，Gemini 1.5 Pro在少量提示时落后于GPT-4 Turbo，但随着ICL的扩展显著超越了它。这种模式也出现在Gemini 1.5 Flash的各种语言中：扩展到1K/4K个示例可以改善Flash，使其能够获得优于GPT-4 Turbo的性能，例如在埃维语/阿乔利语上+9.6/+6.4 chrF。简而言之，Gemini 1.5模型擅长翻译低资源语言，并随着上下文示例的增加而平稳改进。

5.2.2.4 长文档问答

任务挑战与设置 在测试了Gemini 1.5模型高达25万词元的上下文语言学习能力后，我们进入了另一个现实的评估设置。在本节中，我们展示了问答实验，我们使用维克多·雨果的著作《悲惨世界》创建问题，并测试模型在提供整本1462页的书（即71万词元）作为输入时正确回答这些问题的能力。评估模型回答关于长文档（或文档集合）问题的能力提出了独特的挑战。与那些侧重于衡量模型检索能力的特定事实或细节的任务不同，这类问题通常需要理解跨越大量文本的信息片段之间的关系。例如，像“体现了尊重权威和憎恨叛乱双重性的角色是如何描绘二元性概念的？”这样的问题，需要理解上述书籍的整体叙事和角色动态。

对比方法 我们将Gemini 1.5 Pro与Gemini 1.0 Pro进行比较。由于后者的上下文窗口有限，Gemini 1.0 Pro需要通过检索增强生成（RAG）来访问书中的有用段落。该方法使用TF-IDF对段落进行索引，并将结果存储在外部数据库中。然后将问题作为查询，通过余弦相似度对段落进行重新排序，并检索最相关的段落，最多4k词元（大约41个段落）。检索到的段落随后按时间顺序放入上下文中。相比之下，Gemini 1.5 Pro由于其更大的上下文窗口能够容纳更长的材料，无需额外的数据后处理、索引和检索流程。为了评估模型的响应，我们创建了一套100个问题。

图14 | 基于并排自动评估器（Gemini 1.5 Pro）的答案质量、排名和通过Bradley-Terry模型计算的分数（????）。

评估方法学 通常，如今的LLM在零样本设置下对于像《悲惨世界》这样的著名作品可以达到很高的事实准确性。这使得在使用绝对性能指标时很难区分模型。因此，我们使用并排比较来评估不同上下文大小模型之间的答案质量。有关此方法及其影响的更详细讨论，请参见【Bohnet et al., Longspan question-answering: Automatic question generation and qa-system ranking via side-by-side evaluation, 2024】。并排比较使我们能够评估模型是否提供了足够的细节来充分回答问题。我们使用一个自动评估器，它接收一个问题和来自两个不同系统的答案，并对它们进行比较。自动评估器的响应是系统A更好、系统B更好，或者如果两个答案都不是事实性的，则为“无”，在这种情况下它们都被排除。

结果分析 利用这些并排比较的结果，我们使用Bradley-Terry模型【Bradley and Terry, The rank analysis of incomplete block designs — I. The method of paired comparisons, 1952】对模型强度进行分析。这种排名模型被用于许多应用中，最著名的是在国际象棋或围棋中用于评定选手实力。Bradley-Terry模型根据成对比较为一组固定的模型分配分数，其中模型A优于模型B的对数几率由它们分数的差异给出。

图14总结了此评估的结果。当使用整本《悲惨世界》作为上下文时，Gemini 1.5 Pro以巨大优势优于所有其他系统。例如，全上下文的Gemini 1.5 Pro提供的答案优于使用4k词元进行检索增强生成的Gemini 1.5 Pro的概率为$p = 6.2417 / (6.2417 + 1.7656) = 0.7795$，即在78%的情况下。使用整本书作为上下文的Gemini 1.5 Pro提供的答案，与使用4k词元进行检索增强的GPT4-Turbo相比，在83%的情况下更好。

5.2.2.5 长上下文音频

长上下文ASR评估 接下来，我们评估Gemini 1.5在音频输入上的长上下文理解能力。为了评估长上下文自动语音识别（ASR）性能，我们在一个源自15分钟YouTube视频片段的内部基准上测试了Gemini 1.5模型。在此评估中，我们报告了与1.0 Pro模型的结果对比，后者是在长度短得多的音频片段上训练的。我们还报告了通用语音模型（USM）【Zhang et al., Google usm: Scaling automatic speech recognition beyond 100 languages, 2023b】和Whisper【OpenAI, Whisper, 2023】的性能。请注意，ASR任务报告的是词错误率（WER）指标，数值越低越好。

结果对比分析 下面的表8显示，1.0 Pro模型在评估转录15分钟视频而不分段时，由于训练和测试音频长度不匹配，其WER为100%。当我们每30秒对视频进行分段，并在每个分段边界传递语言模型的文本内容时，1.0 Pro模型可以达到7.8%的WER。带有CTC解码器的USM模型虽然对长分段具有鲁棒性，但其WER为8.8%。如表中所示，Whisper对长分段不具鲁棒性，因此需要每30秒对音频进行分段才能达到7.3%的WER。相比之下，Gemini 1.5 Pro在这些长上下文任务上表现得更为鲁棒。具体而言，得益于其长上下文能力，且无需额外的输入分段和预处理的复杂性，Gemini 1.5 Pro可以比其他模型更准确地转录15分钟的视频，达到了5.5%的WER，而Gemini 1.5 Flash以8.8%的WER落后于1.0 Pro，考虑到其更小的尺寸和卓越的效率，这是一个非常出色的质量水平。

5.2.2.6 长上下文视频问答

长视频QA评估挑战 接下来我们进行长视频问答评估，以测试Gemini 1.5在长上下文视频理解方面的效果。用于长上下文视频理解的问答基准需要至少具备两个特性：首先，它们需要包含长视频；其次，它们的问题需要设计成能够区分在不同上下文长度下操作的模型。不幸的是，没有现有的基准满足这些特性来评估像Gemini 1.5模型这样可以处理长达数小时视频的模型。公开可用的视频最长的问答基准是EgoSchema【Mangalam et al., EgoSchema: A diagnostic benchmark for very long-form video language understanding, 2023】，但其视频最长仅3分钟（即180帧）。为了弥补这一评估差距，我们引入了一个新的基准，1H-VideoQA，由125个五选一的多项选择题组成，这些问题基于40-105分钟长的公开视频。

1H-VideoQA基准设计 我们收集的标注要求理解一个或多个事件，每个事件仅跨越完整视频中的几秒钟，因此通过查看几个随机抽样的视频帧来推断答案是极其困难的。

实验与结果 我们通过每秒提取一帧视频，并进一步将长视频线性下采样到固定的上下文长度来进行实验。我们还测量了如果我们为1H-VideoQA提供每个视频的所有帧作为参考的性能。结果显示在图15和表9中。

表9 | GPT-4V和Gemini 1.5模型在1H-VideoQA上的比较。实验以零样本方式进行，通过每秒采样一帧视频并线性下采样16或150帧。我们还展示了如果为Gemini 1.5模型提供每个视频的所有帧的性能。

结果分析 图15说明了1H-VideoQA在区分不同帧数操作的模型能力方面相对于EgoSchema的改进。Gemini 1.5 Pro仅使用16帧就在EgoSchema上创下了70.2%准确率的新纪录（相比之下，GPT4V为55.6%【Balažević et al., Memory consolidation enables long-context video understanding, 2024】）。然而，我们没有看到从16帧增加到150帧有明显增益，这表明EgoSchema中的许多问题可以用有限数量的帧轻松解决。

1H-VideoQA的有效性 相比之下，在1H-VideoQA上，Gemini 1.5 Pro的性能随着提供的帧数从第一帧增加到完整视频而持续提高，这表明1H-VideoQA中相当一部分问题只有在更多帧作为上下文的情况下才能解决，从而使1H-VideoQA作为长上下文基准更有效。表9进一步显示，无论视频被下采样到16帧还是150帧，Gemini 1.5 Pro在1H-VideoQA上始终优于GPT-4V。尽管观察到每秒一帧，Gemini 1.5 Pro并未完美解决1H-VideoQA（见附录表47中的示例），这使得1H-VideoQA成为评估和推动未来长上下文视频模型发展的有用基准。我们还强调了Gemini 1.5 Flash的质量，它在使用150帧时仅略微落后于GPT-4V，而在使用16帧时甚至优于GPT-4V，尽管它显著更小、更高效。

5.2.2.7 上下文规划

规划任务的重要性与评估 推理和规划是人类解决问题和决策的基本技能。虽然LLM最近在推理任务上取得了进展，但规划仍然是一个更具挑战性的领域，迄今为止受到的关注有限。在本节中，我们报告了模型在以标准规划领域定义语言（PDDL）表示的经典规划基准和以自然语言表示的更现代基准上的性能。有关本节中考虑的所有规划任务的提示示例，请参见附录12.8。

上下文规划挑战 我们随着在上下文中添加更多示例（“样本”）来评估模型的规划能力，这受到了多样本学习在大量任务上成功的启发【Agarwal et al., Many-shot in-context learning, 2024a】。“上下文规划”的挑战在于通过有限数量的示例来理解特定任务和问题。此外，它要求模型生成一个解决方案，而无需检查每个规划步骤以确认提议的移动是否正确。模型必须一次性创建一个计划。对人类来说，这可能被视为快速思考（而不是慢速思考）。

总体结果 图16显示了随着样本数量变化，在经典规划和自然语言基准上的上下文学习性能。总体而言，Gemini 1.5 Pro优于其他模型，表明该模型不仅能用较少数量的示例/样本更好地规划，还能有效利用额外和更长的上下文。Gemini 1.5 Flash是一款更小、更快、更高效的模型，其性能被Gemini 1.5 Pro超越，但偶尔能与GPT-4 Turbo的性能相媲美。以下是每个任务及其相应结果的详细信息。

图16 | PDDL规划和自然语言规划（少样本）。在所有基准测试中，Gemini 1.5 Pro的性能均优于其他模型，这表明该模型不仅能用更少的示例进行更好的规划，还能有效利用更长的上下文。

BlocksWorld BlocksWorld是一个来自国际规划竞赛（IPC）的著名规划问题。该领域包括一组积木、一张桌子和一个机器人手。目标是找到一个计划，将积木从一种配置移动到另一种配置。我们生成了3到7个积木的BlocksWorld问题实例。图16a显示了随着少样本示例数量的增加，Gemini 1.5模型在该基准上的性能。Gemini 1.5 Pro和Gemini 1.5 Flash的1-shot规划能力分别达到35%和26%，而GPT-4 Turbo的性能接近于零。此外，Gemini 1.5 Pro的40-shot规划能力达到48%的范围，优于GPT-4 Turbo的最佳（200-shot）性能，后者峰值为43%。

Logistics Logistics是IPC-1998中的一个AI规划问题，用PDDL表示，涉及使用城市内的卡车和城市间的飞机将包裹运送到目的地。目标是在车辆容量和位置等约束下优化运输方式，展示模型有效管理多步物流的能力。图16b显示了Gemini 1.5模型在Logistics基准上的规划能力。可以看到，Gemini 1.5 Pro的1-shot规划能力达到43%，而GPT-4 Turbo只能达到18%。此外，对于Gemini 1.5 Pro，更多的上下文导致了持续更好的结果，表明该模型可以有效利用额外和更长的上下文。而GPT-4 Turbo的情况则不同，当提供更多示例时，准确率会下降。

Mini-Grid 在来自AIPS-1998的人工智能规划系统（AIPS）-1998的Mini-Grid问题中，也用PDDL表示。我们创建了各种带有房间的楼层平面图，房间内包含随机配置的钥匙形状。目标是让机器人从初始位置导航到指定的目标单元格。图16c显示了随着少样本示例数量的增加，Gemini 1.5模型的性能。Gemini 1.5 Pro的1-shot规划能力达到28%，而GPT-4 Turbo仅达到15%。更多的上下文为Gemini 1.5 Pro带来了更好的性能。使用400个样本，Gemini 1.5 Pro达到了77%的准确率。GPT-4 Turbo的性能也随着样本数量的增加而增加，但远落后于Gemini 1.5 Pro。使用80个样本，GPT-4 Turbo达到38%的准确率，比Gemini 1.5 Pro的准确率低32%。Gemini 1.5 Flash的性能被Gemini 1.5 Pro超越，但几乎与GPT-4 Turbo的性能相当。

Trip Planning 行程规划是一项在给定约束条件下规划旅行行程的任务，目标是找到访问N个城市的顺序。我们增加了足够的约束，使得任务只有一个解决方案，这使得预测的评估变得直接。图16d显示了随着少样本示例数量的增加，Gemini 1.5 Pro在该基准上的性能。GPT-4 Turbo模型的1-shot性能似乎优于Gemini 1.5 Pro。然而，随着我们增加样本数量，Gemini 1.5 Pro的性能急剧提高。使用100个样本，Gemini 1.5 Pro达到42%，而GPT-4 Turbo的最佳（20-shot）性能为31%。

Calendar Scheduling 日程安排是一项为最多7名与会者安排30分钟或一小时会议的任务。与会者可能有繁忙的日程或轻松的日程，会议时间少于工作时间的一半。图16e显示了Gemini 1.5 Pro在该基准上的规划能力。Gemini 1.5 Pro的1-shot规划能力达到33%，而GPT-4 Turbo的准确率低于10%。似乎更多的上下文对Gemini 1.5和GPT-4 Turbo模型都带来了更好的性能。使用40-shot，GPT-4 Turbo达到36%的准确率，而Gemini 1.5 Pro达到48%。使用100-shot，Gemini 1.5 Pro能够达到52%，表明该模型可以有效利用更长的上下文。

规划能力总结 总之，规划使智能体能够前瞻并主动确定实现目标的行动方案【Russell and Norvig, Artificial intelligence: a modern approach, 2016】。最近，提示LLM提取常识知识引起了关注【Ding et al., Task and motion planning with large language models for object rearrangement, 2023】、【Huang et al., Inner monologue: Embodied reasoning through planning with language models, 2022】、【Singh et al., Progprompt: Generating situated robot task plans using large language models, 2023】，并且LLM在生成计划方面的有效性已在【Guan et al., Leveraging pretrained large language models to construct and utilize world models for model-based task planning, 2024】、【Hao et al., Reasoning with language model is planning with world model, 2023】、【Valmeekam et al., On the planning abilities of large language models-a critical investigation, 2024】中进行了研究。尽管现有工作发现当前模型无法进行少样本规划，但我们的结果证实，Gemini 1.5 Pro即使在1-shot设置下也能表现良好，同时有效利用额外和更长的上下文来进一步提高性能。由于规划是机器人技术、具身环境和智能体空间的核心，利用这种模型能力在这些应用中具有巨大潜力。

5.2.2.8 非结构化多模态数据分析任务

任务背景 虽然对结构化数据进行数据分析是一个非常成熟的领域，有许多成功的方法，但现实世界中的大部分数据以非结构化格式存在，如图像和对话。我们研究了大型语言模型（LLM）实现非结构化数据分析的潜力，并探索LLM如何能直接分析这一庞大的多模态信息池。

图像结构化任务 作为非结构化数据分析的一个实例，我们执行了一项图像结构化任务。我们向LLM展示了一组1024张图像，目标是将图像中包含的信息提取到一个结构化的数据表中（本研究中使用的示例提示见附录12.7）。由于这是一个长上下文任务，在模型的上下文长度不允许一次性处理所有图像的情况下，我们使用不同批量大小的小批量来缓解这一缺点。最后，将每个小批量的结果连接起来，形成最终的结构化表格。

结果分析 图17以准确率的形式呈现了从图像中提取不同类型信息的结果。我们发现：
- Gemini 1.5 Pro在所有属性提取上的准确率提高了9%（绝对值）或27%（相对于GPT-4 Turbo的准确率）。在评估时，Claude 3 API无法分析超过20张图像，这就是为什么Claude 3 Opus的结果被限制的原因。
- 对于Gemini 1.5 Pro，更多的图像导致了持续更好的结果，表明该模型可以有效利用额外和更长的上下文。而GPT-4 Turbo的情况则不同，当提供更多图像时，准确率会下降。

A4 实验环境

硬件配置:
- 训练: 在多个4096芯片的Google TPUv4加速器集群（pods）上进行训练，这些集群分布在多个数据中心。
- 推理/服务: 专为高效利用张量处理单元（TPU）而设计，具有低延迟特性。
软件配置:
- 框架与库: 使用JAX【Bradbury et al., JAX: composable transformations of Python+NumPy programs, 2018】和ML Pathways【Dean, Introducing Pathways: A next-generation AI architecture, 2021】进行训练。JAX由XLA【XLA, XLA: Optimizing compiler for TensorFlow, 2019】提供支持，并使用GSPMD【Xu et al., Gspmd: general and scalable parallelization for ml computation graphs, 2021】分区器进行自动并行化。
数据集:
- 预训练: 使用了一个庞大的多模态、多语言数据集，数据来源多样，包括网络文档、代码、图像、音频和视频内容。
- 指令微调: 使用了一个包含成对指令和相应响应的多模态数据集进行微调，并利用人类偏好数据进行了进一步优化。
模型架构:
- Gemini 1.5 Pro: 基于稀疏混合专家（MoE）Transformer架构。
- Gemini 1.5 Flash: 基于Transformer解码器架构，通过在线蒸馏从Gemini 1.5 Pro中学习得到。
- Flash-8B: 继承了Flash架构的8B参数模型。

A4 实验结果

Gemini 1.5系列在长上下文能力和核心能力上均表现出卓越的性能，标志着相较于1.0系列的代际飞跃。

长上下文能力 (Sec 5.2):
- 诊断性测试:
- 困惑度: 模型在长达1000万词元（代码）的序列上，预测准确性随上下文增长而持续提高 (图7)。
- “大海捞针”: 在文本、视频和音频模态中，模型均能在数百万词元的上下文中实现近乎完美的（>99%）信息召回率，远超竞争对手 (图8, 9, 10)。在更难的“多针”和“共指消解”任务中，性能下降平缓，优于GPT-4和Claude 3 (图11, 12)。
- 现实场景应用:
- 上下文语言学习: 模型仅通过上下文中提供的语法书，学会了翻译一种极低资源语言（卡拉芒语），质量媲美人类学习者 (表4, 5)，并首次实现了上下文学习新语言的语音识别 (表6, 7)。
- 长文档/视频/音频问答: 在处理整本书（71万词元）、长达105分钟的视频和15分钟的音频时，性能均优于依赖外部检索或分段处理的基线模型 (图14, 表8, 表9)。
- 上下文规划: 在PDDL和自然语言规划任务中，利用更多上下文示例能持续提升性能，优于GPT-4 Turbo (图16)。

核心能力 (Sec 6):
- 总体性能: Gemini 1.5 Pro在绝大多数核心基准上超越了1.0 Pro，并在超过一半的基准上优于更强大的1.0 Ultra，而训练计算量显著减少。轻量级的1.5 Flash也全面超越1.0 Pro (表1, 2, 10)。
- 文本能力:
- 数理与科学推理: 在MATH, GPQA, AMC等高难度基准上取得显著提升 (表11)。一个经过数学专业化训练的1.5 Pro版本在MATH上达到了80.6%的准确率，媲美人类专家水平 (表21)。
- 代码与多语言: 在HumanEval和Natural2Code等代码生成任务，以及MGSM和WMT23多语言任务上均超越了1.0 Ultra (表11)。
- 智能体与实用性: 在函数调用、指令遵循和一系列模拟真实世界专家任务中表现出强大能力，一项研究表明1.5 Pro可为专业人士节省高达56.4%的工作时间 (表12, 13, 图18, 19)。
- 多模态能力:
- 图像理解: 在MMMU、MathVista、ChartQA、DocVQA等15个图像理解基准上设定了新的SOTA，全面超越1.0系列 (表18)。
- 视频理解: 在ActivityNet-QA和EgoSchema等视频问答基准上超越1.0 Ultra (表19)。
- 音频理解: 作为通用模型，其ASR性能显著优于USM和Whisper等专业语音模型 (表20)。

更小尺寸模型 (Sec 8):
- Flash-8B: 初步结果显示，这款8B参数模型保留了强大的多模态能力（达到Flash约80-90%的性能）和优异的长上下文扩展性，为高效部署提供了可能 (表22, 图20)。

安全性与责任 (Sec 9):
- Gemini 1.5系列是迄今为止最安全的模型，在内容策略违规率上相比1.0 Ultra有大幅降低 (表23)。模型在长上下文安全测试中未表现出额外风险，但在应对手工制作的提示注入攻击时仍存在挑战，这可能与其增强的指令遵循能力有关 (表32)。

A5 结论

主要结论
本文介绍了Gemini 1.5 Pro和Gemini 1.5 Flash，它们是Gemini 1.5多模态模型家族的首批成员。该系列在效率、多模态能力、长上下文推理和下游任务性能方面实现了巨大突破。
1. 长上下文能力的代际飞跃: Gemini 1.5 Pro将上下文窗口从Gemini 1.0的32K词元扩展到数百万，甚至在实验中展示了高达1000万词元的有效处理能力。这是首个在所有模态中远超现有20万词元上限的商用模型。
2. 性能与效率的平衡: 大量的诊断性和现实场景评测表明，1.5 Pro在长上下文中能保持近乎完美的召回率，并有效利用上下文进行复杂的检索和推理。这使得如从70万词的材料中进行问答、对105分钟的视频进行分析等任务成为可能。
3. 涌现出的上下文学习能力: 模型能仅凭上下文中提供的语法手册，学会翻译一种使用者极少的语言（卡拉芒语），展现了其前所未有的上下文学习能力。
4. 核心能力未受损: 长上下文能力的巨大提升并未以牺牲核心多模态能力为代价。1.5 Pro在大多数核心基准上超越了1.0 Pro，甚至在文本能力（如数学、代码、多语言）上超过了计算成本更高的1.0 Ultra。同样，更轻量高效的1.5 Flash也全面优于1.0 Pro。

未来工作与展望：对评估方法的呼吁
- 现有基准的局限性: 论文指出，当前为短上下文模型设计的基准已无法充分评估像Gemini 1.5这样具有超长上下文处理能力的模型，特别是在需要复杂推理的多模态场景中。
- 对新评估方法的需求: 随着模型能力的边界不断扩展，传统依赖人工标注的评估方法变得成本高昂且耗时。因此，论文迫切呼吁研究界开发创新的评估方法，这些方法应能有效衡量模型在超长上下文任务上的性能，同时减少对人工标注的依赖。
- 未来研究方向: 论文建议研究者和实践者采用如“多针入干草堆”这样的设置进行诊断性评估，因为它比“单针”版本更具挑战性且信息量更丰富。同时，论文认为基于新的自动度量标准，创造需要对长输入进行复杂推理（而非简单检索）的新基准任务是一个重要的研究方向。团队将继续开发此类基准，以推动超长上下文AI模型的全面评估和发展，并释放其全部潜力。

A6 附录

12.1. 模型卡

模型卡 我们在表45中展示了Gemini 1.5模型卡。

硬件与软件

训练基础设施 训练是使用JAX【Bradbury et al., JAX: composable transformations of Python+NumPy programs, 2018】和ML Pathways【Dean, Introducing Pathways: A next-generation AI architecture, 2021】完成的。

JAX与XLA JAX，由XLA【XLA, XLA: Optimizing compiler for TensorFlow, 2019】提供支持，包括用于自动并行的GSPMD【Xu et al., Gspmd: general and scalable parallelization for ml computation graphs, 2021】分区器，使研究人员能够利用最新一代的硬件，包括TPU，来更快、更高效地训练大型模型。

ML Pathways ML Pathways是谷歌构建能够跨多个任务泛化的人工智能系统的最新成果。这特别适用于基础模型，包括像这样的大型语言模型。

协同工作流 JAX和ML Pathways的结合使用方式如【Gemini-Team et al., Gemini: a family of highly capable multimodal models, 2023】中所述；“JAX和Pathways的‘单一控制器’编程模型允许单个Python进程协调整个训练过程，极大地简化了开发工作流。”

12.2. 更多大海捞针结果

多针测试的补充结果 我们在图27中展示了更多“多针入干草堆”的结果，其中我们考虑了不同数量针（50和100）的召回率。我们发现在两种设置下，Gemini 1.5 Pro的召回率都呈现出一致的稳健趋势。通过放大前128K个词元，我们还可以看到Gemini 1.5 Pro和GPT-4 Turbo的召回率都有下降的趋势，但Gemini 1.5 Pro的下降更为平缓。

图27 | “多针入干草堆”的检索性能，该任务要求在单次交互中检索50或100个独特的针。我们绘制了召回率（找到的针数/隐藏在干草堆中的针数）与干草堆总词元大小的关系图。

12.3. 长文档问答的自动问题生成流程

问题生成步骤 为了自动生成问题，我们遵循以下流程。首先，使用一个监督系统为书籍中的实体标注共指链。然后，利用实体的共指标注，通过检索选出与该实体最相关的段落。我们选取最相关的实体，并使用Gemini 1.0 Ultra生成这些问题。我们应用了两种过滤方法：循环一致性，以过滤掉未被正确回答的问题，随后进行人工评估。

12.4. 多语言性能分解

按资源组划分的结果 表46展示了不同Gemini模型按资源组划分的额外多语言结果。

12.5. 长上下文视频

12.5.1. 视频大海捞针

实验细节 对于视频“大海捞针”任务，我们将文本“The secret word is needle”叠加在一个时长为10:33:14的视频中的单个随机抽样帧上，该视频由七个完整的AlphaGo纪录片【Kohs, Alphago, 2017】副本背靠背连接而成（总共37994帧，以每秒一帧采样，或990万词元），并要求Gemini 1.5 Pro回答问题“What is the secret word?”。图28显示了在AlphaGo纪录片的时间戳52:31处，即第3151帧，嵌入“针”的一个示例。

图28 | 视频“大海捞针”任务中使用的“针”的一个示例，嵌入在AlphaGo纪录片的时间戳52:31，即第3151帧。

12.5.2. 1H-Video QA 难题示例

难题列表 我们在表47中列出了一些来自1H-VideoQA数据集的难题示例，这些问题GPT-4V和Gemini 1.5 Pro都未能正确回答。

表47 | 1H-VideoQA中的问题，无论是Gemini 1.5 Pro（当给予所有以1fps采样的帧时）还是GPT-4V（当提供其API允许的最大帧数时）都未能正确回答。正确答案已高亮显示。

12.6. 通用长上下文数学提示

12.6.1. Hendrycks’ MATH数据集：性能分析与改进潜力

MATH数据集的价值 尽管顶级模型在Hendrycks’ MATH数据集上的问题解决能力日益增强，有些模型已达到50%的解决率，但它仍然是评估模型在不同数学领域表现的宝贵工具。

12.6.2. 中级代数（4级和5级）：一个持续的挑战

挑战来源 在Hendrycks’ MATH的七个子领域中，中级代数（4级和5级）对当前模型构成了最大的挑战。GPT-4的解决率仅为12.5%，而Gemini 1.5 Pro达到18.6%，GPT4-turbo达到20.6%。这种困难源于某些问题的计算复杂性以及其解决方案中需要专门的方法和算法。中级代数（4级和5级）占整个MATH数据集的10.6%。本节中的结果是使用Gemini 1.5 Pro获得的，而不是数学专业版的Gemini 1.5 Pro模型。

12.6.3. 利用Python和SymPy提升性能

长上下文提示策略 一种有前途的提升性能的方法是提示模型使用像SymPy这样的Python库来生成解决方案。然而，这引入了确保在这些库中准确实现代数工具的挑战。为了解决这个问题，提供大量SymPy和SciPy用法的上下文示例（约73万词元）已被证明能显著提升性能。这一策略使Gemini 1.5 Pro在中级代数4级和5级上达到了25.8%的解决率，大大超过了Gemini 1.5 Pro、GPT-4和GPT-4-turbo的基线性能。

表48 | 不同模型在Hendrycks’ MATH数据集中级代数（4级和5级）上的性能。

12.6.4. 通用长提示作为复杂提示和微调的替代方案

提示方法对比 上述的SymPy和SciPy提示包含了官方SymPy和SciPy仓库中的所有示例，没有任何过滤或人工干预。下载和连接所有这些示例的代码将在下一节中介绍。或者，可以考虑专家编写的提示、自动优化的提示（例如【Fernando et al., Promptbreeder: Self-referential self-improvement via prompt evolution, 2023】、【Yang et al., Large language models as optimizers, 2023a】），或有针对性的Python微调（例如【Toshniwal et al., Openmathinstruct-1: A 1.8 million math instruction tuning dataset, 2024】）。虽然这些方法中的任何一种最终都可能比通用长上下文提示带来更优的结果，但在我们的基线评估中，一个基于Minerva提示的专家编写的少样本Python提示得到了一个有竞争力但略低的分数，为22%。

12.6.5. Python评估流程

三阶段评估 所有Python评估都分三个阶段进行：
1. 初始解决方案：模型提出一个初始解决方案。
2. 错误修正（尝试1）：如果初始解决方案导致错误，模型会收到错误追踪的前10行，以及之前使用的提示和第一个解决方案。然后它会尝试生成一个修正后的解决方案。
3. 错误修正（尝试2）：如果第二个解决方案也导致错误，模型会获得最后一次尝试的机会。这一次，上下文包括了前两个解决方案及其相应的错误追踪。

各阶段解决问题数量 使用此流程，Gemini 1.5 Pro在第一阶段成功解决了80到110个问题（共528个），在第二阶段解决了20到30个问题，在最后阶段解决了5到10个问题。我们使用与整个MATH数据集相同的流程来验证答案的正确性，详见附录12.13。

12.6.6. 下载并准备所有SymPy和SciPy示例

import os
import requests

def get_paths(repo, path=""):
    """Recursively get a list of all file paths in a GitHub repository directory and its subdirectories."""
    url = f"https://api.github.com/repos/{repo}/contents/{path}"
    response = requests.get(url)
    response.raise_for_status()
    paths = response.json()
    all_paths = []
    for path in paths:
        if path['type'] == 'file':
            all_paths.append(path['path'])
        elif path['type'] == 'dir':
            all_paths.extend(get_paths(repo, path['path']))
    return all_paths

def download_file_content(repo, file_path):
    """Download the content of a single file from a GitHub repository."""
    url = f"https://raw.githubusercontent.com/{repo}/master/{file_path}"
    response = requests.get(url)
    response.raise_for_status()
    return response.text

def concatenate_files(repo, directory, output_file, extensions_to_keep=['py', 'ipynb']):
    """Concatenate all files in a specified directory of a GitHub repository into a single file."""
    file_paths = get_paths(repo, directory)
    with open(output_file, 'w') as output:
        for path in file_paths:
            _, ext = os.path.splitext(path)
            ext = ext[1:]
            if ext in extensions_to_keep:
                content = download_file_content(repo, path)
                output.write(content + "\n\n") # Add a newline between files for readability

# Get SymPy examples
repo = 'sympy/sympy'
directory = 'examples'
output_file = 'concatenated_sympy_examples.txt'
concatenate_files(repo, directory, output_file)

# Get SciPy examples
repo = 'scipy/scipy'
directory = 'doc/source/tutorial'
output_file = 'concatenated_scipy_examples.txt'
concatenate_files(repo, directory, output_file, extensions_to_keep=['rst', 'py', 'ipynb'])

12.6.7. 一个专家编写的Python Minerva提示

# Language: Python 3
# Task: Synthesize function to solve the problem
"""
Contains maths exercises formulated in doc-strings of functions.
Solutions are written in simple python code and with a lot of comments
that explain what is done and why and how it is related to the specification.
"""
def exercise1():
    """ Find the domain of the expression \(\frac{\sqrt{x-2}}{\sqrt{5-x}}\). """
    import sympy as sp
    # Define the variable
    x = sp.symbols('x')
    # Define the intervals for the numerator and denominator
    numerator_interval = sp.solve_univariate_inequality(x-2 >= 0, x, relational=False)
    denominator_interval = sp.solve_univariate_inequality(5-x > 0, x, relational=False)
    # Find the intersection of the intervals to get the domain
    overall_domain = sp.Intersection(numerator_interval, denominator_interval)
    return overall_domain

def exercise2():
    """ Given that \(\det \mathbf{A} = 2\) and \(\det \mathbf{B} = 12\), find \(\det (\mathbf{A} \mathbf{B})\). """
    det_A = 2
    det_B = 12
    # Calculate the determinant of the product
    det_product_solution = det_A * det_B
    return det_product_solution

def exercise3():
    """ Terrell usually lifts two 20-pound weights 12 times. If he switches to two 15-pound weights, how many times must he lift them to match the total weight lifted earlier? """
    weight_20 = 20
    times_20 = 12
    # Calculate the total weight Terrell lifts with 20-pound weights
    total_weight_20_solution = 2 * weight_20 * times_20
    # Calculate the number of times Terrell should lift the 15-pound weights
    weight_15 = 15
    times_15_solution = total_weight_20_solution / (2 * weight_15)
    return times_15_solution

def exercise4():
    """ Given the system of equations:
    6x-4y = a
    6y-9x = b
    Determine the value of \(\frac{a}{b} \). """
    import sympy as sp
    a, b, y = sp.symbols('a b y')
    x_expr = (a + 4*y) / 6
    b_expr = 6*y - 9*x_expr
    a_over_b_solution = a / b_expr
    return a_over_b_solution.simplify()

12.6.8. 添加到Python提示中的示例指令

指令模板 我们尝试了几种措辞非常接近以下模板的指令：

你是一位数学和编程专家，并且知道如何使用附加的代码片段。我给你一系列数学问题和Python解决方案的演示。当你回答下一个问题时，首先找到相似的片段并描述它们，然后再编写你的解决方案。描述与问题相关的功能、类和方法。然后逐步思考，用Python解决方案回答最后的问题。记住要定义所有变量并包含所有导入。
用以下方式完成你的代码
answer = ...
print(answer)
其中answer是一个浮点数、一个浮点数元组、一个sympy表达式或一个字符串。

第二阶段指令 在第二阶段，提示被分为两部分：

你是一位数学和编程专家，并且知道如何使用附加的代码片段。我给你一系列数学问题和Python解决方案的演示。下一个问题的解决方案产生了一个异常。

上述指令之后是建议的程序和错误跟踪。指令以以下内容结束：

首先找到相似的片段并描述它们，然后再编写你的解决方案。描述与问题相关的功能、类和方法。然后分析为什么原始解决方案导致异常，并逐步思考，用改进的Python解决方案回答最后的问题。记住要定义所有变量并包含所有导入。
用以下方式完成你的代码
answer = ...
print(answer)
其中answer是一个浮点数、一个浮点数元组、一个sympy表达式或一个字符串。

第三阶段指令 在第三阶段，我们修改了上述指令，以考虑上下文中存在的两个解决方案。

12.6.9. 示例问题及Gemini 1.5 Pro解决方案

import numpy as np
from scipy.optimize import minimize, Bounds

def objective_function(x):
    a, b, c = x
    return -a * (a + b)**2 * (b + c)**3 * (a + c)**4 # negative for maximization

def constraint(x):
    return np.sum(x) - 1 # constraint: a + b + c = 1

# Initial guess (must satisfy the constraint)
x0 = np.array([0.3, 0.3, 0.4])
# Define bounds: 0 <= a, b, c <= 1
bounds = Bounds(np.zeros_like(x0), np.ones_like(x0))
# Minimize the negative of the function with the constraint
result = minimize(objective_function, x0, method='SLSQP', bounds=bounds, constraints={'type': 'eq', 'fun': constraint})
# Extract the solution and compute the maximum value
a, b, c = result.x
answer = a * (a + b)**2 * (b + c)**3 * (a + c)**4
print(answer)

代码解释 此代码定义了目标函数（给定表达式的负数）和约束（a + b + c = 1）。然后，它使用带有‘SLSQP’方法的‘minimize‘函数，该方法适用于约束优化问题。‘Bounds‘对象确保变量保持在期望的范围内。最后，代码提取解并计算原始表达式的最大值。

结果在Google Colab中运行此代码会产生0.015624507088912548的结果，这在MATH数据集评估所使用的数值容差范围内（详见附录12.13），与精确答案1/64相比。虽然使用自然语言或多次应用AM-GM不等式的SymPy可以得到替代解，但此处介绍的SciPy方法提供了最直接的（尽管是近似的）解决方案。

12.7. 非结构化多模态数据分析

任务提示 以下是我们在对图像进行分析时为每个模型使用的完整提示（部分信息已匿名化）。

请处理以下图像，并为每张图像输出[类别]、[颜色]、[语义属性]。
- 对于[类别]，请从[已匿名化的38个类别]中选择。
- 对于[颜色]，请从[已匿名化的45个类别]中选择。
- 对于[语义属性]，请从[已匿名化的8个类别]中选择。
每张图像都有自己的ID，从id_0开始。请仅按以下顺序格式化输出表格：
image_0,类别,颜色,语义属性
image_1,类别,颜色,语义属性
...
以下是图像：
image_0: <图像的base64字符串>
image_1: <图像的base64字符串>
image_2: <图像的base64字符串>
<...更多图像>
image_255: <图像的base64字符串>
请仅按指定格式输出表格。

评估结果 每个单独属性的评估结果呈现在图29中。

12.8. 规划

BlocksWorld任务的1-shot提示 以下是BlocksWorld任务的1-shot提示。

Logistics任务的1-shot提示 以下是Logistics任务的1-shot提示。

Mini-Grid任务的1-shot提示 以下是Mini-Grid任务的1-shot提示。

Trip Planning任务的1-shot提示 以下是Trip Planning任务的1-shot提示。

Calendar Scheduling任务的1-shot提示 以下是Calendar Scheduling任务的1-shot提示。

12.9. LLM在不同职业中的生产力影响

更多示例 有关第6.1.7节的更多示例，请参见表49、50、51。

12.10. 专业知识问答

12.10.0.1 背景：为什么评估长尾能力？

长尾知识的重要性 生成式AI（GenAI）最具影响力的用例要求模型在人类知识和技能的长尾上运行。这些技能对用户来说很有价值，因为它们很稀有，而训练数据中的信息和质量稀疏性对GenAI模型来说是一个挑战。为了应用专业知识，模型需要在记忆与从训练数据到个别用例的泛化之间取得平衡。模型需要有足够的能力和足够精确的拟合来描述分布的长尾。

评估挑战 在生成式应用中衡量长尾性能在实践上是具有挑战性的：没有对主题的深入了解，即使有黄金答案，也很难判断模型的响应。同样难以确定一个能反映现实但又具有前瞻性用例的一般主题分布。

专家小组 我们调查了一个由内部专家组成的小组，他们因其普遍的推理、写作、阅读和判断能力而被选中，并询问了他们的具体专业知识。这些专业知识的例子包括“25年专业古典钢琴家经验”，“莎士比亚悲剧-硕士”。在专业知识问答中，我们专注于困难的人文问题，主要来自人文学科。

评估过程 这些专家被要求提出需要特定专业知识才能进行必要研究，并能将获得的信息组合成一个精心制作的响应的问题。然后，同一批专家对模型对其各自问题的响应进行评分和排名。模型根据其以高度准确性回答这些问题的能力进行评估，其次是完整性和信息量。这反映了为用户提供的预期效用。专家不知道每个模型响应的来源。

结果概览 结果显示，Gemini 1.5模型在专家问答任务上显著且强烈地优于1.0 Pro，无论是在逐点“准确”和“严重不准确”的评级上，还是在并排排名中（见图18），尽管它们给出的响应更长、更详细。当并排比较答案时，这种优势也成立，这不仅考虑了事实准确性，还考虑了信息量（见附录中的表53）。

12.10.1. 结果

详细数据 逐点准确性判断见表52，从n路排名中得出的并排比较见表53。

表52 | 专家将每个回答标记为“完全准确”（越高越好）、“有些不准确”和“严重不准确”（越低越好）。显示的两个指标对应于极端标签的比例。N = 572。

12.11. STEM问答与上下文：数据和人工评估

数据集选择 我们使用Qasper数据集【Dasigi et al., A dataset of information-seeking questions and answers anchored in research papers, 2021】的一个子集进行评估。为了避免可能的数据污染问题，我们从整个数据集中选择了一个不提供任何黄金答案或支持证据的问题子集。我们还过滤掉了数据集中原始评分者标记为无法回答的问题。最终得到145篇文章的158个问题，文章的平均长度为5,138个词元。我们将文章的全部内容作为上下文，连同问题一起作为模型输入。

人工评估流程 我们要求人工评分员根据问题和文章的全文来评估模型回答的准确性。评分员来自具有STEM背景的第三方供应商的评分员库，对准确性评估很有效。评分员根据信息的准确性和不准确性（如果有的话）的严重程度来判断模型回答中的每个句子。

评估指标 我们考察以下指标：
- 准确句子的比例：Q1为“准确”的评分数 / 所有评分（不包括不确定或无主张的）
- 不准确句子的比例：Q1为“不准确”的评分数 / 所有评分
- 严重不准确句子的比例：Q1为“不准确”且Q2为“严重”的评分数 / 所有评分

12.12. 网页搜索主题问答

任务描述 在此，我们评估模型在为网络搜索引擎常见的寻求信息的任务生成有用答案方面的表现。我们的评估使用了来自TREC搜索评估数据集的697个搜索主题。

提示生成 我们使用以下模板生成提示：

我需要完成以下问题。我本打算使用搜索引擎，但请你尽你所能先给出一个尽可能详细的答案。
我的问题是：{TREC主题描述}

人工评估 我们向人工评分员展示同一提示下两个模型的回答，并要求他们对每个回答的帮助性进行评分以及它们之间的偏好。评分员回答：
- 偏好：哪个智能体回答对解决此问题更有帮助？（7点量表）
- 帮助性：回答在多大程度上为问题提供了**有帮助的**信息？（5点量表）

结果表54中的结果显示，Gemini 1.5模型在此任务上比1.0模型有了显著改进。特别是，Gemini 1.5 Flash模型与1.0 Ultra模型相当，并且在帮助性评级和模型偏好方面都显著优于1.0 Pro模型。1.5 Pro模型在所有指标上表现最佳，包括对1.0 Ultra模型有显著更强的偏好。

表54 | 网页搜索主题问答：在多个TREC数据集上，对不同Gemini 1.0和1.5模型的回答进行人工帮助性评级和偏好比较。Likert量表评级被转换为数值分数并缩放到[0,100]。偏好>50表示比比较基线更受青睐。95%置信区间通过自举法获得。

12.13. 提示和答案提取策略

具体任务提示 本节详细列举了BBH、DROP、Hellaswag、MMLU、AMC、MATH、GSM8K、GPQA、PhysicsFinals、HumanEval和Natural2Code等各项基准测试中使用的具体提示词（prompt）格式、少样本示例以及答案后处理和提取的策略。例如，对于数学类任务（如AMC、MATH），提示通常包含“你是一位数学专家”的角色设定，并要求模型进行逐步思考，最后以特定格式（如 "Final Answer: The final answer is XXX"）输出答案，以便于解析和评估。对于代码生成任务（如HumanEval），提示被修改以适应聊天格式，并告知模型这是一个函数补全任务，之后对生成的代码块进行沙箱环境下的单元测试。

12.14. 视觉任务

视觉任务评估设置 所有视觉任务均在0-shot设置下使用指令微调模型进行评估。我们添加了前导指令以确保每个任务遵循其期望的答案格式。

具体任务提示 此部分详细说明了在V* benchmark、AI2D、MMMU、MathVista、ChartQA、ChemicalDiagramQA、DocVQA、DUDE、TAT-DQA、InfographicVQA、TextVQA和VQAv2等视觉问答和理解任务中使用的提示格式。这些提示通常要求模型逐步推理，并以特定格式输出最终答案，例如，对于多选题，要求输出选项字母。对于ChemicalDiagramQA，这是一个新构建的内部基准，用于评估模型对科学出版物中化学结构图的理解能力，问题分为三级难度。

12.15. Blink

Blink任务提示

{images}
Question: {question}
Try to reason about the question step by step. Don’t give a final answer without reasoning. Output the final answer in the format "Final Answer: (X)" where X is the correct letter choice.
Answer:

12.16. RealworldQA

RealworldQA任务提示

{image}
Question: {question}
Please answer directly with only the letter of the correct option and nothing else. If it is a yes / no question, simply answer with yes or no.
Answer:

视频和长上下文任务提示 此部分详细介绍了ActivityNet-QA, EgoSchema, VATEX, YouCook2, OpenEQA等视频任务，以及文本、视频、音频“大海捞针”（Needle-in-a-Haystack）和多轮共指消解（MRCR）等长上下文任务的提示构建方法。视频任务的提示通常包括按时间戳排列的视频帧，以及具体的问题和答案格式要求。长上下文任务的提示构建方式则旨在测试模型在大量干扰信息中定位和使用特定信息的能力。

MTOB, ASROB, Multilinguality, Dolomites提示
此部分提供了用于上下文语言学习（MTOB, ASROB）、多语言翻译（WMT, MGSM）和领域特定长文写作（Dolomites）任务的详细提示模板。这些提示旨在引导模型利用上下文中提供的大量信息（如语法书、词典、多样本示例）来完成特定任务，并规定了详细的输出格式。

12.17. 更多MTOB结果

人类评估协议 我们首先提供有关人类评估协议的更多细节。输入、参考和预测以表格形式呈现给评分员进行评分，其中给定模型的所有预测都相互关联，但给定表格的模型标签被移除。评分员在评分时参考了整套语言文档。评分员被要求为每个翻译提供0-6的单边评分。值得注意的是，评分员能够识别自己以前的翻译，并且了解每个实验设置的定义和自动分数，因此他们能够猜测哪个表格对应哪个设置。这些评分显然在各种方面都存在偏见，应在上下文中解释。

额外消融实验 我们提供了报告正文中未包含的额外消融实验。完整结果见表55、56和57。对于两个方向，我们都报告了0-6的人类评估分数（如果可用）、chrF和BLEURT，尽管不清楚BLEURT对于eng→kgv是否有意义，因为BERT没有在卡拉芒语上训练过。

结果分析 在0-shot设置中，除了GPT-4 Turbo外，没有模型显示出它们以前见过卡拉芒语文本的迹象。5-shot设置比0-shot设置好不了多少。仅使用词汇表或仅使用平行句子的消融实验比少样本设置表现好得多，但绝对表现仍不佳。有趣的是，当它们结合在一起——但仍省略语法书时——它们与给予半本语法书的GPT-4 Turbo和Claude 3相匹配或表现更好。定性地看，全书kgv→eng的结果仍然明显差于人类基线。eng→kgv的结果平均看起来与人类基线相当。

表55 | MTOB上卡拉芒语→英语翻译的完整定量结果。我们提供了0到6分的人类评估分数（如果可用），6分表示优秀翻译。括号中包含了自动指标（chrF, BLEURT）。

表56 | MTOB上英语→卡拉芒语翻译的完整定量结果。我们提供了0到6分的人类评估分数（如果可用），6分表示优秀翻译。括号中包含了自动指标（chrF, BLEURT）。

表57 | 原始报告中Gemini 1.5 Pro版本的MTOB卡拉芒语↔英语翻译定量结果，包含所有设置的人类评估分数。分数范围为0到6（最佳翻译）。括号中包含自动指标（chrF, BLEURT）。

定性示例 参见下文，了解更多卡拉芒语和英语之间翻译的定性示例。

12.18. 更多BetterChartQA细节和结果

BetterChartQA基准构建 图表和绘图理解对大型多模态模型来说一直是一个特别具有挑战性的领域。我们构建了一个名为BetterChartQA的内部基准，由374个具有挑战性的问答对组成，分为9个不相交的能力类别（图32中显示了不同Gemini模型和GPT-4 Turbo的按能力划分的性能）。图表图像是从网络上随机抽样的，问答对由专业人工标注员编写。我们使用Gemini 1.0 Pro来判断模型的回答是否与黄金答案等效，如果答案是数值，则允许5%的数值误差。

结果分析 总体而言，图32中比较的模型的微平均性能分别为50.3%（GPT-4 Turbo）、43.0%（Gemini 1.0 Pro）、47.9%（Gemini 1.0 Ultra）、59.0%（Gemini 1.5 Flash）和65.8%（Gemini 1.5 Pro）。Gemini 1.5 Pro比上一代Gemini 1.0 Pro的性能高出20%以上。实际上，最小级别的模型Gemini 1.5 Flash比Gemini 1.0 Ultra高出10%以上，在所有能力类别中都有显著提升。与Gemini 1.0模型相比，在多图、表格、上下文中图表（包含图表的截图）和散点图类别中的提升尤其明显。两个Gemini 1.5模型（Flash和Pro）的总体得分均高于GPT-4 Turbo。