GAIA: A Benchmark for General AI Assistants
GAIA: A Benchmark for General AI Assistants
作者/机构: Gr´egoire Mialon¹, Clémentine Fourrier², Craig Swift³, Thomas Wolf², Yann LeCun¹, Thomas Scialom⁴
¹FAIR, Meta, ²HuggingFace, ³AutoGPT, ⁴GenAI, Meta
A1 主要贡献
本文介绍了GAIA,一个为通用人工智能助手(General AI Assistants)设计的基准测试,解决该基准将代表人工智能研究的一个里程碑。
核心问题与研究目标
- 背景问题: 大型语言模型(LLMs)正迅速攻克现有的人工智能基准,尤其是在专业技能领域(如法律、化学)甚至超越人类。这导致了对更具挑战性基准的需求。然而,当前趋势是寻找对人类也越来越困难的任务,但这未必是评估通用AI能力的最佳路径,因为这类任务可能因数据污染而迅速被解决,且评估(特别是开放式生成任务)变得越来越困难和不可靠。
- 研究目标: 提出一个全新的基准GAIA,旨在评估AI系统在执行对人类而言概念简单但需要精确执行复杂动作序列的任务上的能力。这些任务的特点是其解法难以暴力破解,但结果却易于验证,类似于工作量证明(Proof of Work)算法。GAIA的目标是衡量一个系统是否能像普通人类一样在这些日常实际问题上表现出鲁棒性。
创新点与GAIA的设计理念
GAIA旨在规避当前LLM评估中的陷阱,其核心特性包括:
1. 真实世界与挑战性问题: 问题需要模型利用网页浏览、处理多模态信息、多步推理等能力,而不是在封闭或合成环境中进行。
2. 易于解读: 包含少量但精心策划的问题,任务概念简单(人类成功率92%),使得用户可以轻松理解模型的推理路径。
3. 防作弊性(Non-gameability): 问题的答案在设计上不会以纯文本形式存在于训练数据中,需要通过成功执行多个步骤才能得出。答案的精确性要求和推理过程的可追溯性降低了数据污染的风险。
4. 易用性: 问题的答案是事实性的、简洁且明确的(factoid, concise and unambiguous),支持简单、快速和自动化的评估。评估在零样本(zero-shot)设置下进行,减少了评估设置对结果的影响。
核心成果
- GAIA数据集: 作者团队构建了一个包含466个问题及其答案的数据集。这些问题涵盖不同难度级别,需要多种基础能力来解决,例如推理、多模态处理和工具使用。
- 性能差距: 实验表明,在GAIA上,人类被调查者获得了92%的准确率,而配备了插件的GPT-4仅获得15%的准确率,揭示了当前最先进的AI与人类在解决这类通用任务上的巨大差距。
- 发布与排行榜: 论文发布了166个带注释的问题作为开发集,并保留300个问题的答案用于构建一个公开的排行榜,以推动社区在该方向上的研究。
A3 相关工作
评估大型语言模型。随着LLM能力的飞速发展,基准测试的饱和速度越来越快。例如,几年前还颇具挑战性的阅读理解任务【索引: Pranav Rajpurkar et al., SQuAD: 100,000+ questions for machine comprehension of text, 2016, EMNLP】,以及GLUE基准【索引: Alex Wang et al., Glue: A multi-task benchmark and analysis platform for natural language understanding, 2018, EMNLP Workshop BlackboxNLP】及其扩展SuperGLUE【索引: Alex Wang et al., SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems, 2019, NeurIPS】,都在发布后几年内被模型超越。为了寻找更难的评估,研究方向自然转向了需要专业知识的任务,如MMLU【索引: Dan Hendrycks et al., Measuring massive multitask language understanding, 2021, ICLR】。然而,LLM在这些任务上也已达到甚至超过人类水平。评估LLM的更全面的方法包括:(i) 评估汇编【索引: Leo Gao et al., A framework for few-shot language model evaluation, 2021; Percy Liang et al., Holistic Evaluation of Language Models, 2022a; Aarohi Srivastava et al., Beyond the imitation game: Quantifying and extrapolating the capabilities of language models, 2023】,但这些方法难以有意义地聚合结果且易受数据泄露污染;(ii) 人工评估,耗时且难以扩展;(iii) 基于模型的评估【索引: Lianmin Zheng et al., Judging llm-as-a-judge with mt-bench and chatbot arena, 2023】,但这种方法依赖于一个比被评估模型更强的模型,并且评估质量会受评估者LLM自身缺陷的影响。
评估通用助手。尽管将LLM转变为通用助手的努力正在进行中(详见附录A),但相应的评估方法却滞后了。多数评估依赖于封闭系统、特定的API调用或预设的“正确方法”。例如,ToolQA【索引: Yujia Zhuang et al., ToolQA: A dataset for tool-oriented question answering, 2023】或Gentopia【索引: Binfeng Xu et al., Gentopia: A Collaborative Platform for Tool-Augmented LLMs, 2023a】结合了现有数据集和人工标注,存在训练污染的风险,且不能保证真正测试了工具使用。Gorilla【索引: Shishir G. Patil et al., Gorilla: Large Language Model Connected with Massive APIs, 2023】引入的APIBench测试系统调用特定API的好坏,与API-Bank【索引: Minghao Li et al., API-Bank: A Benchmark for Tool-Augmented LLMs, 2023b】类似。AgentBench【索引: Xiao Liu et al., Agentbench: Evaluating llms as agents, 2023a】则更通用,提供了多个封闭环境(从Unix shell到网络购物API)来部署和评估助手LLM。然而,这些基于封闭环境的评估可能只衡量了助手学习使用特定API的能力,而非在真实世界交互中的泛化能力。相比之下,GAIA不指定API,而是依赖于与真实世界的交互。OpenAGI【索引: Yingqiang Ge et al., Openagi: When llm meets domain experts, 2023】与本文工作更接近,但其任务侧重于当前模型的能力,而非未来的发展。
A2 方法细节
3.1 一个便捷且具挑战性的通用AI助手基准
GAIA是什么及其工作原理。GAIA是一个针对AI系统的基准测试,提出了一系列通用助手类问题。它旨在规避LLM评估中的多种陷阱。GAIA由466个人类设计和标注的问题组成。这些问题是基于文本的,有时会附带文件(如图像或电子表格)。问题涵盖了日常个人任务、科学或常识等多种助手应用场景。其设计目标是让问题只有一个简短、正确的答案,从而易于验证。使用GAIA时,只需以零样本(zero-shot)的方式向AI助手提问,并附上必要的证据。在GAIA上取得满分需要多种基础能力(见3.3节)。我们在补充材料中提供了问题及相关的元数据。
设计选择。GAIA的诞生源于对修正AI基准的需求以及对当前LLM评估缺陷的观察。我们的首要原则是,问题对人类而言概念简单但可能繁琐,同时对当前AI系统具有多样性、根植于现实世界且充满挑战。这使得评估的重点放在了基本能力上,如通过推理快速适应、多模态理解以及多样的工具使用,而不是专业的技能【索引: Fran¸cois Chollet, On the measure of intelligence, 2019】。问题通常在于从不同来源(如提供的文档或开放且变化的网页)搜集并转换信息,以得出一个准确的答案。例如,要回答图1中的第一个示例问题,LLM通常需要浏览网页找到一项研究,然后查找正确的登记人数。这与那些对人类越来越难和/或在纯文本或人工环境中操作的基准测试趋势背道而驰。
第二个原则是可解释性。与聚合型基准相比,数量有限且经过高度策划的问题使得该基准更易于使用【索引: Yotam Perlitz et al., Efficient benchmarking (of language models), 2023】。任务的概念简单性(人类成功率为92%)使用户能够轻松理解模型的推理轨迹。对于图1中的1级问题,推理轨迹主要包括检查正确的网站并报告正确的登记人数,这很容易验证。
第三个原则是抗记忆性。GAIA的目标是比大多数现有基准更难被“应试”。要完成一项任务,系统必须规划并成功完成一系列步骤,因为最终答案在设计上不会以纯文本形式出现在当前的预训练数据中。准确率的提升反映了系统实际的进步。由于任务的多样性和行动空间的巨大,这些任务无法通过作弊(例如记忆标准答案)之外的方式被暴力破解。尽管数据污染可能导致意外记忆,但答案所需的高精度、它们在预训练数据中的缺失,以及检查推理轨迹的可能性,都降低了这种风险。相比之下,多项选择题使得污染评估变得困难,因为错误的推理轨迹仍可能得出正确选项。如果尽管有这些缓解措施,灾难性的记忆仍然发生,我们可以利用3.4节中提供的指南轻松地创建新问题。
系统提示与示例。系统提示被设计为引导AI助手报告其思考过程,并以特定格式给出最终答案。格式要求最终答案是数字、尽可能少的单词或逗号分隔的列表,并对数字和字符串的格式有具体规定,例如数字不使用逗号分隔符或单位符号,字符串不使用冠词或缩写。图2展示了一个GPT-4(高级数据分析模式)处理GAIA问题的例子,该问题要求计算一个快餐连锁店的食品总销售额(不含饮料)。GPT-4通过编写和执行Python代码读取附加的Excel文件,筛选出食品项,计算总和,并最终以要求的格式输出答案,成功完成了任务。
<blockquote>系统提示: 你是一个通用AI助手。我会问你一个问题。请报告你的思考过程,并用以下模板结束你的回答:FINAL ANSWER: [你的最终答案]。你的最终答案应该是一个数字,或尽可能少的单词,或一个由数字和/或字符串组成的逗号分隔列表。
如果被要求提供数字,请不要使用逗号来书写,也不要使用美元符号或百分号等单位,除非另有说明。
如果被要求提供字符串,请不要使用冠词和缩写(例如城市),并将数字写成纯文本,除非另有说明。
如果被要求提供逗号分隔的列表,请根据列表中的元素是数字还是字符串,应用上述规则。
GAIA问题: 附加的Excel文件包含了一家本地快餐连锁店的菜单项目销售额。该连锁店从食品(不包括饮料)中获得的总销售额是多少?用美元表示,并保留两位小数。
</blockquote>GPT4 (高级数据分析模式):
工作中:
最后一个原则是易用性。我们的任务是可能附带额外文件的简单提示。关键在于,我们问题的答案是事实性的、简洁且明确的。这些特性使得评估简单、快速且客观。我们的问题旨在以零样本方式回答,限制了评估设置的影响。相比之下,许多LLM基准的评估对实验设置很敏感,例如提示的数量和性质【索引: Percy Liang et al., Holistic evaluation of language models, 2022b】(见8.2节),或基准的实现方式。
3.2 评估
自动化、快速、客观的评估。GAIA的设计使得评估可以自动化、快速且客观地进行。实际上,每个问题都要求一个字符串(一个或几个词)、一个数字或一个逗号分隔的字符串/浮点数列表作为答案。每个问题只有一个正确答案。因此,评估是通过模型答案与标准答案之间的准完全匹配(quasi exact match)来完成的,匹配时会根据标准答案的“类型”进行一些标准化处理。我们使用一个系统(或前缀)提示来告知模型所需的格式,如图2所示。在实践中,GPT-4级别的模型能轻易遵循我们的格式。我们随排行榜一起提供了评分函数。
3.3 GAIA的构成
能力覆盖范围。要在GAIA上取得满分,需要高级的推理能力、多模态理解能力、编码能力以及通用的工具使用能力,例如网页浏览(具体定义见附录C)。我们还纳入了需要处理多种数据模态的问题,如PDF、电子表格,以及图像、视频或音频,其分布情况见附录C(图6)。图3(左)概述了这些能力。虽然网页浏览是GAIA的关键组成部分,但我们不要求助手在网站上执行“点击”以外的操作,如上传文件、发表评论或预订会议。在真实环境中测试这些能力同时避免对网站造成垃圾信息,需要仔细考虑,我们将其留给未来的工作,并推荐读者参考近期提出的针对LLM智能体的封闭环境工作【索引: Xiao Liu et al., Agentbench: Evaluating llms as agents, 2023a】。我们没有提供解决基准所需的更详细的能力列表,因为大多数问题可以通过不同能力的组合来同等解决。例如,某个证据可能已被助手LLM恰当地记忆,或者通过网络搜索检索到。我们尤其不提供LLM工具使用的细粒度基准测试,读者可参考【索引: Qiantong Xu et al., On the tool manipulation capability of open-source large language models, 2023b; Minghao Li et al., Api-bank: A benchmark for tool-augmented llms, 2023c】。
难度递增。根据解决问题所需的步骤数和所需不同工具的数量,这些问题可以分为三个难度递增的级别。当然,对于“步骤”或“工具”没有唯一定义,回答一个给定问题也可能有多种路径。因此,我们以标注员在设计问题时使用的步骤和工具数量作为代理指标。图3(右)展示了我们的问题在这两个维度上的分布。工具总是与一个或多个能力相关(见附录C)。我们大致使用以下定义为问题划分级别:
- 级别1的问题通常不需要工具,或者最多使用一个工具且步骤不超过5个。
- 级别2的问题通常涉及更多步骤,大约在5到10步之间,并且需要组合使用不同的工具。
- 级别3是为接近完美的通用助手设计的问题,需要执行任意长的动作序列,使用任意数量的工具,并能访问整个世界。
难度级别示例与验证。图1提供了这些级别的示例。这些定义并非硬性约束:例如,一个标注员步骤少于10步但需要复杂网络导航的问题,可能会被归类为级别3而非级别2。我们对难度的定义在第4节中得到了验证。
所需能力的分布。虽然GAIA的目标是真实世界的助手问题,但我们也包含了一些可能对身体有障碍的人士有益的任务,比如在一段短音频文件中找到一条信息。最后,我们尽最大努力覆盖不同的主题领域和文化,尽管数据集的语言仅限于英语(见第6节)。
3.4 构建和扩展GAIA
制作问题。我们的问题由人类创建,旨在反映AI助手的现实用例。作者们设计了初始问题,并将其作为示例连同说明(见附录D)提供给标注员,以创建更多问题。这些问题基于一个或多个事实来源(sources of truth),这些来源通常在问题中明确指出以避免歧义。事实来源的例子包括可信的网页,如维基百科、Papers With Code或arXiv,这些页面短期内消失的可能性很低。在其他情况下,事实来源完全随问题提供,例如一个附加文档。最后一种情况是自包含的问题,例如一个小谜题。我们不指定固定的事实来源列表,以增强问题的多样性并避免记忆。除了谜题,大多数问题是通过寻找并可能组合来自不同事实来源的信息来产生一个特定答案而创建的。问题创建后,还会进行标注,即问题创建者提供答案以及元数据:需要哪些工具、采取了哪些步骤、或回答所需的时间。一个典型的标注结果如表1(附录C)所示。
验证问题。与制作问题相关的大部分工作在于确保问题是明确的,即只有一个正确答案。这一特性使得评估能够快速、客观地进行,因此维持它是至关重要的。歧义可能很微妙,且对于问题的创建者来说很少是显而易见的。例如,如果一个问题没有为一个网页指定版本,而回答问题所需的信息在不同版本中有所不同,那么这个问题就是有歧义的。因此,我们要求另外两名新的标注员独立回答每个问题。如果原始标注员和两名新标注员得出相同的答案,则该问题得到验证。标注员意见不一的问题通常只需简单修正,否则就会被移除。因此,在保持问题趣味性和多样性的同时,问题创建过程很难自动化。我们在表3(附录C)中报告了此验证阶段的统计数据。68%的问题无需修改即可使用,其余的则需要修正或移除。尽管这些问题在概念上很简单,但标注员可能会无意中犯错:我们估计在所有难度级别上,标注员的总体成功率为92%,并将其作为GAIA的人类得分。这个分数接近完美,表明GAIA对非专家来说是简单的。我们估计,一个问题的创建,包括由两名补充标注员进行验证和可能的修复,需要两个小时的标注员时间。
依赖网络的挑战。当事实来源托管在网络上时,设计问题可能会很棘手。首先,证据可能会随时间变化。例如,一个维基百科条目可能在问题创建和向AI助手提问之间被更新,可能会移除回答所需的证据。对于这类问题,指定证据的版本通常很重要,比如页面的日期。在实践中,我们发现我们的基准对这些变化具有鲁棒性,因为我们尽量依赖那些很可能经得起时间考验的证据。其次,一些网站所有者希望通过其robots.txt文件阻止机器人访问其网站的部分或全部内容。虽然这更多的是一种要求而非限制,但遵守它是可取的。例如,OpenAI为希望禁止GPT-4访问的网站所有者提供了如何修改其robots.txt的说明。因此,我们验证了访问托管证据的网站部分没有受到限制。
A4 实验环境与结果
实验环境
-
模型:
- GPT-4: 使用OpenAI (2023) 提供的API,包括带插件和不带插件两个版本。
- AutoGPT: 使用GPT-4作为其后端。
-
基线:
- 人类标注员: 作为性能上限参考。
- 网络搜索引擎: 将GAIA问题直接输入搜索引擎,检查首页结果是否能推导出答案,用以评估问题答案是否容易直接在网络上找到。
-
评估设置:
- 提示(Prompting): 使用一个统一的前缀提示(prefix prompt)来指导模型输出格式,以便于答案的自动提取和评估(见图2)。
- 运行次数: 对于有API的模式,每个模型运行三次并报告平均结果。
-
GPT-4插件说明:
- 由于没有官方API,对带插件的GPT-4评估采用手动查询ChatGPT的方式进行。
- 实验时,用户需要手动选择插件,作者根据任务的最佳猜测选择插件组合(通常包括链接阅读、网页浏览和计算工具)。
- 作者指出,插件生态不稳定(经常变化或下架),官方搜索工具也曾被移除后恢复。因此,GPT-4带插件的得分应被视为一个“神谕(oracle)”估计,代表了在插件稳定且能自动选择情况下的潜力,而非一个易于复现的结果。
实验结果
总体性能
- 实验结果清晰地展示在图4中。GAIA的难度级别(Level 1, 2, 3)与当前模型的性能表现出强相关性,验证了难度划分的有效性。
- 人类 vs. AI: 人类在所有难度级别上都表现出色(Level 1: 93.9%, Level 2: 91.8%, Level 3: 87.3%),而当前最强的LLM表现不佳。即使是带插件的GPT-4,在Level 1的得分也仅为30.3%,在Level 2降至9.7%,Level 3为0%。这表明GAIA为未来AI助手的发展留下了巨大的提升空间。
- 工具增强效果: 不带插件的GPT-4与带插件的GPT-4之间存在巨大性能差距,证明了通过工具API或网络访问来增强LLM能显著提高答案准确性,并解锁新应用场景。带插件的GPT-4表现出回溯、查询优化等复杂行为。
- AutoGPT表现: AutoGPT(使用GPT-4后端)在Level 1和Level 2的表现令人失望,甚至不如不带插件的GPT-4。这可能与其调用GPT-4 API的方式有关。同时,AutoGPT的响应速度也比其他LLM慢。
- 搜索引擎基线: 人工使用搜索引擎在Level 1问题上可以找到部分答案(7.4%),但在更复杂的问题上则无效。这证实了LLM助手作为搜索引擎竞争者的潜力。
按能力划分的性能
- 图5展示了各模型在Level 1问题上按所需能力划分的得分情况。
- 文件与多模态: 不带插件的GPT-4无法处理文件和多模态问题。然而,图表中显示非工具模型在这些类别中得分非零,这是因为某些任务可以通过与标注员不同的方式(例如,不依赖文件)解决。
- 网页浏览: 不带插件的GPT-4在需要网页浏览的问题上也能获得一些分数,这主要是因为它正确地“记忆”了组合答案所需的中间信息。
- 总体而言,带插件的GPT-4在各项能力上均优于其他模型配置,尤其在需要工具交互的类别中。
A5 讨论与局限性
讨论
闭源助手的可复现性。闭源API模型的能力可能随时间变化【索引: Lingjiao Chen et al., How is chatgpt’s behavior changing over time?, 2023】,使得评估难以复现。GAIA通过评估唯一的最终答案来保证对生成随机性的鲁棒性,但依赖于现实世界的基准本身可能会随时间衰退。
静态与动态基准。GAIA目前是一个精心策划的静态问题集。作者承认,为了应对预训练数据的污染或网络信息的消失,GAIA可能需要通过逐年更新(移除失效问题、增加新问题)来保持其有效性,从而更好地评估AI系统的泛化和鲁棒性。
迈向统一的生成模型评估。GAIA评估的是整个系统的表现,而不是将错误归因于特定的子模块(如视觉或网络浏览)。作者认为,未来的模型可能会趋向于将LLM与其他能力更紧密地集成,因此评估整个系统是合适的。GAIA的理念(要求执行复杂步骤并对结果进行简单、明确的验证)可以扩展到其他生成任务,例如通过自然语言对图像进行一系列复杂修改,并提出一个只有在修改正确执行后才能回答的问题。
部分自动化与完全自动化。GAIA要求完全自动化,因为答案不允许有任何近似。实现这种程度的自动化是深度学习长期追求但尚未完全实现的目标。完全自动化将重塑社会经济格局,这也引发了对技术所有权和开源重要性的讨论。
局限性
缺失的评估维度。GAIA目前只评估最终答案的正确性,而不评估得出答案的推理路径(trace)。因为通往正确答案的路径可能不止一条,评估路径的优劣缺乏简单客观的标准。未来可以考虑引入人类或基于模型的评估来评价推理计划。此外,由于OpenAI的API尚不提供详细的工具调用日志,因此无法进行细粒度的分析。
设计明确问题的成本。为了确保问题答案的唯一性,从而实现简单、可靠的评估,GAIA的设计过程需要大量的人工投入(包括一轮创建和两轮独立验证)。尽管成本高昂,但作者认为这比多次不可信的评估更具价值。此外,为了确保答案的唯一性,一些问题包含了大量细节,可能显得不自然。在实际应用中,助手需要处理不明确的问题,但这难以进行客观评估。
缺乏语言和文化多样性。GAIA的一个主要局限是所有问题都使用标准英语,并主要依赖英文网页。这使得该基准无法验证AI助手对非英语使用者(占全球人口80%)的有效性。作者希望在未来的工作或通过社区参与来弥补这一差距。
A6 附录
A 扩展相关工作
作为通用助手的LLM。将LLM转变为通用助手的探索途径多样:(i) 单智能体LLM增强,通过思维链提示等机制提升能力,如GPT-Engineer【索引: Anton Osika, GPT Engineer, 2023】和AutoGPT【索引: Hui Yang et al., Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions, 2023】;(ii) 多智能体LLM协作,通过辩论共同得出更优结论,如【索引: Guohao Li et al., CAMEL: Communicative Agents for ”Mind” Exploration of Large Scale Language Model Society, 2023a; Sirui Hong et al., MetaGPT: Meta Programming for Multi-Agent Collaborative Framework, 2023; hi-Min Chan et al., ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate, 2023; Yashar Talebirad and Amirhossein Nadiri, Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents, 2023】;(iii) 单智能体LLM与工具增强,如Blender Bot 3【索引: Kurt Shuster et al., Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage, 2022】、BOLAA【索引: Zhiwei Liu et al., BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents, 2023b】和AssistGPT【索引: Difei Gao et al., AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn, 2023】通过规划组件扩展LLM;Socratic Models【索引: Andy Zeng et al., Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language, 2022】或Visual ChatGPT【索引: Chenfei Wu et al., Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models, 2023】扩展多模态模型;WebGPT【索引: Reiichiro Nakano et al., Webgpt: Browser-assisted question-answering with human feedback, 2021】针对网络搜索进行微调;Toolformer【索引: Timo Schick et al., Toolformer: Language models can teach themselves to use tools, 2023】针对通用工具使用进行微调;ViperGPT【索引: D´ıdac Sur´ıs et al., ViperGPT: Visual Inference via Python Execution for Reasoning, 2023】利用编码能力生成正确的API调用;HuggingGPT【索引: Yongliang Shen et al., HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face, 2023】利用HuggingFace生态系统扩展其LLM能力;(iv) 提供完整的API/工具库,如OpenAI插件、SemanticKernel【索引: Microsoft, Semantic Kernel, 2023】、Langchain【索引: Harrison Chase, LangChain, 2022】和MiniChain【索引: Sasha Rush, MiniChain, 2023】。
B 数据卡
策展理由。详见3.4节和附录D。
语言多样性。标注员均在美国,所有问题、答案和元数据都以主流英语(很可能是美式英语)编写。论文作者均为法国人,英语非母语,可能导致问题或答案中包含非标准英语表达。
策展员与标注员人口统计信息。构建GAIA的策展员(设计问题和答案)和标注员(独立标注以评估明确性)来自以下人群:
- 年龄:18-25岁占17%,26-35岁占39%,36-45岁占26%,45-55岁占13%,56-65岁占4%。
- 性别:57%为男性,43%为女性。
- 学术背景:学士学位占61%,硕士学位占26%,博士学位占17%。
文本特征。详见附录C。
C GAIA的扩展描述
能力描述。基于标注员报告使用的工具,我们定义了GAIA所需的能力:
- Web浏览:与搜索网页和浏览网站相关的工具。例如:Web浏览器、搜索引擎、访问YouTube、谷歌街景。
- 多模态:与理解文本以外数据模态相关的工具。例如:语音转文本工具、视频识别、图像识别、OCR。
- 编码:与代码执行相关的工具。例如:Python、计算器、C++编译器。
- 多样化文件类型读取:与理解用户提供或网上找到的各类文件相关的工具。例如:PDF查看器、Excel文件访问、PowerPoint查看器。
- 不适用(N/A):可由未增强的LLM执行的任务工具。例如:德语翻译器、拼写检查器。
注意,一个工具可属于多个类别,如谷歌街景既需Web访问也需多模态能力。
文件类型。一些GAIA问题附带文件,其分布如图6所示。
问题难度。我们对标注员回答问题所用时间的分析显示,时间与所采取的步骤数相关。而与所用不同工具数量的相关性则不那么明确。
D 问题设计框架的扩展描述
问题创建阶段。我们向标注员提供了一组我们自己设计的GAIA问题种子集,并附有以下说明:
- 确保问题基于一个事实来源(如维基百科、arXiv等)。对于级别2和级别3,一个好的方法是组合多个事实来源。
- 确保答案不会以纯文本形式存在于互联网上。
- 确保答案是数字或最多几个词,以保证评估的鲁棒性。
- 确保答案不会随时间改变,包括事实来源可能被删除的情况。
- 确保答案是明确的。
- 确保问题是“有趣的”,即能体现AI助手的实用价值。
- 确保问题能由人类标注员在合理时间内回答。
- (后续补充):检查包含所需信息网站的robots.txt文件,以确保AI助手可以访问。
标注员还被要求回答他们自己创建的问题。表1展示了一个典型的已标注问题示例。
验证阶段。问题创建后,我们请两位新的独立标注员回答问题,以检查其是否明确。表2展示了验证阶段的典型标注员输出。表3提供了验证阶段的更多统计数据。如果新标注员与原始答案不完全一致且非人为错误,问题将被修复或移除。我们估计,创建一个问题,包括验证和修复,需要两小时的标注员时间。
D.1 扩展评估
表4提供了不同评估方法的详细得分。
GPT4回答GAIA的额外示例。图9展示了GPT-4在有无插件的情况下回答GAIA问题的推理轨迹。图10展示了GPT-4网页浏览插件能够根据找到的信息优化其初始查询。图11展示了GPT-4在解决一个关于魔方的逻辑谜题时的推理过程,尽管最终答案错误,但展示了其复杂的逐步分析能力。AutoGPT的输出目前更长、更密集且可解释性较差,其输出示例在补充材料中提供。
💬 评论讨论
欢迎在这里分享您的想法和见解!