Measuring Massive Multitask Language Understanding
Measuring Massive Multitask Language Understanding
作者/机构: Dan Hendrycks (UC Berkeley), Collin Burns (Columbia University), Steven Basart (UChicago), Andy Zou (UC Berkeley), Mantas Mazeika (UIUC), Dawn Song (UC Berkeley), Jacob Steinhardt (UC Berkeley)
A1 主要贡献
核心问题与研究目标:
自然语言处理(NLP)模型在许多基准测试中已达到超人水平,但这与它们在整体语言理解方面仍远逊于人类的现实存在脱节。现有的基准如GLUE【索引29, Glue: A multi-task benchmark and analysis platform for natural language understanding, 2018, Wang et al.】和SuperGLUE【索引30, Superglue: A stickier benchmark for general-purpose language understanding systems, 2019, Wang et al.】很快被模型攻克,这表明它们未能捕捉到语言理解的重要方面。同时,Transformer模型通过在包括维基百科、数千本书籍和众多网站在内的大规模文本语料库上进行预训练,接触到了海量的专业领域知识,而现有NLP基准并未评估这些知识。因此,当前语言模型在学习和应用多领域知识方面的能力究竟如何,仍然是一个悬而未决的问题。
为了弥合模型在预训练中接触的广泛知识与现有成功衡量标准之间的差距,本文旨在创建一个新的基准测试,用于评估模型在人类学习的各种学科中的知识水平。该基准专门设计用于衡量预训练期间获得的知识,仅在零样本(zero-shot)和少样本(few-shot)设置下对模型进行评估,这使得测试更具挑战性,也更接近于我们评估人类的方式。
创新点与主要发现:
1. 提出新型多任务测试: 本文引入了一个大规模的多任务测试,涵盖了57个不同的学科,包括STEM(科学、技术、工程和数学)、人文学科、社会科学等。测试的难度从初级水平延伸到高级专业水平,旨在同时考察模型的知识广度和解决问题的能力。学科范围广泛,从数学和历史等传统领域到法律和伦理等更专业的领域【索引12, Aligning AI with shared human values, 2020, Hendrycks et al.】。这种粒度和广度使得该基准非常适合识别模型的知识盲点。
-
评估预训练知识: 该测试通过零样本和少样本学习评估模型,旨在衡量模型从海量预训练语料中获取和应用知识的能力,而非依赖于特定任务的微调。
-
揭示SOTA模型的性能与缺陷:
- 模型规模的重要性: 研究发现,参数量高达130亿的少样本模型表现仅相当于随机猜测(约25%的准确率),而1750亿参数的GPT-3模型则达到了43.9%的准确率,显著优于随机水平。这表明模型规模的增长对知识掌握至关重要。
- 性能不均衡: 即使是最大的GPT-3模型,在任何单一学科上都未能达到专家水平。其表现存在严重的“偏科”现象,在最擅长的学科上准确率接近70%,但在其他几个学科上则接近随机猜测。
- 知识盲点: 模型在计算密集型学科(如物理和数学)以及与人类价值观相关的学科(如法律和道德)上表现尤其糟糕。
- 校准度差: GPT-3无法准确判断自己知识的掌握程度,其置信度与实际准确率的差距可高达24%。
通过全面评估模型在学术和专业知识方面的广度和深度,该测试可用于跨多任务分析模型,并识别其重要缺陷。
(a) 使用GPT-3进行少样本学习和推理的示例。蓝色下划线粗体文本是GPT-3的自动补全响应,而前面的文本是用户输入的提示。在这个2样本学习的例子中,有两个指令示例和一个最初不完整的示例。平均而言,GPT-3在高中数学问题上的准确率较低。
(b) 在一个常识基准(HellaSwag)、一个语言理解基准(SuperGLUE)和我们提出的大规模多任务测试上的性能。在以前的基准上,较小的模型起步就远高于随机猜测水平,并且随着模型尺寸的增加表现出更连续的改进,但在我们的测试中,GPT-3只有在最大模型时才超越随机猜测。
A3 相关工作
预训练
当前NLP领域的主流范式是在包含教育书籍和网站等海量文本语料库上预训练大型模型。在此过程中,这些模型接触到关于广泛主题的信息。Petroni等人【索引23, Language models as knowledge bases?, 2019, Petroni et al.】发现,近期的模型从预训练中学习到足够多的信息,以至于可以作为知识库使用。然而,先前没有工作全面衡量模型在众多真实世界领域中所掌握的知识。
从微调到少样本学习
直到最近,研究人员主要在下游任务上使用微调模型【索引7, Bert: Pre-training of deep bidirectional transformers for language understanding, 2019, Devlin et al.】。然而,像GPT-3【索引4, Language models are few-shot learners, 2020, Brown et al.】这样的大型预训练模型已经使得通过少样本学习(few-shot learning)在不进行微调的情况下实现有竞争力的性能成为可能,这消除了对大型微调集的需求。随着强大的零样本和少样本学习的出现,现在可以策划一组多样化的任务进行评估,并消除了模型依赖数据集中“虚假线索”(spurious cues)【索引8, Shortcut learning in deep neural networks, 2020, Geirhos et al.】、【索引11, Natural adversarial examples, 2019, Hendrycks et al.】来获得高性能的可能性。
常识基准
许多近期的基准旨在通过测试模型的“常识”来评估其通用世界知识和基本推理能力。在过去一年中,已经提出了许多常识基准,但近期模型在其中几个上已经接近人类水平,包括HellaSwag【索引31, Hellaswag: Can a machine really finish your sentence?, 2019, Zellers et al.】、Physical IQA【索引2, Piqa: Reasoning about physical commonsense in natural language, 2019, Bisk et al.】和CosmosQA【索引13, Cosmos qa: Machine reading comprehension with contextual commonsense reasoning, 2019, Huang et al.】。这些数据集的设计初衷是评估几乎每个儿童都具备的能力。相比之下,我们引入了更难的、人们必须通过学习才能掌握的专业学科。
评估方法
一些研究人员建议,NLP评估的未来应该关注自然语言生成(NLG)【索引32, Evaluating machines by their real-world language use, 2020, Zellers et al.】,这个想法可以追溯到图灵测试【索引28, Computing machinery and intelligence, 1950, Turing, A.】。然而,NLG的评估是出了名的困难,并且缺乏标准度量【索引27, A survey of evaluation metrics used for nlg systems, 2020, Sai et al.】。因此,我们创建了一个易于评估的测试,通过多项选择题的分类准确率来衡量性能。
现有问答基准的局限性
虽然存在一些问答基准,但它们的范围相对有限。大多数要么涵盖模型已经能取得优异性能的简单主题,如中小学学科【索引5, Think you have solved question answering? try arc, the ai2 reasoning challenge, 2018, Clark et al.】、【索引16, Qasc: A dataset for question answering via sentence composition, 2019, Khot et al.】、【索引21, Can a suit of armor conduct electricity? a new dataset for open book question answering, 2018, Mihaylov et al.】、【索引6, From ’f’ to ’a’ on the n.y. regents science exams: An overview of the aristo project, 2019, Clark et al.】,要么专注于阅读理解形式的语言理解【索引18, Race: Large-scale reading comprehension dataset from examinations, 2017, Lai et al.】、【索引26, MCTest: A challenge dataset for the open-domain machine comprehension of text, 2013, Richardson et al.】。相比之下,我们涵盖了远超语言理解范围的广泛且困难的学科。
A2 方法细节
一个多任务测试
测试构成与来源
我们创建了一个大规模的多任务测试,由来自不同知识分支的多项选择题组成。该测试涵盖人文学科、社会科学、硬科学以及其他对特定人群而言重要的学习领域。总共有57个任务,这个数字也与雅达利游戏(Atari games)的数量相同【索引1, The arcade learning environment: An evaluation platform for general agents (extended abstract), 2013, Bellemare et al.】,所有任务都列在附录B中。数据集中的问题由研究生和本科生从网上免费获取的资源中手动收集。这些资源包括研究生入学考试(GRE)和美国医师执照考试(USMLE)等考试的练习题。它还包括为本科课程设计的问题以及为牛津大学出版社书籍的读者设计的问题。一些任务涵盖了特定学科,如心理学,但难度级别不同,分为“初级”、“高中”、“大学”或“专业”。例如,“专业心理学”任务的题目来源于专业心理学执业考试(Examination for Professional Practice in Psychology)的免费练习题,而“高中心理学”任务的题目则类似于大学预修课程心理学(Advanced Placement Psychology)考试的题目。
数据集划分
我们总共收集了15908个问题,并将其划分为一个少样本开发集、一个验证集和一个测试集。少样本开发集每个科目有5个问题,验证集可用于选择超参数,由1540个问题组成,测试集有14079个问题。每个科目至少包含100个测试样本,这比大多数用于评估人类的考试都要长。
人类水平的准确率
在这个测试上,人类水平的准确率各不相同。来自亚马逊土耳其机器人(Amazon Mechanical Turk)的非专业人士在该测试中获得了34.5%的准确率。与此同时,专家水平的表现可能要高得多。例如,对于构成我们“专业医学”任务的美国医师执照考试题目,真实考生的第95百分位数准确率约为87%。如果我们采用构成我们测试的考试中人类考生的第95百分位数准确率,并在信息不可用时进行有根据的猜测,我们估计专家水平的准确率约为89.8%。
测试目标
由于我们的测试汇集了不同的学科和多个难度级别,我们衡量的不仅仅是简单的常识或狭隘的语言理解。相反,我们衡量的是任意的真实世界文本理解能力。由于模型是在互联网上进行预训练的,这使我们能够测试它们从海量语料库中提取有用知识的能力。未来使用该测试的模型可以是单一模型,也可以是专家混合模型。为了在我们的测试中取得成功,未来的模型应该全面发展,拥有广泛的世界知识,并发展出专家级的问题解决能力。这些特性使得该测试可能成为一个持久且富有信息的衡量标准。
人文学科
人文学科的技能要求
人文学科是一组利用定性分析和分析方法而非科学经验方法的学科。人文学科的分支包括法律、哲学、历史等(见附录B)。掌握这些学科需要多种技能。例如,法律理解需要知道如何将规则和标准应用于复杂情景,并提供附带规定和解释的答案。我们在图2中对此进行了说明。法律理解对于理解和遵守规则和法规也是必要的,这是约束开放世界机器学习模型的必要能力。对于哲学,我们的问题涵盖了逻辑谬误、形式逻辑和著名哲学论证等概念。它还涵盖了道德情景,包括来自ETHICS数据集【索引12, Aligning AI with shared human values, 2020, Hendrycks et al.】的问题,这些问题通过预测对各种日常情景的广泛道德直觉来测试模型对规范性陈述的理解。最后,我们的历史问题涵盖了广泛的时间段和地理位置,包括史前和其他高级主题。
社会科学
社会科学的考察范围
社会科学包括研究人类行为和社会的知识分支。学科领域包括经济学、社会学、政治学、地理学、心理学等。图3展示了一个示例问题。我们的经济学问题包括微观经济学、宏观经济学和计量经济学,并涵盖不同类型的问题,包括需要综合世界知识、定性推理或定量推理的问题。我们还包括了重要但更深奥的主题,如安全研究,以测试预训练期间所经历和学习的知识边界。社会科学还包括心理学,这个领域对于获得对人类的细致入微的理解可能尤为重要。
政府不鼓励和管制垄断的原因之一是
(A) 生产者剩余损失,消费者剩余增加。
(B) 垄断价格确保了生产效率,但使社会付出了配置效率的代价。
(C) 垄断企业不从事重要的研发。
(D) 消费者剩余因价格上涨和产出水平下降而损失。
科学、技术、工程和数学(STEM)
STEM学科的特点
STEM学科包括物理学、计算机科学、数学等。图4展示了两个例子。概念物理学测试对简单物理原理的理解,可以被看作是物理常识基准Physical IQA【索引2, Piqa: Reasoning about physical commonsense in natural language, 2019, Bisk et al.】的更难版本。我们还测试了不同难度级别的数学问题解决能力,从初级到大学水平。大学数学问题,如GRE数学科目考试中的问题,通常需要推理链和抽象知识。为了编码数学表达式,我们使用LaTeX或符号如*和ˆ分别表示乘法和指数运算。STEM学科需要经验方法、流体智力和程序性知识。
其他
“其他”类别的构成
有一长串的学科,它们要么不完全属于前面三个类别中的任何一个,要么没有成千上万个免费可用的问题。我们将这些学科归入“其他”类别。这个部分包括“专业医学”任务,其中包含需要人类多年学习才能掌握的难题。图5描绘了一个例子。这个部分还包含商业主题,如金融、会计和市场营销,以及全球事实知识。后者包括不同国家随时间变化的贫困统计数据,这对于拥有一个准确的国际世界模型可能是必要的。
一名33岁的男子因甲状腺癌接受了甲状腺全切除术。手术期间,颈部左侧出现中度出血,需要结扎几根血管。术后,血清研究显示钙浓度为7.5 mg/dL,白蛋白浓度为4 g/dL,甲状旁腺激素浓度为200 pg/mL。下列哪条血管的损伤导致了该患者的上述发现?
(A) 肋颈干的分支 (B) 颈外动脉的分支 (C) 甲状颈干的分支 (D) 颈内静脉的支流
</blockquote>A4 实验环境
-
评估与模型:
- 评估指标: 跨所有示例和任务的分类准确率。
-
GPT-3: 使用OpenAI API进行评估,涵盖四个模型变体【索引4, Language models are few-shot learners, 2020, Brown et al.】:
- "Ada" (Small, 27亿参数)
- "Babbage" (Medium, 67亿参数)
- "Curie" (Large, 130亿参数)
- "Davinci" (X-Large, 1750亿参数)
-
UnifiedQA: 基于T5【索引25, Exploring the limits of transfer learning with a unified text-to-text transformer, 2019, Raffel et al.】架构,已在其他问答数据集上微调过【索引18, Race: Large-scale reading comprehension dataset from examinations, 2017, Lai et al.】。本文评估其在不进行额外调整下的迁移准确率【索引15, Unifiedqa: Crossing format boundaries with a single qa system, 2020, Khashabi et al.】。
- 其他微调模型: RoBERTa-base, ALBERT-xxlarge, 和 GPT-2,这些模型在UnifiedQA训练数据和本测试的开发+验证集上进行了微调。
-
少样本提示(Few-Shot Prompt):
- 格式: 向GPT-3输入的提示格式如图1a所示。每个提示以“以下是关于[学科]的多项选择题(附答案)”开头。
- 零样本评估: 直接在提示后附加问题。
- 少样本评估: 在附加问题之前,向提示中添加最多5个带有答案的演示示例。
- 结尾: 所有提示均以“答案:”结尾。
- 预测: 模型为“A”、“B”、“C”、“D”这几个词元生成概率,选择概率最高的选项作为预测结果。
- 一致性: 为保证评估的一致性,为每个学科创建了一个包含5个固定少样本示例的开发集。
A4 实验结果
模型规模与准确率
- 如表1所示,三种较小的GPT-3模型(参数量最高130亿)的少样本准确率接近随机水平(约25%)。
- 相比之下,1750亿参数的GPT-3 X-Large模型表现显著优于随机猜测,准确率达到43.9%。
- 在零样本设置下,结果类似:较小模型的准确率约为25%,而最大的GPT-3模型准确率达到37.7%(见附录A,图10)。
- 图1b显示,与评估常识和语言理解的数据集相比,本测试中超越随机水平的准确率是随着近期大型少样本模型的出现才成为可能的。
- 微调模型表现更佳:尽管参数量(110亿)远小于GPT-3 X-Large,但UnifiedQA的迁移准确率达到了48.9%。即便是最小的UnifiedQA变体(6000万参数),准确率也达到了29.3%。这表明,模型规模是关键因素,但微调同样有助于提升性能。
跨学科表现比较
- 性能不均衡: 图6显示,GPT-3和UnifiedQA的性能存在严重的“偏科”,并且存在显著的知识差距。两个模型在所有57个任务上的表现均低于专家水平。GPT-3的准确率从美国外交政策的69%到大学化学的26%不等。UnifiedQA在市场营销上表现最好,准确率为82.5%。
- 程序性知识薄弱: 模型在高度程序化的问题上表现不佳。图6表明,计算密集的STEM学科的准确率普遍低于语言类学科。对于GPT-3,准确率最低的10个任务中有9个是强调数学或计算的STEM学科。研究者推测,这部分是因为GPT-3获取陈述性知识比程序性知识更容易。例如,图7显示GPT-3知道PEMDAS(运算顺序)这个缩写词,但无法稳定地将其应用于实际计算问题。
- 其他薄弱环节: 除了程序性理解,一些语言类任务如道德情景【索引12, Aligning AI with shared human values, 2020, Hendrycks et al.】和专业法律的准确率也特别低。
- 非人类学习模式: GPT-3获取知识的顺序与人类的教学顺序不同,例如它在大学医学(47.4%)和大学数学(35.0%)上的表现优于计算密集的小学数学(29.9%)。这表明GPT-3具有异常的知识广度,但未能精通任何一个学科,存在许多知识盲点。
模型校准
- 校准度差: 大型神经网络通常存在校准不佳的问题【索引9, On calibration of modern neural networks, 2017, Guo et al.】,尤其是在分布偏移下【索引22, Can you trust your model’s uncertainty? Evaluating predictive uncertainty under dataset shift, 2019, Ovadia et al.】。图8显示GPT-3是未校准的。在零样本设置下,其置信度与实际准确率之间的关系很弱,某些学科的置信度与准确率差距高达24%。
- 量化指标: 均方根(RMS)校准误差【索引10, Deep anomaly detection with outlier exposure, 2019, Hendrycks et al.】、【索引17, Verified uncertainty calibration, 2019, Kumar et al.】也证实了这一点。例如,小学数学的零样本RMS校准误差为19.4%。
- 少样本校准: 尽管在少样本设置下模型的校准度有所改善,但仍存在较大问题(见附录A)。这些结果表明模型校准有很大的改进空间。
A7 补充细节
讨论
多模态理解
尽管文本能够传达大量关于世界的概念,但许多重要概念主要通过其他模态(如图像、音频和物理交互)来传达【索引3, Experience grounds language, 2020, Bisk et al.】。现有的大规模NLP模型(如GPT-3)并未整合多模态信息,因此我们设计的基准旨在以纯文本格式捕捉多样化的任务。然而,随着模型处理多模态输入能力的增强,基准测试也应相应调整。一个可能的未来基准可以是“土耳其人测试”(Turk Test),由亚马逊土耳其机器人(Amazon Mechanical Turk)的人类智能任务组成。这些是定义明确的任务,要求模型与灵活的格式交互并展示多模态理解能力。
将互联网作为训练集
我们的基准与以往的多任务NLP基准的一个主要区别在于,我们不要求提供大型训练集。相反,我们假设模型已经通过阅读互联网上大量多样的文本获得了必要的知识。这个过程通常被称为预训练,但它本身也可以被视为一种训练,其下游评估旨在展示人类在阅读相同文本后所能获得的知识。
方法论的变革
这促使我们提出一种方法论上的改变,使得模型的训练方式更像人类的学习方式。虽然大多数以往的机器学习基准让模型从一个大型题库中学习,但人类主要是通过阅读书籍和听取他人讨论来学习新学科。对于像专业法律这样的专业学科,有大量的法律语料库可用,例如164卷的法律百科全书《Corpus Juris Secundum》,但可用的多州律师资格考试问题却不足5000个。仅通过少量练习题来学习整个法律体系是不现实的,因此未来的模型必须在预训练期间学到更多。
新的评估范式
因此,我们在零样本、少样本或迁移设置下评估预训练模型,并为每个任务提供开发集、验证集和测试集。开发集用于少样本提示,验证集可用于超参数调整,测试集用于计算最终准确率。重要的是,我们的评估格式与预训练期间信息获取的格式并不相同。这样做的好处是避免了对训练集标注中虚假人为因素的担忧【索引8, Shortcut learning in deep neural networks, 2020, Geirhos et al.】、【索引11, Natural adversarial examples, 2019, Hendrycks et al.】,这与之前训练集和测试集同分布的范式形成鲜明对比。这种改变也使得收集更广泛、更多样化的评估任务成为可能。我们预计,随着模型从多样化的在线资源中提取信息的能力提高,我们的方法论将变得更加普遍。
模型局限性
我们发现当前的大规模Transformer模型有很大的改进空间。它们在建模人类的(不)赞同方面表现尤其差,这从在专业法律和道德情景任务上的低性能中可见一斑。为了使未来的系统与人类价值观保持一致,这些任务上的高性能至关重要【索引12, Aligning AI with shared human values, 2020, Hendrycks et al.】,因此未来的研究应特别致力于提高这些任务的准确率。模型在执行计算方面也存在困难,以至于它们在小学数学和许多其他包含“代入计算”问题的STEM学科上表现不佳。此外,它们在任何学科上都未能达到专家级水平(90%),因此在所有学科上都低于人类水平。平均而言,模型目前才刚刚开始超越随机猜测的准确率水平。
解决局限性的挑战
解决这些缺点可能具有挑战性。为了说明这一点,我们尝试通过在专业数据上进行预训练来创建一个更好的专业法律模型,但仅取得了有限的成功。我们收集了大约2000个额外的专业法律训练样本。在使用这个自定义训练集微调一个RoBERTa-base模型【索引20, Roberta: A robustly optimized bert pretraining approach, 2019, Liu et al.】后,我们的模型达到了32.8%的测试准确率。为了测试额外专业训练数据的影响,我们还让RoBERTa在哈佛法学院图书馆的判例法语料库case.law上,对大约160万份法律案例摘要继续进行预训练,但微调后准确率仅达到36.1%。这表明,虽然在相关的高质量文本上进行额外的预训练可以有所帮助,但可能不足以显著提高当前模型的性能。
扩展的未知性
目前尚不清楚仅仅扩大现有语言模型的规模是否能解决这个测试。当前的理解表明,模型规模增加10倍必须伴随数据量大约增加5倍【索引14, Scaling laws for neural language models, 2020, Kaplan et al.】。除了创建数万亿参数语言模型的巨大开销外,数据也可能成为瓶颈,因为关于深奥知识分支的文字远少于关于日常情景的文字。
A5 结论
本文引入了一个新的测试,用于衡量文本模型学习和应用在预训练期间遇到的知识的能力。通过涵盖57个不同难度级别的学科,该测试比以往的基准在更广的范围和更深的层次上评估了语言理解能力。我们发现,模型最近才有可能在该测试上取得有意义的进展,但最先进的模型表现出不均衡的性能,并且很少在任何单个任务上表现出色。我们还表明,当前模型是未经校准的,并且在需要计算的任务上存在困难。令人担忧的是,模型在包括道德和法律在内的社会相关学科上表现尤其差。我们这个广泛的测试可以帮助研究人员精确定位模型的重要缺点,从而更容易地获得对最先进能力的更清晰的认识。
A6 附录
A 附加分析
本附录包括按任务排序的结果图(图9)、少样本示例数量与准确率的关系图(图10)以及少样本校准图(图11)。此外,还包括关于微调、错误分析和格式敏感性的部分。
A.1 使用更多微调模型的分析
小型模型的表现
我们在论文主体部分主要分析了参数超过100亿的模型。在本节中,我们分析了包括RoBERTa-base(1.25亿参数)【索引20, Roberta: A robustly optimized bert pretraining approach, 2019, Liu et al.】、ALBERT-xxlarge(2.23亿参数)【索引19, Albert: A lite bert for self-supervised learning of language representations, 2020, Lan et al.】和GPT-2(15.58亿参数)【索引24, Language models are unsupervised multitask learners, 2019, Radford et al.】在内的较小模型。这些模型使用UnifiedQA的多项选择题以及我们的开发集+验证集进行微调,以预测四个类别中的一个。我们在我们的多任务测试集上进行测试。我们观察到,这些较小的模型可以获得优于随机猜测的准确率。RoBERTa-base的总体准确率为27.9%,其中人文学科27.9%,社会科学28.8%,STEM 27.0%,其他27.7%。ALBERT-xxlarge的准确率为27.1%,其中人文学科27.2%,社会科学25.7%,STEM 27.7%,其他27.9%。GPT-2的准确率为32.4%,其中人文学科32.8%,社会科学33.3%,STEM 30.2%,其他33.1%。
预训练数据集的重要性
与此相比,UnifiedQA的最小变体只有6000万参数,准确率约为29.3%。尽管参数更少,但其准确率高于RoBERTa和ALBERT。这表明其更大的预训练数据集使得准确率更高。同样,拥有30亿参数的UnifiedQA达到了43.7%的准确率,而规模相近的15亿参数的GPT-2模型准确率仅为32.4%。这再次表明,T5更大的预训练数据集规模(因此也是UnifiedQA的预训练数据集规模)可以提高准确率。
A.2 错误分析
高置信度错误的性质
我们定性分析了GPT-3产生高置信度错误的情况。我们发现,虽然其中许多错误明显是错误的,但也有许多是人类可能犯的错误。例如,它答错的一个问题是“所有人类体细胞含有多少条染色体?”正确答案是46条,而少样本GPT-3以97.5%的置信度预测为23条。如果问题问的是染色体的对数,这个答案本应是正确的。类似地,它的许多其他高置信度错误也是对稍有不同的问题的正确答案。
A.3 格式敏感性
不同模型的敏感度
虽然不同的问题格式选择通常会导致GPT-3的准确率相似,但我们发现UnifiedQA更为敏感。UnifiedQA的输入格式为 QUESTION1 \\n (A) CHOICE1 (B) CHOICE2 (C) CHOICE3 (D) CHOICE4</s>,其中问题和选项被规范化并转为小写。如果我们从输入中移除 </s>,准确率会下降几个百分点。
B 测试细节
B.1 任务描述和示例
问题长度与难度分析
我们在图12中提供了问题长度和难度的分析。我们在表2中列出了所有任务及其测试的主题。我们还从图14开始为每个任务提供了一个示例。
B.2 精确问题和答案污染
污染问题的分析
由于语言模型在庞大的文本语料库上进行训练,它们有可能在预训练期间看到过确切的问题和答案。如果它们记住了确切的问题和答案,那么它们的准确率将高于其真实能力。同样,如果一个问题被记住,其熵将特别低。被记住的问题和答案应该具有低熵和高准确率。然而,在图13中,我们看到准确率和问题熵并非正相关,这表明测试中的低熵问题并不对应于被记住(并因此被正确预测)的答案。这表明我们的确切问题没有被记住。然而,在预训练期间,模型通过处理维基百科接触到了与我们问题相关的文本。我们还注意到,我们的大部分问题来自PDF或网站,其中问题和答案位于不同的页面。
缓解措施
关于污染的先前讨论,请参见Brown等人(2020)【索引4, Language models are few-shot learners, 2020, Brown et al.】,该文表明这种现象几乎不影响性能。为了降低未来模型在测试时遇到确切问题的可能性,我们将提供一个问题来源列表。
各任务示例
* 图14: 抽象代数示例
Find all $c$ in $\mathbb{Z}_3$ such that $\mathbb{Z}_3[x]/(x^2 + c)$ is a field.
(A) 0 (B) 1 (C) 2 (D) 3
* 图15: 解剖学示例
* 图16: 天文学示例
* 图17: 商业道德示例
> 公民社会组织(CSO)为实现其目标可以采用三种截然不同的策略,它们是通常涉及研究和沟通的__,可能涉及对公司运营进行物理攻击的_,或者通常涉及某种形式的。
* 图18: 临床知识示例
> 在将工作交给高级同事之前,您应该尝试为患者插管多少次?
_PROTECTED_IMAGE_15
* 图19: 大学生活学示例
> 在一个给定的人群中,每400人中就有1人患有由完全隐性等位基因b引起的癌症。假设该人群处于哈迪-温伯格平衡状态,以下哪项是携带b等位基因但预计不会患上癌症的个体的预期比例?
* 图20: 大学化学示例
* 图21: 大学计算机科学示例
> 考虑一种计算机设计,其中多个处理器(每个都带有私有缓存)通过单一总线共享全局内存。该总线是关键的系统资源。只要内存引用由其本地缓存满足,每个处理器每500纳秒可以执行一条指令。当发生缓存未命中时,处理器会额外延迟2000纳秒。在这段额外延迟的一半时间内,总线专门用于处理缓存未命中。在另一半时间内,处理器无法继续,但总线可以为其他处理器的请求服务。平均而言,每条指令需要2次内存引用。平均而言,缓存未命中发生在1%的引用上。忽略来自其他处理器的竞争导致的延迟,单个处理器会消耗总线容量的多少比例?
* 图22: 大学数学示例
* 图23: 大学医学示例
> 在新生儿的基因测试中,发现一种罕见的X连锁隐性遗传病。关于这种疾病的谱系,以下哪种说法可能是正确的?
* 图24: 大学物理学示例
> 一根长度为2L、横截面积为A的镍铬合金线的一端连接到另一根长度为L、横截面积为2A的镍铬合金线的一端。如果较长线的自由端电位为8.0伏特,较短线的自由端电位为1.0伏特,那么两根线连接处的电位最接近于
* 图25: 计算机安全示例
* 图26: 概念物理学示例
> 一架模型飞机逆风飞行时速度较慢,顺风飞行时速度较快。当它以与风向成直角的方向(侧风)起飞时,其地速与在静止空气中飞行时相比是 (A) 相同 (B) 更大 (C) 更小 (D) 取决于风速,可能更大或更小
* 图27: 计量经济学示例
$y_t = 0.2 + 0.4y_{t-1} + u_t$
* 图28: 电气工程示例
> 一个点磁极的强度为 4π × 10⁻⁴ 韦伯。放置在距离它10厘米处的一个强度为 4π × 1.5 × 10⁻⁴ 韦伯的点磁极所受的力(牛顿)将是
* 图29: 初等数学示例
* 图30: 形式逻辑示例
$E \supset (F \cdot E) \text{ and } \sim E \cdot F$
* 图31: 全球事实示例
> 截至2017年,今天世界上有多少1岁的儿童接种了疫苗?
* 图32: 高中生物学示例
* 图33: 高中化学示例
> 根据溶解度规则,以下哪项是正确的?
* 图34: 高中计算机科学示例
* 图35: 高中欧洲史示例
* 图36: 高中地理学示例
* 图37: 高中政府与政治示例
* 图38: 高中宏观经济学示例
* 图39: 高中数学示例
* 图40: 高中微观经济学示例
* 图41: 高中物理学示例
* 图42: 高中心理学示例
* 图43: 高中统计学示例
* 图44: 高中美国历史示例
* 图45: 高中世界历史示例
* 图46: 人类衰老示例
* 图47: 人类性行为示例
* 图48: 国际法示例
* 图49: 法理学示例
* 图50: 逻辑谬误示例
* 图51: 机器学习示例
* 图52: 管理学示例
> 根据Lewin, Lippet和White在1939年的实验,哪种领导形式让参与者完成了最多的工作?
* 图53: 市场营销示例
> 社会中最容易受到参照群体影响的单一群体是:
* 图54: 医学遗传学示例
> 针对Sandel的“社会正义”论点,Kamm认为
* 图55: 杂项示例
* 图56: 道德争议示例
* 图57: 道德情景示例。该任务的格式严重影响了UnifiedQA的性能。
> 对于以下两种情景,主角(使用我/我的)在哪种情况下做了明显不道德的事情?
> 情景1 | 我在赛道上开得很快。
> 情景2 | 我在郊区开得很快。
* 图58: 营养学示例
> 以下哪项是膳食纤维对结肠癌具有保护作用的最合理解释?
* 图59: 哲学示例
* 图60: 史前史示例
> 研究人员现在认为,玛雅文明的衰落主要是由以下原因造成的:
* 图61: 专业会计示例
* 图62: 专业法律示例
* 图63: 专业医学示例
* 图64: 专业心理学示例
* 图65: 公共关系示例
* 图66: 安全研究示例
* 图67: 社会学示例
* 图68: 美国外交政策示例
* 图69: 病毒学示例
* 图70: 世界宗教示例
> 在糖尿病患者中进行的一项观察性研究评估了血浆纤维蛋白原水平升高对心脏事件风险的影响。对130名糖尿病患者进行了为期5年的随访,以评估急性冠状动脉综合征的发生情况。在基线血浆纤维蛋白原水平正常的60名患者组中,20人发生了急性冠状动脉综合征,40人没有。在基线血浆纤维蛋白原水平高的70名患者组中,40人发生了急性冠状动脉综合征,30人没有。与基线血浆纤维蛋白原水平正常的患者相比,基线血浆纤维蛋白原水平高的患者的相对风险的最佳估计是以下哪项?
💬 评论讨论
欢迎在这里分享您的想法和见解!