作者/机构: Nisan Stiennon∗, Long Ouyang∗, Jeff Wu∗, Daniel M. Ziegler∗, Ryan Lowe∗, Chelsea Voss∗, Alec Radford, Dario Amodei, Paul Christiano∗ (OpenAI)

A1 主要贡献

本文的核心问题是,当前用于微调大型语言模型的监督学习目标(即最大化人类编写文本的对数概率)与我们真正关心的目标(即生成由人类判断的高质量输出)之间存在偏差。这种偏差导致模型无法区分重要错误(如捏造事实)和不重要错误(如选择同义词),同时模型会被低质量的人类示范数据影响,并在采样过程中因分布偏移而性能下降。现有的自动评估指标(如ROUGE)也与人类判断的相关性较差。

为了解决这一问题,研究的目标是探索一种能更直接地根据人类偏好来优化语言模型的方法。本文聚焦于抽象式英文文本摘要任务,通过结合人类反馈和强化学习来训练模型,使其生成更高质量的摘要。

本文的主要贡献如下:

  1. 证明了通过人类反馈训练能显著优于强大的基线:在Reddit的TL;DR数据集上,通过人类反馈训练的策略生成的摘要,其质量远超通过监督学习训练的、规模大得多的模型。这些摘要甚至比数据集中的原始人类示范摘要更受标注者青睐。


    图 1: 在TL;DR数据集上,人类偏好我们的模型摘要而非人类生成的参考摘要的比例。由于质量判断涉及在24-48个词元限制内权衡摘要长度与覆盖范围,我们在附录F中提供了长度受控的图表;在6.7B模型中,长度差异解释了反馈学习与监督学习之间约三分之一的差距。

  2. 证明了人类反馈模型在新领域上具有更强的泛化能力:在Reddit上训练的人类反馈模型,无需任何新闻领域的特定微调,就能在CNN/DailyMail (CNN/DM)数据集上生成高质量的新闻摘要,其质量几乎与该数据集的参考摘要相当。

  3. 对策略和奖励模型进行了广泛的实证分析:研究了模型和数据规模的影响(图6),分析了持续优化给定奖励模型时的性能变化(第4.3节),并使用合成和人工编写的摘要扰动来分析奖励模型的性能(第4.3节)。实验证实,该奖励模型在预测人类偏好方面优于ROUGE等其他指标,并且直接优化该奖励模型比优化ROUGE能产生更高质量的摘要(根据人类判断,第4.4节)。

  4. 公开发布了用于进一步研究的人类反馈数据集:该数据集包含在TL;DR数据集上的64,832个摘要比较,以及在TL;DR(比较和李克特量表评分)和CNN/DM(李克特量表评分)上的评估数据。

A2 方法细节

3.1 高层方法论

整体流程。本文的方法类似于【73,Fine-tuning language models from human preferences,2019,arXiv】中概述的方法,并将其调整为批量(batch)设置。首先,使用一个在目标数据集(本文为Reddit TL;DR摘要数据集)上通过监督学习微调的初始策略。整个过程(如图2所示)包含三个可以迭代重复的步骤。

  • 步骤1:从现有策略中收集样本并发送给人类进行比较。对于每个Reddit帖子,我们从多个来源采样摘要,包括当前策略、初始策略、原始参考摘要以及各种基线模型。我们将成对的摘要批量发送给人类评估员,他们的任务是为给定的Reddit帖子选择最佳摘要。

  • 步骤2:从人类比较中学习一个奖励模型。给定一个帖子和一份候选摘要,我们训练一个奖励模型来预测该摘要被标注者判断为更优的对数几率。

  • 步骤3:根据奖励模型优化一个策略。我们将奖励模型的logit输出视为一个奖励,并使用强化学习,特别是PPO算法【58,Proximal policy optimization algorithms,2017,arXiv】,来优化策略以最大化该奖励。


图 2: 我们的人类反馈、奖励模型训练和策略训练流程图。

迭代实践。在实践中,我们并没有严格地迭代这三个步骤,而是在项目过程中随着标签的积累,不断更新我们的数据收集和训练程序(详见附录C.6)。

3.2 数据集和任务

数据集。我们使用了TL;DR摘要数据集【63,Tl; dr: Mining reddit to learn automatic summarization,2017,Workshop on New Frontiers in Summarization】,该数据集包含来自reddit.com上各种主题(subreddits)的约300万个帖子,以及由原帖作者撰写的摘要(TL;DRs)。我们对该数据集进行了额外过滤(见附录A)以确保质量,包括使用一个普通大众能理解的subreddit白名单。关键的是,我们还筛选出人类编写的摘要长度在24到48个词元之间的帖子,以最小化摘要长度对质量的潜在影响(见4.1节和附录F)。我们最终过滤后的数据集包含123,169个帖子,并保留了约5%作为验证集。在本文的其余部分,我们将此数据集简称为TL;DR。我们选择TL;DR数据集而不是更常用的CNN/DM数据集,主要是因为在CNN/DM上,简单的抽取式基线就能达到非常强的性能。我们在4.2节发现,我们的标注者更偏爱lead-3(文章前三句)摘要,而不是CNN/DM的参考摘要,并且监督学习的T5模型【49,Exploring the limits of transfer learning with a unified text-to-text transformer,2019,arXiv】在低温采样时已经超过了参考摘要的质量,同时大量复制了文章内容。相比之下,简单的抽取式基线在TL;DR上的人类评估中表现不佳(见附录G.2)。因此,我们没有在CNN/DM上进行训练,而是研究了我们的人类反馈模型在被训练来总结Reddit帖子后,到CNN/DM的迁移性能。

任务。我们将我们的基准任务定义为:生成一个模型,该模型能够产生长度小于48个词元的摘要,并且根据我们的判断,摘要质量尽可能高。我们通过摘要向一个只能阅读摘要而不能阅读原文的读者传达原文的忠实程度来判断摘要质量(关于标准的进一步讨论见附录C.5)。由于我们自己进行比较的能力有限,我们雇佣了标注者来为我们进行比较。我们依靠详细的流程来确保标注者和我们在任务上的高度一致性,具体将在下一节描述。

嘿Reddit!我(20M)想要一些建议,因为我明天有我人生中的第一次约会(虽然我曾有过一个交往3年的女友,但没有真正约会过),我们要去海滩。

几天前,我在一个节日上遇到了这个女孩,我们有共同的朋友。我们没有接吻,但我们聊了天,牵了手,还跳了会儿舞。我约她和我一起去约会,这对我来说非常困难,因为这是我第一次约任何人。我的意思是,这不像一个标准的第一次约会,因为我们已经在一起度过了一些时间。

我真的很紧张和兴奋。我明天要去接她,我们骑自行车去海滩,大概要30分钟,然后呢?我有点害怕。我应该带点什么吗(天气虽然晴朗无雨,但不是特别好,所以不能游泳),我们应该做点什么吗。我希望得到所有我能得到的建议。谢谢!


表 1: TL;DR数据集上的帖子和样本示例,特意选择了较短的。随机样本(以及帖子)请见附录H和我们的网站。

3.3 收集人类反馈

先前工作的挑战。先前关于利用人类反馈微调语言模型的工作【73,Fine-tuning language models from human preferences,2019,arXiv】报告称,“我们希望模型学习的质量概念与人类标注者实际评估的内容之间存在不匹配”,这导致模型生成的摘要在标注者看来质量很高,但在研究人员看来质量相当低。

改进措施。与【73,Fine-tuning language models from human preferences,2019,arXiv】相比,我们实施了两项改进以提高人类数据质量。首先,我们完全转为离线设置,即我们交替进行两个步骤:向人类标注者发送大批量的比较数据,然后在累积收集的数据上重新训练我们的模型。其次,我们与标注者保持密切的互动关系:我们为他们提供详细的入职培训指南,在共享聊天室中回答他们的问题,并定期提供关于他们表现的反馈。我们对所有标注者进行培训,以确保他们与我们的判断高度一致,并在项目过程中持续监控标注者与研究人员的一致性。详情见附录C.1和C.5。

高质量结果。由于我们的流程,我们获得了很高的标注者-研究人员一致性:在一个比较任务子集上,标注者与研究人员在77% ± 2%的情况下意见一致,而研究人员之间的意见一致率为73% ± 4%。我们在附录C.2中提供了更多关于我们人类数据质量的分析。

3.4 模型

模型架构。我们所有的模型都是基于GPT-3风格的Transformer解码器【62,Attention is all you need,2017,Advances in neural information processing systems】。我们在13亿(1.3B)和67亿(6.7B)参数的模型上进行人类反馈实验。

预训练模型。与【12,Semi-supervised sequence learning,2015,Advances in neural information processing systems】、【47,Improving language understanding by generative pre-training,2018】类似,我们从在一个大型文本语料库上进行自回归式下一个词元预测的预训练模型开始。如同【48,Language models are unsupervised multitask learners,2019,OpenAI Blog】、【4,Language models are few-shot learners,2020】一样,我们通过在上下文中填充数据集中的高质量摘要示例,将这些模型用作“零样本”基线。我们在附录B中提供了预训练的详细信息,在附录B.2中提供了零样本过程的详细信息。

监督学习基线。接下来,我们通过监督学习对这些模型进行微调,以预测我们过滤后的TL;DR数据集中的摘要(详情见附录B)。我们使用这些监督模型来采样初始摘要以收集比较数据,初始化我们的策略和奖励模型,并作为评估的基线。在我们最终的人类评估中,我们对所有模型使用T=0进行采样,因为我们发现它比更高的温度或核心采样(nucleus sampling)表现更好(见附录B.1)。为了验证我们的监督模型确实是强有力的比较基线,我们在CNN/DM数据集上用我们的6.7B模型运行了监督微调程序,发现我们取得了比2019年中期的SOTA模型【71,Abstract text summarization with a convolutional seq2seq model,2019,Applied Sciences】稍好的ROUGE分数(见附录G.4)。

奖励模型。为了训练我们的奖励模型,我们从一个监督基线开始,如上所述,然后添加一个随机初始化的线性头,该头输出一个标量值。我们训练这个模型来预测在给定帖子 $x$ 的情况下,哪个摘要 $y \in \{y_0, y_1\}$ 被人类判断为更好。如果人类偏好的摘要是 $y_i$,我们可以将奖励模型的损失写为:


其中 $r_{\theta}(x, y)$ 是奖励模型对于帖子 $x$ 和摘要 $y$ 的标量输出,参数为 $\theta$,而 $D$ 是人类判断的数据集。在训练结束时,我们对奖励模型的输出进行归一化,使得我们数据集中的参考摘要的平均得分为0。

人类反馈策略。我们希望使用上面训练的奖励模型来训练一个策略,该策略能生成更高质量的、由人类判断的输出。我们主要通过强化学习来实现这一点,将奖励模型的输出视为整个摘要的奖励,并使用PPO算法【58,Proximal policy optimization algorithms,2017,arXiv】来最大化这个奖励,其中每个时间步是一个BPE词元。我们将策略初始化为在Reddit TL;DR上微调过的模型。重要的是,我们在奖励中包含一个惩罚项,该项惩罚学习到的RL策略 $\pi_{\phi}^{\text{RL}}$(参数为 $\phi$)与这个原始监督模型 $\pi^{\text{SFT}}$ 之间的KL散度,这在【25,Way off-policy batch deep reinforcement learning of implicit human preferences in dialog,2019,arXiv】中也曾这样做过。完整的奖励 $R$ 可以写为:


这个KL项有两个目的。首先,它充当一个熵奖励,鼓励策略进行探索,并防止其塌缩到单一模式。其次,它确保策略不会学会产生与奖励模型在训练期间所见的输出差异过大的内容。

价值函数。对于PPO的价值函数,我们使用一个与策略参数完全分离的Transformer。这可以防止价值函数的更新在训练早期部分破坏预训练的策略(见附录G.1中的消融研究)。我们将价值函数初始化为奖励模型的参数。在我们的实验中,奖励模型、策略和价值函数的大小相同。

A4 实验环境

  • 数据集

    • TL;DR:源自Reddit帖子【63,Tl; dr: Mining reddit to learn automatic summarization,2017,Workshop on New Frontiers in Summarization】,经过严格过滤,最终包含123,169个帖子。摘要长度被限制在24-48个词元。此数据集用于模型训练和主要评估。
    • CNN/DM:标准的新闻摘要数据集【22,Teaching machines to read and comprehend,2015,Advances in neural information processing systems】,仅用于评估模型的泛化和迁移能力,不用于训练。
  • 模型架构

    • 所有模型均为GPT-3风格的Transformer解码器。
    • 主要实验模型参数量为13亿(1.3B)和67亿(6.7B)。消融研究中也使用了1.6亿、30亿、130亿等其他尺寸的模型。
    • 所有模型共享2048个可学习的位置嵌入。
    • 奖励模型(RM)、策略(Policy)和价值函数(Value Function)在实验中大小相同。
  • 硬件配置

    • 论文未明确提供GPU型号、数量等具体硬件信息,但提到微调6.7B模型需要约320个GPU-days,表明使用了大规模的GPU集群。
  • 软件配置

    • 实现与依赖:模型基于OpenAI内部框架实现,使用Adam优化器【31,Adam: A method for stochastic optimization,2014,arXiv】进行训练。训练过程中使用了fp16混合精度。
    • 算法库:强化学习部分使用了PPO算法【58,Proximal policy optimization algorithms,2017,arXiv】。
    • 预训练数据:模型在一个包含CommonCrawl、Webtext【48,Language models are unsupervised multitask learners,2019,OpenAI Blog】、书籍和维基百科的大型文本语料库上进行预训练。

A4 实验结果

4.1 在Reddit帖子摘要任务上的表现

  • 实验内容:在TL;DR数据集上,比较了通过人类反馈训练的策略(1.3B和6.7B参数)与不同规模的监督学习基线模型。评估指标是人类标注者在模型生成的摘要和数据集中的参考摘要之间进行选择的偏好率。
  • 实验结果
    • 人类反馈模型显著优于监督学习模型。1.3B参数的人类反馈模型(偏好率61%)的表现远超10倍于其大小的监督学习模型(偏好率43%)。6.7B参数的人类反馈模型表现更佳,表明该方法能从模型规模扩大中受益。
    • 人类反馈模型生成的摘要甚至优于数据集中的原始人类示范摘要(参考图1)。
  • 分析与结论
    • 长度控制:考虑到模型倾向于生成更长的摘要,作者进行了长度控制分析。控制长度后,人类反馈模型的优势有所下降(约5%),但6.7B模型的摘要仍有约65%的时间被认为优于参考摘要。
    • 质量维度分析:通过7点李克特量表对覆盖度、准确性、连贯性和总体质量进行评估。结果显示,人类反馈模型在所有维度上均优于监督基线,尤其是在“覆盖度”方面。6.7B PPO模型有45%的摘要获得了7/7的满分总体评价,而监督基线和参考摘要分别为20%和23%(参考图3)。

      图 3: TL;DR数据集上四种摘要质量维度的评估。

4.2 向新闻文章摘要任务的迁移能力

  • 实验内容:将在TL;DR数据集上训练的人类反馈模型直接用于CNN/DM新闻文章摘要任务,不进行任何额外微调,并与在TL;DR上训练的监督模型、仅预训练模型以及在CNN/DM上微调的模型进行比较。
  • 实验结果
    • 人类反馈模型展现出优秀的泛化能力。在CNN/DM任务上,它们的表现显著优于同样在TL;DR上训练的监督模型和仅预训练模型。
    • 6.7B的人类反馈模型生成的摘要质量几乎与在CNN/DM上专门微调的6.7B模型相当,尽管前者生成的摘要要短得多(参考图4a)。
  • 分析与结论:图4b显示,在相似摘要长度下,从TL;DR迁移过来的人类反馈模型几乎能与在CNN/DM上训练的T5模型相媲美,证明了该方法学习到的质量概念具有很强的通用性。

    图 4: 在CNN/DM上的迁移结果。(a) CNN/DM上摘要的总体质量随模型大小的变化。各维度的完整结果见附录G.2。(b) 6.7B TL;DR监督基线、6.7B TL;DR人类反馈模型和在CNN/DM摘要上微调的T5模型的总体得分与长度的关系。在相似摘要长度下,我们的6.7B TL;DR人类反馈模型几乎与T5相当,尽管它从未被训练来总结新闻文章。

4.3 奖励模型(Reward Model)的理解

  • 过度优化现象

    • 实验内容:通过调整KL惩罚系数,以不同强度优化策略,并由人类评估其摘要质量。
    • 实验结果:轻度优化能提升摘要质量,但过度优化会导致模型“过拟合”奖励模型,生成的摘要在奖励模型看来分数很高,但在人类看来质量反而下降,甚至与人类偏好呈负相关(参考图5)。

      图 5: 偏好得分与奖励模型优化程度的关系。优化奖励模型最初会改善摘要,但最终会过拟合,导致摘要质量变差。此图使用了我们奖励模型的早期版本(见附录C.6中的rm3)。KL 250模型的样本见附录H.2。
  • 规模效应

    • 实验内容:训练了不同参数量(160M到13B)和不同训练数据量(8k到64k)的奖励模型。
    • 实验结果:奖励模型的性能随模型和数据规模的增大而提升。训练数据量翻倍,验证准确率提升约1.1%;模型大小翻倍,准确率提升约1.8%。最大的6.7B模型在全部数据上训练后,其准确率接近单个普通人类的水平(参考图6)。

      图 6: 奖励模型性能与数据大小和模型大小的关系。训练数据量加倍导致奖励模型验证准确率提高约1.1%,而模型大小加倍导致准确率提高约1.8%。在所有数据上训练的6.7B模型开始接近单个普通人类的准确率。
  • 奖励模型学到的能力

    • 实验内容:在一系列验证集上测试奖励模型的能力,包括对CNN/DM摘要的泛化、对人类微小编辑的敏感度、对角色互换的识别等。
    • 实验结果:奖励模型能很好地泛化到CNN/DM摘要评估。它对微小但语义上重要的细节很敏感,能够识别出人类改进过的摘要和角色颠倒的错误摘要。但它也表现出偏爱更长摘要的偏见。

4.4 自动摘要指标分析

  • 评估
    • 实验内容:比较了不同自动指标(ROUGE、长度、复制率、监督模型下的对数概率)与人类偏好的一致性。
    • 实验结果:本文学习到的奖励模型在预测人类偏好方面始终优于其他所有指标,即使是在未参与训练的CNN/DM数据集上。随着模型从监督学习改进为人类反馈学习,ROUGE和对数概率与人类偏好的一致性甚至下降到接近随机水平(~50%)。
  • 优化
    • 实验内容:使用Best-of-N采样方法,分别以ROUGE和奖励模型为目标进行优化,并由人类评估最终摘要的质量。
    • 实验结果:以ROUGE为目标的优化很快达到瓶颈,且最高质量远低于以奖励模型为目标的优化。这表明优化ROUGE并不能持续提升摘要的真实质量(参考图7)。

      图 7: 摘要质量作为优化指标和优化量的函数,使用best-of-N拒绝抽样。我们评估了ROUGE、我们的主要奖励模型以及一个在约75%数据上训练的1.3B模型的早期迭代版本(详见表11)。ROUGE似乎比所有奖励模型更早达到峰值,且峰值偏好率显著更低。详情见附录G.3。

A5 结论

本文成功证明,通过从人类反馈中学习,可以显著提升语言模型在摘要任务上的性能。该方法训练出的模型不仅在TL;DR数据集上优于强大的监督学习基线和人类示范,还能很好地泛化到未经训练的CNN/DM新闻摘要任务上。研究表明,学习到的奖励模型比ROUGE等传统自动指标更能捕捉人类对摘要质量的偏好。

局限性
1. 高成本:该方法需要巨大的时间和金钱成本。微调一个6.7B模型需要约320个GPU-days,数据收集需要数千小时的标注员工作和大量的研究员时间来保证质量。
2. 基线不完备:由于成本限制,未能收集等量的高质量人类示范来训练一个最强的监督学习基线作为对比。

未来方向
1. 任务扩展:可将此方法应用于任何人类可以进行样本比较的任务,如对话、翻译、问答、语音合成和音乐生成,尤其是在长文本生成领域。
2. 效率提升:可能通过跨多任务预测反馈来提高样本效率。
3. 对齐难题:未来研究方向是,将人类反馈方法扩展到人类难以直接评估模型输出质量的任务,例如训练AI系统来辅助人类进行快速准确的评估。
4. 反馈形式:探索二元比较之外更丰富的反馈形式,如收集高质量示范、让标注者编辑模型输出、或提供偏好解释等。

更广泛的影响
本文技术具有通用性,在提升AI系统与人类意图对齐方面有积极潜力,但也可能被恶意用于制造有害内容或操纵舆论。此外,该技术的发展强调了在定义“好的”模型行为时需谨慎,并应让受技术影响的群体参与其中。模型可能继承训练数据(如Reddit)中的偏见和有害内容,在部署前需充分研究其潜在危害。最后,技术的进步可能导致工作自动化,需要相应的社会政策来应对。

A6 附录

A TL;DR 数据集详情

预处理步骤。我们首先通过检查文本正文移除了所有重复的帖子,发现有近20,000个完全重复的帖子。然后,我们使用一套启发式规则重新仔细解析了TL;DR,并筛选出只使用顶级帖子(而非评论)。我们还过滤掉了所有来自不在我们“subreddit白名单”(子版块分布见表2)中的subreddit的帖子,任何标题以“Edit”或“Update”变体开头的帖子,以及使用启发式方法过滤掉包含某些主题(如色情或自杀)的帖子。最后,为确保帖子足够短以适应我们模型的上下文长度,我们过滤掉了任何正文长度超过512个词元的帖子。这产生了一个按正文而非摘要过滤的287,790个帖子的集合,我们保留了大约5%作为验证集。我们将这个帖子集合用于RL训练,因为我们的RL过程不需要参考摘要。

参考摘要的额外过滤。接下来,我们对用于训练监督基线的已解析参考摘要执行了额外的过滤。具体来说,我们移除了TL;DR以“Edit”、“Update”或“P.S.”变体开头的摘要,我们启发式地移除了含有一定程度亵渎内容的摘要,并移除了少于24个词元或多于48个词元的摘要。如4.1节所述,由于我们的RL模型倾向于生成接近允许长度上限的摘要,这种长度过滤确保了RL摘要和参考摘要之间有足够的长度重叠,以便我们进行长度控制的分析。此外,我们发现少于16个词元的摘要通常质量较低。我们后来验证了我们过滤掉的摘要根据我们的奖励模型质量确实较低——平均差超过0.5 nats(即它们被预测为被偏好的可能性低约exp(0.5) ≈ 1.6倍)。我们最终的TL;DR数据集包含123,169个带摘要的帖子,同样保留了大约5%作为验证集。我们在开发过程中使用了其中的1913篇文章进行模型选择;本文中的评估不包括这些文章。

表 2: 按subreddit划分的我们过滤后的Reddit TL;DR数据集中训练集的帖子数量。

数据集领域偏差。从表2可以看出,我们TL;DR数据集中约三分之二的帖子与关系或关系建议有关,这是一个相当特定的领域。这引发了对我们模型通用性的潜在担忧,尽管它们在CNN/DM新闻文章上的强大迁移性能表明它们并没有不合理地专门化于关系建议。


表 3: 我们不同大小模型的超参数。


图 8: 我们为确定采样程序而进行的扫描,改变了温度和核心采样(nucleus sampling)的'top p'值。虽然我们没有进行足够大的测试来确定核心采样是否比中等温度采样更好或更差,但我们发现,在这个任务上,非常低的温度采样比两者都好。

B 更多模型训练细节

B.1 超参数

通用设置。所有模型都遵循标准的Transformer架构,拥有2048个学习到的位置嵌入。所有模型都使用fp16激活和Adam优化器【31,Adam: A method for stochastic optimization,2014,arXiv】进行训练。几乎所有的监督基线、奖励模型和强化学习模型都使用fp32权重进行训练;唯一的例外是我们的TL;DR监督基线,它们使用fp16权重进行训练。所有模型都使用与【48,Language models are unsupervised multitask learners,2019,OpenAI Blog】中相同的字节对编码(byte-pair encoding)。

预训练。在预训练期间,模型被训练来预测一个大型文本语料库中的下一个词元,该语料库由Commoncrawl、Webtext【48,Language models are unsupervised multitask learners,2019,OpenAI Blog】、书籍和维基百科组成。在每个数据源上训练1-3个epoch,总计2000-3000亿个词元。学习率遵循余弦调度,有一个短暂的预热期,然后衰减到最大值的10%。批量大小在训练过程中逐渐增加到某个最大值,每个输入有2048个词元。每个模型的超参数如表3所示。

监督基线。我们从预训练模型初始化监督基线模型。我们使用余弦调度衰减学习率,初始学习率从至少7个值的对数线性扫描中选择。这导致我们的TL;DR模型(大小为1.3B、3B、6.7B和13B)的学习率分别为6.35e-5、5.66e-5、2.83e-5和2.83e-5,而我们的CNN/DM 6.7B模型的学习率为2.38e-5。我们使用128的批量大小,并运行一个epoch。

奖励模型。我们初始化为监督基线,但在顶部添加一个奖励头,其权重根据 N(0, 1/(d_model + 1)) 初始化【20,Understanding the difficulty of training deep feedforward neural networks,2010,AISTATS】。我们训练一个epoch,使用余弦调度衰减学习率,初始学习率从至少7个值的对数线性扫描中选择。我们还对3到10个种子进行扫描,并选择在验证集的开发部分表现最好的奖励模型,因为我们发现数据迭代顺序和奖励头初始化都会影响结果【13,Fine-tuning pretrained language models: Weight initializations, data orders, and early stopping,2020,arXiv】。对于我们的主要结果,1.3B和6.7B奖励模型的学习率分别为1.5e-5和5e-6。我们使用64的批量大小,并运行一个epoch。


表 4: 我们在TL;DR和CNN/DM数据集上为每个训练模型使用的上下文格式。

PPO训练。我们使用分离的策略和价值网络运行PPO,将我们的策略初始化为监督基线,将我们的价值函数初始化为奖励模型。我们为优势估计设置 $\gamma = 1$ 和 $\lambda = 0.95$ 【57,High-dimensional continuous control using generalized advantage estimation,2016,ICLR】,并对每批次的rollouts进行4个epoch的优化。我们使用线性学习率衰减调度,1.3B模型的初始学习率为1.5e-5,6.7B模型的初始学习率为7e-6,这是基于少量实验和粗略的模型大小外推得出的。对于我们报告结果的两个主要运行,我们使用的KL系数为0.05(除非我们在奖励模型优化图中明确改变这个值)。1.3B模型使用512的批量大小,6.7B模型使用256的批量大小,并运行100万个episodes。

B.2 输入格式

格式化。我们的模型总是接收一个固定大小的字节对编码字符串。当输入太小时,我们从输入的开头用一个填充词元进行填充;如果输入太长,我们在换行符处截断帖子/文章字段以保持在限制内。

零样本格式。当从只在我们的预训练混合数据上预训练而未在TL;DR上微调的模型中采样时,我们遵循【48,Language models are unsupervised multitask learners,2019,OpenAI Blog】的方法,不是用填充词元进行填充,而是在上下文的开头填充帖子/文章和高质量摘要的示例。我们使用尽可能多的示例以适应词元限制,示例的格式与主输入相同。表4记录了我们使用的格式(使用Python风格的格式化字符串)。

C 人类数据收集细节

C.1 确保高质量人类数据的流程

流程概述。我们首先详细说明我们用来确保高质量数据的流程。虽然这些流程在项目过程中变得更加严格,但它们通常包括四个步骤。

  • 步骤0:我们自己理解任务。为了理解任务,我们首先自己进行了大量的摘要比较。我们还雇佣了少数人类标注者进行比较,并讨论我们的分歧。然后,我们为更广泛的人类标注者群体起草了说明。
  • 步骤1:标注者入职。标注者从自由职业平台Upwork以及两个标注服务公司Scale和Lionbridge招聘。标注者首先完成一个(有偿的)培训过程,他们在一个共享的数据集上标注摘要。对于某些比较,标注者会立即得到关于我们选择了哪个摘要以及为什么的反馈,以帮助他们校准。我们保留那些通过了速度和与我们一致性最低门槛的标注者。为了实现可定制的标注者界面,我们建立了自己的数据收集网站(见附录C.4)。
  • 步骤2:收集比较数据。接下来,我们让标注者在我们的网站上评估一大批比较,这构成了我们数据的主体。在直接比较两个摘要之前,我们让标注者在不看原文的情况下写下他们对摘要的“初步理解”。我们发现这对于评估摘要很有帮助,因为它能揭示摘要中可能存在的模糊点,这些模糊点如果是在阅读原文后阅读摘要可能不会被发现。在做完初步理解后,标注者通过在一个9点量表上赋值来进行比较,表示他们对摘要A比摘要B好的信心程度(或反之)。
  • 步骤3:提供标注者反馈。收集比较数据后,我们可以查看标注者之间的一致性率。虽然大多数比较只给一个标注者,但每个标注者大约有10-20%的问题来自一个共享的校准池。我们既可以尝试使用这些统计数据作为质量的粗略衡量标准,也可以向工作人员展示分歧案例以帮助他们改进标签。
  • 步骤4:研究人员比较校准。我们偶尔也会自己做这个任务,以衡量每个标注者和我们之间的一致性率。这用于质量评估(见C.2)。我们还计算每个标注者的“高置信度”阈值,通过找到每个标注者在李克特量表上的置信度值,使得我们期望高于此阈值的标签平均与我们有80%的一致性。为了奖励模型的选择,我们将验证集过滤为只包含这些置信度更高的标签。在整个过程中,我们与标注者保持高带宽的沟通:我们使用一个共享的聊天室让标注者提出澄清问题并相互讨论困难的比较,主持办公时间,并偶尔与标注者进行一对一的视频通话来讨论分歧点。我们会在项目期间保留表现好的标注者,同时解雇表现最差的工人。

C.2 评估人类反馈质量

评估方法。我们通过比较标注者偏好的摘要和我们偏好的摘要(忽略置信度水平)来评估标注者的准确性。我们排除了标注者或研究人员表示无所谓偏好的比较。这给了我们一个一致性率,理论上从0%(完全不一致)到100%(完全一致)。对于我们的2元比较,一个随机的标注者会得到50%的一致性。

一致性率。为了得到我们比较标注者-研究人员与研究人员-研究人员一致性的主要数据,我们限制在我们的1.3B监督基线摘要之间的比较,因为这个数据子集有最多的研究人员标注数据。在这个子集上,标注者与研究人员在77% ± 2%的情况下意见一致,而研究人员之间在73% ± 4%的情况下意见一致。我们认为,比较任务相当困难且主观,这是产生大量噪音的原因。

一致性率范围。总的来说,一致性率从大约65%(对于最不熟练的标注者和最困难的比较,即比较来自单个RL策略的两个高温样本)到大约85%(对于最熟练的标注者和最容易的比较,即比较来自监督基线的两个高温样本与参考摘要)。按工作量加权平均所有工人,我们估计我们的奖励模型训练语料库的一致性率为73% ± 3%。


图 9: (a) 我们为从标注员收集数据而制作的网站。(b) 网站上摘要的初步解读。

评估数据的一致性。在图1的评估中,标注者与研究人员的一致性为73% ± 3%,标注者之间的一致性为73% ± 2%。研究人员之间的一致性率从最困难的比较(比较来自单个RL策略的两个高温样本)的约65%,到最容易的比较(比较来自监督基线的高温样本与人类参考摘要)的约80%,到我们相互讨论比较的情况下的约95%。

质量结论。总的来说,我们认为质量相当高。我们过滤数据的尝试通常会损害奖励模型的准确性。例如,使用上面提到的置信度阈值,我们发现虽然低置信度的标签对提高奖励模型准确性的作用不如高置信度标签,但包含它们仍然比省略它们要好。同样,排除一致性率较差的工人也无济于事。

C.3 标注者人口统计

背景。当使用人类反馈训练机器学习模型时,提供反馈的人类在强化期望的模型行为方面至关重要。如果我们要将人类反馈扩展到更复杂的任务,人类可能对期望的模型行为有分歧,那么让受模型影响的群体的成员被纳入标注者群体中就非常重要。

调查结果。为了提高我们标注者人口统计的透明度,我们在表5中提供了对我们标注者进行的一项调查的结果。该调查是可选的、匿名的,并且明确表示结果不会影响雇佣或解雇决定。我们发现我们的标注者涵盖了各种种族、国籍、年龄、性别和教育背景,但更可能是白人和美国人。

C.4 标注者网站

网站建设。由于我们雇佣并培训了自己的标注员团队,而不是使用像Amazon Mechanical Turk这样的众包网站,我们建立了自己的网站,为所有标注员提供一个标准化的、可定制的用户界面。每个标注员都创建了一个独立的个人资料,这使我们能够为不同的标注员分配不同的比较集。该网站包含用于不同类型问题的不同渲染器,包括初步解读、摘要比较和沿不同轴线的李克特评估,同时还为标注员留出了表达对问题的担忧或对其决定进行解释的空间。网站的截图如图9所示。从网站收集的数据可以轻松地移植到包含我们所有人类数据的中央数据库中。


表 5: 参与我们自愿调查的21名标注员的人口统计数据。

C.5 给标注者的说明

摘要比较说明。我们在表6中展示了给标注者进行比较的说明摘录。除了这些说明,我们还提供了一个Reddit摘要之间带标签的比较示例,以及摘要的初步解读示例。

按质量维度评估摘要的说明。我们为7点李克特评估提供了另一套详细的标注者说明。我们首先介绍我们考虑的4个质量维度,概述了连贯性、准确性、覆盖率和总分(如表7所示)。我们还提供了一个简短的评分标准,用于给出1、4和7分,并附带了几个Reddit摘要,并附有我们自己对这些维度质量的判断(及解释)。

什么是一个好的摘要? 粗略地说,一个好的摘要是一段较短的文本,它抓住了原文的精髓——试图达到与原文相同的目的并传达相同的信息。我们希望您考虑摘要的这些不同维度:

  • 精髓:摘要是否很好地代表了帖子?
  • 清晰度:摘要是否对读者友好?它是否清晰地表达了思想?
  • 准确性:摘要是否包含与较长帖子相同的信息?
  • 目的:摘要是否与原帖的目的相同?
  • 简洁:摘要是否简短扼要?
  • 风格:摘要的写作风格是否与原帖相同?

一般来说,我们更看重列表顶部的维度。但事情很复杂——这些维度都不是简单的“是/否”问题,也没有硬性规定来权衡不同的维度。这是您通过实践和在我们网站上的反馈来掌握的。

表 6: 我们给标注者进行比较的说明摘录。

常见问题解答与CNN/DM说明。最后,我们提供了一个FAQ部分,回答了我们分配给此任务的最初一小部分标注者提出的常见问题。对于CNN/DM,我们提供了相同的说明集,但我们增加了一些关于如何判断新闻文章的额外说明。我们特别要求标注者减少对句子流畅性的重视(因为参考摘要最初是以项目符号形式编写的,我们不希望标注者因此而扣分),并减少对摘要与文章意图匹配的重视(这对于Reddit摘要很重要)。

质量控制。在质量控制方面,我们进行了附录C.1中描述的质量控制过程的简化版:我们首先自己沿每个轴线标注了一小组摘要,以了解混淆点,然后我们编写了说明文件提供给标注者,然后我们让少数标注者试做任务以捕捉任何剩余的错误或混淆点,最后我们让更多的标注者加入任务,同时随时回答任何问题。

C.6 标注数据集的构成

迭代过程。在项目过程中,我们训练了几个奖励模型和策略。我们发送给标注者的每一批摘要都是从各种策略中抽样的。我们没有一个系统的计划来决定从哪些策略中抽样;相反,我们本着探索性研究的精神,选择了当时看起来最好的方案。每次我们训练奖励模型时,我们都在迄今为止收集到的所有标签上进行训练。后续的模型也受益于改进的超参数和数据集清理。我们的结果可能可以通过一个更简单、更系统的方法来复制。

标注者漂移。总的来说,随着我们雇佣新的标注者以及现有标注者更多地执行任务,可能会出现“标注者漂移”,即标注者用来评估摘要的标准集合会随着时间的推移而逐渐变化。这可能导致标注者-研究人员分歧的回归,或导致某些策略随着时间的推移变得或多或少受青睐。为了帮助防止这种情况,在大多数批次中,我们都包含了我们监督基线和参考摘要样本之间的比较,并衡量工人偏好其中一个的频率。如果这个数字随着时间的推移而漂移,这表明我们工人的偏好也在变化。然而,我们通常发现这个偏好数字在噪音范围内保持相对恒定。

模型列表。表8列出了我们通过在TL;DR数据集上进行监督微调训练的策略,以及在逐渐增多的人类标签数据集上训练的奖励模型。表9列出了RL策略。

连贯性

对于这个维度,回答问题“摘要本身有多连贯?” 一个摘要是连贯的,如果单独阅读时,它易于理解且没有英语错误。一个摘要是不连贯的,如果很难理解摘要想说什么。通常,摘要易于理解比没有语法错误更重要。
评分标准:
- 1分:摘要完全无法理解。
- 4分:摘要有错误或令人困惑的措辞,使其有点难以理解。
- 7分:摘要完全清晰。

准确性

对于这个维度,回答问题“摘要中的事实信息是否准确匹配帖子?” 一个摘要是准确的,如果它没有说文章中没有的东西,没有混淆人物,并且通常没有误导性。如果摘要说了任何帖子中未提及或与帖子中某事相矛盾的内容,它最多应得5分。(如果您对如何使用“6”感到困惑,请参见常见问题解答!)
评分标准:
- 1分:摘要完全错误、捏造或与帖子中所写内容完全矛盾。
- 4分:摘要至少说了一件帖子中未提及或与帖子中某事相矛盾的实质性内容。
- (5分:摘要说了任何,无论多么小,帖子中未提及或与帖子中某事相矛盾的内容。)
- 7分:摘要没有不正确的陈述或误导性的暗示。

覆盖率

对于这个维度,回答问题“摘要对帖子中的重要信息覆盖得有多好?” 一个摘要有好的覆盖率,如果它提到了帖子中理解帖子所描述情况所需的主要信息。一个摘要覆盖率差,如果只读摘要的人会错过关于帖子中情况的几个重要信息。一个覆盖率好的摘要也应该与原帖的目的相匹配(例如,寻求建议)。
评分标准:
- 1分:摘要不包含与帖子相关的任何信息。
- 4分:摘要至少缺少1条理解情况所需的重要信息。
- 7分:摘要覆盖了理解情况所需的所有重要信息。

总体质量

对于这个维度,回答问题“总的来说,摘要在代表帖子方面有多好?” 这可以包含上述所有质量维度,以及您认为重要的其他维度。如果很难找到改进摘要的方法,就给摘要打高分。如果有很多不同的方法可以改进摘要,就给摘要打低分。
评分标准:
- 1分:摘要很糟糕。
- 4分:摘要对帖子的表现还可以,但可以显著改进。
- 7分:摘要是对帖子的出色表现。

表 7: 给标注者评估摘要的四种不同质量维度的说明。


表 8: 左:监督基线。sup4和sup4_6b是本文中使用的最终监督基线。右:奖励模型。rm4和rm4_6b是本文中使用的最终奖励模型。


表 9: PPO策略。sup4 ppo rm4 和 sup4_6b ppo rm4_6b 是本文通篇使用的最终策略。


表 10: Best-of-N 策略。KL 散度是解析计算的,KL(boN, sup) = log N - (N-1)/N。

Best-of-N策略。我们还探索了一种强化学习的简单替代方案:从温度为0.7的监督基线中采样N个摘要,用奖励模型对它们进行评分,并选择得分最高的摘要。这种best-of-N(BoN)过程实际上是一种无需训练的轻度优化策略。这些策略在表10中命名,它们的样本构成了训练数据的一部分。

奖励模型训练数据。表11列出了每个奖励模型的训练数据的来源策略。



接下页


表 11: 奖励模型的训练数据。"ref" 指的是人类参考摘要。

C.7 示例比较任务

任务难度示例。为了让读者了解比较任务的难度,我们提供了由我们的6.7B人类反馈模型生成的两个摘要之间的比较示例。在表12中,我们展示了从TL;DR数据集中随机抽取的一个比较,以及一个精心挑选的比较(从10个标注者意见不一的比较中选出),以说明标注者进行评估时可能出现的准确性与覆盖率之间的权衡。

随机TL;DR比较

困难的TL;DR比较
帖子


表 12: 顶部:在TL;DR数据集上,我们6.7B人类反馈模型的两个摘要之间的一个随机比较任务示例。比较是从验证集中随机选择的。底部:在TL;DR数据集上的一个困难比较任务示例。通过查看监督基线摘要之间至少有4个标注者判断且每个摘要得票率至少为40%的比较来选择。从10个中精心挑选出来以突出准确性-覆盖率的权衡。摘要A不准确,因为作者没有明确表示她在试穿婚纱时有疑虑。摘要B完全准确,但没有抓住帖子的总体要旨。在这种情况下,4名工作人员选择了A,3名工作人员选择了B。更多比较,请参见我们的网站。

D 基线选择

基线选择理由。在测试我们的人类反馈技术时,我们从人类标注员那里收集了大量高质量的数据。为了与基于监督的技术进行公平比较,我们需要花费相似的标注员时间来收集高质量的示范,并用它们来通过监督学习微调一个模型。由于这过于昂贵,我们没有提供这样的基线。

与现有工作的比较。现有的先前工作,如PEGASUS【70,Pegasus: Pre-training with extracted gap-sentences for abstractive summarization,2019,arXiv】,在一个与我们非常相似的数据集(TL;DR的/r/tifu子集)上研究了监督方法。然而,他们使用了更小的模型(5亿参数),并报告称根据人类评估,他们的模型输出比人类参考摘要差。因此,由于我们的标注员评估预算有限,我们决定使用我们自己的监督和零样本模型作为基线(在对我们监督模型的ROUGE性能进行健全性检查后),以及T5【49,Exploring the limits of transfer learning with a unified text-to-text transformer,2019,arXiv】。

T5模型。T5模型【49,Exploring the limits of transfer learning with a unified text-to-text transformer,2019,arXiv】的预训练和微调方式与我们的监督基线相似,但它们使用编码器-解码器架构。我们使用了通过波束搜索解码获得的T5输出,如【49】中所述。我们还仔细考虑了模型输出之间分词的差异。

E CNN/DM lead-3 vs 参考摘要

Lead-3表现优于参考摘要。在CNN/DM数据集上,我们的标注员明显更偏爱lead-3(由文章前3句组成的摘要)而不是参考摘要。部分原因是较长的摘要获得了更高的覆盖率分数,而lead-3比参考摘要长50%,如表13所示。


表 13: 在CNN/DM上,长度如何影响lead-3和参考摘要的整体质量。

长度控制后的分析。然而,如果我们使用线性回归(类似于附录F中的程序)来预测如果lead-3的平均长度减少到314个字符时的性能,我们仍然发现质量为5.68,略高于参考摘要。此外,lead-3甚至能与参考摘要达到同等水平,这似乎对抽象式摘要或复杂的机器学习方法的必要性提出了质疑,因为一个简单的抽取式基线可以匹敌对参考摘要的完美模仿。

原因探究。我们想了解标注员在这些比较中的行为,以确保这不是一个错误。为此,我们自己检查了一部分标注员的判断样本。我们发现在143个案例中有20个案例中标注员对lead-3的偏爱超过3分,排除这些数据点会使参考摘要的相对得分提高约0.5分。我们很惊讶地看到参考摘要在相当一部分案例中表现如此之差,所以我们查看了标注员的解释并确认它们是合理的。

参考摘要的缺陷。我们发现参考摘要的两个特点解释了其大部分的性能不佳。首先,这20个摘要中有13个省略了文章中的一个关键点——这些“亮点”通常是为已经看过文章标题的读者写的,尽管CNN/DM数据集中不包含标题。其次,这20个摘要中有10个实际上引入了原文中不存在的新信息。从标注员的角度来看,这些信息完全是捏造的,因此导致了较低的分数。对这些错误的可能解释是,参考摘要是从新闻网站的“亮点”中提取的,而不是对文章的直接总结。这些失败足够普遍,以至于它们显著影响了参考摘要的平均质量,并且这些影响似乎相对于机器学习模型之间的质量差异要大。

结论。总的来说,我们认为标注员在这些情况下的判断是合理的,将CNN/DM数据集中的“亮点”视为参考摘要可能存在问题。您可以在我们的网站上查看我们所有标注员在CNN/DM上的判断。


图 10: (a) 图1的长度控制版本,使用附录F中描述的程序。控制长度降低了我们人类反馈模型的相对偏好,但它们仍然比参考摘要更受青睐。(b) 在TL;DR数据集上绘制不同摘要长度的模型质量。我们的6.7B人类反馈模型在所有长度上都优于6.7B监督基线和参考摘要(水平线在0.5处)。
表 14: 在CNN/DM上,长度如何影响整体质量。我们展示了各种策略的平均长度和质量得分,以及摘要质量平均每增加100个字符增加多少。

F 控制摘要长度

长度作为混淆因素。如4.1节所述,摘要的长度是评估摘要质量的一个混淆因素;根据简洁性和覆盖率之间期望的权衡,较短或较长的摘要可能更好。我们的模型生成的摘要比参考摘要长,因为在我们的任务的24-48个词元的限制下,这导致了更高的标注员偏好。这里我们描述我们用来尝试控制长度的程序。

长度控制方法(偏好率)。为了计算一个单一的长度控制偏好数,我们训练一个逻辑回归模型来预测我们人类比较数据集上的人类偏好摘要。我们为这个模型提供了2个特征:每个策略的身份,以及摘要长度的对数比率。为了计算两个策略之间的长度控制偏好值,我们只需将每个策略ID提供给我们训练好的逻辑回归模型,并将对数长度比率设置为零(见图10a)。在图10b中,我们检查了TL;DR上不同摘要长度的摘要质量。我们发现我们的人类反馈模型在所有长度值上都优于监督基线。

长度控制方法(李克特评分)。对于CNN/DM,我们使用与上述类似的程序来控制长度,只是使用线性回归模型来预测从1-7的李克特评分。我们在表14中显示了使摘要增加100个字符所期望的质量提升,这表明我们的人类反馈模型如果生成更长的摘要会表现得更好。

G 附加结果

G.1 价值函数消融实验

实验设置。在本节中,我们进行了一项消融实验,比较了为价值函数和策略使用独立参数与使用【73,Fine-tuning language models from human preferences,2019,arXiv】中采用的共享网络。

结果与分析。结果如图11所示,清楚地表明使用独立的网络优于后者。另一方面,拥有独立的网络增加了运行RL微调的内存需求。拥有独立的网络还允许我们将价值函数初始化为正在优化的已学习奖励模型。


图 11: 比较使用独立价值函数和奖励模型参数进行优化与使用共享参数所获得的奖励。

G.2 沿质量维度评估策略

结果展示。我们展示了在7点李克特量表上沿不同质量维度评估策略的完整结果;TL;DR的结果如图12所示,CNN/DM的结果如图13所示。很明显,在两个数据集上,覆盖率与所有模型的总分都强相关,并且所有模型都获得了较高的连贯性分数。

G.3 研究 best-of-N 优化

评估方法。评估自动评估指标的一个自然方法是看优化它能在多大程度上带来符合人类的高性能。评估这一点的一种方法是使用 best-of-N 作为一种(低效的)优化技术——这具有简单且对单调变换不变的优点。

结果与分析。我们在图7中报告了在ROUGE和我们的三个奖励模型上最高达到 best-of-2048 的结果,使用了来自1.3B监督基线的样本。结果表明,与优化我们的奖励模型相比,优化ROUGE的性能显著不足。数据还表明,ROUGE随着过度优化而退化的速度比我们的奖励模型快得多。随着N的增加,best-of-N策略获得更高的平均奖励。同样,通过降低KL系数β,PPO策略获得更高的平均奖励。我们发现,在给定的平均奖励下,best-of-N和PPO策略在人类标注员判断下的质量相似(未显示)。然而,通过KL散度衡量,PPO策略比best-of-N离监督基线更远。

G.4 ROUGE分数

结果展示。在图14a和14b中,我们分别展示了我们的模型在TL;DR和CNN/DM数据集上的ROUGE分数。我们报告了T=0时的结果,这与我们的人类评估一致。我们发现温度对ROUGE分数有(通常是显著的)影响,我们进行了彻底的扫描以验证最佳温度设置为T=0。


图 12: 在 TL;DR 策略上,使用 7 点李克特量表沿多个质量维度进行评估。
表 15: 将我们 6.7B 监督模型在 CNN/DM 上的 ROUGE 分数与文献中最新的 SOTA 模型进行比较。在没有任何针对摘要的工程设计的情况下,我们的模型实现了比 2019 年中期 SOTA 模型更好的 ROUGE 分数,表明它是一个强有力的比较基线。



图 13: 在CNN/DM策略上,使用7点李克特量表沿多个质量维度进行评估。

分析(TL;DR)。在TL;DR上,我们发现我们的人类反馈模型在T=0时获得的ROUGE分数略低于监督模型,这进一步表明ROUGE与人类偏好的相关性很差。对于监督模型,降低温度比增加模型尺寸的影响更大。有趣的是,在较高的温度下,我们的反馈模型实际上优于监督模型(未显示)。

分析(CNN/DM)。在CNN/DM上,ROUGE与我们的人类评估一致,即我们的人类反馈模型比我们的监督模型迁移得更好。然而,不出所料,在CNN/DM上进行监督训练的模型仍然实现了更高的ROUGE。在表15中,我们展示了我们6.7B监督基线和文献中各种模型在CNN/DM上的ROUGE结果。我们发现我们的模型实现的ROUGE分数低于T5【49,Exploring the limits of transfer learning with a unified text-to-text transformer,2019,arXiv】,但略高于来自【71,Abstract text summarization with a convolutional seq2seq model,2019,Applied Sciences】的CNN-2sent-hieco-RBM模型,该模型根据NLP-progress排行榜是2019年中期CNN/DM上抽象式摘要的SOTA。

G.5 Bigram重叠统计

统计方法与结果。在表16中,我们展示了我们的模型在TL;DR和CNN/DM数据集上的bigram重叠统计数据,作为衡量摘要从帖子中复制了多少内容的代理指标。如4.4节所述,我们计算与原始Reddit帖子或新闻文章的最长公共子序列(bigram),然后除以摘要中的bigram数量。我们发现在CNN/DM上评估的模型(无论它们是否在CNN/DM上训练)通常比在TL;DR上评估的模型复制得更多。此外,我们的监督和人类反馈模型比我们的预训练模型复制得更少。


图 14: 我们模型在(a) TL;DR数据集和(b) CNN/DM数据集上的ROUGE分数。
表 16: TL;DR数据集(上)和CNN/DM数据集(下)的二元组重叠统计。在CNN/DM上训练的模型比在TL;DR上训练的模型复制得更多。

G.6 奖励模型验证集

验证结果。在本节中,我们报告了在各种手动构建的验证集上评估我们的奖励模型的结果,如表17和18所示。值得注意的是,我们要求我们的人类制作一个小的编辑数据集,让他们对现有的摘要(无论是参考摘要还是监督基线摘要)进行改进。我们的6.7B奖励模型偏爱改进后的摘要的频率与人类(他们不知道哪个摘要被编辑过)相似。

模型能力分析。我们的奖励模型对句子重排也很敏感(而像ROUGE这样的指标在很大程度上不敏感),并且能够检测到摘要中描绘的角色被调换的情况。另一方面,我们的奖励模型有时会表现出对质量差的人工摘要的偏好,例如将帖子标题复制两次,或在摘要末尾寻求建议。在表19中,我们展示了我们的模型对摘要中微小但有语义意义的变化敏感的例子。


表 17: 比较奖励模型和人类对经过人类编辑以使其更好的摘要的偏好。对于每个摘要,进行比较的人类标注者与编写编辑的标注者不同。一致性数字不包括标注者偏好标记为“不确定”的比较。


表 18: 奖励模型在各种手动构建的验证集上的表现。在所有情况下,摘要A都意在比摘要B好,因此更高的偏好百分比通常更好。'rand-3'表示一个基线,从帖子中随机抽取3个句子;然而,这些句子保持它们在帖子中出现的顺序。'原始摘要'是参考摘要或我们监督基线的摘要。r/tifu是一个其目的是分享尴尬故事(而不是寻求建议)的subreddit。

G.7 衡量不同评估指标之间的一致性

研究目的。我们有兴趣了解评估摘要的不同指标之间的关系。为此,我们计算了各种指标(包括自动指标和人类)之间的一致性,针对我们有人类评估的数据的不同子集。为了消除策略质量作为混淆变量,所有的摘要比较都是由相同的策略在相同的温度值下生成的。

结果分析。在表20中,我们使用了来自我们1.3B监督模型在TL;DR上T=0.7的样本;表21有来自我们6.7B监督模型在TL;DR上T=0.7的比较;表22有来自我们6.7B人类反馈模型在TL;DR上T=0.7的比较;表23有来自我们6.7B监督基线在CNN/DM上训练的比较。我们的6.7B奖励模型通常与标注员的一致性与其他标注员相当,尽管标注员的集成表现更好。另一方面,ROUGE的一致性通常很差,监督基线下的对数概率也是如此,而像复制(与文章的最长公共二元子序列)和长度这样的简单启发式方法通常表现相当。


表 19: 展示奖励模型在人类生成的TL;DR摘要编辑中(使摘要更好)奖励变化的定性示例。示例是从编辑距离小于5且奖励变化幅度大于0.5的集合中随机选择的。带删除线的文本是在编辑中从原始摘要中删除的,粗体文本是添加的。奖励模型对摘要中微小但有语义意义的变化很敏感,尽管偶尔会出错。


表 20: 在TL;DR 1.3b监督模型(T=0.7)上,人类与各种自动化指标之间的一致性率。标准误差通过自举法估计。注:在标注者 vs. 标注者集成的条目中,集成规模略小于其他比较,因为我们需要排除被预测的标注者。所有集成至少有3名工作人员。


表 21: 在TL;DR 6.7B监督模型(T=0.7)上,人类与各种自动化指标之间的一致性率。标准误差通过自举法估计。注:在标注者 vs. 标注者集成的条目中,集成规模略小于其他比较,因为我们需要排除被预测的标注者。所有集成至少有3名工作人员。


表 22: 在TL;DR 6.7B人类反馈优化模型(T=0.7)上,人类与各种自动化指标之间的一致性率。标准误差通过自举法估计。注:在标注者 vs. 标注者集成的条目中,集成规模略小于其他比较,因为我们需要排除被预测的标注者。所有集成至少有3名工作人员。

H 样本

H.1 随机样本

样本展示。这里我们为各种模型提供了非精心挑选的样本和人类评估。在表25-26中,我们展示了在TL;DR数据集上的样本,在表27-28中,我们展示了在CNN/DM数据集上的样本(为简洁起见,我们截断了文章)。更多未经策划的策略样本,请参见我们的网站。

H.2 过度优化的样本

过优化示例。我们展示了一个对rm3过度优化的策略的样本示例。这些摘要虽然明显冗长、质量低下且充满特异之处,但仍然反映了帖子的粗略要点。


表 23: 在CNN/DM 6.7B监督模型(T=0.3)上,人类与各种自动化指标之间的一致性率。标准误差通过自举法估计。注:在标注者 vs. 标注者集成的条目中,集成规模略小于其他比较,因为我们需要排除被预测的标注者。(所有集成至少有3名工作人员)




请访问我们的网站。


表 27: CNN/DM数据集上的评估示例。更多随机评估示例,请参见我们的网站。



表 29: 我们过优化模型在一个1.3B奖励模型上过拟合的样本示例。