Wei Shen1,†, Guanlin Liu1,†, Zheng Wu1,†, Yu Yue1, Ruofei Zhu1, Qingping Yang1, Chao Xin1, Lin Yan1

1ByteDance Seed

∗Work done at ByteDance Seed, †Corresponding authors

主要贡献

本文探讨了人类反馈强化学习(RLHF)中数据缩放的趋势和影响,重点关注当前阻碍RLHF性能缩放的数据驱动瓶颈,特别是奖励黑客攻击和响应多样性下降的问题。研究目标是通过系统分析这些瓶颈,提出新的方法来构建训练提示和策略,以提升RLHF性能。具体创新点包括:引入混合奖励系统,结合推理任务验证器(RTV)和生成奖励模型(GenRM),以增强对奖励黑客攻击的抵抗力,并允许对响应进行准确评估对比明确定义的地面真相;提出一种名为Pre-PPO的提示选择方法,明确识别出对模型具有挑战性的训练提示,这些提示不易受奖励黑客攻击;发现优先在RLHF训练早期处理数学和编码任务能显著提升性能,因为这些任务自然编码了细粒度响应区别并具有明确定义的地面真相。通过在两种模型规模上的全面实验,验证了这些方法的有效性和可扩展性。结果显示,RTV对奖励黑客攻击的抵抗力最强,其次是带有地面真相的GenRM,最后是依赖SFT Best-of-N响应的GenRM。这些策略使模型能够快速捕捉任务特定的细微区别,导致RLHF整体性能的实质性改进。本文强调了仔细数据构建的重要性,并提供了实用方法来克服RLHF中的关键性能障碍。

背景知识/关键观察/设计原则

奖励黑客攻击。 奖励黑客攻击发生在AI系统利用奖励函数的缺陷来最大化奖励,而没有实现预期目标。因此,RLHF的成功高度依赖于奖励模型的质量。不幸的是,奖励模型往往难以提供准确分数,由于三个主要挑战:1) 奖励建模在表示人类偏好方面的错误指定【15, “The history and risks of reinforcement learning and human feedback”, 2023, arXiv e-prints】;2) 训练数据集中的不正确和模糊偏好【3, “Training a helpful and harmless assistant with reinforcement learning from human feedback”, Yuntao Bai et al., 2022, arXiv preprint arXiv:2204.05862】;3) 差的泛化能力【19, “On the fragility of learned reward functions”, Lev McKinney et al., 2023, arXiv preprint arXiv:2301.03652】。这些奖励建模的不准确已被识别为LLM中奖励黑客攻击和幻觉的主要贡献者【12, “Calibrated language models must hallucinate”, Adam Tauman Kalai and Santosh S Vempala, 2024, Proceedings of the 56th Annual ACM Symposium on Theory of Computing】。Zhang et al.的最近工作引入了生成奖励模型(GenRM)来验证模型预测对比地面真相响应,展示了更大的对奖励黑客攻击的抵抗力,并被最先进的LLM如DeepSeekV3采用【33, “Generative verifiers: Reward modeling as next-token prediction”, Lunjun Zhang et al., 2024, arXiv preprint arXiv:2408.15240】【18, “Deepseek-v3 technical report”, Aixin Liu et al., 2024, arXiv preprint arXiv:2412.19437】。此外,Deepseek-R1开发了推理任务验证器(RTV),证明在解决数学、编码和其他推理任务中的奖励黑客攻击有效【9, “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning”, Daya Guo et al., 2025, arXiv preprint arXiv:2501.12948】。虽然之前的研究专注于改进奖励模型本身的准确性,但我们的工作采取不同方法:我们旨在设计有效的RLHF数据构建方法,在结合GenRM和RTV的鲁棒奖励系统下缓解奖励黑客攻击问题。

RLHF数据构建。 很少有工作关注如何构建RL数据(即RL训练提示)来提升RLHF性能。Gao et al.提出了一种DPO算法的原则性数据选择方法,他们发现过于困难的数据阻碍了对齐,并在DPO训练中过滤掉这些挑战性实例【6, “Principled data selection for alignment: The hidden risks of difficult examples”, Chengqian Gao et al., 2025, arXiv preprint arXiv:2502.09650】。此外,Li et al.引入了一种战略选择方法,从完整提示集中识别关键训练提示,使用仅子集数据实现可比的RLHF性能【16, “Limr: Less is more for rl scaling”, Xuefeng Li et al., 2025, arXiv preprint arXiv:2502.11886】。虽然这些方法证明了仔细数据集策展可以匹配或超过在完整数据集上的训练性能,但PPO-based训练中RL数据缩放的限制因素理解仍存在显著差距。具体来说,现有的工作没有系统分析如何选择和结构化训练提示来实质性改进使用PPO算法时的模型性能。

RLHF性能缩放分析。 最近的研究越来越多地关注分析RLHF【3, “Training a helpful and harmless assistant with reinforcement learning from human feedback”, Yuntao Bai et al., 2022, arXiv preprint arXiv:2204.05862】【5, “Reward model ensembles help mitigate overoptimization”, Thomas Coste et al., 2023, arXiv preprint arXiv:2310.02743】【10, “Does rlhf scale? exploring the impacts from data, model, and method”, Zhenyu Hou et al., 2024, arXiv preprint arXiv:2412.06000】,特别是检查其泛化能力和响应多样性。Kirk et al.证明RLHF在新型输入上表现出比监督微调(SFT)优越的泛化,尤其当训练和测试数据分布偏移增加时【13, “Understanding the effects of rlhf on llm generalisation and diversity”, Robert Kirk et al., 2023, arXiv preprint arXiv:2310.06452】。然而,他们也观察到RLHF在各种指标上显著降低了输出多样性相比SFT,表明当前LLM微调方法中泛化和多样性之间的基本权衡。此外,一些最近的工作调查RLHF如何有效蒸馏由奖励模型评估的最佳响应,提出各种算法来增强这种蒸馏能力【8, “Bonbon alignment for large language models and the sweetness of best-of-n sampling”, Lin Gui et al., 2024, arXiv preprint arXiv:2406.00832】【25, “Bond: Aligning llms with best-of-n distillation”, Pier Giuseppe Sessa et al., 2024, arXiv preprint arXiv:2407.14622】。在我们的研究中,我们类似地观察到响应多样性的减弱阻碍了RLHF缩放,特别是当模型试图学习响应间的粗粒度差异时。此外,我们的发现表明RLHF性能仅与从SFT模型采样五个响应然后根据奖励模型选择最高排名的策略(即SFT Bo5)相当。这一观察激发了进一步调查增强RLHF有效性的方法。

方法细节

框架概述

如图1所示,我们的RLHF管道由三个主要阶段组成。
- 初始监督微调:我们首先在人类编写的演示上微调预训练语言模型,以实现基本指令跟随能力。
- 奖励模型训练:我们准备三种类型的奖励模型:Bradley-Terry奖励模型(BT模型)、生成奖励模型(GenRM)和推理任务验证器(RTV)。BT模型使用成对比较数据学习奖励函数,通过最大似然估计优化参数,从人类偏好推断底层奖励分数。生成奖励模型(GenRM)使用成对奖励建模(pairRM)训练,其中模型从人类偏好判断的配对输出中学习【11, “Llm-blender: Ensembling large language models with pairwise ranking and generative fusion”, Dongfu Jiang et al., 2023, arXiv preprint arXiv:2306.02561】。GenRM不是为每个输出分配单个分数,而是直接预测每个对的比较分数,优化这些成对比较以与人类评估紧密对齐。为了为GenRM提供可靠的地面真相比较,我们为推理任务收集明确的地面真相答案。对于其他任务类型,我们利用训练的BT奖励模型从监督微调(SFT)模型生成的N个候选样本中选择最佳结果。对于RTV,我们构建一系列专用验证器,直接验证特定任务的模型响应正确性。这些包括例如编程任务的代码沙箱,可以实时执行和评估代码输出。
- 强化学习优化:我们利用GenRM和RTV的组合来提供全面反馈,通过PPO优化语言模型。这一过程由仔细策展的训练提示和精心设计的训练策略指导。这一方法的迭代性质通过最大化预测奖励分数逐步精炼模型输出,同时确保与原始策略的最小偏差。

标号 (a) 我们框架中的RLHF-PPO
标号 (a) 我们框架中的RLHF-PPO

图1 RLHF训练框架概述。我们提出的管道由两个顺序阶段组成:(1) 奖励模型训练,其中我们构建三个互补奖励模型——即Bradley-Terry (BT) 模型、生成奖励模型 (GenRM) 和推理任务验证器 (RTV)。具体来说,BT模型在成对比较上训练以捕捉人类偏好,而GenRM分配与这些偏好对齐的明确奖励分数,使用地面真相解决方案(针对推理任务)或BT模型识别的最佳N选择(针对一般任务)。RTV组件实现针对特定任务需求的专用验证器,例如评估编程任务的代码执行沙箱;(2) 强化学习优化,其中语言模型在GenRM和RTV的指导下使用PPO迭代优化。这一阶段利用通过我们Pre-PPO提示选择方法识别的仔细选择的训练提示,并采用战略优化技术来鲁棒地提升模型性能和对齐。
图1 RLHF训练框架概述。我们提出的管道由两个顺序阶段组成:(1) 奖励模型训练,其中我们构建三个互补奖励模型——即Bradley-Terry (BT) 模型、生成奖励模型 (GenRM) 和推理任务验证器 (RTV)。具体来说,BT模型在成对比较上训练以捕捉人类偏好,而GenRM分配与这些偏好对齐的明确奖励分数,使用地面真相解决方案(针对推理任务)或BT模型识别的最佳N选择(针对一般任务)。RTV组件实现针对特定任务需求的专用验证器,例如评估编程任务的代码执行沙箱;(2) 强化学习优化,其中语言模型在GenRM和RTV的指导下使用PPO迭代优化。这一阶段利用通过我们Pre-PPO提示选择方法识别的仔细选择的训练提示,并采用战略优化技术来鲁棒地提升模型性能和对齐。

在RL训练中,我们有两个观察。
- 奖励黑客攻击:如图2所示,正在进行RLHF的模型整体性能在训练过程中显示出初始上升随后下降。具体来说,数学、创意任务和指令跟随能力都表现出这种改进后恶化的模式。我们的分析揭示,这些任务中发生奖励黑客攻击,其中模型学会生成包含某些句法模式的响应,这些模式人为地膨胀奖励分数,而不是真正改进任务性能。
- 模型响应多样性的恶化:在RLHF训练过程中,我们观察到模型响应熵的持续下降(附录中图12的子图(a)所示),表明响应多样性减少。这种多样性减少不仅限制了模型生成多样化和创意输出的能力,还可能阻碍其对多样任务和上下文的适应性。

尽管有众多努力来解决奖励黑客攻击和响应多样性减少的问题,包括迭代RLHF【3, “Training a helpful and harmless assistant with reinforcement learning from human feedback”, Yuntao Bai et al., 2022, arXiv preprint arXiv:2204.05862】【29, “Llama: Open and efficient foundation language models”, Hugo Touvron et al., 2023, arXiv preprint arXiv:2302.13971】和从预训练模型的强化学习【4, “Constitutional ai: Harmlessness from ai feedback”, Yuntao Bai et al., 2022, arXiv preprint arXiv:2212.08073】【9, “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning”, Daya Guo et al., 2025, arXiv preprint arXiv:2501.12948】等方法,我们发现这些问题仍然顽固地难以完全解决。 认识到这些挑战的持久性,我们转而专注于开发一种新方法。我们的策略涉及仔细设计的数据构建方法和优化的训练策略,旨在在这些两个问题显著阻碍RLHF过程中的模型改进之前增强RLHF性能。这种主动策略允许我们最大化RLHF的好处,同时缓解其潜在缺点,导致更鲁棒和持续的模型增强。

图2 使用扩展数据集(六百万提示)结合原始数据集(一百万提示)的初始运行的整体测试分数。尽管数据集大小大幅增加,RLHF没有产生性能改进。此外,最佳性能在约3500步标记处观察到,此后测试分数逐渐下降。
图2 使用扩展数据集(六百万提示)结合原始数据集(一百万提示)的初始运行的整体测试分数。尽管数据集大小大幅增加,RLHF没有产生性能改进。此外,最佳性能在约3500步标记处观察到,此后测试分数逐渐下降。

Pre-PPO用于训练提示选择

初始PPO实验。 在我们的第一次试验中,我们最初收集了500万个新训练提示,覆盖各种领域,如数学、编码、创意写作和其他任务。这些新提示与原始的100万个提示结合,用于第一次试验的训练。如图2所示,我们观察到尽管提示数量增加,RLHF性能没有改进。因此,我们得出结论,简单扩展训练提示的数量并不一定产生改进的RL性能。

新收集提示的奖励分析。 我们通过分析它们的奖励分数调查为什么新收集的提示没有改进RLHF性能。如图3所示,大约90%的这些提示在0到1的尺度上获得大于0.5的奖励分数。在这种分布中,0.5的分数表示模型输出与参考相当,而高于0.5的分数表明优越性能。我们的GenRM被训练为在推理任务中比较模型响应与地面真相,在其他任务中与SFT Best-of-N响应。因此,高于0.5的分数意味着模型生成的输出被判断为优于这些假定的最优响应。然而,经过仔细的手动检查,我们发现这些高分输出的大部分展示了奖励黑客攻击行为,并在质量上劣于原始的最佳选择响应。而且,我们观察到奖励分数的大小与奖励黑客攻击实例的严重性和频率直接相关。奖励分数越高,奖励黑客攻击问题越严重和频繁。这一发现揭示了我们当前奖励模型的关键限制,并强调了需要更鲁棒的评估指标,能够有效区分真正改进和奖励黑客攻击实例。

为RL训练选择具有较低奖励模型分数的提示。 鉴于以上观察,我们设计了一种名为Pre-PPO的选择算法,它明确识别具有较低奖励模型分数的提示,用于初始PPO实验。这些低分提示对模型学习更具挑战性,并且不易受奖励黑客攻击。最后,我们将这些选择的提示与原始提示数据集结合来重新训练RL模型。此外,认识到奖励模型分数在不同任务领域显示出不同的分布,我们在执行提示选择之前在每个领域内归一化这些分数。

图3 新收集提示的奖励分数分布。x轴显示提示百分比。y轴表示从0到1的奖励分数范围,0.5表示与参考相当。大约90%的提示对于小尺寸和大尺寸模型都收到高于0.5的分数,表明对参考输出的明显优越性。然而,手动检查揭示了许多高分输出展示了奖励黑客攻击行为,并在质量上劣于原始的最佳选择结果。
图3 新收集提示的奖励分数分布。x轴显示提示百分比。y轴表示从0到1的奖励分数范围,0.5表示与参考相当。大约90%的提示对于小尺寸和大尺寸模型都收到高于0.5的分数,表明对参考输出的明显优越性。然而,手动检查揭示了许多高分输出展示了奖励黑客攻击行为,并在质量上劣于原始的最佳选择结果。

早期RLHF:优先数学和编码任务

初始PPO实验。 在我们的初始试验中,我们也观察到编码和数学任务的测试分数在整个训练过程中稳步改进。我们将这一改进归因于这些任务的评估方法:具体来说,编码和数学任务由RTV和GenRM使用地面真相参考评估,使它们本质上更抵抗奖励黑客攻击。

优先数学和编码任务。 相应地,我们在早期阶段明确地在数学和编码提示上训练RLHF模型。随后,我们将这些数学和编码任务与一般领域提示结合来继续RLHF训练。这种方法可以提升编码和数学任务的性能,同时保留一般能力。

实验环境

数据集包括原始数据集(一百万训练提示,从公开来源和人类标注收集,覆盖数学、编码、指令跟随、创意写作、逻辑推理和其他任务)和扩展数据集(额外五百万新提示,主要从开源资源收集,覆盖数学、编码、指令跟随和创意写作;详细分布见附录图13)。评估集覆盖逻辑推理、指令跟随(IF)、STEM任务、编码、自然语言处理(NLP)、知识、上下文理解(CU)和分布外泛化(OOD),包括V1.0和V2.0版本,V2.0提示更具挑战性。模型架构为两种规模:小模型(约25B参数)和大模型(约150B参数)。硬件配置未详细指定,但实验涉及小尺寸和大尺寸模型。软件配置包括Python语言,依赖PPO算法,奖励模型如BT、GenRM和RTV,使用pairRM训练GenRM;操作系统未指定,但涉及代码沙箱用于RTV。

实验结果

整体评估结果。 实验结果显示在表1和表2中:提出的方法(结合Pre-PPO和优先数学/编码任务)在不同模型规模和评估数据集上一致且显著优于基线方法(使用原始数据集的PPO)。在TestSet V1.0上,每100步评估检查点,选择最佳检查点(至4000步),方法在V1.0上比基线改进+1.1;在更具挑战性的TestSet V2.0上,改进+1.4,表明在更难的分布外任务上的鲁棒泛化。数学和编码任务显著改进,如大模型V2.0中STEM +3.9,V1.0中编码 +3.2,归因于早期优先这些任务。人类评估(表2)在知识、STEM、IF、创作、编码和整体上显示显著改进(p<0.05)。(见表1、表2)

表1 我们呈现了我们提出的方法(称为‘Data Scale’,结合Pre-PPO和优先数学和编码任务)与基线方法(基于PPO的RLHF)在评估数据集V1.0和V2.0上的性能比较。结果报告在各种能力上,包括逻辑推理、指令跟随 (IF)、STEM任务、编码、自然语言处理 (NLP)、知识、上下文理解 (CU) 和分布外泛化 (OOD)。粗体突出表示统计显著改进。
表1 我们呈现了我们提出的方法(称为‘Data Scale’,结合Pre-PPO和优先数学和编码任务)与基线方法(基于PPO的RLHF)在评估数据集V1.0和V2.0上的性能比较。结果报告在各种能力上,包括逻辑推理、指令跟随 (IF)、STEM任务、编码、自然语言处理 (NLP)、知识、上下文理解 (CU) 和分布外泛化 (OOD)。粗体突出表示统计显著改进。

表2 基于全面人类评估的性能比较,我们提出的方法(结合Pre-PPO和优先数学和编码任务)与基线方法(基于PPO的RLHF)。结果显示在多个能力上,包括知识、STEM、指令跟随 (IF)、创作、编码和整体性能。粗体改进表示统计显著差异 (p < 0.05)。所有指标代表人类评估的聚合分数。
表2 基于全面人类评估的性能比较,我们提出的方法(结合Pre-PPO和优先数学和编码任务)与基线方法(基于PPO的RLHF)。结果显示在多个能力上,包括知识、STEM、指令跟随 (IF)、创作、编码和整体性能。粗体改进表示统计显著差异 (p < 0.05)。所有指标代表人类评估的聚合分数。

案例研究比较。 基于人类标注者反馈,观察到:STEM中逻辑推理和内容丰富度改进(见附录案例C.1);复杂创作中识别和遵守次要指令的能力中等提升,整体内容质量改进,如文学风格和丰富度(见附录案例C.2);编码中信息准确性和内容丰富度清晰改进(见附录案例C.3),但更新模型中代码渲染问题更频繁。

消融研究。 在TestSet V1.0上独立比较每个方法的影响(小模型):Pre-PPO在2000步前与基线相当,此后持续改进,而基线 plateau,表明Pre-PPO选择的提示更抵抗黑客攻击,促进持续学习(图5)。早期强调数学/编码任务改进整体性能,并在编码任务中在1000步超越基线,在编码和STEM上显著提升(图6)。对于大模型,方法显示正向缩放趋势,Pre-PPO和大模型早期强调导致STEM和编码的实质性收益,但整体仅边际改进(表3)。数据缩放在Pre-PPO中,当新数据从10%增加到20%或50%时,性能下降,表明高质量提示稀缺(图8)。

图5 小尺寸模型上的消融研究。我们进行消融研究来证明每个策略的有效性。Early Training Emphasis 指早期训练强调数学和编码任务
图5 小尺寸模型上的消融研究。我们进行消融研究来证明每个策略的有效性。Early Training Emphasis 指早期训练强调数学和编码任务

表3 消融研究:Pre-PPO和早期训练强调在大语言模型中的性能缩放
表3 消融研究:Pre-PPO和早期训练强调在大语言模型中的性能缩放

图6 早期强调数学和编码任务显著改进Testset-V1.0上RLHF在编码和STEM区域的性能。值得注意的是,这种方法的编码性能在仅1000训练步内超越基线。
图6 早期强调数学和编码任务显著改进Testset-V1.0上RLHF在编码和STEM区域的性能。值得注意的是,这种方法的编码性能在仅1000训练步内超越基线。

图7 RTV、GenRM和BT奖励模型在RLHF训练期间对奖励黑客攻击易感性和性能趋势的比较
图7 RTV、GenRM和BT奖励模型在RLHF训练期间对奖励黑客攻击易感性和性能趋势的比较

图8 数据缩放对Pre-PPO策略性能的影响。图显示当新收集训练数据的百分比从10%增加到20%和50%时整体RLHF性能。反直觉地,增加训练数据量导致性能明显退化,表明高质量训练提示在现实设置中稀缺,并且简单缩放数据量不保证改进。
图8 数据缩放对Pre-PPO策略性能的影响。图显示当新收集训练数据的百分比从10%增加到20%和50%时整体RLHF性能。反直觉地,增加训练数据量导致性能明显退化,表明高质量训练提示在现实设置中稀缺,并且简单缩放数据量不保证改进。

进一步分析。 不同奖励模型的奖励黑客攻击:RTV任务分数在整个训练中持续改进;GenRM带地面真相至2800步改进;BT或GenRM带SFT BoN至2100步后下降(图7)。数据规模方法提升数学和编码性能,尽管提示数量相似(图9)。Pre-PPO过滤提示分析显示,带有地面真相的GenRM和RTV对细粒度差异更敏感(图10、11)。响应多样性:方法在创意任务中熵更高,在推理任务中更低,缓解多样性下降(附录图12)。

图9 数据规模方法提升数学和编码性能。
图9 数据规模方法提升数学和编码性能。

图10 GenRM有和无地面真相的不同编辑距离bin的奖励模型分数比较。
图10 GenRM有和无地面真相的不同编辑距离bin的奖励模型分数比较。

图11 GenRM(有和无地面真相)和RTV的不同编辑距离bin的分数差异比较。由无地面真相的GenRM提供的分数与响应编辑距离对齐,表示更大的编辑距离(代表更大的响应差异)对应更大的分数差异。然而,RTV和有地面真相的GenRM不展示这一趋势。这表明GenRM有效检测响应间的大差异,但难以识别小差异。
图11 GenRM(有和无地面真相)和RTV的不同编辑距离bin的分数差异比较。由无地面真相的GenRM提供的分数与响应编辑距离对齐,表示更大的编辑距离(代表更大的响应差异)对应更大的分数差异。然而,RTV和有地面真相的GenRM不展示这一趋势。这表明GenRM有效检测响应间的大差异,但难以识别小差异。

结论

本文探讨了阻碍人类反馈强化学习(RLHF)有效数据缩放的瓶颈,识别出两个重大挑战:奖励黑客攻击和模型响应多样性减少。为解决这些障碍,提出了一种新方法,涉及训练提示的战略构建和创新的早期训练优先策略。具体来说,引入了结合推理任务验证器(RTV)和带有地面真相监督的生成奖励模型(GenRM)的混合奖励系统,以增强对奖励黑客攻击的抵抗力。此外,提出Pre-PPO提示选择策略,专门设计用于识别和优先更具挑战性的训练提示,帮助模型有效捕捉细粒度响应区别。发现表明,仔细策展训练提示集可以缓解由GenRM与SFT Best-of-N响应监督的任务的响应多样性下降,从而改进RLHF数据使用的可扩展性和效率。而且,在训练过程早期优先数学和编码任务,因为这些任务自然包含明确定义的地面真相和细粒度区别,显著提升训练鲁棒性和整体模型性能。分析提供了这些新策略有效性的洞见:RTV监督展示了最高的对奖励黑客攻击的抵抗力和捕捉细粒度差异的能力,其次是有地面真相标签的GenRM,随后是BT奖励模型。通过使模型在训练过程早期识别此类细粒度差异,提出的方法实质性改进整体模型性能和可扩展性。希望这项工作为未来研究进一步优化RLHF数据构建策略奠定基础,并激发更多原则性方法来解决奖励黑客攻击和增强模型对齐。对于未来工作,展望包括探索我们方法与长形式思维链RL场景中新兴方法之间的潜在联系,以及从LLM生成提示作为更具前景的方向,而不是依赖现实收集。

附录

模型响应多样性的恶化

在RLHF训练过程中,我们观察到模型响应熵的持续下降(图12的子图(a)所示),表明响应多样性减少。 这种下降不仅限制了模型产生多样化和创意输出的能力,还可能负面影响其对多样任务和上下文的适应性和泛化。此外,我们分析各种任务类别的熵,并观察到与创意写作、角色扮演和其他由无地面真相的GenRM监督的任务相关的任务展示出明显高于涉及数学、编码和逻辑推理技能的任务的熵——这些任务通常由有地面真相的GenRM监督。我们在子图(b)、(c)和(d)中比较基线和我们提出的方法之间的响应熵,根据奖励模型类型分类:有地面真相的GenRM、无地面真相的GenRM和RTV。我们观察到,对于由有地面真相的GenRM或RTV监督的任务,使用我们方法的响应多样性低于基线。相反,对于由无地面真相的GenRM监督的任务,我们的方法展示出比基线更高的响应熵。这些观察表明,我们提出的方法有效引导模型更明确地关注由RTV和有地面真相的GenRM监督的任务,从而使模型在RLHF训练期间获取更多细粒度响应区别。

标号 (a) RLHF训练过程中的响应熵变化。
标号 (a) RLHF训练过程中的响应熵变化。

标号 (b) RLHF训练过程中响应熵变化的比较,聚合在由‘GenRM with ground truth’监督的任务上。
标号 (b) RLHF训练过程中响应熵变化的比较,聚合在由‘GenRM with ground truth’监督的任务上。

标号 (c) RLHF训练过程中响应熵变化的比较,聚合在由‘GenRM without ground truth’监督的任务上。
标号 (c) RLHF训练过程中响应熵变化的比较,聚合在由‘GenRM without ground truth’监督的任务上。

图12 RLHF训练过程中响应熵变化的比较
图12 RLHF训练过程中响应熵变化的比较

标号 (d) RLHF训练过程中响应熵变化的比较,聚合在由RTV监督的任务上。
标号 (d) RLHF训练过程中响应熵变化的比较,聚合在由RTV监督的任务上。

提示分布

我们从开源资源收集大约600万个多样提示来构建我们的RL训练提示集。 如图13所示,我们将这些提示分类为多个任务类型(例如,数学、知识和创意写作)。收集的提示数据集内每个任务类别的相对比例在图中呈现。

图13 覆盖各种领域的提示分布。
图13 覆盖各种领域的提示分布。

案例研究

我们收集人类反馈来比较基线和我们的模型。 然而,由于提示的复杂性,我们仅在论文中列出简短的案例比较。

案例1 - STEM

我们呈现一个STEM案例研究,证明我们的模型响应展示了增强的逻辑连贯性(例如,我们模型响应中的第7-8行 vs. 基线模型响应中的第12-14行)和更好的信息密度。

<-- PROMPT -->
已知某种果蝇的眼色,白眼和黑眼,是一对由常染色体上的一对等位基因控制的相对性状。黑眼对白眼显性,黑眼基因在雌性果蝇中不表达。因此,雄性果蝇既有黑眼也有白眼,而雌性果蝇只有白眼。此外,黑眼基因的纯合显性是致死的。同时,短翅和长翅是由常染色体上的另一对等位基因控制的,长翅对短翅显性,长翅基因的纯合显性是致死的。一只黑眼长翅雄性与一只白眼长翅雌性杂交,发现F1代雄性果蝇的黑眼与白眼的比率是1:1。然后,让F1的所有长翅果蝇自由交配。请推断F2雄性个体的理论预期性状和比率。

<-- RESPONSE OF OUR MODEL -->

  1. 确定亲本基因型

  2. 让控制眼色的基因为( A )和( a ),控制翅长的基因为( B )和( b )。

  3. 已知黑眼显性且纯合显性致死。雄性果蝇有黑眼和白眼,而雌性果蝇只有白眼。一只黑眼雄性果蝇有基因型( Aa )(因为( AA )致死),一只白眼雌性果蝇可能有基因型( Aa )或( aa )。F1代显示黑眼(( Aa ))与白眼(( aa ))雄性果蝇1:1比率,表示亲本白眼雌性果蝇有基因型( aa )。
    由于长翅对短翅显性且长翅纯合显性致死,长翅个体有基因型( Bb )。因此,亲本黑眼长翅雄性果蝇有基因型( AaBb ),白眼长翅雌性果蝇有基因型( aaBb )。

  4. 计算F1长翅果蝇的基因型和比率

  5. 对于翅长性状,亲本杂交是( Bb \times Bb )。根据分离定律,后代基因型和比率是( BB : Bb : bb = 1:2:1 )。由于( BB )致死,F1长翅果蝇有基因型( Bb ),占存活个体的(\frac{2}{3}),短翅果蝇有基因型( bb ),占(\frac{1}{3})。因此,所有F1长翅果蝇是( Bb )。

  6. 计算F1自由交配产生的F2代的基因型和比率

  7. F1长翅果蝇( Bb )自由交配。根据分离定律,( B )的基因频率是(\frac{1}{2}),( b )的基因频率是(\frac{1}{2})。使用Hardy-Weinberg定律(((p + q)^2 = p^2 + 2pq + q^2)),理论后代基因型和比率是( BB : Bb : bb =1:2:1 )。然而,由于( BB )致死,实际比率是( Bb : bb = 2:1 ),意味着长翅果蝇(( Bb ))占(\frac{2}{3}),短翅果蝇(( bb ))占(\frac{1}{3})。

  8. 对于眼色,亲本杂交是( Aa \times aa ),F1基因型和比率是( Aa : aa = 1:1 )。F1个体自由交配,( A )的基因频率是(\frac{1}{4}),( a )的基因频率是(\frac{3}{4})。理论后代基因型和比率是( AA : Aa : aa = 1:6:9 )。由于( AA )致死,实际比率是( Aa : aa = 6:9 = 2:3 ),意味着( Aa )占(\frac{2}{5}),( aa )占(\frac{3}{5})。

  9. 计算F2雄性个体不同性状的比率: - 对于两对相对性状,翅长和眼色,F2雄性个体的性状通过独立分配定律结合计算。黑眼长翅(( AaBb )) : (\frac{2}{5} \times \frac{2}{3} = \frac{4}{15}) 黑眼短翅(( Aabb )) : (\frac{2}{5} \times \frac{1}{3} = \frac{2}{15}) 白眼长翅(( aaBb )) : (\frac{3}{5} \times \frac{2}{3} = \frac{6}{15}) 白眼短翅(( aabb )) : (\frac{3}{5} \times \frac{1}{3} = \frac{3}{15}) - 因此,F2雄性个体的性状和比率是黑眼长翅 : 黑眼短翅 : 白眼长翅 : 白眼短翅 = 4:2:6:3。

总之,F2雄性个体的理论预期性状和比率是黑眼长翅 : 黑眼短翅 : 白眼长翅 : 白眼短翅 = 4:2:6:3。

<-- RESPONSE OF BASELINE MODEL -->

这是一个关于遗传继承定律和性状比率推导的问题。解决问题的关键在于澄清基因的显隐性关系、致死条件,并基于给定的交配组合和后代比率推断亲本基因型。然后,使用自由交配的计算方法确定后代性状比率。

  1. 确定眼色亲本基因型
    给定黑眼(记为( A ))对白眼(记为( a ))显性,黑眼基因在雌性果蝇中不表达。雄性果蝇有黑眼或白眼,黑眼纯合显性基因型(( AA ))致死。一只黑眼雄性(( A _ ))与白眼雌性杂交。F1代雄性果蝇黑眼(( A _ ))与白眼(( aa ))比率1:1。根据测试杂交结果,可以推断黑眼雄性亲本有眼色基因型( Aa ),而白眼雌性亲本有基因型( aa )。

  2. 确定翅型亲本基因型: - 给定长翅(记为( B ))对短翅(记为( b ))显性,长翅纯合显性基因型(( BB ))致死。 - 亲本是长翅雄性(( B _ ))和长翅雌性(( B _ ))。由于长翅纯合显性致死,两亲本必须有翅型基因型( Bb )。

  3. 推导完整亲本基因型和F1长翅果蝇基因型比率

  4. 结合以上分析,亲本基因型是雄性( AaBb ),雌性( aaBb )。

  5. 对于翅型,F1长翅果蝇有基因型和比率( Bb : bb = 2:1 ),意味着( Bb )占(\frac{2}{3}),( bb )占(\frac{1}{3})。

  6. 计算F2代翅型性状比率: - F1长翅果蝇自由交配。F1产生的配子中( B )等位基因频率是(\frac{2}{3} \times \frac{1}{2} = \frac{1}{3}),( b )等位基因频率是(1 - \frac{1}{3} = \frac{2}{3})。 - 根据Hardy-Weinberg定律,F2中的基因型频率是:( BB = (\frac{1}{3})^2 = \frac{1}{9}) (致死) , ( Bb = 2 \times \frac{1}{3} \times \frac{2}{3} = \frac{4}{9}) , ( bb = (\frac{2}{3})^2 = \frac{4}{9})。因此,长翅(( Bb ))与短翅(( bb ))个体的比率是(\frac{4}{9}:\frac{4}{9} = 1:1)。

  7. 计算F2代眼色性状比率

  8. F1眼色基因型及其比率是( Aa : aa = 1:1 )。产生的配子中( A )等位基因频率是(\frac{1}{2} \times \frac{1}{2} = \frac{1}{4}),( a )等位基因频率是(1 - \frac{1}{4} = \frac{3}{4})。
    F2中的基因型频率是:( AA = (\frac{1}{4})^2 = \frac{1}{16}) (致死) , ( Aa = 2 \times \frac{1}{4} \times \frac{3}{4} = \frac{6}{16}) , ( aa = (\frac{3}{4})^2 = \frac{9}{16})。因此,黑眼(( Aa ))与白眼(( aa ))个体的比率是(\frac{6}{16}:\frac{9}{16} = 2:3)。

  9. 计算F2代雄性个体的性状比率

  10. 由于眼色和翅型的遗传是独立事件,F2中黑眼长翅雄性的比率是(\frac{2}{5} \times \frac{1}{2} = \frac{1}{5}),黑眼短翅雄性是(\frac{2}{5} \times \frac{1}{2} = \frac{1}{5}),白眼长翅雄性是(\frac{3}{5} \times \frac{1}{2} = \frac{3}{10}),白眼短翅雄性是(\frac{3}{5} \times \frac{1}{2} = \frac{3}{10})。因此,F2雄性个体的性状和比率是:黑眼长翅 : 黑眼短翅 : 白眼长翅 : 白眼短翅 = 2:2:3:3。

总之,F2雄性个体的理论性状和比率是黑眼长翅 : 黑眼短翅 : 白眼长翅 : 白眼短翅 = 2:2:3:3。

案例2 - 写作

我们呈现一个案例研究,证明我们的模型响应展示了优越的语言优雅性(例如,文章标题),同时一丝不苟地遵守提示中的细微指令。

<-- PROMPT -->
您需要根据以下要求完成文章创作:
1: 文章内容要求结构严谨,逻辑清晰,从提出问题、分析问题到解决问题有严格的论证过程。
2: 文章标题需要专业风格,以直白的新闻报道方式简洁列出事件主要信息。涉及金额需在标题中反映。
3: 请严格遵守输出要求,内容必须合法,禁止评价法律和政府执法部门。遵守微信公众号社区规范,禁止出现暴力、色情和敏感词汇,禁止输出任何与文章无关的内容。禁止偏离事件核心焦点,保持文章内容紧密围绕热点事件。
4: 文章布局要求标题和内容,第一行输出文章标题(不要以“标题”开头),禁止使用书名号。第二行开始具体文章内容。全文约2000字。文章内容必须有小标题,小标题以直白方式表达,小标题中禁止使用书名号。
主题是:“城市垃圾分类”,此主题不能用作标题,写一篇约2000字的文章。

<-- RESPONSE OF OUR MODEL -->
城市垃圾分类:现状、挑战与突破策略
探索可持续发展新路径

垃圾分类实施中的显著成就
近年来,随着环境意识的逐步提升,城市垃圾分类已成为社会关注的焦点话题。许多城市积极响应国家号召,大力推进垃圾分类举措,并在改善环境质量和提升资源利用率方面取得了显著成果。

以上海为例,自2019年7月1日正式实施垃圾分类政策以来,政府在基础设施建设和公众教育宣传上投入约200亿元。如今,上海的垃圾分类工作已取得令人瞩目的成效。街道上整齐排列的分类垃圾桶已成为常见景观,社区内居民自觉分类投放垃圾的场景比比皆是。根据统计,上海的垃圾分类准确率已超过90%,有害垃圾和厨余垃圾的回收量大幅增加,资源回收率提升了30%以上。这些成就不仅缓解了城市垃圾处理的压力,还为可持续发展提供了有力支撑。

垃圾分类实施中的挑战
尽管垃圾分类工作取得了初步成效,但仍面临诸多挑战。这些问题如果不加以解决,将影响垃圾分类的长期效果和可持续性。

公众意识和习惯不足
许多居民对垃圾分类的知识了解不足,导致分类准确率不高。例如,一些居民难以区分有害垃圾和可回收垃圾的具体界限。此外,长期形成的混合投放习惯难以短期改变,部分居民觉得分类麻烦,缺乏主动性。

分类标准不统一
不同城市和地区的垃圾分类标准存在差异,导致居民在移动时感到困惑。例如,有些地方将厨余垃圾细分为湿垃圾,而其他地方则有不同的划分方式。这种不统一增加了分类的难度。

基础设施不完善
部分社区的垃圾投放点设置不合理,垃圾桶数量不足或标识不清。同时,垃圾运输和处理环节存在瓶颈,有害垃圾和厨余垃圾的处理能力有限,技术和运营水平需提升。

监督机制不健全
垃圾分类的监督机制尚不完善,缺乏有效的监管措施和执行工具。目前,大多城市依赖社区工作者和志愿者进行监督,但人力有限,难以全面覆盖整个垃圾分类过程。没有明确的处罚措施和强有力的执行力,一些居民对分类规定重视不足,导致违规现象频发。

通过协同努力寻求突破解决方案
为了进一步推进城市垃圾分类,实现可持续发展目标,政府、企业和居民需共同努力,采取有效措施解决当前挑战。

加强公众教育
政府应加大垃圾分类的公众教育力度,通过多种渠道和方式传播知识,提升环境意识和责任感。例如,通过电视、广播、报纸和网络平台开展多样化宣传活动。在社区、学校和工作场所组织讲座和培训。分发和播放生动易懂的宣传资料,如手册和公益广告。此外,举办主题活动如垃圾分类竞赛和家庭活动,鼓励参与,帮助居民养成良好分类习惯。

统一分类标准
政府应加快统一垃圾分类标准,制定科学合理、易于理解的分类指南。明确每个垃圾类别的定义和界限,减少歧义。同时,加强对居民和工作人员的宣传和培训,确保标准准确实施。借鉴国际先进经验,完善我国垃圾分类标准和体系,以更好地适应本地情况。

完善基础设施建设
需加大对垃圾分类基础设施的投入。政府应更合理规划和部署垃圾收集容器,确保分布均匀和标识清晰。同时,提升垃圾运输和处理设施,实现分类收集和处理。采购配备分类机制的先进运输车辆,建设现代化垃圾处理厂,提高处理能力和技术水平。鼓励私营部门参与基础设施建设,多元化资金来源。

建立健全监督机制
必须建立全面的垃圾分类监督机制,对整个过程进行监管。政府应制定明确的监管措施和处罚标准,对违规行为执行更严格的后果。发挥社区工作者、志愿者和居民的作用,实施举报和奖励系统,鼓励公众参与监督。此外,利用技术手段如监控摄像头和智能垃圾桶,实现实时监测和管理。

推动产业发展
应积极推动垃圾分类相关产业发展,形成完整的产业链。政府可出台政策鼓励技术创新和效率提升。支持垃圾回收利用项目,提高资源利用率。此外,建立垃圾分类产业园区,聚集相关企业,促进规模化和专业化发展。

城市垃圾分类是一项长期而艰巨的任务,与城市可持续发展和居民生活质量息息相关。尽管目前存在困难,但通过决心和协同努力,可以采取有效措施克服这些挑战,实现垃圾分类的全面进步。让我们共同努力,构建美丽、绿色和可持续的城市未来。

<-- RESPONSE OF BASELINE MODEL -->
“城市垃圾分类的挑战与解决方案:多维度分析”

当前城市垃圾分类的现状与紧迫性
随着城市化进程的加速,城市产生的垃圾量大幅增长。统计显示,主要城市年度垃圾总量近年来持续上升,使垃圾管理成为城市发展中的关键问题。传统的垃圾处理方式,如填埋和焚烧,不仅消耗大量土地资源,还带来环境风险。垃圾分类作为垃圾管理的前端环节,在实现垃圾减量化、资源化和无害化处理中发挥关键作用。它能有效提高回收利用率,减少环境损害,为城市可持续发展奠定基础。然而,虽然许多中国城市已逐步实施垃圾分类举措,但整体效果仍参差不齐,存在众多挑战。推进垃圾分类工作的紧迫性不容忽视。

垃圾分类实施中的挑战
公众意识和习惯不足
相当一部分城市居民缺乏足够的垃圾分类知识。许多人不确定如何正确分类不同类型的垃圾——如区分有害垃圾、可回收垃圾和其他垃圾。即使了解基本知识,长期形成的混合垃圾投放习惯也难以短期改变。有些居民觉得分类繁琐,缺乏参与动机,导致随意投放。这些意识和行为问题使源头垃圾分类难以有效执行。

基础设施不完善
在一些城市,垃圾分类设施不足。垃圾桶未按严格分类标准设置,或标签不清,使居民投放时感到困惑。此外,垃圾收集和运输中出现“先分后混”现象——有些区域有分类垃圾桶,但收集车辆将所有垃圾混合,居民的努力变得无意义,打击参与积极性。而且,终端垃圾处理设施存在短板,如回收体系不发达,缺乏专业有害垃圾处理方法,无法使分类垃圾得到适当处理。

法规执行和监督薄弱
虽然许多地区引入了垃圾分类法律法规,但执行力度不均。违规处罚往往过轻,无法形成有效威慑。由于城市面积广大,垃圾产生点众多,监管部门难以进行全面、实时监督,导致违规现象屡禁不止。而且,公众对这些法规的认知不足,削弱了其指导和约束作用。

多方协作的垃圾分类策略
提升公众教育和意识
政府和社区应加强宣传活动,通过社区讲座、主题展览和在线测验等多样形式教育居民正确垃圾分类。针对不同人群采用定制方法——例如,将垃圾分类融入学校课程,培养青年环境意识;为老年居民使用简单易懂的材料。媒体平台,包括电视、广播、社交媒体和短视频,也应被利用来传播信息,营造参与氛围。

完善基础设施
在投放阶段,提供清晰标签和战略放置的分类垃圾桶,便于正确分离垃圾。定期维护和升级这些设施至关重要。对于收集和运输,必须部署不同垃圾类别的专用车辆,防止混合收集。还应建立高效的垃圾转运系统。在处理端,投资回收和有害垃圾处理设施,融入先进技术提升处置效率。

加强法规执行和监督
监管部门必须提升日常监督和执行,建立基于绩效的评估系统,奖励成功并解决不足。违规行为应严格处罚以增加责任感。公众举报机制也可鼓励居民监控和报告违规,培养集体监督。此外,持续的法律教育应确保居民理解并遵守垃圾分类要求。

可持续垃圾分类的创新模式
引入市场机制
应通过政策激励和补贴鼓励企业参与垃圾分类产业链,吸引私人投资于收集、运输和处理。例如,专业垃圾分类服务提供商可为社区和机构提供全面解决方案。还可以开发回收产业系统,将可回收物货币化,创建循环经济。创新商业模式,如奖励积分或交换程序,可进一步激发公众参与。

利用技术
智能垃圾分类技术——如AI驱动的垃圾桶和使用人脸识别或二维码的回收机——可以通过奖励系统跟踪和激励正确分类。大数据和IoT可实现垃圾产生和分类率的实时监测和分析,支持数据驱动决策。此外,AI-based分类机器人等进步可提高垃圾处理效率。

结论
城市垃圾分类是一项系统工程,需要公众习惯改变、基础设施升级、法规执行和社会协作。只有通过强劲教育、改善基础设施、严格监督和持续创新,城市才能有效推进垃圾分类,提升环境质量,实现可持续发展——为所有居民创造更好的生活环境。

案例3 - 编码知识

我们呈现一个案例研究,证明我们的模型响应展示了增强的质量,特征为更好的信息准确性和内容丰富度,如提供的代码样本(第12-23行)所示。

<-- PROMPT -->
行 aipc_data_dir . encode ('utf -8 ') 将字符串编码为UTF-8格式的字节序列。这有什么好处?

<-- RESPONSE OF OUR MODEL -->
将字符串编码为UTF-8字节序列在Python和更广泛的编程上下文中提供了几个关键好处:
1. 广泛兼容性:UTF-8是一种广泛接受和支持的字符编码标准。它是互联网上最常见的编码,几乎所有现代操作系统、编程语言和应用程序都支持它。这确保了数据在不同系统间的可靠传输和处理,避免由于编码不兼容导致的乱码。例如,在传输时...

  1. ...(完整响应继续,包含代码样本等细节)

<-- RESPONSE OF BASELINE MODEL -->
将字符串编码为UTF-8字节序列的主要好处如下:

  1. 普遍性和兼容性
    跨平台支持:UTF-8是一种通用字符编码标准,几乎所有现代操作系统、编程语言和网络协议都支持它。以UTF-8编码的数据可以在Windows、Linux和macOS系统间正确处理。例如,在Linux服务器上存储的UTF-8编码文本文件可以在...

(未指定描述,但为案例3相关图片)
(未指定描述,但为案例3相关图片)

(未指定描述,但为案例3相关图片)
(未指定描述,但为案例3相关图片)

(未指定描述,但为案例3相关图片)
(未指定描述,但为案例3相关图片)