Beware of Calibration Data for Pruning Large Language Models

作者/机构: Yixin Ji, Yang Xiang, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang.
机构: 苏州大学计算机科学与技术学院;数据智能与先进计算重点实验室;华为云

A1 主要贡献

核心问题: 随着大型语言模型(LLMs)的广泛应用,模型压缩对于降低成本和提高推理效率变得至关重要。其中,后训练剪枝(Post-training pruning)是一种有前景的方法,它无需资源密集型的迭代训练,仅需少量校准数据来评估参数的重要性。尽管近期研究从不同方面增强了后训练剪枝技术,但很少有工作系统地探讨校准数据的影响,也尚不清楚是否存在更优的校准数据构建策略。

研究目标与创新点: 本文旨在填补这一空白,并意外地发现校准数据对后训练剪枝同样至关重要,尤其是在高稀疏度下。
1. 实证分析: 通过对校准数据的重要影响因素(包括剪枝设置、数据量及其与预训练数据的相似性)进行受控实验,本文观察到:
* 少量校准数据便已足够。
* 与模型预训练阶段数据更相似的校准数据能带来更好的性能。

  1. 提出新策略: 考虑到高级LLMs的预训练数据通常无法获取,本文提出了一种自生成(self-generating)的校准数据合成策略,以构建可行的校准数据。
  2. 验证有效性: 在包括DCLM和LLaMA-3在内的多个近期强大的开源LLM上的实验结果表明,该策略能显著提升现有强剪枝方法(如Wanda, DSnoT, OWL)的性能,最高可达2.68%。

实验进一步揭示,选择更优的校准数据所带来的性能增益,甚至可能超过使用更先进剪枝方法所带来的增益,如下图1所示。

图1:剪枝方法和校准数据对常识推理任务的影响。
图1:剪枝方法和校准数据对常识推理任务的影响。

A2 背景知识

模型压缩的重要性与分类。模型压缩是通过减少内存需求来提高推理效率的关键途径,具体方法包括剪枝【【52,Mest: Accurate and fast memory-economic sparse training framework on the edge,2021,NeurIPS】,【56,Plugand-play: An efficient post-training pruning method for large language models,2024,ICLR】,【48,Sheared LLaMA: Accelerating language model pre-training via structured pruning,2024,ICLR】】、量化【【49,SmoothQuant: Accurate and efficient post-training quantization for large language models,2023,ICML】,【30,Awq: Activation-aware weight quantization for llm compression and acceleration,2024,MLSys】】、低秩分解【【21,Lord: Low rank decomposition of monolingual code llms for one-shot compression,2023,arXiv】,【53,Asvd: Activation-aware singular value decomposition for compressing large language models,2024,arXiv】,【45,Svd-llm: Truncation-aware singular value decomposition for large language model compression,2024,arXiv】,【18,Adaptive feature-based low-rank compression of large language models via Bayesian optimization,2024,EMNLP】】等。LLMs巨大的内存需求和低效的推理速度迫切需要模型压缩。然而,许多成功的模型压缩方法需要大量的计算资源进行重训练,这限制了它们在低资源环境下对LLMs的应用。因此,无需重训练的后训练压缩已成为当前的研究热点。

后训练剪枝方法概述。后训练压缩方法通常将模型压缩近似为逐层压缩的优化问题【【9,Optimal brain compression: A framework for accurate posttraining quantization and pruning,2022,NeurIPS】】:

$$\min_{\hat{\boldsymbol{W}}_l} ||\boldsymbol{W}_l \boldsymbol{X}_l - \hat{\boldsymbol{W}}_l \boldsymbol{X}_l||_F,$$

其中,$W_l$和$\hat{W}_l$分别是原始和压缩后的第$l$个线性层,而$X_l$是输入特征激活。为了优化该目标,OBC【【9,Optimal brain compression: A framework for accurate posttraining quantization and pruning,2022,NeurIPS】】和SparseGPT【【10,Sparsegpt: Massive language models can be accurately pruned in one-shot,2023,ICML】】利用二阶梯度信息来衡量参数重要性,并提出了一种计算逆Hessian矩阵的高效算法。Wanda【【40,A simple and effective pruning approach for large language models,2024,ICLR】】通过结合权重大小和输入激活来评估权重重要性,无需反向传播。Zhang等人【【56,Plug-and-play: An efficient post-training pruning method for large language models,2024,ICLR】】提出了相对重要性和激活度量(RIA),该度量综合了权重、输入和输出激活。他们还利用通道置换来最小化N:M半结构化剪枝下的剪枝损失。PrunerZero【【6,Pruner-zero: Evolving symbolic pruning metric from scratch for large language models,2024,ICML】】设计了一个基于遗传算法的框架,以自动搜索最佳剪枝度量。最近,一些研究【【41,ECoFLap: Efficient coarse-to-fine layer-wise pruning for vision-language models,2024,ICLR】,【50,BESA: Pruning large language models with blockwise parameter-efficient sparsity allocation,2024,ICLR】,【53,Outlier weighed layerwise sparsity (OWL): A missing secret sauce for pruning LLMs to high sparsity,2024,ICML】】指出,通常在所有层应用统一稀疏率并在层内评估权重重要性的逐层压缩方法,由于缺乏全局考虑,往往导致次优性能。具体来说,Xu等人【【50,BESA: Pruning large language models with blockwise parameter-efficient sparsity allocation,2024,ICLR】】提出了一个可微分的剪枝框架,旨在为每层搜索最优的剪枝率。OWL【【53,Outlier weighed layerwise sparsity (OWL): A missing secret sauce for pruning LLMs to high sparsity,2024,ICML】】引入了离群点加权的逐层稀疏度,将每层的稀疏度与观察到的离群点成比例关联起来。

校准数据的关键作用与研究现状。在上述后训练压缩方法中,校准数据是不可或缺的组成部分。校准数据是从无标签预训练文本中随机抽样的一小部分子集。许多方法【【10,Sparsegpt: Massive language models can be accurately pruned in one-shot,2023,ICML】,【40,A simple and effective pruning approach for large language models,2024,ICLR】,【5,SpQR: A sparse-quantized representation for near-lossless LLM weight compression,2024,ICLR】】声称其方法对校准数据的数量和分布具有鲁棒性,仅需几十或几百个序列长度为2048的样本。然而,这一结论基于某些数据集(如Wikitext2)的困惑度,并未完全反映LLMs的真实能力。即使困惑度没有显著变化,压缩后的模型在下游任务中仍可能出现严重的性能下降【【17,Compressing LLMs: The truth is rarely pure and never simple,2024,ICLR】】。Khanal & Capone【【23,Evaluating the impact of compression techniques on taskspecific performance of large language models,2024,arXiv】】建议使用特定于任务的校准数据有助于提高特定下游任务的性能。Williams & Aletras【【47,On the impact of calibration data in post-training quantization and pruning,2024,ACL】】在大量实验中观察到,后训练剪枝和量化方法中校准数据的选择会显著影响下游任务的性能,尤其是后训练剪枝对校准数据高度敏感。Shin等人【【39,Rethinking pruning large language models: Benefits and pitfalls of reconstruction error minimization,2024,EMNLP】】注意到重建误差目标(公式1)会导致在校准数据上过拟合,而自生成的校准数据可以有效缓解这种过拟合。尽管如此,目前对校准数据的研究仍不充分,很少有研究为选择校准数据提供指导。与以往工作不同,本文(1)探讨了在不同稀疏率和类型下校准数据的影响,(2)调查了数据量对各种校准数据的影响,不仅限于广泛使用的C4校准数据,(3)进一步解决了哪种校准数据适合LLM剪枝,并提供了一种实用有效的方法。

A3 校准数据对剪枝的影响

尽管Williams & Aletras (2024)已指出校准数据对后训练剪枝有显著影响,但仍有许多悬而未决的问题。本节旨在探究校准数据对剪枝性能的影响程度、数据量的影响以及何种数据源更适合作为校准数据。

3.1 实验细节

  • 稠密模型: 为了研究不同来源数据对后训练剪枝方法的影响,本文需要全面了解模型训练所用的数据。因此,选择了功能强大且完全开源(包括训练数据)的LLM DCLM-7B 【【28,Datacomp-lm: In search of the next generation of training sets for language models,2024,arXiv】】作为稠密模型,并使用不同的校准数据对其进行后训练剪枝。
  • 后训练剪枝方法: 选择了三种有竞争力且具代表性的后训练剪枝方法进行评估:Wanda 【【40,A simple and effective pruning approach for large language models,2024,ICLR】】、DSnoT 【【57,Dynamic sparse no training: Training-free fine-tuning for sparse LLMs,2024,ICLR】】和OWL 【【53,Outlier weighed layerwise sparsity (OWL): A missing secret sauce for pruning LLMs to high sparsity,2024,ICML】】。这些方法同时适用于非结构化和半结构化剪枝。
  • 校准数据: 考虑了多种数据源作为校准数据。遵循主流做法,校准数据源均来自无标签的预训练语料库:

    • C4 【【34,Exploring the limits of transfer learning with a unified text-totext transformer,2020,JMLR】】: 一个广泛使用的校准数据源,包含从Common Crawl过滤的大量多语言网页文本。本文从其英文训练集中采样。
    • Wikipedia: 一个高质量的百科全书文本来源。本文使用截至2023-11-01的清洗后英文版本的第一个分片。
    • Slimpajama: RedPajama的清洗和去重版本,是一个高质量的预训练语料库,来源多样,包括C4、ArXiv、GitHub、Books等。
    • DCLM 【【28,Datacomp-lm: In search of the next generation of training sets for language models,2024,arXiv】】: DCLM-7B模型的预训练数据,包含从Common Crawl提取的2.6T tokens。本文从DCLM的一个子集中采样。
      除3.3节的实验外,均遵循先前工作,随机采样128个序列长度为2048的序列作为校准数据。为减轻采样随机性的影响,所有实验均使用不同随机种子重复校准数据采样20次,并报告平均性能。
  • 评估任务: 为全面反映压缩模型的能力,本文选择了多个广泛使用且具有挑战性的常识推理任务进行评估,包括BoolQ【【3,BoolQ: Exploring the surprising difficulty of natural yes/no questions,2019,NAACL】】、Winogrande【【35,Winogrande: an adversarial winograd schema challenge at scale,2021,Commun. ACM】】、PIQA【【1,Piqa: Reasoning about physical commonsense in natural language,2020,AAAI】】、Hellaswag【【54,HellaSwag: Can a machine really finish your sentence?,2019,ACL】】、ARC-e, ARC-c【【4,Think you have solved question answering? try arc, the ai2 reasoning challenge,2018】】和MMLU【【14,Measuring massive multitask language understanding,2021,ICLR】】。MMLU采用5-shot设置,其他任务均在0-shot设置下评估。评估代码基于lm-evaluation-harness仓库。报告这七个任务的平均性能。

3.2 校准数据对剪枝性能的影响有多大?

不同稀疏率和稀疏类型下的性能差异。在实际应用中,评估和比较不同校准数据对剪枝模型的影响不可避免地消耗时间和计算资源。本文旨在探究校准数据对剪枝性能的影响有多大,以及是否值得在研究和实践中寻找最优的校准数据。实验覆盖了30%到60%的稀疏率,并在50%稀疏率下进一步比较了非结构化、4:8半结构化和2:4半结构化稀疏类型。以Wanda方法为例,图2展示了使用四种校准数据集进行剪枝后模型的性能范围(最大值与最小值之差)。在低稀疏率(<50%)时,不同校准数据之间的性能差异很小,小于0.1%。随着稀疏度的增加,校准数据对剪枝的影响逐渐放大,从50%稀疏率时的0.5%差异上升到60%稀疏率时的2.3%。值得注意的是,如附录A的图6所示,不合适的校准数据在中等稀疏度下甚至会产生负面影响。例如,在60%稀疏率下,使用Wikipedia和Slimpajama作为校准数据的性能比不使用任何校准数据的纯幅度剪枝还要差。对于稀疏类型,观察到随着稀疏模式变得更加结构化,校准数据的选择变得越来越重要,最大差异达到1.5%到1.8%。DSnoT和OWL方法也呈现出相似的趋势(见附录A)。总而言之,在中高稀疏率和半结构化稀疏类型下,不同的校准数据显著影响剪枝后LLMs的性能。由于更高的稀疏率和更结构化的稀疏类型是实现有效推理加速的关键,因此,更加关注校准数据的选择至关重要。

图2:在Wanda方法下,不同数据集(C4、Wikipedia、Slimpajama、DCLM)在不同稀疏率(a)和稀疏类型(b)下的剪枝性能范围(最大值-最小值)。
图2:在Wanda方法下,不同数据集(C4、Wikipedia、Slimpajama、DCLM)在不同稀疏率(a)和稀疏类型(b)下的剪枝性能范围(最大值-最小值)。

3.3 不同来源的校准数据对数据量的鲁棒性是否相同?

数据量对性能的影响。目前几乎所有针对LLMs的后训练剪枝方法都通过经验证明了其对校准数据量的鲁棒性,通常在数据量达到128时模型性能趋于平稳。本文旨在探究这些方法对不同来源的校准数据在数据量上是否同样鲁棒,以及是否可以通过增加数据量来改善那些导致剪枝模型性能较差的校准数据。实验在DCLM-7B上使用Wanda和DSnoT进行2:4半结构化剪枝,从不同数据源随机采样64至2048个样本作为校准数据。如图3所示,无论校准数据源为何,剪枝模型的平均性能对数据量都表现出鲁棒性,波动仅为0.1%-0.2%。因此,不能期望通过增加校准数据量来缩小不同校准数据之间的性能差距。此外,随着数据量的增加,剪枝模型性能的标准差会减小。

图3:不同预训练数据源(即C4, Wikipedia, Slimpajama, DCLM)和剪枝方法(即Wanda (a) 和 DSnoT (b))下校准数据量的影响。阴影区域表示20个随机种子的标准差。
图3:不同预训练数据源(即C4, Wikipedia, Slimpajama, DCLM)和剪枝方法(即Wanda (a) 和 DSnoT (b))下校准数据量的影响。阴影区域表示20个随机种子的标准差。

3.4 什么样的校准数据适合剪枝?

数据相似性与数据质量的权衡。鉴于校准数据的选择至关重要且无法仅通过增加数据量来改善,本文探讨了何种校准数据更适合剪枝,并提出了两个假设:(1)校准数据与LLMs的训练数据越相似,剪枝性能越好。(2)校准数据的质量越高,剪枝性能越好。为验证这些假设,本文在DCLM-7B上使用三种后训练剪枝方法和多种校准数据进行了2:4半结构化剪枝实验,结果如表1所示。在所有数据中,使用来自训练数据的DCLM作为校准数据始终获得最佳性能。同样从Common Crawl提取的C4和Slimpajama表现稍差。相比之下,Wikipedia的来源与其他三个数据集显著不同,尽管被认为是高质量数据,但其性能最差,比DCLM低1.3%到1.8%。因此,本文断言校准数据的质量并非影响剪枝性能的主要因素。

相似性量化分析。为了进一步量化不同校准数据与训练数据的相似性,本文利用MinHash-LSH算法对C4、SlimPajama、Wikipedia和DCLM的3-grams进行编码,并计算它们的Jaccard相似度。结果显示,C4与DCLM的Jaccard相似度为0.070,SlimPajama为0.016,Wikipedia为0.008。这表明C4与训练数据的相似度最高,其次是SlimPajama,Wikipedia的相似度最低。这个排序与它们作为校准数据在剪枝中的性能表现一致。因此,本文认为校准数据与训练数据的相似性对剪枝性能的影响比校准数据的质量更显著。训练数据或与训练数据相似的数据更适合作为校准数据。推测这可能是因为LLMs能更好地学习训练数据中的模式,因此在剪枝过程中使用具有相似模式的数据作为校准数据,可以更准确地反映模型参数的重要性。

表1:三种剪枝方法使用四种不同来源校准数据的剪枝性能。
表1:三种剪枝方法使用四种不同来源校准数据的剪枝性能。

A4 校准数据采样方法

问题定义。在第3节中,对开源DCLM-7B模型的实证研究表明,选择与训练数据相似的校准数据可以获得更好的剪枝性能。然而,在实际场景中,许多LLMs的训练数据对用户而言是不可获取的。本节将提出一种“自生成后采样”(self-generating then sampling)策略,用于在训练数据不可用时采样校准数据。形式上,给定一个作为校准数据源的数据集D和一个在不可访问的数据集Dt上预训练的LLM M,我们的目标是从D中采样n个实例作为校准数据Dc,使其分布与Dt相似。

自生成合成数据策略。最近,Xu等人【【51,Magpie: Alignment data synthesis from scratch by prompting aligned llms with nothing,2024,arXiv】】揭示,LLMs在训练过程中内化了训练数据中的模式,如语言结构、词分布,甚至常识知识。由于其自回归的特性,LLMs在预测下一个词元时会利用这些内化的模式,从而生成与训练数据相似的文本。因此,我们提出使用自生成的合成数据作为后训练剪枝中校准数据的训练数据代理。具体而言,对于来自校准数据源D的一个样本,我们截取前t个词元作为前缀,然后让LLM M生成与上下文相关的后续内容:

$$x_{i} \sim p_{\mathcal{M}}(x_{<i}), i=t \cdots N.$$ <p>数据过滤机制。在生成数据之后,我们对合成数据进行过滤,以防止低质量的生成数据对剪枝效果产生负面影响。我们计算每个生成样本的困惑度(perplexity),并过滤掉困惑度最高的k%的样本。较高的困惑度表明LLM未能很好地拟合这些模式,这些模式可能与训练数据差异很大,因此不适合作为校准数据。

A5 实验

5.1 实验环境

  • 模型: DCLM-7B, LLaMA-2-7B, LLaMA-2-13B 【【43,Llama 2: Open foundation and fine-tuned chat models,2023,arXiv】】, LLaMA-3-8B 【【7,The llama 3 herd of models,2024,arXiv】】。
  • 硬件配置: 未明确说明。
  • 软件配置: 评估代码基于 lm-evaluation-harness 仓库。
  • 剪枝方法: Wanda, DSnoT, OWL。
  • 校准数据集 (基线): C4, Wikipedia, Slimpajama, DCLM。
  • 评估数据集:

    • 语言建模: Alpaca 【【42,Alpaca: A strong, replicable instructionfollowing model,2023,Stanford Center for Research on Foundation Models】】数据集,选择该数据集是因为它与所有四种校准数据源都不同,避免了评估偏差。
    • 常识推理: BoolQ, Winogrande, PIQA, Hellaswag, ARC-e, ARC-c, MMLU。
  • 自生成超参数:

    • 采样方法: Top-k (k=50) 和 Top-p (p=0.95) 采样。
    • 温度 (Temperature): 0.6。
    • 重复惩罚 (Repetition Penalty): 1.2。
    • 过滤: 根据困惑度过滤掉排名前20%的样本。

5.2 实验结果

总体性能。主要结果报告在表2和表5中。总体而言,本文提出的自生成合成校准数据在语言建模和常识推理任务上均优于其他基线校准数据,并且与不同的剪枝方法兼容。在DCLM-7B上,不属于预训练数据的Wikipedia通过自生成合成数据获得了最大的性能提升。与原始Wikipedia数据相比,它在常识推理任务上的性能平均提高了2.2%到2.6%,甚至超过了常用的C4校准数据,平均提升了0.8%到1.2%。对于与预训练数据部分重叠的C4和Slimpajama,自生成策略也带来了0.9-1.5%的提升。在LLaMA系列模型上,自生成的合成数据也比原始数据表现更好,提升幅度约为0.9%到1.1%,并比C4数据高出约0.3%到0.5%。

意外发现与解释。令人惊讶的是,自生成校准数据的性能甚至超过了从DCLM-7B训练集中采样的校准数据,平均提升了0.3%到0.7%。我们认为这可能是因为校准数据中存在某些LLM尚未充分学习的模式,使用这些模式作为校准数据可能会错误地估计参数的重要性。相比之下,由于最大似然训练的性质,自生成的校准数据通常会生成LLM已较好学习的模式,从而避免了使用代表性不足的模式作为校准数据。此外,我们观察到,无论合成数据的来源如何,剪枝后模型的性能都相似。这表明自生成的校准数据具有通用性,即使可用的数据与预训练数据差异很大,也能生成合适的校准数据。

表2:在60%稀疏率下,不同校准数据在DCLM-7B上的剪枝性能。最佳性能方法以粗体标出。Wiki、Slim和Syn分别是Wikipedia、SlimPajama和我们的合成数据的缩写。下划线表示合成校准数据相对于原始校准数据在某个任务上的性能提升。∆表示剪枝模型在常识推理任务上的平均性能变化。✓、✗和✓✗分别表示校准数据属于、不属于或部分属于DCLM-7B的预训练数据。
表2:在60%稀疏率下,不同校准数据在DCLM-7B上的剪枝性能。

A6 讨论

6.1 合成校准数据是否适用于其他剪枝设置?

多剪枝设置下的有效性验证。为了进一步验证自生成合成校准数据的有效性,本文在更多的剪枝设置下进行了实验。表3展示了DCLM-7B在使用Wanda剪枝时,采用不同校准数据在非结构化50%和65%稀疏率,以及半结构化4:8和2:4设置下的常识推理性能。在所有剪枝设置中,本文的合成校准数据性能均达到或超过了来自训练集的最佳校准数据DCLM。值得注意的是,在两种半结构化剪枝设置中,合成数据将性能提升了约0.8%。由于半结构化剪枝能够实现实际的推理加速,且先进的GPU已经支持2:4稀疏张量核心,因此我们认为自生成的合成校准数据将有效提升剪枝模型在实际部署中的性能。

表3:不同校准数据的剪枝性能。
表3:不同校准数据的剪枝性能。

6.2 前缀长度如何影响合成数据的性能?

前缀长度的超参数探索。自生成过程中的前缀长度是一个关键的超参数。如果前缀太短,合成文本可能与原始文本的语义相去甚远;如果太长,合成的校准数据可能保留过多原始文本的模式。因此,探索前缀长度的选择至关重要。实验范围从0到1024个前缀长度,其中前缀长度为0表示仅使用一个代表文本开始的特殊标记。图4显示了常识推理性能随前缀长度变化的趋势。一旦存在前缀,性能就超过了原始校准数据。然而,更长的前缀并不能带来更好的结果,因为性能随着前缀长度的增加而逐渐下降。结果表明,使用1到4个词元作为前缀是最佳选择。这表明与原始文本的语义一致性在合成校准数据中并不关键;相反,关键在于避免保留可能产生负面影响的模式。

图4:使用不同前缀长度的自生成合成校准数据进行Wanda剪枝的性能。
图4:使用不同前缀长度的自生成合成校准数据进行Wanda剪枝的性能。

6.3 基于困惑度的数据过滤如何影响剪枝性能?

过滤策略的有效性分析。在生成合成数据后,本文采用一种简单的基于困惑度的方法来过滤低质量数据。我们探究了这种基于困惑度的过滤方法是否有效,以及过滤率应设为多少。在DCLM-7B模型上进行的实验如表4所示。即使没有任何过滤策略,合成数据的表现也优于原始数据。基于困惑度的过滤被证明是一种简单而有效的方法,在过滤率为10%-20%时剪枝性能最佳。随着过滤率的增加,剪枝效果逐渐下降,最终与未经过滤的数据性能相当。因此,我们建议仅根据困惑度过滤掉异常值,因为过于激进的过滤可能会损害校准数据的多样性,从而对剪枝性能产生负面影响。

表4:基于困惑度的数据过滤的影响。
表4:基于困惑度的数据过滤的影响。

6.4 自生成合成校准数据是否与训练数据更相似?

相似性验证。在3.4节中,本文断言与训练数据相似的数据更适合作为后训练剪枝的校准数据。基于LLMs的自回归生成特性,我们提出使用自生成数据作为训练数据的近似。但自生成的合成数据是否真的比其他校准数据更接近模型的训练数据?本文使用一种高效且有效的Min-K%++方法【【55,Min-k%++: Improved baseline for detecting pre-training data from large language models,2024,arXiv】】进行衡量。Min-K%++指出,经过最大似然训练后,训练数据的概率分布总是位于输入维度上的局部最大值处。因此,对于给定的词元序列($x_{<t}, x_t$),如果该序列属于训练数据,那么$p(x_{<t}, x_t)$应该高于词汇表中其他候选词元的概率。Min-K%++的公式如下:</p>

$$ W(x_{<t}, x_{t}) = \frac{logp(x_{t}|x_{<t}) - \mu_{x_{<t}}}{\sigma_{x_{<t}}}, $$ <p>
$$ \text{Min-K}\%++(x) = \frac{1}{|min\text{-}k\%|} \sum_{(x_{<t}, x_{t}) \in min\text{-}k\%} W(x_{<t}, x_{t}), $$</div>

其中,$\mu_{x<t}$和$\sigma_{x<t}$分别是给定前缀$x_{<t}$时下一个词元对数概率的期望和标准差。min-k%指的是根据序列x的分数选择得分最低的k%的子序列。因此,样本的Min-K%++得分越高,它出现在训练数据中的可能性就越大。图5使用核密度估计显示了C4、Wikipedia、SlimPajama和我们自生成合成数据的Min-K%++值分布。我们可以清楚地观察到,自生成的合成数据比其他校准数据具有更高的Min-50%++得分。这表明自生成的合成校准数据确实与训练数据相似,证实了使用自生成数据作为训练数据代理的有效性。</p>

图5:C4、Wikipedia、Slimpajama和自生成合成数据的Min-50%++得分分布。
图5:C4、Wikipedia、Slimpajama和自生成合成数据的Min-50%++得分分布。

A7 结论与未来工作

本文强调了校准数据在LLM后训练剪枝中扮演的关键角色。通过系统的探索,我们证明了与原始训练数据相似的校准数据能带来更优的剪枝性能。为解决实际场景中训练数据不可获取的挑战,我们提出了一种自生成合成校准数据策略,该策略能有效地为LLM采样合适的校准数据。在DCLM、LLaMA-2和LLaMA-3模型上的实验结果表明,我们的方法显著优于现有的常用校准数据。我们坚信,作为后训练剪枝的重要组成部分,校准数据仍有巨大的研究潜力。

局限性与展望:

  1. 超参数优化: 本文并未完全优化生成合成校准数据时的超参数,例如使用更先进的解码策略或更精细的过滤方法。改进这些细节可能会进一步提升合成校准数据的效果。
  2. 模型规模与剪枝类型: 实验仅限于7B-13B规模的LLM上的非结构化和半结构化剪枝。未来工作将在70B的LLM上以及结构化剪枝场景中验证我们的方法。
  3. 指令数据合成: 将继续探索如何合成高质量的指令数据作为校准数据,以帮助压缩对齐后的LLM。

A8 附录

图6、7、8展示了三种剪枝方法(Wanda、DSnoT、OWL)在使用不同校准数据集(C4、Wikipedia、Slimpajama、DCLM)时,在不同稀疏率和稀疏类型下的详细性能表现。灰色虚线代表基于幅值的剪枝性能基线。这些图表共同表明,与模型训练数据(DCLM)或其来源(C4)相似的校准数据通常表现更优,而来源差异较大的数据(Wikipedia)在高稀疏度下性能较差。

图6:Wanda剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。
图6:Wanda剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。
图7:DSnoT剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。
图7:DSnoT剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。
图8:OWL剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。
图8:OWL剪枝下,不同数据集在不同稀疏率(a-d)和稀疏类型(e-f)下的性能表现。

表5、6、7分别展示了在60%稀疏率下,不同校准数据在LLaMA-2-7B、LLaMA-2-13B和LLaMA-3-8B模型上的剪枝性能。结果进一步验证了自生成合成数据(Syn)在不同模型和剪枝方法上的普适性和有效性。

表5:在60%稀疏率下,不同校准数据在LLaMA-2-7B上的剪枝性能。
表5:在60%稀疏率下,不同校准数据在LLaMA-2-7B上的剪枝性能。

表6:在60%稀疏率下,不同校准数据在LLaMA-2-13B上的剪枝性能。
表6:在60%稀疏率下,不同校准数据在LLaMA-2-13B上的剪枝性能。

表7:在60%稀疏率下,不同校准数据在LLaMA-3-8B上的剪枝性能。
表7:在60%稀疏率下,不同校准数据在LLaMA-3-8B上的剪枝性能。