分享自:

通过稀疏和低秩分解进行异常感知剪枝

期刊:ICLR 2025

本文档属于类型a,即报告了一项原创性研究。以下是基于文档内容生成的学术报告:


研究背景与目标

在深度学习领域,大规模基础模型(Foundation Models)的兴起带来了显著的成功,但也伴随着高昂的计算成本和内存消耗。为了缓解这些问题,研究人员提出了多种后训练神经网络剪枝(post-hoc neural network pruning)技术,这些技术不需要昂贵的重新训练。然而,现有的剪枝方法在压缩率增加时,模型性能往往会出现显著下降。为此,Stephen Zhang和Vardan Papyan等来自University of Toronto的研究团队提出了一种名为OATS(Outlier-Aware Pruning through Sparse and Low Rank Decomposition)的新方法,旨在通过稀疏矩阵和低秩矩阵的分解来压缩大型Transformer模型的权重,同时保留模型中的异常值特征(outlier features)。该研究发表在ICLR 2025会议上。

OATS的目标是通过一种无需重新训练的剪枝方法,在压缩大型语言模型(如LLaMA-3和Phi-3)和视觉Transformer模型(如Google的ViT和DINOv2)时,达到最先进的性能表现。OATS的核心思想是将每个权重矩阵近似为一个稀疏矩阵和一个低秩矩阵的和,并在分解前通过输入嵌入的第二矩(second moment)对权重进行缩放,以确保保留异常值特征。

研究流程与方法

OATS的研究流程主要分为以下几个步骤:

  1. 权重矩阵的稀疏与低秩分解
    OATS的核心算法基于鲁棒主成分分析(Robust PCA),通过交替阈值法(Alternating Thresholding)将权重矩阵分解为稀疏矩阵和低秩矩阵。具体来说,算法首先通过奇异值阈值法(Singular Value Thresholding)求解低秩项,然后通过硬阈值法(Hard Thresholding)求解稀疏项。这一过程通过迭代优化实现,最终得到稀疏矩阵和低秩矩阵的近似。

  2. 异常值特征的保留
    为了保留Transformer模型中的异常值特征,OATS在分解前对权重矩阵进行缩放。具体来说,OATS计算输入激活的第二矩,并将其作为对角缩放矩阵,用于放大异常值特征在重构误差中的重要性。这一步骤显著提高了模型在剪枝后的性能。

  3. 压缩权重的计算
    在得到稀疏矩阵和低秩矩阵的近似后,OATS通过逆变换计算最终的压缩权重。由于缩放矩阵是对角矩阵,因此其逆矩阵易于计算,并且能够保留稀疏矩阵的稀疏性。

  4. 实验验证
    研究团队在多个大型语言模型(如Phi-3和LLaMA-3)和视觉Transformer模型(如Google的ViT和DINOv2)上对OATS进行了验证。实验结果表明,OATS在压缩率高达60%的情况下,仍然能够保持较高的模型性能,并且在CPU上的推理速度比现有剪枝方法提高了1.37倍。

研究结果

OATS在多个模型和任务上取得了显著的结果:

  1. 语言模型性能
    在Phi-3和LLaMA-3模型上,OATS在MMLU(Massive Multitask Language Understanding)基准测试中的准确率显著高于现有剪枝方法。例如,在50%的压缩率下,OATS在Phi-3 Mini模型上的准确率比现有方法高出5.42%,在LLaMA-3 8B模型上高出2.86%。

  2. 视觉Transformer性能
    在Google的ViT和DINOv2模型上,OATS在ImageNet验证集上的Top-1准确率也表现出色。例如,在50%的压缩率下,DINOv2模型的准确率仅下降了0.41%。

  3. 推理速度提升
    OATS在CPU上的推理速度显著优于现有方法。例如,在Phi-3 Medium模型上,OATS在40%的压缩率下,推理速度比无结构剪枝方法提高了1.37倍。

结论与意义

OATS的研究为大型Transformer模型的压缩提供了一种高效且无需重新训练的方法。通过稀疏矩阵和低秩矩阵的分解,OATS不仅能够显著减少模型的计算成本和内存消耗,还能在压缩后保持较高的模型性能。此外,OATS在CPU上的推理速度提升也为其在实际应用中的部署提供了便利。

研究亮点

  1. 异常值特征的保留
    OATS通过输入激活的第二矩对权重进行缩放,有效保留了Transformer模型中的异常值特征,从而在剪枝后保持了较高的模型性能。

  2. 无需重新训练
    与现有剪枝方法不同,OATS无需进行昂贵的重新训练,显著降低了模型压缩的成本。

  3. 多模型验证
    OATS在多个大型语言模型和视觉Transformer模型上进行了验证,证明了其在不同任务和模型上的广泛适用性。

  4. 推理速度提升
    OATS在CPU上的推理速度显著优于现有方法,为其在实际应用中的部署提供了便利。

其他有价值的内容

研究团队还通过可视化方法分析了稀疏矩阵和低秩矩阵在视觉Transformer中的注意力机制(attention mechanism)中的作用。实验表明,稀疏矩阵和低秩矩阵分别捕捉了图像的不同区域,有效分割了图像中的关键信息。这一发现为理解Transformer模型中的稀疏和低秩结构提供了新的视角。


以上是对OATS研究的详细介绍,涵盖了研究的背景、方法、结果、结论及其科学价值和应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com