大型语言模型(LLM)的高效压缩新框架:SUPRA(Sensitivity-guided Universal Pruning for Efficient LLM Compression)的提出与验证
一、研究团队与发表信息
本文由匿名作者团队完成,提交至第39届神经信息处理系统大会(NeurIPS 2025)。研究聚焦于大模型压缩领域,针对现有剪枝技术在非均匀稀疏分配中的局限性,提出了一种基于全局性能敏感性的剪枝框架SUPRA。
二、学术背景与研究目标
近年来,大型语言模型(如LLaMA-1/2/3、OPT系列)在语言建模、代码生成等任务中表现卓越,但其庞大的参数量导致高昂的部署成本和推理延迟。模型剪枝(pruning)作为降低内存消耗和加速推理的关键技术,早期方法采用均匀剪枝策略,而近期研究转向非均匀剪枝率分配。然而,现有方法存在两大缺陷:
1. 局部误差偏差:多数方法仅关注块(block)或层(layer)级别的局部重建误差,忽略了对全局性能的影响评估;
2. 搜索效率低下:部分方法依赖离散候选剪枝率的经验搜索,导致计算成本高且易陷入次优解。
为此,研究团队提出SUPRA框架,旨在通过以下创新解决上述问题:
- 设计联合评估块与层剪枝影响的敏感性指标;
- 首次探索剪枝顺序(块优先还是层优先)对性能的影响;
- 开发直接从敏感性映射到剪枝率的算法,避免离散搜索。
三、研究方法与流程
SUPRA框架包含三个核心模块,其工作流程如下:
1. 敏感性指标设计
- 定义:敏感性( s_i(r_i) )表示模型整体性能(如困惑度ppl)对第i个组件(块或层)剪枝率( r_i )的导数,即( s_i(r_i) = \frac{\partial \text{ppl}}{\partial r_i} )。
- 计算:通过微小扰动法(finite-difference approximation)估计敏感性,避免浮点误差。例如,对目标剪枝率p施加±Δ扰动,计算( s_i(p) = \frac{\text{ppl}(p+\Delta) - \text{ppl}(p-\Delta)}{2\Delta} )。
2. 两阶段剪枝顺序策略
- 实验验证:在LLaMA-2-13B模型上对比块优先与层优先策略。结果显示:
- 块优先剪枝:平均困惑度更低(5.74 vs 7.39),但方差较大;
- 层优先剪枝:稳定性更高但性能较差。
- 策略选择:优先分配块级剪枝率,再细化层级分配,以平衡全局与局部性能。
3. 敏感性到剪枝率的映射
- 数学建模:通过拉格朗日乘子法构建优化问题,目标是最小化所有组件的绝对敏感性之和,约束条件为总剪枝率。最终推导出剪枝率分配公式:
[ r_i = \frac{1}{k} \cdot (\bar{s} - s_i(p)) + p ]
其中( \bar{s} )为平均敏感性,k为调节参数。
- 参数优化:采用二分搜索确定最优k值,避免启发式映射的局限性。
四、实验结果与发现
研究在LLaMA-1/2/3和OPT系列模型上验证SUPRA的有效性,主要结果如下:
1. 困惑度测试(Wikitext-2数据集)
- 50%稀疏率下:SUPRA结合Wanda或SparseGPT显著优于基线。例如:
- LLaMA-1-7B:较OWL和DSA分别提升6.64%和47.55%;
- LLaMA-2-7B:较OWL和DSA分别提升5.69%和8.24%。
- 高稀疏率(75%-80%):优势更显著。例如80%稀疏率时,SUPRA困惑度为360.04,较DSA(736.81)提升51.14%。
2. 零样本任务评估
- 七项任务平均准确率:SUPRA在多数设置中达到最优。例如:
- LLaMA-1-7B结合SparseGPT:较DSA提升2.99%;
- LLaMA-2-13B在60%稀疏率下:较DSA提升2.86%。
3. 计算效率
- 时间成本:SUPRA在A100 GPU上运行时长远低于BESA和SparseGPT,接近Wanda的效率(见图4)。例如LLaMA-2-13B剪枝仅需2.2 GPU小时,而Evopress需73.5小时。
五、研究结论与价值
SUPRA的创新性和实用性体现在:
1. 理论贡献:首次提出全局敏感性指标与两阶段剪枝顺序策略,为稀疏分配提供了数学基础;
2. 应用价值:在保持高效计算的前提下,显著提升高稀疏率下的模型性能,适用于边缘设备部署;
3. 开源意义:框架通用性强,可适配多种剪枝标准(如Wanda、SparseGPT)。
六、研究亮点
1. 敏感性指标的全局性:通过联合评估块与层剪枝的影响,克服局部误差累积问题;
2. 剪枝顺序的实证研究:首次揭示块级剪枝优先的策略优势;
3. 高效映射算法:摒弃离散搜索,直接通过敏感性推导剪枝率,提升可复现性。
七、其他价值
研究团队在附录中补充了敏感性计算中扰动尺度(Δ)的消融实验,验证了方法的鲁棒性。此外,SUPRA的模块化设计支持未来扩展,例如结合部分推理(partial inference)进一步优化效率。
(注:因原文为匿名提交,作者及机构信息未公开;实验细节与数据均引自原文图表及附录。)