分享自:

专家剪枝与跳过:提升混合专家大语言模型部署效率的研究

期刊:proceedings of the 62nd annual meeting of the association for computational linguistics (volume 1: long papers)

本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:

研究背景与作者信息

本研究由Xudong Lu、Qi Liu、Yuhui Xu、Aojun Zhou、Siyuan Huang、Bo Zhang、Junchi Yan和Hongsheng Li等作者共同完成,分别来自香港中文大学多媒体实验室(CUHK MMLab)、上海交通大学、Salesforce AI Research、上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)以及CPII under InnoHK等机构。该研究发表于2024年8月11日至16日举办的第62届计算语言学协会年会(ACL 2024)的长论文集中,标题为《Not All Experts Are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models》。

研究的主要领域为大语言模型(Large Language Models, LLMs),特别是专家混合模型(Mixture-of-Experts, MoE)。MoE模型通过稀疏激活部分参数,能够在减少计算资源的同时保持高性能。然而,尽管MoE模型在参数效率上优于传统的密集模型,其庞大的参数规模仍然导致部署困难。为了解决这一问题,本研究提出了一种专家级稀疏化(expert-level sparsification)方法,旨在通过专家剪枝(expert pruning)动态专家跳过(dynamic expert skipping)技术,提升MoE模型的部署效率,同时保持其性能。

研究流程

研究的主要目标是通过专家级稀疏化技术,减少MoE模型的内存占用并加速推理速度。为此,研究提出了两种主要方法:任务无关的专家剪枝任务特定的专家剪枝,以及动态专家跳过。以下是详细的研究流程:

  1. 任务无关的专家剪枝

    • 校准数据集:使用预训练数据集C4构建校准数据集,通过对原始MoE模型进行推理,缓存每一层的输入输出对。
    • 专家组合枚举:在每一层中,基于预设的保留专家数量r,枚举所有可能的专家组合,并计算每种组合下的重构损失(reconstruction loss)。
    • 专家剪枝:选择重构损失最小的专家组合,保留这些专家,并丢弃其他专家。通过逐层剪枝,最终得到一个稀疏化的MoE模型。
  2. 任务特定的专家剪枝

    • 校准数据集调整:针对特定任务(如数学推理),使用任务相关数据集(如Math数据集)构建校准数据集,以优化专家剪枝的效果。
    • 专家剪枝:与任务无关的剪枝方法类似,但在任务特定的数据集上进行剪枝,以保留对特定任务更重要的专家。
  3. 动态专家跳过

    • 动态跳过机制:在推理过程中,根据路由权重动态决定是否跳过某些专家。具体而言,如果某个专家的路由权重低于预设阈值β,则跳过该专家。
    • 阈值设定:通过校准数据集计算每一层的β值,通常设置为路由权重比的中位数。

实验结果

研究在Mixtral 8x7b模型上进行了广泛的实验,验证了所提出方法的有效性。以下是主要实验结果:

  1. 内存占用减少:通过剪枝2个专家,Mixtral 8x7b模型的内存占用从两个A100-80G GPU减少到单个GPU,内存使用量减少了约50%。
  2. 推理速度提升:剪枝2个专家后,推理速度提升了1.2倍;剪枝4个专家后,推理速度提升了1.27倍。结合动态专家跳过技术,推理速度进一步提升到1.33倍。
  3. 性能损失:剪枝2个专家后,任务无关模型的性能损失约为2.9分,任务特定模型的性能损失约为6.2分(通过任务特定微调可减少到1.6分)。结合动态跳过技术,性能损失进一步降低。

研究结论

本研究首次提出了专家级稀疏化技术,通过专家剪枝动态专家跳过,显著减少了MoE模型的内存占用并提升了推理速度,同时保持了较高的模型性能。该方法在任务无关和任务特定的场景下均表现出色,特别是在数学推理任务中,通过任务特定剪枝和微调,模型性能几乎未受损失。

研究亮点

  1. 创新性方法:首次提出了针对MoE模型的专家级稀疏化技术,填补了现有权重剪枝方法在MoE模型上的空白。
  2. 高效部署:通过剪枝和动态跳过技术,显著减少了模型的内存占用和推理时间,使得MoE模型在资源受限的环境中更易于部署。
  3. 任务特定优化:针对特定任务的剪枝方法,能够有效保留对任务重要的专家,进一步提升了模型在特定领域的性能。

研究价值

本研究的科学价值在于为MoE模型的稀疏化提供了新的思路,推动了高效大语言模型的研究。其应用价值在于降低了MoE模型的部署门槛,使得高性能语言模型能够在更多实际场景中得到应用。此外,研究提出的方法还可以与其他模型轻量化技术(如权重剪枝和量化)结合,进一步提升模型的效率。

其他有价值的内容

研究中还探讨了专家剪枝与动态跳过技术的结合效果,表明这两种方法可以协同工作,进一步提升模型的推理效率。此外,研究还提供了详细的实验数据和代码,方便其他研究者复现和进一步探索。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com