本文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Xudong Lu、Qi Liu、Yuhui Xu、Aojun Zhou、Siyuan Huang、Bo Zhang、Junchi Yan和Hongsheng Li等作者共同完成,分别来自香港中文大学多媒体实验室(CUHK MMLab)、上海交通大学、Salesforce AI Research、上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)以及CPII under InnoHK等机构。该研究发表于2024年8月11日至16日举办的第62届计算语言学协会年会(ACL 2024)的长论文集中,标题为《Not All Experts Are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models》。
研究的主要领域为大语言模型(Large Language Models, LLMs),特别是专家混合模型(Mixture-of-Experts, MoE)。MoE模型通过稀疏激活部分参数,能够在减少计算资源的同时保持高性能。然而,尽管MoE模型在参数效率上优于传统的密集模型,其庞大的参数规模仍然导致部署困难。为了解决这一问题,本研究提出了一种专家级稀疏化(expert-level sparsification)方法,旨在通过专家剪枝(expert pruning)和动态专家跳过(dynamic expert skipping)技术,提升MoE模型的部署效率,同时保持其性能。
研究的主要目标是通过专家级稀疏化技术,减少MoE模型的内存占用并加速推理速度。为此,研究提出了两种主要方法:任务无关的专家剪枝和任务特定的专家剪枝,以及动态专家跳过。以下是详细的研究流程:
任务无关的专家剪枝:
任务特定的专家剪枝:
动态专家跳过:
研究在Mixtral 8x7b模型上进行了广泛的实验,验证了所提出方法的有效性。以下是主要实验结果:
本研究首次提出了专家级稀疏化技术,通过专家剪枝和动态专家跳过,显著减少了MoE模型的内存占用并提升了推理速度,同时保持了较高的模型性能。该方法在任务无关和任务特定的场景下均表现出色,特别是在数学推理任务中,通过任务特定剪枝和微调,模型性能几乎未受损失。
本研究的科学价值在于为MoE模型的稀疏化提供了新的思路,推动了高效大语言模型的研究。其应用价值在于降低了MoE模型的部署门槛,使得高性能语言模型能够在更多实际场景中得到应用。此外,研究提出的方法还可以与其他模型轻量化技术(如权重剪枝和量化)结合,进一步提升模型的效率。
研究中还探讨了专家剪枝与动态跳过技术的结合效果,表明这两种方法可以协同工作,进一步提升模型的推理效率。此外,研究还提供了详细的实验数据和代码,方便其他研究者复现和进一步探索。