分享自:

自适应令牌剪枝用于大型视觉语言模型

期刊:CVPR

这篇文档属于类型a,是一篇关于大型视觉语言模型(Large Vision Language Models, LVLMs)自适应令牌剪枝技术的原创研究论文。以下是针对该研究的学术报告:


ATP-LLAVA:大型视觉语言模型的自适应令牌剪枝技术

作者与机构
本研究由Xubing Ye(清华大学深圳国际研究生院)、Yukang Gan(腾讯PCG ARC Lab)、Yixiao Ge(腾讯PCG ARC Lab)、Xiao-Ping Zhang(清华大学深圳国际研究生院)和Yansong Tang(清华大学深圳国际研究生院)合作完成,发表于计算机视觉领域顶级会议CVPR(具体年份未明确标注,但根据引用文献推测为2024年或近期)。

学术背景
大型视觉语言模型(LVLMs)在多模态任务中取得了显著成功,但其计算成本高昂,尤其在资源受限的设备上处理长视觉令牌(visual tokens)时更为突出。先前的方法通过预定义或固定比例的剪枝策略减少冗余令牌,但忽略了不同LLM(Large Language Model)层和实例(图像-提示对)对剪枝比例的敏感性差异。本研究提出ATP-LLAVA(Adaptive Token Pruning for Large Vision Language Models),旨在通过层间和实例自适应的令牌剪枝策略,平衡计算成本与模型性能。

研究流程与方法
1. 问题分析与动机验证
- 通过实验验证了剪枝比例对性能的影响具有层间和实例差异性(图2)。例如,浅层对剪枝更敏感,而深层更鲁棒;细粒度任务(如目标计数)需要保留更多令牌,而粗粒度任务(如场景理解)可承受更高剪枝率。

  1. ATP-LLAVA框架设计

    • 自适应令牌剪枝模块(ATP模块)
      • 插入任意两个LLM解码层之间,动态计算令牌重要性分数(基于自注意力图和跨模态注意力图)和剪枝阈值。
      • 包含冗余剪枝分数(redundant pruning score)和空间剪枝分数(spatial pruning score),分别从令牌冗余性和空间建模角度评估重要性(公式3-5)。
      • 通过轻量级MLP预测头生成实例和层特定的阈值(公式8),并引入可微分软掩码(公式11)解决训练中的梯度回传问题。
    • 空间增强剪枝策略(SAP)
      • 结合均匀空间采样和冗余剪枝,保留空间信息。使用2D旋转位置编码(2D rotary embedding)增强空间建模能力。
    • 预算约束训练
      • 设计ATP损失函数(公式12-14),约束平均令牌数量接近目标值(如144或88),平衡计算开销与性能。
  2. 实验设置

    • 基准模型:以LLaVA-1.5(基于Vicuna-7B-1.5和CLIP-ViT-L)为基础模型,在665K视觉指令微调数据上训练。
    • 评估基准:涵盖7个视觉理解任务(GQA、MMB、MME等),对比固定剪枝比例方法(如PrunerMerge+、FastV)。
    • 效率指标:计算FLOPs、CUDA时间、KV缓存内存等。

主要结果
1. 性能保持与效率提升
- 在平均剪枝75%令牌(从576减至144)时,模型在7个基准上保持98.1%的原始性能(表1),仅下降1.9%。
- 剪枝至88令牌时,性能仍达94.6%,显著优于固定比例方法(如FastV在128令牌时性能仅79.9%)。

  1. 自适应剪枝的优势

    • 与预定义剪枝比例相比,ATP-LLAVA在细粒度任务(如MMB)上绝对性能提升2.8%(表2),证明自适应策略能根据任务复杂度动态调整剪枝比例。
  2. 效率分析

    • 减少75%的KV缓存内存和38.4%的CUDA时间(表6),仅引入1.1%的FLOPs开销(因ATP模块的轻量化设计)。

结论与价值
ATP-LLAVA通过动态剪枝策略解决了LVLMs的计算瓶颈,其核心贡献包括:
1. 科学价值:揭示了视觉令牌剪枝的层间和实例差异性,提出了首个可端到端训练的自适应剪枝框架。
2. 应用价值:使LVLMs在资源受限设备(如移动端)的部署成为可能,为实时多模态应用提供技术支持。

研究亮点
1. 创新方法:结合冗余性与空间信息的双视角剪枝评分机制,以及可微分阈值预测模块。
2. 高效性:在几乎不损失性能的前提下实现75%的令牌压缩,超越所有基线方法。
3. 可扩展性:ATP模块可无缝集成至其他LVLMs(如LLaMA架构)。

其他价值
- 可视化结果(图4)显示,模型能根据图像复杂度(如简单场景与复杂道路标志)动态调整剪枝策略,验证了自适应机制的有效性。
- 开源代码和训练细节为后续研究提供了可复现的基准。


此研究为多模态模型的高效推理开辟了新方向,其方法论和实验设计对相关领域具有重要参考意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com