关于论文《加速多模态大语言模型:通过搜索最优视觉令牌约简》的学术研究报告
本文旨在向中文研究界介绍并解读一篇近期发表于计算机视觉领域顶级会议CVPR(计算机视觉与模式识别会议)的论文。该论文由来自Rutgers University(罗格斯大学)和Meta公司的联合研究团队完成,主要作者包括Shiyu Zhao, Zhenting Wang, Felix Juefei-Xu, Xide Xia, Miao Liu, Xiaofang Wang, Mingfu Liang, Ning Zhang, Dimitris N. Metaxas以及Licheng Yu。本文是一项原创性研究,聚焦于提升多模态大语言模型(Multimodal Large Language Models, MLLMs)的推理效率。
多模态大语言模型(MLLMs),如著名的LLaVA、InternVL2等,通过将视觉编码器提取的图像特征(即“视觉令牌”或“视觉标记”,vision tokens)与文本令牌一同输入预训练的语言模型骨干网络,实现了强大的图像理解和对话能力。然而,随着输入图像分辨率的提高,视觉令牌的数量呈平方级增长,导致巨大的计算开销和内存占用,严重阻碍了MLLMs在资源受限环境(如边缘设备)中的实际应用。
目前,提升MLLM效率的方法主要分为两类。一类是“提示无关”(prompt-agnostic)的方法,例如通过池化、重采样或卷积等操作在图像输入语言模型之前就压缩视觉令牌数量。这类方法忽视了用户的具体文本指令(prompt),而不同的指令可能关注图像的不同区域,因此可能保留了无关的令牌。另一类是“提示感知”(prompt-aware)的方法,如FastV、VTW和PDrop,它们利用文本指令来指导在语言模型内部某些层中移除视觉令牌。然而,这些方法的令牌约简策略通常是基于特定模型或基准测试手动设计的,缺乏通用性,且主要关注在性能不下降的前提下降低成本,未能系统性地探索在给定计算预算下如何分配计算资源以最大化模型性能。
针对上述局限,本研究团队设定了两个明确的效率优化场景:(i) 在不显著降低性能的前提下,最大程度减少计算成本;(ii) 在给定(通常是受限的)计算预算下,提升模型性能。本研究的目标是,通过自动搜索最优的视觉令牌约简策略,为给定的MLLM找到效率与效果的最佳平衡点。
研究团队首先深入探究了视觉令牌与用户指令令牌之间的相关性。他们计算了MLLM(以LLaVA-1.5-7B和InternVL2-8B为例)每一层中,视觉令牌根据其对指令令牌的注意力得分排序后,当前层与下一层排序之间的Kendall’s Tau相关系数。
核心发现:如图1(a)(b)所示,从第二层开始,相邻层间视觉令牌的重要性排序具有高度相关性(相关系数通常大于0.7)。这意味着,除了第一层外,每个视觉令牌在MLLM各层中的相对重要性是基本保持不变的。
基于这一关键发现,研究团队提出了两个重要假设: 1. 深层令牌重要性可由浅层决定:更深层视觉令牌的重要性,可以通过其在较早层(尤其是第二层)的注意力得分来判定。 2. 核心令牌数量不随层深增加:对模型推理至关重要的“核心”视觉令牌(即注意力得分高的令牌)集合,其规模不会随着网络层数的加深而扩大。换言之,深层所需的核心令牌是浅层核心令牌的一个子集。
这些发现和假设为后续设计自动、最优的令牌约简算法奠定了理论基础。
基于上述假设,研究团队针对两个不同场景,分别提出了两种无需重新训练(training-free)的即插即用解决方案。
1. 针对场景一(降成本,保性能):贪婪搜索算法(G-Search) 工作流程如下: * 目标:为MLLM的每一层(从第3层开始)寻找一个最小的“保留率”,即在保留最少视觉令牌的同时,确保模型性能下降不显著。 * 搜索过程:采用自底向上、逐层贪婪的搜索策略。 * 对于第 i 层(i ≥ 3),首先根据第 i-1 层的注意力得分对所有视觉令牌进行排序。 * 然后,使用贝叶斯优化(Bayesian Optimization)搜索一个保留率 r_i。该搜索旨在最大化一个目标函数 f(r_i),该函数由模型在验证集上的性能 e(r_i) 减去一个与效率相关的惩罚项 λ · r_i 构成(λ设为0.01以鼓励高效)。优化约束是 r_i ≤ r_{i-1},符合“核心令牌数不增加”的假设。 * 贝叶斯优化通过构建高斯过程模型来逼近目标函数,并利用采集函数(如期望提升EI)高效地选择下一个待评估的保留率点,从而用较少的评估次数找到近似最优解。 * 推理应用:在模型推理时,如图2所示,在第 i 层前插入一个“排序与约简”模块。该模块根据第 i-1 层的注意力得分排序视觉令牌,仅保留排名靠前的 r_i * N 个令牌(N为原始视觉令牌总数),并将其输入第 i 层进行后续计算。 * 最优性证明:研究团队从理论上证明了,基于其提出的两个假设,G-Search算法能够找到全局最优的视觉令牌约简序列。证明的核心思想是,若存在更优序列,则其与G-Search结果的不同之处均可被替换或证明不存在,从而G-Search的结果即为最优。
2. 针对场景二(定预算,提性能):参数化Sigmoid函数(P-Sigmoid) 工作流程如下: * 动机:分析G-Search为不同MLLM(如图3所示)找到的保留率曲线,发现它们都呈现出S型曲线(S-curve)的特征,即可用参数化的Sigmoid函数进行拟合。 * 方法设计: * 设计一个参数化Sigmoid函数:r̂(i) = 2b / (1 + e^{k(i-α)})。其中,i 是层索引,r̂(i) 是对第 i 层的拟合保留率。 * b 是预算参数,代表约简后与约简前视觉令牌总数的平均比率,直接对应计算成本。 * α 是S曲线中点对应的层索引,对于特定模型是已知的。 * k 是控制S曲线形状的关键参数。k值越大,曲线越陡峭,意味着更多预算集中在中间层;k值越小,曲线越平缓,预算分配更均匀。 * 优化搜索:在给定预算 b 的情况下,只剩下参数 k 需要优化。研究团队再次使用贝叶斯优化,在一个小规模数据集上搜索能够使模型性能最大化的最优 k 值。 * 优势:P-Sigmoid通过一个简单的函数和单一可调参数,即可生成整个模型所有层的约简策略,实现了在严格预算控制下的性能最大化搜索。
3. 实验设计与评估 * 评估基准:研究在12个广泛使用的多模态评测基准上进行了全面测试,涵盖通用视觉问答(如MME, MMBench)、知识推理(如MMMU, MathVista)、OCR与图表理解(如TextVQA, ChartQA)以及视觉幻觉检测(如POPE, HallusionBench)等多个维度。 * 测试模型:选择了具有代表性的开源MLLMs,包括LLaVA-1.5-7B以及InternVL2系列模型(1B, 2B, 4B, 8B参数规模)。 * 效率指标:从内存开销(KV缓存大小)、计算量(TFLOPs)和推理时间(预填充时间)三个维度衡量效率提升。 * 对比方法:与当前先进的提示感知方法(VTW, PDrop, FastV)以及提示无关方法(TokenPacker, Deco)进行了对比。
1. 场景一(G-Search)结果: * 显著加速,性能无损:如表1所示,G-Search能够显著加速各类MLLM。例如,在InternVL2-8B上,计算量(TFLOPs)降低了49.2%,而平均准确率仅下降0.73%(从70.83%到70.10%)。对于LLaVA-1.5-7B,计算量减少36%,速度提升超过2倍,性能几乎不变。 * 规模化优势:模型越大,G-Search带来的计算量减少比例越高(从InternVL2-1B的16.9%到8B的49.2%),表明大模型中存在更多的计算冗余。 * 通用性强:相比于FastV等方法在LLaVA上表现良好但在InternVL2上性能下降严重的情况,G-Search通过自动搜索适应不同模型,在所有测试的MLLM上都保持了优异的性能,证明了其通用性。 * 互补性:如表2所示,G-Search甚至可以进一步提升现有提示无关方法(如TokenPacker, Deco)的效率,在它们已压缩的基础上再减少约34%的计算量,且性能下降极小,这证明了基于指令感知的二次约简的有效性。
2. 场景二(P-Sigmoid)结果: * 预算下性能领先:如图4和表3所示,在相同的计算预算(TFLOPs)下,P-Sigmoid的性能显著优于FastV和PDrop。例如,在LLaVA-1.5-7B上,当压缩87.5%的视觉令牌时(对应低计算预算),P-Sigmoid比FastV的平均准确率高出3.38%。在InternVL2-8B上,这一优势扩大到7.69%。 * 任务差异性:P-Sigmoid在需要细致视觉理解的任务(如ChartQA图表问答、OCR相关任务)上相比FastV提升尤为巨大,而在更多依赖先验知识的任务(如MMMU)上提升相对较小。这表明P-Sigmoid的约简策略更好地保留了视觉细节信息。 * 参数规律:如图5所示,随着总预算(TFLOPs)的增加,P-Sigmoid的最优形状参数 k 也增大。这意味着当预算充足时,最优策略是将更多计算资源分配给网络的中间层;而当预算紧张时,则需要一个更平缓的策略,以确保深层网络也能获得足够的关键令牌来维持基本性能。
3. 深入分析: * 模型需定制策略:研究交换不同MLLM的约简策略进行测试(表4),发现性能均会下降。同时,图3显示不同模型的G-Search最优保留曲线形状各异。这强有力地证明了不同MLLM需要定制化的约简策略,手动设计的统一规则难以在所有模型上取得最佳效果。 * 保留率下降的原因:除了理论假设,作者还发现视觉令牌的注意力得分中位数随着网络层数加深而下降(图6)。这与LLM领域的研究(如Attention Sinks)相符,即低注意力得分的令牌重要性低。因此,深层网络中高注意力得分的“重要”令牌自然更少,导致保留率逐层降低。 * 与训练结合:尝试使用G-Search和P-Sigmoid得到的策略在训练或微调阶段引入约简,发现对场景一没有提升,对场景二有轻微提升。考虑到MLLM训练成本极高,本文提出的无需训练、即插即用的方法具有巨大的实用优势。
本研究通过系统性的分析和实验,得出以下核心结论: 1. 发现了MLLM中视觉令牌相对重要性跨层稳定的关键特性,为设计高效的令牌约简方法提供了新的理论视角。 2. 提出的G-Search算法能够在几乎不损失精度的情况下,将主流MLLMs的推理速度提升2倍以上,显著降低了计算门槛。 3. 提出的P-Sigmoid方法能够在严格的计算预算约束下,找到性能最优的令牌分配策略,相比现有方法能带来显著的精度提升,为实现边缘设备上高效的MLLM部署提供了有力工具。 4. 实证了不同的MLLM需要不同的最优约简策略,强调了自动化搜索策略相对于手工设计规则的优越性和必要性。
本研究的科学价值在于深化了对MLLM内部跨模态注意力机制的理解,并提出了一套可证明最优性的自动化框架来优化其计算图。其应用价值则直接体现在为大规模多模态模型的实用化、轻量化部署提供了高效、通用的解决方案,对推动AI在资源受限环境中的应用具有重要意义。
本研究的工作是即插即用且与模型架构无关的,可以轻松集成到现有的MLLM推理管线中。代码和策略的开源将极大地促进社区在模型效率优化方面的进展。此外,文中对贝叶斯优化在超参数搜索中的应用也提供了一个很好的范例。未来工作可以探索将此类方法扩展到视频等时序多模态数据,或与动态计算、条件计算等其他效率优化技术相结合。