本文是一篇提交至国际学习表征大会(ICLR 2026)审稿中的匿名学术论文,题为“HT-Sparse: Training-Free Query-Guided Head–Token Sparsification for Long-Video Multi-Modal Inference”。该论文针对长视频多模态推理中存在的计算和内存瓶颈,提出了一种无需重新训练的、由查询引导的层次化稀疏化方法。
研究作者与发表信息: 本文作者为匿名状态,符合ICLR双盲评审要求。论文目前正处于ICLR 2026的审稿流程中,尚未正式发表。
研究背景: 本研究的科学领域属于人工智能中的多模态大模型(Vision-Language Models, VLMs)高效推理。随着视觉-语言基础模型能力的快速发展,其在长视频理解(如问答、时间定位、叙事理解)等任务上的应用需求日益增长。然而,现有模型面临三大核心挑战:1) 密集注意力(Dense Attention)机制带来的二次方计算复杂度;2) 在自回归解码过程中,键值缓存(KV-Cache)随生成令牌数线性增长,导致内存压力巨大;3) 跨模态干扰使得关键信息可能淹没在数千个视觉令牌(Token)中。在生产环境中,对模型进行重新训练或微调以适应稀疏化方案通常不切实际,因为这涉及到数据治理、上市延迟和分布偏移风险。因此,业界亟需一种无需训练、能根据输入自适应的机制,在保持任务性能的同时降低计算和内存开销。
现有方法存在诸多局限:固定的或手工设计的稀疏模式限制了模型对查询-键值交互的适应性,可能导致在不同输入上准确率下降;启发式的令牌丢弃方法虽然提升了吞吐量,但对于信息区域在时间上稀疏且与干扰项语义纠缠的长视频流来说过于脆弱;仅针对单一粒度(如仅进行注意力头剪枝或仅进行令牌选择)的方法未能充分利用计算效率潜力;而依赖参数更新或任务特定重训练的方法则限制了其在不同模型和领域中的部署能力。基于此,本研究旨在提出一种无需训练、即插即用、能联合优化注意力头和视觉令牌的计算与缓存效率的方案。
研究目标: 本研究旨在开发并验证HT-Sparse,一种用于长视频多模态推理的无训练、查询引导的层次化稀疏化框架。其核心目标是在不更新预训练模型任何参数的前提下,通过联合进行注意力头稀疏化和跨模态令牌稀疏化,显著降低推理延迟和KV-Cache内存占用,同时保持甚至提升模型在各种长视频基准测试上的任务准确率。
研究方法与工作流程: HT-Sparse的核心思想是在推理时,根据当前查询(Query)动态地、分层地执行稀疏化,自适应地应用于模型的不同层。其工作流程主要包括以下几个相互关联的组件和步骤:
查询引导的注意力头评分与分区(Query-Conditioned Head Scoring and Partition):
h_full(全令牌头)、h_sparse(稀疏令牌头)和 h_drop(丢弃头)。具体而言,选取概率最高的前 ℎ̃𝑓 个头作为h_full,它们将处理完整的视觉令牌集以保持语义完整性;接着选取后续的 ℎ̃𝑠 个头作为h_sparse,它们将只处理经过筛选的少量视觉令牌;剩余的头则被暂时丢弃。这个过程是“查询引导”的,因为评分依赖于输入文本查询的表示。跨模态令牌选择(Cross-Modal Token Selection):
h_sparse 头组的计算。层内联合头-令牌路由(Joint Head–Token Routing within a Layer):
h_full 组中的每个头,使用标准的注意力机制,让其文本查询关注所有视觉令牌的键和值。h_sparse 组中的每个头,使用标准的注意力机制,但其文本查询只关注经过选择后的视觉令牌子集的键和值。h_full)能够访问完整的视觉上下文,防止细粒度语义信息的丢失;而显著度相对较低的头(h_sparse)则在显著缩减的令牌集上进行计算,从而分摊了计算量和KV-Cache的内存开销。两个头组的输出最终被拼接并通过输出投影层生成该层的最终输出。可选的低秩投影(Optional In-Attention Low-Rank Projection):
实验验证流程:
主要结果: 1. 任务准确率: 如表1所示,在两个模型(Qwen2.5-VL-7B和LLaVA-Video-7B)和所有四个长视频基准测试上,HT-Sparse均达到或超过了原始Dense基线的准确率。在某些数据集上,HT-Sparse甚至比基线有显著提升(例如在VideoMME上,随着输入帧数增加,HT-Sparse的优势更加明显,如图4所示)。Head-only变体保持了接近基线的准确率但效率提升有限;Token-only变体效率提升更大,但在复杂的时序推理任务上可能出现性能下降。HT-Sparse通过联合路由,继承了令牌选择的效率优势和头选择的稳定性,实现了帕累托更优的质量-效率权衡。
效率提升: 效率数据是研究的核心亮点。如表2和表3所示:
消融分析与机制验证:
结论: 本研究成功提出并验证了HT-Sparse,一种用于长视频多模态推理的无训练、查询引导的层次化稀疏化框架。其核心贡献在于将查询引导的注意力头稀疏化与跨模态令牌稀疏化相结合,并创新性地在同一层内引入联合头-令牌路由机制。该框架作为即插即用模块,无需修改或更新预训练模型的参数,即可在多种长视频基准测试上,在保持甚至提升任务准确率的同时,显著降低端到端推理延迟和KV-Cache内存占用。HT-Sparse将效率提升与数据可用性和模型发布周期解耦,为在延迟敏感的实际应用中规模化部署多模态大模型提供了一条切实可行的路径。
研究亮点: 1. 方法新颖性: 首次提出并实现了在推理时无需训练、动态自适应的“联合头-令牌稀疏化”框架。将不同粒度的稀疏化(头级和令牌级)在层内进行协同设计,是该工作的核心创新。 2. 显著性能提升: 在保持准确率的前提下,实现了大幅度的效率提升(例如,解码阶段KV-Cache减少约50%以上,端到端延迟降低约30%),这在长视频推理场景下具有极高的实用价值。 3. 通用性与实用性: 方法具有模型无关性(Model-Agnostic),可轻松集成到现有的视觉-语言模型中。其“无需训练”的特性极大地降低了部署门槛,适用于数据受限或无法进行模型微调的生产环境。 4. 严谨的实验设计: 在多个主流长视频基准和两个不同模型上进行了全面验证,并设置了充分的对照实验和消融分析,有力证明了方法的有效性和各组件的作用。
其他有价值的内容: 论文还讨论了该方法的局限性与未来工作方向,包括:1) 头评分依赖于启发式显著性统计量,在极端领域偏移下可能失效;2) 选择参数(ℎ̃𝑓, ℎ̃𝑠, 𝑙̃𝑣, 𝜂ℓ, 𝜏)需要针对不同模型和数据集进行适度调优以平衡保真度与效率;3) 当前评估集中在7B级VLM和长视频QA/定位任务,未来可扩展到更大模型和其他任务(如指令跟随、检索密集型任务);4) 联合路由引入了轻微的控制流开销,未来可通过内核级协同设计进一步降低实际运行时间成本。