HT-Sparse：免训练、查询引导的头部-令牌稀疏化用于长视频多模态推理

分享自：
HT-Sparse：免训练、查询引导的头部-令牌稀疏化用于长视频多模态推理

期刊:ICLR
本文是一篇提交至国际学习表征大会（ICLR 2026）审稿中的匿名学术论文，题为“HT-Sparse: Training-Free Query-Guided Head–Token Sparsification for Long-Video Multi-Modal Inference”。该论文针对长视频多模态推理中存在的计算和内存瓶颈，提出了一种无需重新训练的、由查询引导的层次化稀疏化方法。
研究作者与发表信息： 本文作者为匿名状态，符合ICLR双盲评审要求。论文目前正处于ICLR 2026的审稿流程中，尚未正式发表。
研究背景： 本研究的科学领域属于人工智能中的多模态大模型（Vision-Language Models, VLMs）高效推理。随着视觉-语言基础模型能力的快速发展，其在长视频理解（如问答、时间定位、叙事理解）等任务上的应用需求日益增长。然而，现有模型面临三大核心挑战：1) 密集注意力（Dense Attention）机制带来的二次方计算复杂度；2) 在自回归解码过程中，键值缓存（KV-Cache）随生成令牌数线性增长，导致内存压力巨大；3) 跨模态干扰使得关键信息可能淹没在数千个视觉令牌（Token）中。在生产环境中，对模型进行重新训练或微调以适应稀疏化方案通常不切实际，因为这涉及到数据治理、上市延迟和分布偏移风险。因此，业界亟需一种无需训练、能根据输入自适应的机制，在保持任务性能的同时降低计算和内存开销。
现有方法存在诸多局限：固定的或手工设计的稀疏模式限制了模型对查询-键值交互的适应性，可能导致在不同输入上准确率下降；启发式的令牌丢弃方法虽然提升了吞吐量，但对于信息区域在时间上稀疏且与干扰项语义纠缠的长视频流来说过于脆弱；仅针对单一粒度（如仅进行注意力头剪枝或仅进行令牌选择）的方法未能充分利用计算效率潜力；而依赖参数更新或任务特定重训练的方法则限制了其在不同模型和领域中的部署能力。基于此，本研究旨在提出一种无需训练、即插即用、能联合优化注意力头和视觉令牌的计算与缓存效率的方案。
研究目标： 本研究旨在开发并验证HT-Sparse，一种用于长视频多模态推理的无训练、查询引导的层次化稀疏化框架。其核心目标是在不更新预训练模型任何参数的前提下，通过联合进行注意力头稀疏化和跨模态令牌稀疏化，显著降低推理延迟和KV-Cache内存占用，同时保持甚至提升模型在各种长视频基准测试上的任务准确率。
研究方法与工作流程： HT-Sparse的核心思想是在推理时，根据当前查询（Query）动态地、分层地执行稀疏化，自适应地应用于模型的不同层。其工作流程主要包括以下几个相互关联的组件和步骤：
查询引导的注意力头评分与分区（Query-Conditioned Head Scoring and Partition）：
研究目标与对象： 该步骤的目标是识别并保留对当前查询最关键的注意力头（Attention Head）。研究对象是Transformer每一层中的多个注意力头。
处理方法： 对于每一层 ℓ，该方法首先计算每个头 ℎ 的“显著度”分数 𝑠ℓ,ℎ。计算基于一个参考查询摘要（例如最后一个文本查询令牌的表示或池化统计量）的L2范数，并通过减去层内均值 𝜇ℓ 并除以标准差 𝜎ℓ 进行标准化（Z-Score Normalization）。随后，使用带温度系数 𝜏 的Softmax函数将标准化后的分数转化为概率分布 𝜋ℓ,ℎ。
关键算法： 基于概率 𝜋ℓ,ℎ，将层的所有头划分为三个互斥的子集：h_full（全令牌头）、h_sparse（稀疏令牌头）和 h_drop（丢弃头）。具体而言，选取概率最高的前 ℎ̃𝑓 个头作为h_full，它们将处理完整的视觉令牌集以保持语义完整性；接着选取后续的 ℎ̃𝑠 个头作为h_sparse，它们将只处理经过筛选的少量视觉令牌；剩余的头则被暂时丢弃。这个过程是“查询引导”的，因为评分依赖于输入文本查询的表示。
跨模态令牌选择（Cross-Modal Token Selection）：
研究目标与对象： 该步骤的目标是从大量的视觉令牌中筛选出与当前查询最相关的子集。研究对象是来自视觉编码器（如视频帧经编码后）的所有视觉令牌。
处理方法： 在需要进行令牌选择的层，计算文本查询与所有视觉键（Key）之间的注意力权重矩阵 𝐴ℓ。通过对每个视觉令牌𝑗 在所有文本查询维度上求和，得到一个反映其全局重要性的关联分数 𝑟ℓ(𝑗)。然后，根据这个关联分数，采用两种策略之一选择令牌子集 𝑆ℓ：一是直接选取分数最高的前 𝑙̃𝑣 个令牌；二是采用覆盖度约束，即选择最少的令牌数量 𝑚，使得这些令牌的关联分数之和达到总关联分数之和的 𝜂ℓ 比例（例如70%-90%）。最终，只有被选入子集 𝑆ℓ 的视觉令牌的键和值会参与后续 h_sparse 头组的计算。
层内联合头-令牌路由（Joint Head–Token Routing within a Layer）：
研究目标与对象： 该步骤是HT-Sparse的创新核心，旨在同一层内实现不同头组对令牌集的不同访问粒度，以平衡保真度与效率。研究对象是特定层（通常选定为中后层）中划分好的头组和令牌集。
处理方法： 在启用联合路由的层，执行以下计算： 对于 h_full 组中的每个头，使用标准的注意力机制，让其文本查询关注所有视觉令牌的键和值。
对于 h_sparse 组中的每个头，使用标准的注意力机制，但其文本查询只关注经过选择后的视觉令牌子集的键和值。
工作流程逻辑： 这种联合路由设计确保了高显著度的头（h_full）能够访问完整的视觉上下文，防止细粒度语义信息的丢失；而显著度相对较低的头（h_sparse）则在显著缩减的令牌集上进行计算，从而分摊了计算量和KV-Cache的内存开销。两个头组的输出最终被拼接并通过输出投影层生成该层的最终输出。
可选的低秩投影（Optional In-Attention Low-Rank Projection）：
这是一个可选组件，用于在计算资源极其紧张或头维度 𝑑ℎ 极大时，进一步降低注意力分数计算的开销。其方法是对查询（Query）和键（Key）应用一个轻量级的低维投影矩阵 𝑃ℓ,ℎ∈ℝ^{𝑑ℎ×𝑑̃ℎ} (𝑑̃ℎ≪𝑑ℎ)，而值（Value）保持原始维度不变。这样，QK^T 相似度计算（即注意力分数计算）的维度从 𝑑ℎ 降至 𝑑̃ℎ，从而降低了延迟，同时由于值空间未被压缩，保持了表示的保真度。论文中声明，除非特别说明，所有实验结果均未使用此低秩投影。
实验验证流程：
基准测试与模型： 研究在四个主流的长视频理解基准测试上评估HT-Sparse：VideoMME、MLVU、LongVB和LVBench。实验基于两个7B参数级别的开源多模态大模型进行实例化：Qwen2.5-VL-7B和LLaVA-Video-7B。
对比方法： 设置了四个对比组：1) Dense：原始密集注意力基线。2) Head-only：仅使用查询引导的注意力头稀疏化。3) Token-only：仅使用跨模态令牌选择。4) HT-Sparse：完整的联合头-令牌稀疏化与路由。
评估指标： 任务质量方面，报告各数据集QA任务的准确率。效率方面，报告峰值GPU内存占用、预填充（Prefill）阶段和每令牌解码（Decode）阶段的KV-Cache内存占用，以及端到端延迟和FLOPs（浮点运算次数），所有效率数据均归一化到同一模型的Dense基线（设为100%）进行比较。
实现细节： 联合路由默认在模型的中间层和后期层（Mid+Late layers）启用。关键超参数如全令牌头数量 ℎ̃𝑓、稀疏令牌头数量 ℎ̃𝑠 和令牌选择覆盖目标 𝜂ℓ 均设置为自适应或经验范围。
主要结果： 1. 任务准确率： 如表1所示，在两个模型（Qwen2.5-VL-7B和LLaVA-Video-7B）和所有四个长视频基准测试上，HT-Sparse均达到或超过了原始Dense基线的准确率。在某些数据集上，HT-Sparse甚至比基线有显著提升（例如在VideoMME上，随着输入帧数增加，HT-Sparse的优势更加明显，如图4所示）。Head-only变体保持了接近基线的准确率但效率提升有限；Token-only变体效率提升更大，但在复杂的时序推理任务上可能出现性能下降。HT-Sparse通过联合路由，继承了令牌选择的效率优势和头选择的稳定性，实现了帕累托更优的质量-效率权衡。
效率提升： 效率数据是研究的核心亮点。如表2和表3所示：
内存与KV-Cache： 相较于Dense基线，HT-Sparse将Qwen2.5-VL-7B的峰值GPU内存降低至65%，预填充阶段KV-Cache降低至42%，每令牌解码KV-Cache降低至48%。在LLaVA-Video-7B上取得了类似幅度的降低（分别至66%，43%，49%）。这些减少意味着在解码长序列时，可承载的上下文长度大幅增加，或所需硬件资源显著下降。
延迟与计算量： HT-Sparse将Qwen2.5-VL-7B的端到端延迟降低至基线的68%，预填充FLOPs降低至45%，解码FLOPs降低至62%。在LLaVA-Video-7B上的结果类似。这表明该方法在推理的各个阶段都有效减少了计算负担。
消融分析与机制验证：
联合路由的效果： 研究比较了三种设置：无联合路由且无全令牌头、无联合路由但强制至少一个全令牌头、以及完整的联合路由。结果表明，强制至少一个全令牌头对保持语义完整性是必要的，而完整的联合路由能在此基础上带来最佳的准确率与效率平衡。
Head-only vs. Token-only： Head-only实现了适度的预填充计算节省和接近基线的准确率，印证了注意力头专攻不同子空间的特性。Token-only实现了更大的KV-Cache缩减，但在时序多跳推理子任务上性能可能下降。HT-Sparse的联合策略同时获得了两者的好处。
层策略分析： 实验发现，在中层和后期层（M+L）启用联合路由能取得最佳的质量-效率平衡，表明早期层可能需要更细粒度的覆盖，而中后期层则可以在不影响语义的前提下分摊节省的计算量。
结论： 本研究成功提出并验证了HT-Sparse，一种用于长视频多模态推理的无训练、查询引导的层次化稀疏化框架。其核心贡献在于将查询引导的注意力头稀疏化与跨模态令牌稀疏化相结合，并创新性地在同一层内引入联合头-令牌路由机制。该框架作为即插即用模块，无需修改或更新预训练模型的参数，即可在多种长视频基准测试上，在保持甚至提升任务准确率的同时，显著降低端到端推理延迟和KV-Cache内存占用。HT-Sparse将效率提升与数据可用性和模型发布周期解耦，为在延迟敏感的实际应用中规模化部署多模态大模型提供了一条切实可行的路径。
研究亮点： 1. 方法新颖性： 首次提出并实现了在推理时无需训练、动态自适应的“联合头-令牌稀疏化”框架。将不同粒度的稀疏化（头级和令牌级）在层内进行协同设计，是该工作的核心创新。 2. 显著性能提升： 在保持准确率的前提下，实现了大幅度的效率提升（例如，解码阶段KV-Cache减少约50%以上，端到端延迟降低约30%），这在长视频推理场景下具有极高的实用价值。 3. 通用性与实用性： 方法具有模型无关性（Model-Agnostic），可轻松集成到现有的视觉-语言模型中。其“无需训练”的特性极大地降低了部署门槛，适用于数据受限或无法进行模型微调的生产环境。 4. 严谨的实验设计： 在多个主流长视频基准和两个不同模型上进行了全面验证，并设置了充分的对照实验和消融分析，有力证明了方法的有效性和各组件的作用。
其他有价值的内容： 论文还讨论了该方法的局限性与未来工作方向，包括：1) 头评分依赖于启发式显著性统计量，在极端领域偏移下可能失效；2) 选择参数（ℎ̃𝑓, ℎ̃𝑠, 𝑙̃𝑣, 𝜂ℓ, 𝜏）需要针对不同模型和数据集进行适度调优以平衡保真度与效率；3) 当前评估集中在7B级VLM和长视频QA/定位任务，未来可扩展到更大模型和其他任务（如指令跟随、检索密集型任务）；4) 联合路由引入了轻微的控制流开销，未来可通过内核级协同设计进一步降低实际运行时间成本。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问