一种用于长视频理解的免训练框架：基于视频-查询-选项相似性

分享自：
一种用于长视频理解的免训练框架：基于视频-查询-选项相似性

期刊:ICLR
关于ICLR 2026会议论文《一种基于视频-查询-选项相似度的免训练长视频理解框架》的学术研究报告
一、 研究团队、发表信息与学术背景
本研究的主要作者包括来自北京大学电子与计算机工程学院的吴志荣、王晓东、黄浪凌，来自鹏城实验室的王晓东、彭培熙，以及来自抖音集团的徐腾。通讯作者为彭培熙。该研究以会议论文形式发表于人工智能领域的顶级会议——国际学习表征会议（International Conference on Learning Representations， ICLR 2026）。
该研究的学术领域属于计算机视觉与自然语言处理的交叉领域，具体聚焦于多模态大语言模型（Multimodal Large Language Models， MLLMs）在长视频理解任务中的应用。近年来，MLLMs在图像和短视频理解方面取得了显著成功，但在处理长达数小时的长视频时，其性能受到模型输入令牌容量（Token Capacity）限制的严重制约。现有解决方案主要分为两类：一是通过并行处理或多阶段训练等技术扩展模型上下文窗口的上下文扩展策略，二是利用视频固有的时空冗余性进行令牌压缩。然而，这些方法通常需要昂贵且耗时的训练过程，难以适应快速迭代的MLLM架构。因此，开发一种免训练（Training-Free）的长视频理解框架，在不进行模型微调的前提下提升其性能，成为一个重要的研究方向。本研究旨在解决这一挑战，提出一个新颖的免训练框架，通过模拟人类认知过程来高效理解和回答长视频相关问题。
二、 研究目标
本研究的主要目标是开发一个无需对基础MLLM进行任何参数微调的框架，以显著提升现有MLLM在长视频理解任务上的性能。具体而言，该框架旨在通过三个核心创新——自适应帧采样（Adaptive Frame Sampling， AFS）、动态分辨率分配（Dynamic Resolution Allocation， DRA）和视频-查询-选项相似度（Video-Query-Options Similarity， VQOS）——来智能地选择和优化输入给MLLM的视频信息，从而在有限的输入令牌预算内最大化关键信息的保留。
三、 详细工作流程
本研究的工作流程是一个系统性、分阶段的处理管道，其核心思想是模仿人类的“假设生成 → 聚焦验证 → 无关信息过滤”认知过程。整个流程可概括为以下几个关键步骤：
步骤一：视频分割与初始相似度计算 首先，将输入的长视频均匀分割成M个等长的片段（例如，每段16秒）。对于每个视频片段Vi和用户查询Q，使用一个预训练的视频-文本检索模型（如PerceptionEncoder）分别提取视频特征F_vi和文本特征F_q。计算每个片段的初始相似度得分S0_i，即视频特征与查询文本特征的余弦相似度。
步骤二：选项生成与VQOS计算（核心创新之一） 这是本框架区别于传统检索方法的关键。研究者并不直接使用初始相似度，而是首先利用原始的MLLM（如LLaVA-Video或Qwen2.5-VL）根据查询Q和初步采样的视频帧，生成Z个可能的候选答案选项（例如，“她拥抱了他”、“她打了他”等）。这一步骤模拟了人类面对问题时先进行“假设生成”的过程。然后，将原始查询Q与每个生成的选项Oj分别拼接，形成Z个不同的“陈述”Tj（例如，“问题：…？她拥抱了他”）。再次使用视频-文本检索模型计算每个视频片段Vi与这Z个陈述的相似度，并取其中的最大值作为该片段的最终VQOS得分Si。这种方法通过融合查询与生成的选项，能够更精细、更鲁棒地评估视频片段与问题潜在答案之间的相关性，从而更准确地定位关键内容。
步骤三：自适应帧采样（AFS） 基于计算出的VQOS得分（或初始相似度得分，当无选项可用时），对视频片段进行筛选和差异化采样。具体操作是：根据相似度得分对所有片段排序，选择得分最高的前K个片段。然后，根据得分高低将这些选中的片段分配到L1个采样密度等级中。得分越高的片段，被分配到的采样等级越高，意味着从该片段中均匀采样的帧数越多；得分低的片段则分配较少的帧数。这一过程确保了在固定的总采样帧数N的约束下，模型的计算资源（令牌）能够更多地分配给与问题高度相关的视频部分，保留了关键的时序细节。
步骤四：动态分辨率分配（DRA） 在长视频处理中，模型需要在处理帧数和每帧分辨率之间进行权衡。本研究提出DRA策略来优化这一权衡。其原理是：在固定的总输入令牌预算P下，为不同重要性的帧分配不同的空间分辨率。具体而言，预先定义L2个分辨率等级（例如，从84x84到644x644）。根据VQOS得分对采样得到的所有帧进行排序，将得分最高的帧分配给最高的分辨率等级，得分次高的帧分配次高分辨率，以此类推。通过线性规划求解，确保所有帧的总令牌数不超过预算P。这样，模型可以以高分辨率审视关键帧中的细节，同时以低分辨率处理次要内容以抑制冗余信息，从而在整体上优化了信息保留与计算效率。
步骤五：最终推理 将经过AFS和DRA处理后的视频帧序列（包含不同分辨率的帧）与原始问题Q一同输入到目标MLLM（如LLaVA-Video或Qwen2.5-VL）中，由MLLM生成最终的答案。
整个算法流程可以并行化处理选项生成轮次，以加速计算。对于多项选择题，可以跳过选项生成步骤，直接使用题目提供的选项进行VQOS计算。
四、 主要实验结果与分析
研究者在五个主流的长视频理解基准测试上进行了广泛的实验，包括LVBench（平均67分钟）、VideoEval-Pro（38分钟）、VideoMME（17分钟）、MLVU（13分钟）和LongVideoBench（8分钟），以评估所提框架的有效性。
1. 整体性能提升： 在7B参数规模的模型上，该框架（Ours-GO版本，即使用模型生成选项）相较于原始LLaVA-Video和Qwen2.5-VL基线模型，在五个基准上的平均性能分别提升了5.3%和5.0%。在72B参数的大模型上，也分别实现了3.6%和3.2%的平均提升。特别是在时长最长的LVBench和VideoEval-Pro基准上，提升尤为显著（平均提升约8.5%和8.3%），证明了该方法在处理极端长视频内容上的优势。
2. 与现有免训练方法的对比： 本研究将提出的框架与当前最先进的免训练方法AKS（自适应关键帧采样）和AdaRetake进行了比较。实验结果表明，Ours-GO在整体上优于或与这些方法相当，并且在视频更长的数据集上（LVBench， VideoEval-Pro）显示出更明显的优势。例如，在LLaVA-Video-7B上，Ours-GO在LVBench和VideoEval-Pro上的平均表现比AdaRetake高出2.8%，比AKS高出3.0%。这表明，基于视频片段（而非单帧）的检索，并结合选项增强的相似度计算，能更有效地定位长视频中的关键信息。
3. 消融实验（Ablation Studies）： * 组件有效性：逐步添加框架组件（从基于图像-文本检索的Top-N帧检索，到基于视频-文本检索的Top-K片段均匀采样，再到AFS、DRA，最后到VQOS）的实验显示，每个组件都带来了独立的性能增益。AFS和DRA通过自适应地聚焦重要线索贡献了显著提升（在Qwen2.5-VL-7B上，DRA单独带来2.1%的提升）。VQOS通过生成选项进一步优化了相似度计算。 * VTR模型选择：对比了不同视频-文本检索模型（从CLIP到PerceptionEncoder）。结果表明，参数更大、分辨率更高、经过视频数据预训练的模型（如PE-G/14）能带来最佳性能，但也伴随更高的计算成本。研究指出，在计算受限的场景下，较小的模型（如CLIP-B/32）仍是可行的替代方案。 * 视频分割与采样参数：实验发现，将视频分割为8秒或16秒的片段，并以1 FPS进行采样，能在性能和计算成本之间取得良好平衡。过长的片段（如64秒）会导致细粒度事件细节丢失，性能下降。 * 选项生成质量：研究者提出了“选项覆盖率准确率”（OCA）和“正确选项平均比例”（MPCO）两个指标来评估生成选项的质量。实验发现，随着生成轮次增加，OCA上升（覆盖更多正确答案），但MPCO下降（产生更多干扰项）。最佳性能在生成3轮选项时达到，之后因干扰项过多性能略有下降。研究还发现，使用更强的模型（如SEED1.5-VL）生成选项，或进行跨模型选项生成（如用Qwen2.5-VL为LLaVA-Video生成选项），都能取得良好甚至更好的效果，证明了方法的鲁棒性。 * 全局信息整合：为了弥补检索方法可能忽略全局上下文的问题，研究者尝试了多种整合全局视频摘要的方法（如将摘要嵌入检索、融合到输入上下文等）。然而，实验结果表明，直接添加文本摘要往往会引入噪声，导致性能下降。一种更有效的视觉中心策略是：在采样后，向未被任何采样帧覆盖的均匀时间区间内插入代表帧，这能在不显著干扰原始分布的情况下略微提升性能。
4. 定性分析： 论文提供了可视化案例，对比了均匀采样与本方法。例如，在一个视频中回答“反派角色的弱点是什么？”时，本方法能根据VQOS得分，高密度、高分辨率地采样到角色用水击败反派的关键瞬间，从而正确回答“水”；而均匀采样则因分辨率低且包含大量无关帧，导致回答错误。这直观展示了AFS和DRA如何帮助模型聚焦于问题相关的关键视觉细节。
五、 研究结论与价值
本研究成功提出了一个全面、有效的免训练长视频理解框架。该框架通过视频-查询-选项相似度计算来精准定位视频关键片段，并利用自适应帧采样和动态分辨率分配策略，在固定的计算预算内优化了时空信息的分配。大量实验证明，该框架能显著提升多种MLLM在多个长视频基准测试上的性能，且无需任何模型微调，具有良好的通用性和可扩展性。
其科学价值在于：1）提出了一种模拟人类认知流程（假设-验证-过滤）的算法设计新思路；2）系统性地解决了长视频输入中信息密度与计算约束的矛盾；3）为基于检索的免训练长视频理解方法设立了新的性能标杆。应用价值在于：该框架可以轻松集成到现有的、快速发展的MLLM架构中，为实际应用（如长视频内容审核、摘要、问答）提供了一种高效、低成本的性能增强方案。
六、 研究亮点
创新的VQOS机制：首次提出利用MLLM自身生成候选答案选项来增强视频-文本相似度计算，使检索过程从单纯的“问题匹配”升级为“答案假设验证”，极大地提高了检索的针对性和准确性。
时空资源自适应分配：创造性地将AFS和DRA结合，同时从时间维度（采样密度）和空间维度（分辨率）对输入信息进行动态优化，实现了在有限令牌预算下信息保留的最大化。
严格的免训练与可扩展性：整个框架不修改MLLM的任何参数，完全通过预处理输入数据来提升性能。这使得它能无缝应用于不同规模（7B， 72B）和不同架构（LLaVA-Video， Qwen2.5-VL）的模型，展现了强大的普适性。
系统的实验验证与深入分析：不仅在多个基准上证明了整体性能优势，还通过详尽的消融实验深入剖析了每个组件的贡献、不同参数的影响、选项生成的质量以及全局信息整合的得失，为后续研究提供了宝贵的经验。
七、 其他有价值内容
研究还探讨了与令牌压缩方法（如AdaRetake）的互补性。由于AdaRetake在模型内部的键值缓存层面进行操作，而本框架在模型输入层面进行操作，两者可以结合使用。实验表明，这种结合能带来进一步的性能提升（例如，在Qwen2.5-VL-7B上结合后达到59.1%的平均准确率），为未来构建更强大的长视频处理系统提供了思路。此外，论文开源了代码，促进了该领域研究的可复现性和进一步发展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问