基于场景感知优化的流式视频事后查询问答

分享自：
基于场景感知优化的流式视频事后查询问答

期刊:Association for the Advancement of Artificial Intelligence
近日，一项名为VISTA的研究为流式视频问答领域带来了创新性的解决方案。该研究由来自华中科技大学和平安科技（深圳）有限公司的研究团队共同完成，主要作者包括Haocheng Lu、Nan Zhang、Wei Tao、Xiaoyang Qu、Guokuan Li、Jiguang Wan和Jianzong Wang。该工作已于2026年2月公开发布在预印本平台arXiv上。
这项研究致力于解决多模态大语言模型在处理流式视频问答任务时面临的核心挑战。流式视频问答是一种特殊的视频理解任务，其特点是视频帧以连续流的形式实时抵达，而用户的问题可能在视频播放的任何时间点提出，即“事后查询”。这种设定打破了传统视频问答中模型能同时获取完整视频和问题的假设，对实时性、内存效率和长时上下文理解能力提出了极高要求。现有方法大多基于固定大小的内存或简单的帧压缩策略，在长时、实时场景下常常遭受上下文信息丢失或内存溢出的困扰，限制了其实际应用效果。VISTA框架的提出，旨在构建一个高效、可扩展的流式视频问答系统，使其能够对连续的视频流进行场景感知的推理，在保证响应速度的同时，维持对长视频内容的准确理解。
VISTA框架的创新性可以概括为三个核心环节：场景感知分割、场景感知压缩与场景感知召回。其工作流程完全遵循流式处理的特性，在查询未知的情况下预先处理视频流，并在问题到达时快速组合相关信息进行回答。
首先，是场景感知分割。由于在视频流抵达时，未来的查询内容未知，因此无法根据语义重要性预先筛选关键帧。VISTA转而采用一种基于视觉相似度的无监督在线方法来动态检测场景边界。其核心思想是，视频内容在时间维度上通常由一系列语义连贯的场景组成，模型在回答问题时，注意力往往集中在有限的几个关键场景上。VISTA维护一个局部滑动窗口来缓存最近的视频帧。对于新到来的每一帧，系统会计算两个关键相似度：一是该帧与当前场景锚定帧之间的相似度，二是该帧与其前一帧之间的相似度。只有当这两个相似度同时低于预设的阈值时，系统才判定发生了场景切换。这种方法能够有效识别出视频中视觉内容和语义发生显著变化的时刻，从而将连续的视频流切割成一系列在时间和视觉上连贯的场景单元。为了平滑场景过渡，VISTA还引入了相邻场景间的帧重叠机制，以缓冲渐变的视觉变化，保持时序连贯性。
其次，是场景感知压缩。一旦检测到场景边界，之前一个完整场景的所有帧将被作为一个单元进行处理。VISTA采用一种时空压缩策略，将每个场景压缩成一个紧凑的令牌表示。这一过程分为三个步骤：第一步是时间压缩，对场景内所有帧在同一空间位置上的特征进行平均池化，以消除帧间冗余；第二步是空间压缩，将时间压缩后得到的特征图重塑为二维空间令牌网格，并引入基于L2范数的加权方案，在滑动空间窗口内进行加权平均，以强调显著性区域；第三步是最终聚合，通过第二次平均池化将所有空间令牌聚合成一个单一的紧凑向量，即代表整个场景的压缩令牌。这个压缩令牌被存储在GPU内存中，用于后续的高效检索。与此同时，原始的高分辨率帧特征则被卸载到CPU内存或磁盘中。这一设计巧妙地解决了GPU内存有限的问题，实现了“轻量级索引（GPU）存储，重型数据（CPU）备份”的架构。
第三，是场景感知召回。当用户查询到达时，系统进入召回阶段。查询文本首先通过语言编码器转换为查询嵌入向量。随后，系统计算该查询嵌入与所有已存储的压缩场景令牌之间的相似度（通常使用缩放点积注意力）。根据计算出的注意力分数，系统选择与查询最相关的Top-K个场景。接着，系统根据这些被选中的场景索引，从CPU内存或磁盘中检索出其对应的完整高分辨率帧特征。最后，将这些召回的高分辨率场景特征、当前本地窗口中的最新帧（未压缩）以及令牌化的查询文本三者拼接，共同构成最终的多模态输入序列，送入视觉-语言骨干模型生成答案。这种机制确保了模型在回答问题时，能够动态地从历史中恢复最相关的视觉细节，同时将输入规模控制在可管理的范围内。
为了验证VISTA的有效性，研究团队在多个基准测试上进行了广泛的实验。主要的评估平台是StreamingBench，这是一个专为评估流式视频理解模型各项能力而设计的综合性基准套件。实验硬件配置为四块NVIDIA 4090D GPU、i9-14900K CPU和125GB RAM。
实验结果显示，VISTA框架显著提升了基础模型在流式视频问答任务上的性能。例如，当VISTA与LLaVA-OneVision-7B模型结合时，在实时视觉理解任务上达到了71.36%的准确率。更为突出的改进体现在“全源理解”能力上，特别是在多模态对齐任务中，VISTA取得了74.00%的准确率，相比基线模型（44.40%）实现了29.60%的绝对提升，这一成绩甚至超过了GPT-4o等专有模型。在上下文理解任务上，VISTA也显示出稳定的增益。除了准确性，研究还评估了系统的效率与可扩展性。随着输入帧数量的增加，VISTA能够始终保持较低且稳定的GPU内存占用和推理延迟，而“存储所有帧”的策略会迅速导致内存耗尽（OOM），均匀采样的策略则无法维持高性能。这证明了VISTA在长视频流处理中的实用性。
此外，研究团队还在两个经典的长视频问答离线基准MLVU和EgoSchema上测试了VISTA。结果显示，VISTA分别取得了63.8%和58.7%的准确率，超越了包括MovieChat、LLaMA-VID等在内的专门为长视频理解设计的模型，以及Flash-VStream和Dispider等其他流式模型。这证明了VISTA的场景感知机制不仅适用于流式场景，其强大的时序建模能力也能很好地泛化到离线长视频理解任务中。
为了剖析各个组件的贡献，研究进行了消融实验，在情感识别任务上测试了不同模块组合的效果。基准模型（均匀采样帧）的准确率为40.00%。仅使用压缩和召回（无场景分割）会使性能略降至38.80%，表明没有语义分组的压缩可能引入错位线索。仅使用场景分割可将性能提升至42.00%，证明了时序-语义划分提供了有益的结构先验。在场景分割基础上加入压缩，性能进一步提升至44.00%。而结合所有三个模块（分割、压缩、召回）的完整VISTA框架取得了最佳性能46.40%，证明了各模块的互补性和整体框架的有效性。
研究还对关键超参数进行了敏感性分析，包括空间压缩窗口大小、分割相似度阈值、场景容量-召回限制对以及时序重叠步长。结果表明，适中的参数值通常能取得最佳性能，且VISTA在不同的超参数设置下均能保持稳定的表现，显示了其鲁棒性。可视化分析进一步证实了场景感知召回策略的有效性。当一个问题提出时（例如“涉及塑料瓶的过程发生了哪些重大变化？”），模型计算出的注意力分数会清晰地凸显出与问题语义高度相关的场景（如出现塑料瓶的场景），这些高相关度的场景被成功召回并用于生成答案。
VISTA研究的主要结论是提出并验证了一个基于场景感知优化的实时流式视频问答框架。该框架通过动态场景分割、高效场景压缩和按需场景召回三个创新步骤，成功解决了流式视频场景下无限输入长度与低延迟要求之间的矛盾。其意义和价值在于：从科学价值看，它提出了一种处理时序不确定性和内存约束下多模态信息流的新范式，将视频流的结构化（场景化）视为实现高效长上下文推理的关键；从应用价值看，VISTA是模型无关的，可无缝集成到多种视觉-语言骨干模型中，为实现实时视频监控、交互式视频分析、长时视频对话等实际应用提供了高效、可扩展的系统级解决方案。
本研究的亮点突出体现在以下几个方面：第一，问题设定新颖且具有现实意义，专注于“事后查询”的流式视频问答，直面真实交互场景中的核心挑战。第二，方法创新性强，创造性地将视频流组织为场景单元进行管理，并设计了“GPU存令牌，CPU存原帧”的混合存储与检索架构，在信息完整性和计算效率之间取得了优雅的平衡。第三，性能卓越，不仅在流式视频理解基准上取得了最先进的性能，其通用性也使其在离线长视频理解任务上表现出色。第四，实验充分，不仅在主流基准上进行了全面对比，还通过消融实验、敏感性分析和可视化等手段深入验证了各组件的作用和机制的有效性。这项研究为流式视频理解领域树立了一个坚实的基线，其思想对于处理其他类型的连续数据流（如音频流、多传感器数据流）也具有重要的启发意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问