这篇文档属于类型a,即单篇原创研究的学术报告。以下是基于文档内容的详细报告:
本文的主要作者是chenting xu, ke xu, xinghao jiang, 和 tanfeng sun,他们均来自上海交通大学电子信息与电气工程学院的国家信息内容分析技术工程实验室。该研究发表在IEEE Transactions on Circuits and Systems for Video Technology期刊上,具体发表日期为2025年。
本研究的主要科学领域是视频异常检测(Video Anomaly Detection, VAD)。视频异常检测在智能视频监控、工业监控和医疗等领域具有重要应用,其目标是从视频流中检测出异常事件,以增强事故预防、识别安全威胁并维护系统完整性。然而,现实场景中数据的稀缺性(如稀疏标注、标注成本高、封闭集类别定义的限制等)给VAD带来了巨大挑战。尽管现有的弱监督VAD方法在一定程度上缓解了这些问题,但其固有的封闭集范式使其在开放世界场景中表现不佳。
为了解决这些问题,本文提出了开放词汇视频异常检测(Open Vocabulary Video Anomaly Detection, OVVAD),旨在利用丰富的视觉相关语言数据来检测和分类已知和未知的异常事件。为此,作者提出了一个名为PLOVAD的框架,通过提示调优(Prompt Tuning)大规模预训练的基于图像的视觉-语言模型(Image-based Vision-Language Models, I-VLMs)来完成OVVAD任务。
PLOVAD框架由两个主要模块组成:提示模块(Prompting Module)和时间模块(Temporal Module)。
提示模块包含两个部分:可学习的提示(Learnable Prompt)和异常特定的提示(Anomaly-specific Prompt)。 1. 可学习的提示:该提示用于捕获领域特定的知识。在训练过程中,图像和文本编码器保持冻结状态,梯度仅通过文本编码器流动,以更新可学习的提示向量。这些向量最终构建出领域特定的提示模板,生成所需的查询嵌入。 2. 异常特定的提示:该提示由大型语言模型(Large Language Model, LLM)生成,用于捕获语义细节并增强泛化能力。LLM通过查询异常类别的属性生成描述性句子,作为异常特定的提示。
时间模块通过图注意力网络(Graph Attention Network, GAT)在帧级视觉特征上堆叠,以整合时间信息,解决从静态图像到视频的过渡问题。具体来说,GAT模块通过计算帧之间的距离邻接矩阵来捕获长程依赖关系,并使用掩码策略约束注意力机制,确保只关注特征幅度较大的帧。
本研究通过提出PLOVAD框架,成功解决了开放词汇视频异常检测中的关键挑战。PLOVAD利用提示调优技术,将预训练的视觉-语言模型应用于OVVAD任务,实现了对已知和未知异常的有效检测和分类。实验结果表明,PLOVAD在多个公开数据集上均表现出色,显著优于现有的弱监督方法。
这篇报告详细介绍了PLOVAD框架的研究背景、流程、结果和意义,为相关领域的研究者提供了全面的参考。