基于提示调优的开放词汇视频异常检测方法研究

分享自：
基于提示调优的开放词汇视频异常检测方法研究

期刊:IEEE Transactions on Circuits and Systems for Video TechnologyDOI:10.1109/tcsvt.2025.3528108
这篇文档属于类型a，即单篇原创研究的学术报告。以下是基于文档内容的详细报告：
作者及机构本文的主要作者是chenting xu, ke xu, xinghao jiang, 和 tanfeng sun，他们均来自上海交通大学电子信息与电气工程学院的国家信息内容分析技术工程实验室。该研究发表在IEEE Transactions on Circuits and Systems for Video Technology期刊上，具体发表日期为2025年。
学术背景本研究的主要科学领域是视频异常检测（Video Anomaly Detection, VAD）。视频异常检测在智能视频监控、工业监控和医疗等领域具有重要应用，其目标是从视频流中检测出异常事件，以增强事故预防、识别安全威胁并维护系统完整性。然而，现实场景中数据的稀缺性（如稀疏标注、标注成本高、封闭集类别定义的限制等）给VAD带来了巨大挑战。尽管现有的弱监督VAD方法在一定程度上缓解了这些问题，但其固有的封闭集范式使其在开放世界场景中表现不佳。
为了解决这些问题，本文提出了开放词汇视频异常检测（Open Vocabulary Video Anomaly Detection, OVVAD），旨在利用丰富的视觉相关语言数据来检测和分类已知和未知的异常事件。为此，作者提出了一个名为PLOVAD的框架，通过提示调优（Prompt Tuning）大规模预训练的基于图像的视觉-语言模型（Image-based Vision-Language Models, I-VLMs）来完成OVVAD任务。
研究流程PLOVAD框架由两个主要模块组成：提示模块（Prompting Module）和时间模块（Temporal Module）。
提示模块提示模块包含两个部分：可学习的提示（Learnable Prompt）和异常特定的提示（Anomaly-specific Prompt）。 1. 可学习的提示：该提示用于捕获领域特定的知识。在训练过程中，图像和文本编码器保持冻结状态，梯度仅通过文本编码器流动，以更新可学习的提示向量。这些向量最终构建出领域特定的提示模板，生成所需的查询嵌入。 2. 异常特定的提示：该提示由大型语言模型（Large Language Model, LLM）生成，用于捕获语义细节并增强泛化能力。LLM通过查询异常类别的属性生成描述性句子，作为异常特定的提示。
时间模块时间模块通过图注意力网络（Graph Attention Network, GAT）在帧级视觉特征上堆叠，以整合时间信息，解决从静态图像到视频的过渡问题。具体来说，GAT模块通过计算帧之间的距离邻接矩阵来捕获长程依赖关系，并使用掩码策略约束注意力机制，确保只关注特征幅度较大的帧。
实验流程数据集：研究在四个公开数据集（UCF-Crime、ShanghaiTech、XD-Violence和UBnormal）上进行了实验，主要关注弱监督下的开放词汇设置。
训练与测试：在训练阶段，模型仅使用基础类别的样本进行训练；在测试阶段，模型需要检测和分类基础类别和未知类别的异常。
评估指标：检测性能通过帧级ROC曲线下面积（AUC）进行评估，分类性能通过多类AUC的宏平均值（mAUC）进行评估。
主要结果检测性能：在开放词汇设置下，PLOVAD在UCF-Crime、ShanghaiTech、XD-Violence和UBnormal数据集上均表现出色。例如，在UCF-Crime数据集上，PLOVAD的AUC达到了87.06%，超过了现有的弱监督方法。
分类性能：PLOVAD在基础类别和未知类别上的分类性能显著优于基线方法。例如，在UCF-Crime数据集上，PLOVAD的mAUC达到了85.48%，而基线方法的mAUC仅为79.27%。
时间模块的影响：时间模块的引入显著提升了检测性能，特别是在未知类别的异常检测上。例如，在ShanghaiTech数据集上，时间模块使AUCn（未知类别的AUC）提高了6.36%。
提示模块的影响：提示模块的引入显著提升了分类性能。例如，在UCF-Crime数据集上，提示模块使mAUC提高了12.95%，使top-5准确率提高了42.76%。
结论本研究通过提出PLOVAD框架，成功解决了开放词汇视频异常检测中的关键挑战。PLOVAD利用提示调优技术，将预训练的视觉-语言模型应用于OVVAD任务，实现了对已知和未知异常的有效检测和分类。实验结果表明，PLOVAD在多个公开数据集上均表现出色，显著优于现有的弱监督方法。
研究意义科学价值：本研究首次将开放词汇学习引入视频异常检测领域，为未来的研究提供了新的方向。
应用价值：PLOVAD框架在智能视频监控、工业监控和医疗等领域具有广泛的应用前景，能够有效检测和分类未知异常，提升系统的安全性和可靠性。
研究亮点创新性：PLOVAD框架首次将提示调优技术应用于视频异常检测，显著提升了模型的泛化能力。
高效性：PLOVAD在训练过程中仅需更新少量参数，极大地降低了计算资源消耗。
广泛适用性：PLOVAD框架适用于多种视觉-语言模型，具有广泛的适用性。
其他有价值的内容跨数据集能力：PLOVAD在跨数据集实验中也表现出良好的泛化能力，表明其在不同场景下的适用性。
LLM的应用：PLOVAD利用LLM生成异常特定的提示，为未来的研究提供了新的思路。
这篇报告详细介绍了PLOVAD框架的研究背景、流程、结果和意义，为相关领域的研究者提供了全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问