分享自:

视频序列中的异常检测:基准与计算模型

期刊:iet research journalsDOI:0000000000

这篇文档属于类型a,即报告了一项原创性研究。以下是根据文档内容生成的学术报告:

作者及研究机构

本研究的主要作者包括Boyang Wan、Wenhui Jiang、Yuming Fang、Zhiyuan Luo和Guanqun Ding,他们均来自中国南昌的江西财经大学信息管理学院。该研究发表在IET Research Journals上,具体发表日期为2021年6月。

学术背景

该研究的主要科学领域是计算机视觉中的异常检测(anomaly detection)。异常检测旨在自动预测视频序列中的异常事件,是计算机视觉领域中的一个高级任务。尽管异常检测在过去几年中得到了广泛研究,但现有的异常检测数据库存在两个主要问题:一是数据库规模有限,二是训练集仅包含视频级别的标签,缺乏对异常事件精确时间段的标注。为了解决这些问题,本研究提出了一个新的、大规模异常检测数据库(Large-scale Anomaly Detection, LAD),并将其作为视频序列异常检测的基准。研究的主要目标是通过构建LAD数据库,并设计一个多任务深度神经网络,提升异常检测的性能。

研究流程

研究流程主要包括以下几个步骤:

  1. 数据库构建

    • 数据收集:研究团队从多个公开网站(如YouTube、优酷、腾讯视频)以及现有活动识别数据库(如FCVID、Hollywood2、YouTube Action)中收集了大量视频序列。此外,他们还使用数码相机记录了正常活动和突然发生的异常事件。初步收集了超过2500个视频序列。
    • 数据筛选:研究团队将收集到的视频序列分为14个异常类别(如碰撞、火灾、暴力等),并剔除了分辨率低、质量差或不完整的视频序列。最终保留了2000个视频序列,每个类别包含超过100个视频序列(其中50个正常视频和50个异常视频)。
    • 数据标注:研究团队邀请了五名研究生参与标注实验。标注内容包括视频级别标签(异常/正常视频、异常类型)和帧级别标签(异常/正常视频帧)。帧级别标签通过计算标注者的平均得分并进行二值化处理得到。
  2. 模型设计

    • 局部时空特征提取:研究团队使用预训练的膨胀3D卷积网络(Inflated 3D Convolutional Network, I3D)提取视频片段的局部时空特征。I3D网络将视频序列分割为多个不重叠的片段,每个片段包含16帧,最终提取出1024维的特征向量。
    • 全局时空特征提取:研究团队设计了一个两层的卷积长短期记忆网络(Convolutional LSTM, ConvLSTM)来学习视频片段的全局时空特征。ConvLSTM通过卷积操作处理三维数据,能够同时捕捉时空信息。
    • 多任务学习网络:研究团队设计了一个多任务联合学习网络,用于同时预测异常类别和异常得分。异常类别分类任务使用交叉熵损失函数,异常得分预测任务使用平滑损失函数。
  3. 实验与评估

    • 实验设置:研究在多个数据库(如Avenue、UCSD Ped2、ShanghaiTech、UCF-Crime和LAD)上进行了实验,采用了无监督、弱监督和全监督三种数据划分方式。
    • 性能评估:研究使用帧级别的ROC曲线下面积(AUC)作为性能评估指标,并使用准确率评估异常类别的分类性能。

主要结果

  1. 数据库构建:研究团队成功构建了包含2000个视频序列的LAD数据库,涵盖了14个异常类别和1895个不同的视觉场景。LAD数据库提供了视频级别和帧级别的标签,为全监督学习提供了可能。
  2. 模型性能:研究提出的多任务深度神经网络在LAD数据库上表现优异,AUC达到了86.28%,超过了现有的无监督和弱监督异常检测方法。在Avenue、UCSD Ped2和ShanghaiTech数据库上,该模型也取得了较高的AUC值,表明帧级别标注对异常检测任务的提升作用显著。
  3. 异常类别分类:研究模型在异常类别分类任务上表现良好,准确率达到了59.3%。其中,碰撞、坠落、火灾等类别的分类准确率较高,而暴力类别的分类准确率较低,主要原因是暴力样本容易被误分类为人群或打斗类别。

结论

本研究通过构建LAD数据库和设计多任务深度神经网络,显著提升了视频序列异常检测的性能。LAD数据库的规模大、标注精细,为全监督学习提供了可能。研究提出的模型通过提取局部和全局时空特征,能够同时预测异常类别和异常得分,表现优于现有方法。该研究不仅具有重要的科学价值,还为实际应用中的异常检测提供了新的解决方案。

研究亮点

  1. 数据库规模大:LAD数据库包含2000个视频序列,是目前最大的异常检测数据库。
  2. 标注精细:LAD数据库提供了视频级别和帧级别的标签,支持全监督学习。
  3. 模型创新:研究提出的多任务深度神经网络通过提取局部和全局时空特征,显著提升了异常检测的性能。
  4. 实验结果优异:研究模型在多个数据库上表现优异,特别是在LAD数据库上,AUC达到了86.28%。

其他有价值的内容

研究团队还进行了消融实验,验证了不同局部时空特征提取器和损失函数的有效性。实验结果表明,使用I3D网络提取局部时空特征能够显著提升模型性能,而多任务损失函数对异常检测和分类任务的提升作用显著。此外,研究团队还通过可视化混淆矩阵,分析了异常类别分类的性能,为未来改进模型提供了方向。

本研究通过构建LAD数据库和设计多任务深度神经网络,为视频序列异常检测领域提供了重要的基准和解决方案,具有广泛的应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com