视频序列中的异常检测：基准与计算模型

分享自：
视频序列中的异常检测：基准与计算模型

期刊:iet research journalsDOI:0000000000
这篇文档属于类型a，即报告了一项原创性研究。以下是根据文档内容生成的学术报告：
作者及研究机构本研究的主要作者包括Boyang Wan、Wenhui Jiang、Yuming Fang、Zhiyuan Luo和Guanqun Ding，他们均来自中国南昌的江西财经大学信息管理学院。该研究发表在IET Research Journals上，具体发表日期为2021年6月。
学术背景该研究的主要科学领域是计算机视觉中的异常检测（anomaly detection）。异常检测旨在自动预测视频序列中的异常事件，是计算机视觉领域中的一个高级任务。尽管异常检测在过去几年中得到了广泛研究，但现有的异常检测数据库存在两个主要问题：一是数据库规模有限，二是训练集仅包含视频级别的标签，缺乏对异常事件精确时间段的标注。为了解决这些问题，本研究提出了一个新的、大规模异常检测数据库（Large-scale Anomaly Detection, LAD），并将其作为视频序列异常检测的基准。研究的主要目标是通过构建LAD数据库，并设计一个多任务深度神经网络，提升异常检测的性能。
研究流程研究流程主要包括以下几个步骤：
数据库构建：
数据收集：研究团队从多个公开网站（如YouTube、优酷、腾讯视频）以及现有活动识别数据库（如FCVID、Hollywood2、YouTube Action）中收集了大量视频序列。此外，他们还使用数码相机记录了正常活动和突然发生的异常事件。初步收集了超过2500个视频序列。
数据筛选：研究团队将收集到的视频序列分为14个异常类别（如碰撞、火灾、暴力等），并剔除了分辨率低、质量差或不完整的视频序列。最终保留了2000个视频序列，每个类别包含超过100个视频序列（其中50个正常视频和50个异常视频）。
数据标注：研究团队邀请了五名研究生参与标注实验。标注内容包括视频级别标签（异常/正常视频、异常类型）和帧级别标签（异常/正常视频帧）。帧级别标签通过计算标注者的平均得分并进行二值化处理得到。
模型设计：
局部时空特征提取：研究团队使用预训练的膨胀3D卷积网络（Inflated 3D Convolutional Network, I3D）提取视频片段的局部时空特征。I3D网络将视频序列分割为多个不重叠的片段，每个片段包含16帧，最终提取出1024维的特征向量。
全局时空特征提取：研究团队设计了一个两层的卷积长短期记忆网络（Convolutional LSTM, ConvLSTM）来学习视频片段的全局时空特征。ConvLSTM通过卷积操作处理三维数据，能够同时捕捉时空信息。
多任务学习网络：研究团队设计了一个多任务联合学习网络，用于同时预测异常类别和异常得分。异常类别分类任务使用交叉熵损失函数，异常得分预测任务使用平滑损失函数。
实验与评估：
实验设置：研究在多个数据库（如Avenue、UCSD Ped2、ShanghaiTech、UCF-Crime和LAD）上进行了实验，采用了无监督、弱监督和全监督三种数据划分方式。
性能评估：研究使用帧级别的ROC曲线下面积（AUC）作为性能评估指标，并使用准确率评估异常类别的分类性能。
主要结果数据库构建：研究团队成功构建了包含2000个视频序列的LAD数据库，涵盖了14个异常类别和1895个不同的视觉场景。LAD数据库提供了视频级别和帧级别的标签，为全监督学习提供了可能。
模型性能：研究提出的多任务深度神经网络在LAD数据库上表现优异，AUC达到了86.28%，超过了现有的无监督和弱监督异常检测方法。在Avenue、UCSD Ped2和ShanghaiTech数据库上，该模型也取得了较高的AUC值，表明帧级别标注对异常检测任务的提升作用显著。
异常类别分类：研究模型在异常类别分类任务上表现良好，准确率达到了59.3%。其中，碰撞、坠落、火灾等类别的分类准确率较高，而暴力类别的分类准确率较低，主要原因是暴力样本容易被误分类为人群或打斗类别。
结论本研究通过构建LAD数据库和设计多任务深度神经网络，显著提升了视频序列异常检测的性能。LAD数据库的规模大、标注精细，为全监督学习提供了可能。研究提出的模型通过提取局部和全局时空特征，能够同时预测异常类别和异常得分，表现优于现有方法。该研究不仅具有重要的科学价值，还为实际应用中的异常检测提供了新的解决方案。
研究亮点数据库规模大：LAD数据库包含2000个视频序列，是目前最大的异常检测数据库。
标注精细：LAD数据库提供了视频级别和帧级别的标签，支持全监督学习。
模型创新：研究提出的多任务深度神经网络通过提取局部和全局时空特征，显著提升了异常检测的性能。
实验结果优异：研究模型在多个数据库上表现优异，特别是在LAD数据库上，AUC达到了86.28%。
其他有价值的内容研究团队还进行了消融实验，验证了不同局部时空特征提取器和损失函数的有效性。实验结果表明，使用I3D网络提取局部时空特征能够显著提升模型性能，而多任务损失函数对异常检测和分类任务的提升作用显著。此外，研究团队还通过可视化混淆矩阵，分析了异常类别分类的性能，为未来改进模型提供了方向。
本研究通过构建LAD数据库和设计多任务深度神经网络，为视频序列异常检测领域提供了重要的基准和解决方案，具有广泛的应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问