分享自:

基于CNN和Transformer机制的监控异常检测混合模型

期刊:engineering applications of artificial intelligenceDOI:10.1016/j.engappai.2023.106173

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是对该研究的详细介绍:


作者及机构信息
本研究由Waseem Ullah(韩国世宗大学)、Tanveer Hussain(英国利兹大学交通研究所)、Fath U Min Ullah(英国谢菲尔德大学电子与电气工程系)、Mi Young Lee和Sung Wook Baik(均来自韩国世宗大学)共同完成,发表于2023年4月的期刊《Engineering Applications of Artificial Intelligence》(第123卷,文章编号106173)。


学术背景
研究领域:计算机视觉与人工智能,聚焦于视频监控中的异常检测(Surveillance Video Anomaly Detection, SVAD)。
研究动机:传统监控依赖人工干预,效率低且易出错。现有基于深度学习的异常检测方法面临两大挑战:
1. 异常定义的模糊性:如盗窃、斗殴等事件在时空特征上差异大,缺乏统一标准;
2. 数据稀缺性:异常事件样本少,且标注成本高。
研究目标:提出一种混合卷积神经网络(CNN)与视觉Transformer的端到端框架(RANSCNN),通过弱监督学习(仅需视频级标签)实现高精度异常检测,解决长期时序依赖建模问题。


研究流程与方法
1. 预处理与特征提取
- 输入处理:将监控视频分割为10帧的非重叠片段(segment),每个片段标记为正常(0)或异常(1)。
- 空间特征提取:采用EfficientNetV2作为主干CNN模型,提取每帧的1000维空间特征。该模型通过复合缩放(compound scaling)优化深度、宽度和分辨率,平衡计算效率与特征表达能力。

  1. 时序关系建模

    • Transformer架构:设计混合时空注意力机制,分两步处理:
      • 空间注意力:将帧分割为不重叠图像块(patch),通过线性投影生成嵌入向量,加入位置编码(positional embedding)以保留空间信息。
      • 时间注意力:在空间特征基础上,通过多头自注意力(Multi-head Self-Attention, MSA)模块学习帧间长期依赖关系。具体流程包括:
      • 生成查询(Query)、键(Key)、值(Value)向量;
      • 计算注意力权重(softmax归一化);
      • 输出加权特征图。
    • 创新点:提出“时序自注意力机制”,动态突出运动显著区域,生成注意力图以增强异常片段的区分度。
  2. 实验验证

    • 数据集
      • ShanghaiTech:437段视频,含130种异常事件(如追逐、斗殴);
      • UCSD Ped2:38段行人场景视频,12类异常;
      • CUHK Avenue:37段视频,标注异常行为(如奔跑、投掷)。
    • 评估指标:曲线下面积(AUC)与接收者操作特征(ROC)。
    • 对比方法:与20余种先进方法(如Conv-AE、CLSTM-AE、OGNet等)进行性能对比。

主要结果
1. 性能表现
- ShanghaiTech:AUC达94.6%,较最优基线(74.5%)提升20.1%;
- UCSD Ped2:AUC 98.4%,超越此前最优方法(97.6%);
- CUHK Avenue:AUC 89.6%,达到SOTA水平。
- 效率优势:仅需处理3%的数据量即可捕获关键特征。

  1. 消融实验

    • 主干网络对比:EfficientNetV2+Transformer组合最佳,较ResNet152V2+Transformer在Ped2数据集上提升17.2% AUC。
    • 时序模型对比:Transformer显著优于LSTM/GRU,因多头注意力能建模更长时序依赖。
  2. 可视化分析

    • 成功案例:准确检测远距离、遮挡目标(如ShanghaiTech中的群体斗殴);
    • 失败案例:对与正常行为高度相似的异常(如缓慢移动的车辆)存在误判。

结论与价值
1. 科学价值
- 首次将CNN与Transformer深度融合,解决监控异常检测中的时空建模难题;
- 提出弱监督下时序片段自动筛选机制,降低对帧级标注的依赖。

  1. 应用价值
    • 可部署于智能城市安防系统,实时检测暴力、交通事故等事件;
    • 代码公开,支持跨场景适配。

研究亮点
1. 方法创新
- 混合架构结合CNN的局部特征提取与Transformer的全局时序建模能力;
- 自研“时序自注意力模块”,增强异常片段判别性。

  1. 性能突破

    • 在三大基准数据集上全面超越现有方法,最高AUC提升达20%;
    • 模型轻量化,仅需122.1MB存储空间。
  2. 扩展性

    • 框架可扩展至其他时序分析任务(如行为识别、工业质检)。

其他有价值内容
- 未来方向:拟结合增量学习(incremental learning)解决未知异常检测问题;
- 数据可用性:实验所用数据集均为公开基准。


全文通过严谨的实验设计与对比分析,验证了RANSCNN框架在复杂监控场景下的优越性,为视频异常检测领域提供了新的技术路径。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com