分享自:

基于提示增强上下文特征的弱监督视频异常检测

期刊:journal of latex class files

学术研究报告:基于提示增强上下文特征的弱监督视频异常检测方法

一、研究团队与发表信息
本研究的核心作者为Yujiang Pu(中国传媒大学信息与通信工程学院)、Xiaoyu Wu(通讯作者,中国传媒大学)、Lulu Yang(中国传媒大学)以及Shengjin Wang(清华大学电子工程系)。研究成果发表于*Journal of LaTeX Class Files*(2021年8月,第14卷第8期),标题为《Learning Prompt-Enhanced Context Features for Weakly-Supervised Video Anomaly Detection》。

二、学术背景与研究目标
视频异常检测(Video Anomaly Detection, VAD)是计算机视觉领域的重要课题,旨在识别视频中偏离正常模式的事件或行为。传统方法依赖半监督学习(semi-supervised learning),仅利用正常样本训练模型,但易因正常模式覆盖不全导致高误报率。弱监督学习(weakly-supervised learning)通过视频级标签(仅标注是否含异常,无具体时间定位)缓解标注成本问题,但仍面临两大挑战:
1. 上下文建模效率低:现有方法(如图卷积网络GCN或自注意力机制)通过多分支结构分别捕获局部与全局依赖,导致参数量大、计算成本高;
2. 语义区分性不足:基于多示例学习(Multiple Instance Learning, MIL)的损失函数仅提供粗粒度的类别可分性,忽略异常子类间的细粒度差异。

为此,本研究提出一种融合时序上下文聚合模块(Temporal Context Aggregation, TCA)提示增强学习模块(Prompt-Enhanced Learning, PEL)的框架,目标是通过高效上下文建模与外部知识注入,提升弱监督下异常检测的精度与泛化能力。

三、研究方法与流程
1. 数据预处理与特征提取
- 输入数据:从UCF-Crime、XD-Violence和ShanghaiTech三个数据集的未修剪视频中,以16帧非重叠滑动窗口提取视频片段(snippet)。
- 特征提取:使用预训练的I3D网络(Kinetics-400预训练模型)提取片段级外观特征,并通过10-crop(UCF/ShanghaiTech)或5-crop(XD-Violence)数据增强提升鲁棒性。

  1. 时序上下文聚合模块(TCA)

    • 全局与局部依赖建模
      • 通过线性投影生成查询(query)、键(key)、值(value)矩阵,计算相似度矩阵(similarity matrix)捕获全局注意力(公式1-3)。
      • 复用相似度矩阵,结合掩码窗口(公式4)限制局部交互范围,生成局部校准特征(公式5-6)。
    • 自适应融合:引入可学习权重α动态平衡全局与局部特征(公式7),并通过动态位置编码(Dynamic Position Encoding, DPE)建模片段相对位置(公式9)。
    • 降维与分类:两层MLP(含GELU激活与Dropout)压缩特征,因果卷积层(kernel size Δt=9/3/3)预测异常分数(公式10-11)。
  2. 提示增强学习模块(PEL)

    • 知识引导的提示构建
      • 从ConceptNet知识库中检索12类关系(如“isA”“usedFor”),筛选与异常类别相关的语义概念(如“Fighting”关联“punch”“blood”),构建概念词典(concept dictionary)。
      • 使用CLIP文本编码器将概念转换为提示特征(公式13)。
    • 上下文分离与跨模态对齐
      • 基于异常分数加权生成前景(异常相关)与背景特征(公式14-15)。
      • 通过余弦相似度(公式16)和KL散度损失(公式18)对齐视觉特征与提示特征,增强异常子类的语义区分性。
  3. 训练与测试策略

    • 损失函数:结合MIL分类损失(公式12)与跨模态对齐损失(λ=1/9)。
    • 分数平滑(Score Smoothing, SS):测试时采用滑动平均(窗口大小κ=7/3/9)抑制瞬态噪声(公式20)。

四、主要实验结果
1. 性能对比
- UCF-Crime:AUC 86.76%(优于RTFM的84.30%),误报率(FAR)0.43%。
- XD-Violence:AP 85.59%(超越多模态方法CMA-LA的83.54%)。
- ShanghaiTech:AUC 98.14%(当前最优),FAR降至0%。

  1. 细粒度异常检测提升

    • PEL模块显著改善特定子类(如“Assault” AUC提升至96.2%,“Fighting” AP提升至83.8%)。
  2. 消融实验验证

    • TCA模块减少参数量至1.21M,FLOPs 241M,较多分支结构(如RTFM的24.72M参数)更高效。
    • 动态阈值过滤的ConceptNet提示使XD-Violence的AP提升0.57%(对比固定阈值)。

五、研究结论与价值
1. 科学价值
- 提出相似度矩阵复用机制,实现局部-全局上下文的高效联合建模;
- 首创知识引导的提示学习,通过外部语义先验增强异常子类的可解释性。

  1. 应用价值
    • 在监控安防、工业检测等领域,可降低人工标注成本并提升复杂场景(如艺术化影视内容)的检测鲁棒性。

六、研究亮点
1. 方法创新:TCA与PEL模块的协同设计,兼顾效率(参数量降低80%)与语义区分性(子类检测精度提升10%)。
2. 技术通用性:仅需外观特征输入,无需依赖多模态数据(如音频),便于实际部署。
3. 开源贡献:代码发布于GitHub(https://github.com/yujiangpu20/pel4vad),推动领域复现与拓展。

七、其他价值
- 提出的动态位置编码(DPE)与分数平滑策略(SS)可迁移至其他时序分析任务(如动作识别)。
- 首次在异常检测中引入ConceptNet知识库,为跨模态学习提供新范式。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com