杭州电子科技大学柯冬冬的硕士学位论文《基于轻量注意力机制YOLO模型的警务审讯不规范行为识别》是一项针对司法场景中违规行为自动检测的原创性研究。该研究由柯冬冬(导师:王海伦教授、徐晓滨教授)完成,将于2024年11月提交。
学术背景
在司法审讯场景中,传统视频监控存在小目标识别精度低、环境干扰等问题。尽管深度学习技术(如YOLO系列算法)在目标检测领域取得进展,但针对审讯场景的特殊需求(如遮挡、光照变化等)仍缺乏专用解决方案。本研究基于计算机视觉与深度学习技术,旨在开发适用于审讯场景的违规行为智能识别系统,解决现有方法在检测精度和实时性上的不足。
研究流程
1. 数据集构建(第二章)
- 数据采集:搭建模拟审讯室环境,使用400万像素海康威视摄像头采集13,652张图像,覆盖四种违规行为(着装不规范、使用手机、吸烟、睡觉)和正常行为。
- 标注方法:采用LabelImg工具生成PASCAL VOC格式标注,后转换为YOLO所需的TXT格式。针对行为特性采用特殊标注策略(如吸烟行为同时标注手部和香烟)。
- 数据分析:数据集呈现显著不均衡性(如”规范着装”样本10,710个,”睡觉”仅876个),并通过可视化验证了标注框多集中于图像中心区域(宽度<0.4的占比85%)。
2. 经典YOLO模型对比(第三章)
- 模型选择:系统评估YOLOv5至YOLOv8系列,重点测试YOLOv5l和YOLOv8m。
- 实验配置:使用NVIDIA RTX 3090 GPU,设置学习率0.01、batch size 32,采用mAP(平均精度)和召回率作为核心指标。
- 结果:YOLOv5l在测试集上达到78.3% mAP,但对小目标(如香烟)检测精度不足(吸烟行为召回率仅62.1%)。
3. ECA-YOLO模型改进(第四章)
- 创新点:在YOLOv5l骨干网络嵌入ECA(Efficient Channel Attention)注意力机制,通过跨通道交互增强特征表达。
- 性能提升:相比基线模型,mAP提升1.2%(79.5%),但吸烟行为误检率仍达18.7%,显示空间信息处理存在缺陷。
4. SGE-YOLO模型优化(第五章)
- 关键改进:
- 在颈部网络引入SGE(Spatial Group-wise Enhance)注意力机制,建立空间分组增强模块
- 采用MPDIoU损失函数替代CIoU,解决边界框回归偏差问题
- 设计SimSPPF金字塔池化层加速多尺度特征融合
- 实验结果:吸烟行为检测mAP显著提升9.7%(达82.4%),误检率降至6.3%;整体模型参数量仅增加3.2%,FPS保持45帧/秒。
5. 系统实现(第六章)
开发基于PyQt5的监控系统,集成SGE-YOLO模型实现实时检测(延迟<200ms),具备违规行为日志记录和报警功能。
主要结论
- 方法有效性:SGE-YOLO将小目标违规行为的综合检测精度提升至83.1%,较基线模型提高4.8个百分点。
- 技术创新:提出的MPDIoU损失函数在IoU>0.5时定位误差降低19.6%,SimSPPF层使特征计算速度提升22%。
- 应用价值:系统可减少75%的人工监控负荷,为司法规范化提供可落地的技术方案。
研究亮点
- 领域专用数据集:首个公开的审讯场景违规行为数据集,包含13,652张标注图像及复杂环境模拟数据。
- 混合注意力架构:ECA与SGE的协同使用解决了通道与空间特征的联合优化问题。
- 工程化创新:MPDIoU损失函数通过引入最小点距离约束,显著提升小目标定位精度。
学术价值
该研究为司法智能化提供了三方面贡献:(1)建立了审讯场景行为识别的技术范式;(2)提出的轻量化改进方案对边缘计算设备具有普适性;(3)开发的系统已通过浙江省某看守所的试点验证,误报率%。未来工作可扩展至动态行为识别和多模态数据融合方向。