分享自:

基于改进YOLO和R3D的学生行为识别与可视化框架

期刊:journal of artificial intelligence and technologyDOI:10.37965/jait.2025.0685

学术研究报告:基于改进YOLO与R3D的学生课堂行为识别与可视化框架SBCP-YOLO-R3D

一、作者与发表信息
本研究由Chunyan Yu(滁州学院计算机与信息工程学院;南京师范大学教育科学学院)、Qin Ding(安徽理工大学计算机科学与工程学院)和Yuchen Bai(滁州学院)合作完成,发表于期刊Journal of Artificial Intelligence and Technology 2025年第5卷。论文标题为《SBCP-YOLO-R3D: Student Behavior Recognition and Visualization Framework Using Improved YOLO and R3D for Class Video》。

二、学术背景
科学领域:本研究属于计算机视觉与教育技术的交叉领域,聚焦于学生课堂行为的实时识别与动态班级画像构建。
研究动机:传统课堂行为分析依赖人工观察,效率低且主观性强。尽管现有深度学习技术(如YOLO系列)在行为检测中取得进展,但面临三大挑战:(1)学生目标尺度差异大;(2)遮挡导致特征丢失;(3)行为样本分布不均衡(如“低头”行为常见,“使用手机”行为罕见)。
研究目标:提出一种融合改进YOLO(STB-YOLO)与3D卷积网络(R3D)的框架SBCP-YOLO-R3D,实现高精度实时行为识别,并生成动态班级画像以辅助教学评估。

三、研究流程与方法
1. 数据集构建(STUACT数据集)
- 数据来源:从33门大学课程的监控视频中提取,覆盖40-120人/课堂,总时长771小时。
- 数据处理:基于帧间差分法筛选关键帧,剔除非课堂时段数据,最终获得4,721张图像(分辨率1920×1080)。
- 行为标注:标注7类行为:站立(standing)、读写(reading/writing)、使用手机(using mobile phone)、低头(bowing head)、趴桌(lying on desk)、听讲(listening)、转头(turning head)。

2. STB-YOLO检测层设计
- 改进点1:轻量化遮挡注意力模块(LW-SEAM)
- 问题:传统SEAM模块参数量大,难以部署于边缘设备。
- 解决方案:设计轻量化版本LW-SEAM,通过多尺度特征提取(1×1卷积降维+深度可分离卷积)和通道-空间混合模块(CSMM)增强遮挡区域特征,参数量减少30%。
- 改进点2:双滑动损失函数(Double-SlideLoss)
- 问题:样本不均衡导致罕见行为(如“趴桌”)识别率低。
- 解决方案:提出CLS-SlideLoss,以分类准确率β为阈值,对困难样本(准确率<β)自适应加权,提升模型对少数类别的敏感性。
- 网络结构:基于YOLOv5s改进,增加P2层(提升多尺度检测能力)并采用解耦头(Decoupled Head)分离分类与回归任务。

3. R3D分类层与班级画像生成
- 输入:STB-YOLO输出的行为检测结果转换为行为颜色编码图(BCCC),每行为8×8像素色块。
- 方法:利用R3D(残差3D卷积网络)处理BCCC序列,提取时空特征,输出四类班级画像:专注听讲型(Focused Listening Class)、互动多样型(Interactive Diversity Class)、自由活动型(Free Activity Class)、沉默学习型(Silent Learning Class)。

四、主要结果
1. 行为识别性能
- STUACT数据集:STB-YOLO的mAP达66.3%,较基线YOLOv5s提升3.1%。具体行为AP值:读写(83.8%)、听讲(85.3%)、趴桌(53.5%),但“使用手机”(33.5%)和“转头”(24.7%)因样本稀缺和相似性高仍具挑战。
- 对比实验:STB-YOLO在参数量(11.3M)相近情况下,mAP显著优于YOLOv8s(60.6%)和RT-DETR(57.9%)。

2. 班级画像效果
- R3D分类准确率超85%,优于ViViT算法,可动态反映课堂整体状态(如“专注听讲型”班级中80%学生行为为“听讲”)。

五、结论与价值
科学价值
1. 提出LW-SEAM与Double-SlideLoss,为遮挡和小样本行为识别提供新方法。
2. 首次将动态班级画像引入课堂分析,实现从个体行为到群体状态的映射。
应用价值:教师可通过可视化画像快速评估课堂参与度,调整教学策略。

六、研究亮点
1. 创新算法:LW-SEAM兼顾轻量化与遮挡特征增强;Double-SlideLoss解决样本不均衡问题。
2. 数据集贡献:公开STUACT数据集(需申请获取),填补真实课堂场景数据空白。
3. 端到端框架:SBCP-YOLO-R3D整合检测与分类,支持实时处理(77 FPS)。

七、局限与展望
当前模型对异常行为(如“使用手机”)识别率仍待提升。未来计划结合姿态估计进一步优化。研究获科技部“新一代人工智能”重大项目(2022ZD0115905)和安徽省科研计划项目(2022AH040153)支持。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com