基于YOLOv5算法与特征增强的拥挤场景人体检测与计数

分享自：
基于YOLOv5算法与特征增强的拥挤场景人体检测与计数

期刊:iraqi journal of computers, communications, control & systems engineering (ijccce)DOI:https://doi.org/10.33103/uot.ijccce.22.2.11
【点击此处】阅读全文、收藏及针对性提问
本文介绍了一项由Mohammed Abduljabbar Ali（巴格达理工大学计算机科学系）、Abir Jaafar Hussain（利物浦约翰摩尔斯大学计算机科学与数学学院）以及Ahmed T. Sadiq（巴格达理工大学计算机科学系）三位研究者合作完成的研究。该研究成果以论文《Detection and Count of Human Bodies in a Crowd Scene Based on Enhancement Features by Using the YOLO V5 Algorithm》的形式发表，于2022年3月11日收稿，2022年5月5日接受，并刊登于2022年6月出版的学术期刊 Iraqi Journal of Computers, Communications, Control & Systems Engineering (IJCCCE) 第22卷第2期。以下是对这项研究的详细学术报告。
一、 学术背景与研究目标
本研究的核心科学领域为计算机视觉，具体聚焦于拥挤场景下的行人检测与计数问题。随着监控摄像机、机器人及自动驾驶等应用场景的普及，人体检测已成为计算机视觉领域的关键研究方向。然而，在密集拥挤的场景中，人体检测面临巨大挑战。主要困难在于：人与人之间、人与背景之间存在大量遮挡，导致目标对象的视觉特征模糊、相互干扰，这使得传统的检测算法在此类场景下性能显著下降。现有的目标检测器，如基于区域的两阶段方法（如Faster R-CNN）和单阶段方法（如YOLO系列、SSD），虽然在通用场景下表现优异，但在处理高密度人群遮挡时，仍易产生误检和漏检，特别是对于被严重遮挡的人体。
针对上述问题，本研究旨在提出一种优化的方法来提升拥挤场景下的人体检测精度。具体目标是利用YOLO V5（You Only Look Once version 5）算法，通过一系列的图像预处理和特征增强技术，有效解决因特征重叠导致的检测困难，从而提高人体（特别是头部和全身）的检测率，并最终实现通过计数人体来检测拥挤场景的目的。研究的最终目标不仅是提高检测精度，也力求维持算法处理的实时性。
二、 详细工作流程
本研究的工作流程包含一个系统性的处理管道，其主要步骤可归纳为：视频帧预处理、基于YOLO V5的初步检测、基于头部与身体数量比较的决策、针对未检出身体区域的图像增强与再检测，最终实现拥挤场景的判定。整个流程的结构如图1所示。
步骤一：预处理（Pre-processing） 首先，输入视频被分割为连续的图像帧。为了适配YOLO V5算法的输入要求，每一帧图像均被缩放至合适的尺寸。为了提升后续检测的鲁棒性，研究对图像进行了去噪和增强处理。具体采用了高斯滤波（Gaussian filter） 来平滑图像、减少噪声。高斯滤波被选中的原因在于其在多尺度边缘检测中的优越性：它能有效避免随着尺度增大产生虚假边缘，提供了空间定位与频率定位的最佳平衡，并且计算高效。随后，为了锐化图像特征，对去噪后的图像应用了拉普拉斯滤波（Laplacian filter）。拉普拉斯滤波能够突出图像中强度发生剧变的区域，常用于边缘锐化，有助于后续算法更好地捕捉关键细节。经过这两步滤波处理，图像质量得到改善，为后续的目标检测奠定了基础。
步骤二：基于YOLO V5的人体头部与身体检测（Human Head and Body Detection by YOLO V5） 本步骤是研究的核心检测环节。研究采用了单阶段目标检测算法YOLO V5，因其在精度和速度间具有良好的平衡。YOLO V5的架构主要包括三个部分：骨干网络（Backbone）（采用CSP结构提取多粒度图像特征）、颈部网络（Head）（采用PA-Net进行特征聚合）以及检测层（Detection）（负责预测边界框和类别）。 为了专门应对拥挤场景，研究者没有使用通用的COCO数据集，而是选用了专门针对拥挤人群设计的CrowdHuman数据集来训练YOLO V5模型。该数据集包含15000张训练图像和4370张验证图像，共计约47万个人体实例，平均每张图像有22.6人，且包含大量遮挡情况。数据集为每个实例提供了头部边界框、可见身体区域边界框和全身边界框三种标注。在训练过程中，研究将检测类别设定为“头部”和“人”（即完整的身体，含遮挡部分）两类。模型训练完成后，对输入帧进行处理，能够同时输出图像中所有检测到的头部和整个人体的边界框及其置信度。
步骤三：头部与身体数量协调与决策 在获得初步检测结果后，系统会统计图像中被检测到的头部数量与人体数量。研究者观察到一个关键现象：在拥挤场景中，由于身体被严重遮挡，经常会出现检测到的头部数量多于身体数量的情况。流程设计了一个决策逻辑：比较头部与身体的检测数量。如果头部数量显著多于人体数量（即存在一些头部没有对应的身体被检出），则说明存在因遮挡而导致的身体检测失败案例。此时，系统会进入一个增强处理循环。
步骤四：增强分割与边缘特征优化（Enhancement Segmentation） 针对上一步识别出的“有头无身”的情况，本研究提出了一种新颖的特征增强方法。具体操作如下：对于每一个检测到头部但未关联到身体的实例，系统会根据其头部边界框的坐标，在原图像上裁剪出一个以头部为中心、范围更大的图像区域（即一个“感兴趣区域”）。 随后，对该裁剪区域进行专门的边缘增强处理，旨在强化被遮挡人体的轮廓特征，使其对YOLO V5算法更为“可见”。增强流程包括：1）将裁剪的彩色区域转换为灰度图像；2）应用Canny滤波器进行边缘检测，提取出图像中的主要边缘结构；3）记录下这些边缘像素的位置信息；4）基于记录的边缘位置信息，对原始彩色裁剪图中对应位置的像素进行清晰度增强，增强的程度参考其相邻像素的值。这一操作的本质是突出目标的轮廓细节，弱化背景和遮挡物的干扰。增强处理后的图像块，会再次送入已训练的YOLO V5模型进行检测。此次检测的目标是希望能在增强后的区域中成功检出之前遗漏的人体。最后，将新检测到的身体边界框与最初的检测结果进行融合，从而得到更完整、更准确的人群检测结果。
三、 主要研究结果
研究使用平均精度均值（mean Average Precision， mAP） 作为核心评估指标，该指标综合考虑了精确率（Precision）和召回率（Recall），是目标检测领域的权威度量标准。研究主要通过计算交并比（Intersection over Union， IoU）阈值为0.5时的mAP值来评估模型性能。
实验在CrowdHuman验证集上进行，并将所提方法与多个基线模型进行了对比，结果汇总于论文的表I和表II中。
基线对比结果：研究首先比较了不同训练策略下的YOLO V5性能。结果显示，使用通用COCO数据集训练的YOLO V5模型，在人体检测上的mAP仅为0.771。而直接使用CrowdHuman数据集训练的YOLO V5模型，性能有显著提升，在头部和身体检测上的mAP分别达到0.934和0.896。这证实了使用领域专用数据集对于解决特定检测难题（如拥挤遮挡）的重要性。
所提方法的性能：在应用了本研究所提出的完整流程（包括预处理、基于头部-身体数量比较的决策以及边缘增强分割）后，模型性能得到了进一步显著提升。头部检测的mAP从0.934提升至0.956，提升了2.2个百分点；而身体检测的mAP则从0.896提升至0.937，提升了4.1个百分点。这一结果直接证明了所提出的特征增强与决策机制的有效性，特别是对于改善被遮挡身体的检测效果尤为明显。
与同类工作的横向比较：论文表II将所提方法与其他近期用于拥挤人体检测的方法进行了对比。例如，Novel Representative Region NMS (R2NMS)方法报告的mAP为89.29，YOLO V3方法为81.03，基于Multiple Instance SVM和光流直方图（HLSOF）的方法为88.3，以及使用R-CNN结合人体形状掩模的方法为87.94。相比之下，本研究提出的方法（mAP为93.7）在这些方法中表现最优，显示了其创新性（结合边缘与感兴趣区域增强）在提升拥挤场景检测精度方面的优势。
结果逻辑关联：实验结果清晰展示了从数据选择（CrowdHuman）到模型架构（YOLO V5），再到后处理增强（边缘增强）这一完整技术路线的累进式贡献。预处理提升了输入质量，专用数据集训练使模型适应了拥挤环境，而核心的增强分割策略则针对性地解决了遮挡导致的漏检问题。每一步的结果都为下一步的优化提供了依据和验证，最终共同促成了整体性能的提升。
四、 研究结论与意义
本研究得出结论：通过优化YOLO V5算法，并辅以针对性的图像预处理和基于头部检测引导的边缘特征增强方法，能够有效提升在拥挤场景中对人体（包括头部和全身）的检测精度。研究将头部和身体的检测准确率分别提升至95.6%和93.7%。核心结论指出，性能提升的关键在于将关注点从通用检测转向了专门解决背景与人体之间、以及人与人之间的特征重叠问题。通过在预处理阶段应用高斯和拉普拉斯等滤波器，以及在后处理阶段提出基于Canny边缘检测的自适应增强方法，模型能够更好地分辨被遮挡的目标。
该研究的价值体现在以下几个方面： * 科学价值：为解决计算机视觉中经典的密集目标检测与遮挡问题提供了一种新的思路。它将检测任务分解为“头部引导”和“局部增强”两个阶段，创新性地利用头部这一相对不易被完全遮挡的特征作为“锚点”，来定位和增强可能被漏检的身体区域，这为处理复杂场景下的目标检测提供了可借鉴的框架。 * 应用价值：所提方法具有较高的实用潜力。其实时性（得益于YOLO V5）和高精度使其能够应用于智能视频监控、公共安全中的人群密度分析、异常行为检测、自动驾驶中的行人感知以及机器人导航等多个需要在高密度人流中准确识别个体的领域。 * 方法论价值：研究强调了领域专用数据集（CrowdHuman）对于解决特定任务的重要性，同时也展示了简单的图像处理技术与先进的深度学习模型相结合所能带来的性能增益。这为后续研究如何通过数据增强和特征工程来弥补模型在极端场景下的不足提供了参考。
五、 研究亮点
问题导向的创新策略：研究并非简单地套用现有YOLO V5模型，而是针对“拥挤遮挡”这一具体难题，设计了一套从预处理到后处理的完整优化方案，特别是“头部数量比对”触发“局部区域增强”的决策机制，具有很强的针对性。
新颖的边缘增强方法：提出的基于Canny边缘检测和局部像素增强的方法，是一种轻量级但有效的特征增强手段。它直接在像素层面强化目标轮廓，有助于深度学习模型恢复因遮挡而丢失的语义信息。
显著的性能提升：在权威的CrowdHuman基准测试上，所提方法在身体检测指标上取得了显著提升（4.1%的mAP提升），并超越了同期多种先进方法，证明了其方案的有效性。
清晰的工程化流程：整个研究流程逻辑清晰，从视频输入到拥挤场景判定，形成了一个完整的端到端系统，具备良好的可解释性和可复现性。
六、 其他有价值的内容
研究在引言和“相关工作（Related Work）”部分对拥挤人体检测领域的近期工作进行了梳理，涵盖了基于预处理优化YOLO训练、两阶段检测器PS-RCNN、利用头部-身体对齐网络（HBAN）、基于弱监督的异常行为检测以及多人姿态追踪等多种技术路线。这为读者了解该领域的研究脉络提供了有价值的背景信息。此外，论文对YOLO V5架构和CrowdHuman数据集进行了简要介绍，并对评估指标（mAP， Precision， Recall， IoU）进行了说明，使得研究内容更加完整和自洽。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问