分享自:

深度学习在人群计数中的综述:标准化数据集分类与新评估指标

期刊:CAAI Transactions on Intelligence TechnologyDOI:10.1049/cit2.12241

本文是一篇题为《深度学习和人群计数:综述》(Deep Learning in Crowd Counting: A Survey)的学术综述论文。作者团队来自莱斯特大学计算与数学科学学院(University of Leicester, UK)、阿卜杜勒阿齐兹国王大学(King Abdulaziz University, Saudi Arabia)和格拉纳达大学(University of Granada, Spain)。通讯作者为张玉栋(Yudong Zhang)。该论文于2023年5月8日被《CAAI Transactions on Intelligence Technology》期刊接收并于2024年正式发表。

论文主题是深度学习在人群计数领域的应用现状,旨在为研究人员提供一个系统性的概览,明确当前的研究进展、数据集特点、算法分类以及未来的挑战与方向。作者指出,尽管人群计数在人工智能和计算机视觉领域是一个热门且有重要社会经济价值的研究方向,但随着技术发展和数据集的不断丰富,许多新的研究进展和数据并未被广泛认知。特别地,过去的研究综述往往侧重于算法概述,而对数据集及其对算法性能影响的系统性分类和讨论不足。因此,本文的一个核心目标是弥补这一缺口,从数据驱动的视角出发,对人群计数领域进行全面梳理。

本文的主要论点如下:

1. 提出了三层标准化数据集分类法(Three-tier Standardised Dataset Taxonomy, TSDT)。 作者指出,不同复杂度(即不同人群密度)的数据集对算法性能的评估和比较造成了困难。简单算法在小规模数据集上表现出色,但在大规模复杂数据集上性能可能不佳。为了更科学地划分和比较数据集,作者提出了TSDT分类法。该方法根据每张图像的平均标注人数((N{avg}))或最大标注人数((N{max}))将所有数据集划分为三类: * 小规模数据集: (N{avg} < 40) 或 (N{max} < 100)。通常来自日常监控场景,如商场、校园等。 * 大规模数据集: (40 \leq N{avg} < 200) 或 (100 \leq N{max} < 1000)。通常来自集会活动场景,如节日、体育赛事等。 * 超大规模数据集: (N{avg} \geq 200) 或 (N{max} \geq 1000)。通常包含极端密集的人群图像,专门用于测试和提升算法在极限情况下的性能。 为支持这一分类法,作者系统性地整理了现有36个公开数据集,并提供了每个数据集的总图像数、平均图像分辨率、标注总数、每张图像的平均/最小/最大标注数、APO值等详细参数。作者认为,这种分类有助于研究者在相同难度等级的数据集上公平地比较算法性能,并推动更多数据集被纳入模型评估过程。

2. 提出了新的数据集清晰度评估指标:平均每个对象占据的像素(Average Pixel Occupied by Each Object, APO)。 传统的图像分辨率指标无法准确衡量人群计数任务中目标(即人头)的清晰度。一张高分辨率的图像如果人数极多,每个人头占据的像素可能很少,导致识别困难。因此,作者提出了APO指标,其计算公式为:(APO = \sqrt{H \times W / C}),其中H和W为图像的高和宽,C为图像中的标注人数(对于数据集,常使用平均图像尺寸和平均标注人数计算)。APO直接反映了图像中每个目标对象的平均像素面积,更能有效评估数据集的“计数清晰度”。通过对比实验,作者验证了在相同数据集(Mall)上,使用不同APO值的图像子集(通过裁剪或缩放实现)训练模型,更高的APO值通常带来更好的模型性能(更低的MAE和RMSE)。这证明了APO作为数据集质量评估指标的有效性。

3. 从数据驱动的视角对人群计数方法进行了分类,并详细介绍了各类别的经典算法。 作者强调数据是驱动人工智能研究的关键因素,因此基于算法的数据驱动特性,将主流的深度学习人群计数方法分为六类: * 多尺度网络: 输入不同尺度的图像块,以处理透视引起的目标尺寸变化问题。例如,跨场景计数方法(Cross-Scene Crowd Counting)通过根据透视图调整输入块的大小来标准化人头尺度。 * 单列网络: 使用单一的卷积流处理图像,结构简单高效。例如,CSRNet在预训练的VGG-16前端网络基础上,后端使用空洞卷积来扩大感受野而不损失空间分辨率,实现了高效的端到端密度图估计。 * 多列网络: 使用多个并列的、具有不同感受野的卷积列来处理不同大小的人头,是处理透视畸变的经典结构。例如,MCNN(Multi-Column Convolutional Neural Network)是这类方法的先驱,其三列网络分别对应近、中、远距离的人头特征。 * 多任务网络: 同时学习多个相关任务,以共享特征、提高效率和减少过拟合。例如,DecideNet同时执行基于检测的计数和基于密度图回归的计数,并通过一个质量网络动态融合两者的结果,以适应图像中不同密度区域的计数需求。 * 注意力网络: 引入注意力机制,让模型聚焦于图像中重要的区域。例如,SAAN(Scale-Aware Attention Network)结合全局尺度注意力和局部尺度注意力来评估和关注图像不同区域的密度等级,从而生成更准确的密度图。 * 弱监督网络: 使用弱监督信号(如仅图像级标签)进行训练,以减轻对大量精细标注数据的依赖。例如,GWTA-CCNN使用一种基于自编码器-解码器的门控赢家通吃(GWTA)方法在未标注数据上进行预训练,然后再用少量标注数据微调,有效利用了无标签数据。 对于每一类方法,作者都详细描述了至少一个经典算法的网络结构、核心思想和数学公式。

4. 对过去五年(2019-2023年初)超过110种人群计数方法在七种流行数据集上的性能进行了量化的评估和比较。 作者收集整理了114篇相关论文的结果,在三个层级(小规模:UCSD, Mall;大规模:WorldExpo’10, ShanghaiTech B;超大规模:ShanghaiTech A, UCF-QNRF, UCF_CC_50)的经典数据集上,以平均绝对误差(Mean Absolute Error, MAE)和均方根误差(Root Mean Squared Error, RMSE)作为评价指标,制作了详细的性能对比表格。表格中突出显示了每个数据集上表现最优(前三位)的算法结果。这部分工作为读者提供了一个直观、全面的性能基准,展示了不同算法在不同难度场景下的优势和不足,也反映了该领域近年来的进展趋势。

5. 从数据、算法和计算资源三个角度,讨论了人群计数领域当前面临的理论与实践挑战,并对未来研究方向进行了展望。 * 数据层面: 尽管数据集数量增多,但具有针对性的新鲜数据集仍然缺乏。小规模数据集的研究进展放缓;大规模和超大规模数据集的研究似乎接近饱和点。模拟数据(如GCC数据集)的利用是一个方向,但其与现实数据的差异仍需克服。 * 算法层面: 算法的研究正朝着多种方法结合的方向发展。处理现实世界复杂场景(如光照变化、严重遮挡、极端密集)和实现实时处理大规模人群仍然是挑战。迁移学习被用来克服小数据集限制。开发有效的人群计数算法仍然是计算机视觉和人工智能领域一项重要且具有挑战性的任务。 * 计算资源: 随着模型复杂度和数据规模的提升,对计算资源的需求也在增加。 作者总结认为,人群计数领域虽然取得了显著进步,但在处理实际应用中的复杂性和实时性要求方面仍有很长的路要走,未来充满研究机遇。

本综述论文的价值与意义在于: 它不仅仅是对现有算法的罗列,而是建立了一个以数据为核心的系统性分析框架。通过提出的TSDT分类法和APO指标,该文为数据集评估和算法比较提供了新的、更科学的维度。从数据驱动视角进行的算法分类,也深化了对不同方法设计初衷和适用场景的理解。对大量算法性能的系统性整理为后续研究提供了宝贵的基准参考。最后,对挑战和未来方向的讨论,为该领域的研究者指明了需要突破的关键问题。因此,这篇综述对于刚进入该领域的新手,以及寻求创新点的资深研究人员,都具有很高的参考价值和指导意义。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com