分享自:

基于改进MobileNet V2的垃圾图像分类算法

期刊:浙江大学学报 (工学版)DOI:10.3785/j.issn.1008-973x.2021.08.010

基于改进MobileNet V2的垃圾图像分类算法研究报告

一、 研究基本信息

本研究由江西理工大学电气工程与自动化学院及江西省磁悬浮技术重点实验室的陈智超、焦海宁、杨杰、曾华福共同完成。研究成果以题为《基于改进mobilenet v2的垃圾图像分类算法》的论文形式,发表于《浙江大学学报(工学版)》2021年8月第55卷第8期。

二、 学术背景与研究目的

本研究属于计算机视觉与人工智能应用领域,具体聚焦于深度学习模型在图像分类任务中的优化与应用。随着城市化进程加快,生活垃圾数量剧增,“垃圾围城”危机日益严峻。智能垃圾分类是提升资源利用率、解决垃圾困境的关键措施。然而,垃圾分类的实践面临居民意识不强、种类繁多难以精确分类等挑战。因此,开发高效、准确的自动化垃圾分类技术具有重要的现实意义。

深度学习,特别是卷积神经网络(Convolutional Neural Network, CNN),在图像分类任务上已展现出超越人眼的性能,为智能垃圾分类提供了技术基础。然而,主流的高精度CNN模型(如VGG、ResNet)通常参数量巨大、计算复杂,难以部署在计算资源有限的边缘设备(如智能垃圾桶、移动终端)上以实现实时分类。尽管已有SqueezeNet、MobileNet等轻量级网络,但在垃圾图像分类任务中,如何在保证高精度的同时进一步降低模型复杂度、提升推理速度,仍是一个待深入研究的课题。

基于此背景,本研究旨在解决现有垃圾图像分类模型存在的实时性能差与分类精度低之间的矛盾。研究目标明确:构建一个兼具低消耗(参数量少、计算量小、推理速度快)与高精度的轻量级垃圾图像分类模型,以期能高效部署于边缘计算设备,推动智能垃圾分类的实际应用。

三、 详细研究流程与方法

本研究是一项系统的算法设计与验证工作,主要流程包括:算法设计(模型改进)、数据集构建、实验环境搭建、模型训练、消融实验、对比实验及性能测试。

1. 算法核心设计(模型改进) 研究以轻量级网络MobileNet V2为核心骨架,并进行了四项关键改进,旨在压缩模型的同时提升其特征提取与分类能力。 * 宽度因子调整:MobileNet系列网络引入“宽度因子”(Width Multiplier)这一超参数,用于按比例缩放每层网络的通道数。本研究将宽度因子α设置为0.5,即将MobileNet V2各层通道数减半。此举能显著降低模型参数量和计算量(理论上降至约原始的1/4),尽管会带来一定的精度损失,但为后续优化提供了更轻量的基础。 * 嵌入通道与空间注意力模块:为了增强网络对关键特征的聚焦能力,研究在MobileNet V2的每个步长为1的“反向残差模块”(即带有残差连接的瓶颈结构)中,嵌入了卷积块注意力模块(Convolutional Block Attention Module, CBAM)。该模块依次包含通道注意力子模块和空间注意力子模块。通道注意力通过同时利用全局平均池化和最大池化,生成通道维度上的权重,强化重要特征通道。空间注意力则通过聚合通道信息,生成空间维度上的权重图,突出特征图中的关键空间区域。改进后的模块被命名为bottleneck_a。此操作以微小的参数量增加为代价,引导网络学习“看哪里”和“看什么”,抑制无关特征。 * 设计多尺度特征融合结构:为了提升网络对不同尺度目标的适应性,研究借鉴了GoogLeNet的Inception思想,针对步长为2(即进行下采样)且不带残差连接的瓶颈结构进行了改造。原始结构使用单一的3x3深度可分离卷积。改进后的结构,命名为bottleneck_i,采用三条并行支路:分别进行1x1、3x3和5x5的深度可分离卷积特征提取。最后,将三个支路的输出特征图进行“相加”(而非拼接)融合。这种设计使网络能同时捕获不同感受野下的特征,增强了模型的尺度鲁棒性,且通过“相加”操作控制了参数量的增长。 * 采用迁移学习策略:为了优化模型参数初始化,避免从零训练,研究采用了迁移学习方法。具体步骤为:下载在大型通用图像数据集ImageNet上预训练的MobileNet V2权重;在加载到改进后的模型时,跳过那些因结构改变(如新增的注意力模块、多尺度结构)而无法对应的层参数;用这些预训练权重初始化模型的可匹配部分。这有助于模型在特定的垃圾数据集上更快、更好地收敛。

改进后的整体网络结构如图1和表1所示,其通道数减半,并在特定位置嵌入了bottleneck_abottleneck_i模块。

2. 数据集与实验环境 * 数据集:由于缺乏标准的垃圾图像数据集,研究团队自建了一个包含14类生活垃圾的数据集,共计4256张图像。类别包括毛巾、塑料袋、纸团、包装袋、橘子皮、金属块、灯泡、树叶、纸箱、碎玻璃、瓶子、书、电池、香蕉皮。数据集涵盖了单物体、多同类物体、复杂背景等多种场景,并包含了光照变化、运动模糊等干扰。数据集按7:2:1的比例划分为训练集、验证集和测试集。 * 实验环境:训练平台配置了Intel Core i5-8500 CPU和两张Tesla P100 GPU,操作系统为Ubuntu 14.04,使用PyTorch 1.7.0深度学习框架。边缘测试设备为NVIDIA Jetson TX2嵌入式AI计算平台。 * 训练细节:训练时采用了随机裁剪、随机翻转、随机亮度变换等数据增强技术以提升模型泛化能力。使用Adam优化器,初始学习率为0.001,损失函数为交叉熵损失。共训练200个周期(Epoch),批量大小(Batch Size)为16。

3. 实验设计与分析流程 * 消融实验:为了验证各项改进措施的有效性,研究设计了系统的消融实验。在基础MobileNet V2模型上,逐步添加改进措施(压缩宽度因子、加入CBAM、引入多尺度结构、使用迁移学习),并在自建垃圾测试集上记录模型准确率和参数量变化。这有助于量化每项改进的独立贡献。 * 对比实验:为了评估所提算法的综合性能,研究将其与多个经典和流行的CNN模型进行对比,包括MobileNet V2、VGG16、GoogLeNet、ResNet50、ResNet101。所有模型在相同的自建数据集上训练和测试,比较指标包括测试集Top-1准确率、模型参数量以及在CPU上的单张图片推理时间。此外,为了验证算法的普适性,还在两个公共图像分类数据集CIFAR-100和Tiny-ImageNet上进行了额外测试。 * 性能测试:将最终模型部署到边缘设备Jetson TX2上,进行实际推理速度测试。连续进行100次图像识别,统计平均耗时。同时,对一组真实场景下的垃圾图片进行识别,可视化预测结果及置信度,直观展示模型的实用性能。

四、 主要研究结果

1. 消融实验结果(对应表4) 消融实验清晰地展示了各项改进的贡献: * 仅将MobileNet V2的宽度因子压缩至0.5时,模型参数量从2.24M大幅降至0.59M,但准确率从92.6%下降至90.4%。这证实了压缩宽度因子能以可接受的精度损失换取模型的大幅轻量化。 * 在压缩宽度的基础模型上,仅加入CBAM注意力模块,准确率提升1.7%至92.1%,参数量仅增加0.02M。证明了注意力机制能以极小开销有效提升特征提取质量。 * 在压缩宽度的基础模型上,仅引入多尺度特征融合结构,准确率提升1.3%至91.7%,但参数量增加较多(至3.09M),说明该结构在提升性能的同时会带来一定的参数量增长。 * 在压缩宽度的基础模型上,仅使用迁移学习,准确率提升0.8%至91.2%。 * 最终,结合所有改进措施(宽度因子0.5 + CBAM + 多尺度融合 + 迁移学习)的完整算法,在自建垃圾测试集上达到了94.6%的平均准确率,显著高于基础MobileNet V2的92.6%,同时参数量仅为0.83M,约为原模型(2.24M)的2/5。 这充分证明了本研究改进策略的有效性,成功实现了在显著降低模型复杂度的同时提高分类精度。

2. 算法对比与分析结果 * 在自建垃圾数据集上(对应表6、图8):本研究算法(94.6%)的准确率不仅高于基础的MobileNet V2(92.6%),也超过了VGG16(91.2%)、GoogLeNet(91.4%)、ResNet50(92.3%)和ResNet101(93.4%)。在模型大小方面,0.83M的参数量远低于ResNet101的42.53M和VGG16的70.32M。在CPU推理速度上,本算法单张图片耗时37.97ms,也快于所有对比模型。训练曲线(图8)显示,本算法收敛后的准确率最高,且训练过程稳定。 * 在公共数据集上的普适性验证(对应表5):在CIFAR-100和Tiny-ImageNet数据集上,本研究算法的准确率分别为75.4%和68.4%,均超过了标准MobileNet V2(74.0%, 66.2%),仅次于层数最深、模型最复杂的ResNet101。这表明本算法的改进具有通用性,并非只针对垃圾数据集过拟合,在其他分类任务上也能保持竞争力。 * 边缘设备部署性能(对应图9):在Jetson TX2上的实测显示,本算法平均单次推理耗时仅为68ms,低于标准MobileNet V2的83ms,更远快于ResNet101等大型模型(超过300ms)。这证明了其优异的实时性,满足边缘部署需求。 * 识别结果可视化(对应图10):对真实场景垃圾图像的测试表明,模型在单物体、多物体及复杂背景下的各类垃圾上均能给出高置信度的准确分类,展示了良好的实际应用潜力。

五、 研究结论与价值

本研究成功提出并验证了一种基于改进MobileNet V2的轻量级高精度垃圾图像分类算法。通过系统性地结合宽度因子压缩、通道与空间注意力机制(CBAM)、多尺度特征融合以及迁移学习四项技术,该算法在自建垃圾数据集上取得了94.6%的分类准确率,同时将模型参数量压缩至0.83M,并在边缘设备上实现了68ms的快速推理。

科学价值:本研究为轻量级神经网络的设计提供了有价值的思路。它展示了通过注意力机制增强特征选择能力、通过多尺度融合提升尺度适应性,可以在大幅压缩模型规模(宽度因子)的同时,有效弥补甚至提升模型性能。这种“轻量化+增强”的组合策略对资源受限下的深度学习模型部署具有方法论上的参考意义。

应用价值:该算法直接面向智能垃圾分类的实际应用需求。其低参数量、低计算开销和高精度的特点,使其能够高效部署在算力有限的嵌入式设备或移动终端上,为开发实时、低成本的智能垃圾分类箱、垃圾分类APP或辅助分类系统提供了可行的核心技术方案,有助于推动垃圾分类的自动化与智能化,具有明确的社会效益和环保意义。

六、 研究亮点

  1. 高效的性能提升组合:研究并非简单堆砌技术,而是通过消融实验科学地验证了压缩宽度因子、嵌入注意力模块、引入多尺度结构、应用迁移学习这四项改进各自的作用及其组合效应,找到了在轻量化和高精度之间取得优异平衡点的有效路径。
  2. 针对性的结构改进:将CBAM注意力模块巧妙地嵌入到MobileNet V2的特定瓶颈结构中(bottleneck_a),并将多尺度融合结构(bottleneck_i)专门应用于下采样层,这些改进与网络原有结构深度融合,具有高度的针对性。
  3. 兼顾学术标准与实用导向:研究不仅在自建数据集上验证效果,还使用了CIFAR-100和Tiny-ImageNet两个学术界公认的基准数据集进行泛化能力测试,增强了结论的说服力。同时,在Jetson TX2边缘设备上的速度测试和真实图像识别演示,充分体现了研究的实用化导向和工程落地价值。
  4. 详实的对比分析:与VGG、GoogLeNet、ResNet等多个不同规模的经典模型进行全方位对比(精度、参数量、速度),清晰地定位了所提算法在精度-效率权衡曲线上的优势位置。

七、 其他有价值的内容

研究在讨论部分也指出了当前工作的局限性:该算法主要针对单标签图像分类,即一张图片中主要包含一类垃圾。对于包含多个不同类别垃圾的复杂场景图片(多标签分类),算法存在不足。作者指出,未来的研究重点将是把任务拓展为多标签分类,以实现对图像中多个物体的同时识别与分类,从而适应更广泛的垃圾分类应用场景。这为后续研究指明了方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com