本文介绍了一项由重庆邮电大学复杂系统智能分析与决策重点实验室的韩晓良、陈佳昌和周伟松(通讯作者)共同完成的研究。该研究成果以论文《基于3d注意力的mobilenet图像分类算法改进》的形式,发表于2023年6月的《重庆邮电大学学报(自然科学版)》(Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition))第35卷第3期。这项研究属于计算机科学领域,具体聚焦于人工智能与计算机视觉中的图像分类任务,旨在解决轻量级卷积神经网络(Convolutional Neural Network, CNN)在移动或嵌入式设备上部署时面临的模型精度与计算资源限制之间的矛盾。
研究的学术背景源于深度学习在图像分类领域的巨大成功以及随之而来的模型复杂化问题。随着AlexNet、VGGNet、GoogleNet和ResNet等经典深度网络的出现,图像分类精度大幅提升,但这些模型通常参数量巨大、计算复杂,难以直接部署在计算能力和存储空间有限的移动设备上。为此,Google提出了MobileNet系列轻量级网络,其核心是深度可分离卷积(Depthwise Separable Convolution),能显著减少模型参数和计算量。然而,轻量化往往伴随着特征表达能力的下降,MobileNetV2等网络在图像分类任务中存在特征提取不足的问题。同时,注意力机制(如SENet、CBAM)被证明能有效提升CNN性能,但通常会增加额外的参数。因此,本研究的目标是探索一种在不显著增加参数量的前提下,有效提升MobileNet网络特征表达能力和分类精度的改进策略。具体而言,研究者旨在结合一种新颖的无参数注意力机制,并对MobileNetV2的基础模块进行改造,以增强其多尺度特征提取和信息保留能力。
该研究的详细工作流程围绕网络架构的创新设计、模块替换与优化展开,主要包括以下几个关键步骤:
首先,研究者对MobileNetV2的基础构建块——倒残差模块(Inverted Residual Module)进行了分析,指出其先升维后降维的结构可能导致信息损失和梯度混淆。为解决此问题,他们提出了一个全新的模块,称为I-Block模块,用以替代原始的倒残差模块。I-Block模块的设计核心是在更高维度上进行恒等映射与空间变换,旨在减少信息在传递过程中的损失。具体而言,在I-Block模块的第二个深度卷积(Depthwise Convolution)部分,研究者引入了GoogleNet的Inception结构,并行使用3x3和5x5两种不同尺寸的卷积核进行深度卷积操作。这种设计使得网络能够在同一层级捕获多尺度的特征信息,从而增强特征表达。此外,为了缓解ReLU激活函数可能导致的部分神经元“死亡”问题(即负值输入完全被置零,导致某些权重无法更新),研究者在所有卷积层中使用RReLU(Randomized Leaky ReLU)激活函数替代原ReLU。RReLU允许负值输入乘以一个在训练阶段从固定范围内随机采样、在测试阶段取平均值的斜率,从而保留更多的负值特征信息,减少神经元失活现象。
其次,研究的关键创新在于引入了一种名为“3D注意力”的无参数注意力模块,并将其与上述I-Block模块相结合。该注意力机制的灵感来源于人脑的注意力机制与视觉神经科学中的“空域抑制”现象。研究者设计了一个能量函数来衡量特征图中每个神经元的重要性:能量越低的神经元,其激活模式与周围神经元的差异越大,被认为越重要、信息越丰富。通过推导能量函数的快速闭环解,可以直接为特征图在通道和空间两个维度(合称3D)上分配注意力权重,而无需引入任何可学习的参数。这一过程完全基于特征图本身的统计特性进行计算,因此是一种高效且参数自由的注意力机制。研究者将计算得到的3D注意力权重应用于I-Block模块中的深度卷积部分,使得网络能够自适应地聚焦于更重要的特征通道和空间位置。
第三,基于上述组件,研究者构建了完整的改进型MobileNet网络。网络整体结构沿用了MobileNetV2的框架,但用集成了3D注意力机制的I-Block模块替换了所有原始的倒残差模块。网络的具体参数配置(如升降维倍数t、通道数c、模块重复次数n、步距s等)在论文的表1中详细列出,并针对CIFAR数据集的图像尺寸(32x32)调整了部分步距。网络的末端采用全局平均池化层(Global Average Pooling)和全连接层进行分类。整个网络的设计确保了其在保持轻量级特性的同时,增强了多尺度特征提取和注意力聚焦能力。
第四,在算法实现与训练流程方面,研究采用PyTorch框架进行实验。训练前,对CIFAR-10和CIFAR-100数据集进行了划分(5/6训练,1/6验证)和数据扩增(如随机旋转、裁剪)。网络采用随机梯度下降(SGD)优化器,初始学习率设为0.05,并采用阶梯式衰减策略(在第60和90个训练周期时学习率降至原来的1/10和1/100)。批量大小(Batch Size)设置为256。训练过程中,记录每个周期(Epoch)在验证集上的分类精度(Accuracy)和损失(Loss),并保存最佳模型参数。
该研究取得了一系列明确的结果,并通过与多种基线模型的对比验证了其有效性。
在训练过程可视化方面,论文的图6和图7分别展示了原始MobileNetV2、结合了SE注意力模块的MobileNetV2以及结合了3D注意力模块的改进网络(即本研究提出的方法)在CIFAR-10和CIFAR-100数据集上的验证集精度随训练周期变化的曲线。曲线清晰显示,结合了3D注意力的改进网络在训练收敛后,在两个数据集上的最终精度均高于其他两种网络,尤其是在更复杂的CIFAR-100数据集上,优势更为明显。这初步证明了3D注意力机制的有效性。
最核心的实验结果体现在最终的精度与参数量对比上,如论文表2所示。研究者将提出的方法与多种先进或相关的轻量级网络模型进行了全面比较,包括:原始MobileNetV2、仅使用RReLU激活函数的MobileNetV2、结合了SE(Squeeze-and-Excitation)注意力机制的MobileNetV2、结合了CBAM(Convolutional Block Attention Module)注意力机制的MobileNetV2、ShuffleNetV2以及GhostNet。对比指标包括在CIFAR-10和CIFAR-100数据集上的最高分类精度,以及网络的参数量(以百万计,M)。
实验数据显示,本研究提出的“MobileNetV2+3D”模型在CIFAR-10数据集上取得了94.09%的最高精度,在CIFAR-100数据集上取得了75.35%的最高精度。尤为关键的是,在取得最高精度的同时,该模型的参数量(CIFAR-10: 2.29M, CIFAR-100: 2.41M)与原始MobileNetV2几乎相同,并且显著低于同样引入了注意力机制的SE-MobileNetV2(2.41M, 2.52M)和CBAM-MobileNetV2(2.42M, 2.53M),也低于ShuffleNetV2(2.49M, 2.58M)和GhostNet(3.31M, 3.43M)。这一结果强有力地证明了本研究所提出的改进策略的高效性:即在不增加(甚至少于某些对比方法)网络参数量的前提下,实现了分类精度的显著提升。具体来看,与原始MobileNetV2相比,在CIFAR-10上精度提升了1.77个百分点,在更困难的CIFAR-100上精度提升了2.22个百分点。即使与增加了参数的SE和CBAM注意力机制相比,本研究的无参数3D注意力机制也取得了更高的精度,说明其提供的注意力权重更为有效。
这些结果逻辑连贯地支撑了研究的每一步设计:使用RReLU激活函数保留了更多特征(与仅用RReLU的基线对比有提升);设计的I-Block模块结合Inception结构增强了多尺度特征提取能力;而无参数的3D注意力机制则高效地引导网络关注关键特征,最终共同作用,使得改进后的轻量级网络在参数效率(参数量/精度)上达到了更优的平衡。
本研究的结论是,通过结合无参数的3D注意力机制、改进的I-Block模块(内含多尺度Inception结构)以及RReLU激活函数,成功地对MobileNetV2网络进行了有效改进。改进后的网络在CIFAR-10和CIFAR-100图像分类数据集上,以最少的网络参数量取得了相比原始网络及多种其他改进方案更高的分类精度。这证实了该改进方法能够有效地增强轻量级网络的特征表达能力,同时保持其参数效率高的核心优势,从而更适用于计算资源受限的移动和嵌入式设备上的快速图像分类任务。
此项研究的价值体现在多个层面。在科学价值上,它提出了一种新颖的无参数注意力机制计算方法(基于能量函数和空域抑制原理),为注意力机制的研究提供了新的思路;同时,它对轻量级网络模块(倒残差模块)的改进(I-Block)也为设计更高效的网络结构提供了参考。在应用价值上,该方法直接提升了轻量级模型在标准图像分类基准上的性能,有助于推动高精度、低功耗的AI模型在手机、物联网设备等终端上的实际部署,具有明确的工程应用前景。
本研究的亮点突出体现在以下几个方面:1. 方法新颖性:提出并应用了一种基于能量函数的无参数3D注意力机制,该机制无需增加可训练参数即可实现通道与空间的协同注意力,是对现有参数化注意力机制(如SE、CBAM)的一种创新补充。2. 高效改进策略:通过模块化设计(I-Block),将多尺度特征提取(Inception)、改进的激活函数(RReLU)和无参数注意力(3D Attention)有机融合,形成了一个协同增效的轻量级网络改进方案。3. 显著的性能提升:在主流图像分类数据集CIFAR-10和CIFAR-100上,以几乎不增加参数量的代价,取得了超越原始模型及多种主流轻量级模型和注意力增强模型的分类精度,尤其在更复杂的百分类任务上提升更为明显,证明了其处理复杂任务的能力。4. 明确的实用性:整个研究围绕轻量级网络的落地应用展开,所有改进均考虑了计算复杂度和参数量的约束,最终模型保持了高度的实用性。
此外,论文中还提及了未来工作方向,即进一步优化I-Block模块以使其胜任更多样化的分类任务,这显示了研究的延续性和开放性。论文的实验设计严谨,对比基线选择合理(涵盖了原始模型、不同注意力机制模型、其他轻量级模型),结果分析数据支撑充分,是一篇较为完整和扎实的轻量级神经网络改进研究。