GMConv:实现对神经网络卷积核有效感受野的调节

GMConv:实现对神经网络卷积核有效感受野的调节

前言

卷积神经网络(Convolutional Neural Networks,简称CNNs)通过卷积核的使用在计算机视觉任务上取得了显著的成功,包括图像分类、目标检测等。然而,近年来视觉转换器(Vision Transformers,简称ViTs)的出现逐渐受到关注,因为它们在视觉识别任务中表现优异,有时甚至超越了CNNs。尽管如此,改善CNNs的努力从未止步,许多研究工作致力于设计新的CNN架构,特别是大核卷积CNNs在准确性等方面展现了与最先进的ViTs相媲美的表现。

本文研究的重点在于CNN中的有效感受野(Effective Receptive Fields,简称ERFs),ERF表示特定输入像素对输出像素的贡献。研究发现ERFs通常呈高斯分布,基于这一特性,作者提出了高斯掩码卷积核(Gaussian Mask Convolutional Kernel,简称GMConv),以在保留标准卷积核结构的前提下,通过高斯函数生成一个同心对称掩码,调整卷积核的感受野。

文献来源

本文由Chen Qi、Li Chao、Ning Jia、Stephen Lin和He Kun(通讯作者)撰写,作者分别来自于华中科技大学和微软亚洲研究院。论文发表于IEEE Transactions on Neural Networks and Learning Systems。

研究背景

尽管已有的卷积神经网络(CNNs)在计算机视觉任务中表现出色,但标准的方形卷积核在感受野(Receptive Field,简称RF)的设计上存在一定局限。现有研究表明,ERF的分布通常是呈高斯分布,而不是均匀的方形。在这一背景下,研究的重点转向了如何更有效地调整ERF,以提高卷积神经网络的表现。这也是本文作者提出GMConv的动机,通过高斯掩码来调整卷积核的感受野,提高图像分类和目标检测的性能。

研究方法

研究流程

  1. GMConv的提出: GMConv主要由静态版本(S-GMConv)和动态版本(D-GMConv)组成。S-GMConv仅需一个额外的参数(σ)来生成同心圆的掩码,而D-GMConv则需要更多参数控制掩码分布并具有动态Sigma模块,能根据输入动态预测特定的sigma参数。

  2. GMConv的实现: GMConv基于高斯函数生成一个掩码,并将其应用于标准卷积核,从而调整卷积核的感受野。掩码的生成过程通过高斯分布函数,最大限度地避免极值的生成,并保持RF的有效性。

  3. GMConv在CNN中的应用: GMConv可以无缝集成到现有的CNN架构中,通过将标准卷积核替换为GMConv卷积核,可显著提升模型在多个基准数据集上的表现。

实验设计

实验在多个标准数据集上进行了验证,包括CIFAR-10及CIFAR-100用于图像分类,ImageNet用于大规模图像分类,和COCO 2017用于目标检测。基于这些基准数据集,作者对GMConv在不同网络架构中的性能进行了全面比较,并进行了消融研究分析GMConv的不同方面。

主要结果

  1. CIFAR数据集上的结果: 在ResNet-20、ResNet-56和ResNet-18上进行测试,并进行了多次实验,结果都显示GMConv显著提升了模型的准确率。具体表现为,标准模型与GMConv模型在参数量及计算复杂度基本一致的前提下,准确率均有显著提升。

  2. ImageNet上的结果: 实验表明,采用GMConv的模型表现出更高的Top-1准确率,尤其是对于大核网络如AlexNet,其Top-1准确率提高了0.98%。

  3. COCO目标检测的结果: 在Faster R-CNN和Cascade R-CNN架构上,GMConv显著提升了目标检测的性能,尤其是在中小型目标检测方面表现出色。

消融研究

  • 静态GMConv的效果: 静态版本的GMConv(简称S-GMConv)在大部分基准模型中表现出色。尽管存在一些特例,如MobileNetV2,可能由于采用的小卷积核受限,而未能显著提升性能。

  • 初始σ值的影响: 不同初始σ值的比较表明,适当的初始感受野(如σ = 5)能够稳定提高模型性能,而过大的σ值可能会降低性能。

  • 动态GMConv的设计: 通过动态Sigma模块预测掩码生成参数σ1和σ比率的设计,能够显著提高模型的表现。

可视化分析

  • 感受野掩码的可视化: 可视化结果表明,GMConv主要影响的是CNN的浅层感受野。相比标准卷积,GMConv在浅层网络中的较小感受野和在深层网络中的较大感受野都更有利于模型性能的提升。

  • 有效感受野的可视化: GMConv在目标检测任务中展示了更紧凑的有效感受野(ERF),尤其在检测小目标时表现更为精准。与变形卷积结合,还能缓解ERF的分散问题,实现更精确和密集的ERF。

结论

作者提出的GMConv通过高斯掩码调整卷积核的感受野,显著提高了神经网络在图像分类和目标检测任务中的表现。静态版本和动态版本的GMConv分别针对卷积网络的不同层次设计,以实现效果和复杂度之间的平衡。实验结果表明,GMConv能够在保持现有CNN架构基础上显著提升模型性能,尤其是在浅层感受野较小的情况下更为有效。未来的神经网络设计可以借鉴这一发现,从而设计出更加高效的网络架构。