基于粒子群优化的柔性卷积自编码器在图像分类中的应用

分享自：
基于粒子群优化的柔性卷积自编码器在图像分类中的应用

期刊:arXiv
这篇文档属于类型a。
本研究由Yanan Sun、Bing Xue、Mengjie Zhang和Gary G. Yen共同完成，分别来自新西兰惠灵顿维多利亚大学工程与计算机科学学院以及美国俄克拉荷马州立大学电气与计算机工程学院。这项研究发表于IEEE Transactions on Neural Networks and Learning Systems期刊上。
在深度学习领域，卷积自编码器（Convolutional Auto-Encoders, CAEs）因其出色的性能而备受关注。然而，传统的CAE存在一个重大限制：其堆叠的卷积神经网络（CNNs）架构与当前最先进的CNNs（如ResNet和VGGNet）不一致。这种不一致性主要源于传统CAE中卷积层和池化层的数量相同，而现代CNNs则具有不同的卷积层和池化层数量。为了解决这一问题，本研究提出了一种灵活的卷积自编码器（Flexible Convolutional Auto-Encoder, FCAE），并设计了一种基于粒子群优化（Particle Swarm Optimization, PSO）的架构发现方法（PSOAO）。该方法能够自动搜索FCAE的最佳架构，显著减少了计算资源需求，并且无需人工干预。
本研究的主要目标是开发一种新颖的PSO算法（PSOAO），以自动发现用于图像分类问题的FCAE的最佳架构。为了实现这一目标，研究人员首先定义了具有构建最先进的深度卷积神经网络潜力的FCAE。然后，他们设计了一种高效的编码策略，能够表示PSOAO中的不同长度粒子，并开发了一种有效的速度更新机制。通过这些创新，FCAE能够实现“最佳”架构，并在四个基准数据集上与五个竞争对手进行比较，其中包括最先进的算法。
研究工作流程包括以下几个步骤：首先，研究团队提出了FCAE，其中包含多个卷积层和池化层，不受特定卷积层数量和池化层数量的限制。其次，他们设计了PSOAO算法，用于优化FCAE架构。在PSOAO中，研究团队提出了一种高效编码策略，将FCAE架构（涉及数十万参数）编码到每个粒子中，并开发了一种针对可变长度粒子的有效速度更新机制。第三，研究团队在图像分类基准数据集（CIFAR-10、MNIST、STL-10和Caltech-101）上测试了所提出的FCAE架构，并将其分类精度与同行竞争者进行了比较，同时评估了PSOAO的进化效果。最后，研究团队通过定量实验验证了所设计的速度更新方法的有效性。
具体来说，研究团队在PSOAO算法中采用了以下步骤：首先，根据提出的编码策略初始化粒子，预定义最大代数maxt，并初始化计数器t = 0；其次，评估粒子的适应度；第三，对于每个粒子，从其记忆中选择最佳粒子pbesti；第四，从所有粒子的历史记录中选择最佳粒子gbest；第五，根据公式(2)计算每个粒子{x1, ···, xi, ···}的速度{v1, ···, vi, ···}；第六，根据公式(3)更新每个粒子{x1, ···, xi, ···}的位置{p1, ···, pi, ···}；第七，如果t < maxt，则重复步骤2至6，否则转至步骤8；第八，报告gbest的位置。
实验结果表明，FCAE在所有基准数据集上的表现优于传统自编码器（SSAE和SDAE）和传统CAE（SCAE和SCRBM）。此外，FCAE还在这些基准数据集上超越了最先进的CAE（SCDAE-1和SCDAE-2）。特别是，SFCAE-2在CIFAR-10和MNIST数据集上取得了最佳结果，而SFCAE-1在STL-10和Caltech-101数据集上表现最佳。值得注意的是，由于STL-10和Caltech-101数据集中训练实例较少，SFCAE-2在这两个数据集上的表现不如SFCAE-1，这主要是因为更深的架构容易出现过拟合问题。
为了进一步验证PSOAO算法的有效性，研究团队绘制了其在训练阶段的进化轨迹图。结果显示，PSOAO在指定的最大代数内收敛。具体而言，在所有基准数据集上，SFCAE-1和SFCAE-2均在大约第15代开始收敛，而在CIFAR-10和Caltech-101数据集上，SFCAE-2在大约第5代开始收敛。
此外，研究团队还研究了FCAE在不同数量训练样本下的分类性能。实验结果表明，SFCAE-2在这两个数据集上超过了所有同行竞争者。特别是在训练样本数量较少的情况下，SFCAE-2在MNIST数据集上的分类准确率提高了4.72%，在CIFAR-10数据集上的分类准确率提高了6.09%。这些结果展示了SFCAE-2在处理不同数量训练样本时的出色可扩展性。
为了验证所提出的x-reference速度更新方法的优越性，研究团队将其替换为PSOAO算法中的gbest-reference速度更新方法，并在选定的基准数据集上比较了性能。实验结果表明，使用x-reference速度更新方法时，SFCAE-1在CIFAR-10、MNIST、STL-10和Caltech-101基准数据集上的分类准确率分别提高了5.7%、8.8%、5.9%和7.9%。同样，SFCAE-2在这些选定的基准数据集上的分类准确率也得到了显著提高，分别提高了7.7%、10.6%、5.6%和9.6%。
分析和实验结果充分证明了所提出的x-reference速度更新方法在PSOAO算法中的有效性。
最后，研究团队详细介绍了获得的架构配置。这些架构基于设计的编码策略，编码策略旨在模仿传统卷积神经网络（CNNs）的结构，即由若干块组成，每块由若干卷积层后接池化层组成。获得的架构遵循传统CNNs和已知手动设计网络（如VGGNet）的结构。然而，由于跳连接和密集连接的存在，获得的架构与最近著名的CNNs（如ResNet和DenseNet）有所不同。
本研究成功开发了一种新颖的PSO算法（PSOAO），能够自动发现用于图像分类问题的FCAE的最佳架构。FCAE在所有采用的基准数据集上的分类准确率显著优于所有比较算法。此外，FCAE仅使用一个构建块即可在STL-10和Caltech-101基准数据集上超越使用两个构建块的最先进算法。此外，当仅使用1k、2k、3k、5k和10k训练图像的MNIST基准数据集时，FCAE达到了最佳分类准确率，并且在仅使用1k和10k训练图像的CIFAR-10基准数据集上显著优于三个同行竞争者。此外，PSOAO算法还展示了快速收敛的优秀特性，并通过定量比较对手验证了其有效速度更新机制。
尽管深度CNNs已经在图像分类方面取得了当前最先进的成果，但其架构和超参数仍然主要依赖于基于领域专业知识/知识的手动调整。本文提供了一个方向，表明这种手动工作可以通过进化方法实现的自动学习来替代。在未来，研究团队将研究更简单的进化方法，以使用更少的计算资源应用于更复杂的CNN模型。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问