类型a
主作者与研究机构及发表信息
本文的主要作者包括Yangyang Li、Junjie Xiao和Yanqiao Chen(通讯作者),以及Licheng Jiao。这些作者均来自西安电子科技大学人工智能学院,隶属于智能感知与图像理解教育部重点实验室、国际智能感知与计算研究中心、联合国际智能感知与计算实验室等研究机构。该研究发表于期刊《Neurocomputing》,文章标题为“Evolving Deep Convolutional Neural Networks by Quantum Behaved Particle Swarm Optimization with Binary Encoding for Image Classification”,接收日期为2019年7月14日。
学术背景
卷积神经网络(Convolutional Neural Network, CNN)在图像分类等机器学习任务中表现出色,但其性能高度依赖于网络架构的设计。然而,设计最优的CNN架构是一项复杂且耗时的任务。传统的进化计算方法(如遗传编程和遗传算法)虽然已被用于设计CNN架构,但仍存在诸多局限性,例如需要人工干预、搜索效率低等问题。粒子群优化(Particle Swarm Optimization, PSO)因其简单易实现、计算成本低、参数少等特点,在优化问题中具有潜力,但在应用于CNN架构设计时仍面临固定长度编码、离散解空间搜索效率低下等挑战。本文旨在通过提出一种基于量子行为粒子群优化(Quantum Behaved Particle Swarm Optimization, BQPSO)的自动设计算法,克服传统PSO在CNN架构设计中的局限性,并实现完全自动化的设计流程。
研究流程
本研究的工作流程分为以下几个步骤:
粒子编码策略
为了将CNN架构配置转化为粒子向量,研究提出了一种全新的二进制编码策略。每个粒子向量由固定长度的二进制字符串组成,每个字符串对应一个CNN层的配置,包括层ID和参数。这种编码策略避免了传统方法中需要手动调整参数顺序的问题,确保了每种网络层和参数的进化机会均等。例如,卷积层的过滤器大小、特征图数量和步幅大小等参数被转换为二进制字符串并统一编码。此外,研究引入了“禁用层”(disabled layer)以隐藏某些网络层,从而实现可变长度的CNN架构。
种群初始化
研究在n维搜索空间中初始化粒子种群,每个粒子包含n个固定长度的二进制字符串。通过随机填充0或1的方式生成初始粒子,并使用解码算法将其转化为CNN架构,直至生成有效的CNN模型为止。
进化策略
传统的PSO方法在进化过程中可能生成大量无效的CNN架构,导致搜索效率低下。为此,研究提出了一种基于量子行为的进化策略,利用量子态坍缩测量的多次测量机制,引导粒子向有效解空间进化。具体而言,每次更新粒子位置后,对其进行解码;如果解码结果为空,则重复测量直至生成有效CNN架构。这一策略显著提高了搜索效率和鲁棒性。
适应度评估
每个生成的CNN架构通过训练和测试数据集进行评估,分类准确率被用作个体适应度值。研究采用Keras框架和TensorFlow后端实现CNN的训练与评估过程。
实验设计
研究在多个基准数据集上测试了所提方法的性能,包括MNIST及其变体(如旋转数字加背景图像的MNIST,MRDBI)以及凸集分类任务(CS)。实验对比了所提方法(BQ-CNN)与传统方法(如IPPSO)及其他先进算法的性能差异。
主要结果
1. 分类性能
实验结果显示,BQ-CNN在所有基准数据集上的分类误差均优于其他方法。例如,在MRDBI数据集上,BQ-CNN的平均分类误差为16.94%,而最佳误差仅为14.20%。相比之下,IPPSO和Q-CNN的分类误差分别为24.05%和21.13%。此外,BQ-CNN在CS数据集上的分类误差最低,达到1.65%。
搜索能力
通过对全局最优解的轨迹分析发现,BQ-CNN在仅几代进化后即可找到全局最优解,而传统方法(如IPPSO)在后续代数中难以进一步提升分类精度。量子行为操作策略通过减少测量次数显著提高了搜索效率。
鲁棒性
BQ-CNN在处理复杂数据集(如含噪声或变形的MNIST变体)时表现出更强的鲁棒性。随着数据集复杂度的增加,BQ-CNN与其他方法之间的性能差距进一步扩大。
计算成本
尽管BQ-CNN的计算成本与传统方法相当(每次运行约需2小时),但由于其更高的搜索效率和性能,能够在相同计算资源下获得更好的分类结果。
结论与意义
本研究成功开发了一种基于量子行为粒子群优化的自动设计算法(BQ-CNN),用于演化CNN架构。实验结果表明,该方法在分类性能、搜索能力和鲁棒性方面均优于现有方法,为CNN架构的自动化设计提供了新的思路。该研究不仅推动了进化计算在深度学习领域的应用,还为未来的研究提供了重要的参考价值。例如,可以进一步扩展编码策略以适应更复杂的网络架构(如残差网络),或将多目标优化方法应用于CNN设计。
研究亮点
1. 提出了一种全新的二进制编码策略,实现了完全自动化的CNN架构设计流程。
2. 引入了基于量子行为的进化策略,显著提高了搜索效率和鲁棒性。
3. 在多个基准数据集上验证了方法的有效性,展示了其在复杂任务中的优越性能。
其他有价值内容
研究还探讨了未来工作的方向,包括完善评估指标体系、开发适用于更复杂网络架构的编码策略,以及设计高性能分布式计算系统以加速进化过程。这些方向为进一步优化CNN架构设计提供了重要启示。