这篇文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:
本研究由Zhihua Chen、Guhao Qiu、Ping Li、Lei Zhu、Xiaokang Yang和Bin Sheng共同完成。他们分别来自华东理工大学计算机科学与工程系、香港理工大学计算学系、香港科技大学(广州)电子与计算机工程系、上海交通大学电子信息与电气工程学院等机构。该研究于2023年11月发表在《IEEE Transactions on Pattern Analysis and Machine Intelligence》期刊上,论文标题为“MNGNAS: Distilling Adaptive Combination of Multiple Searched Networks for One-Shot Neural Architecture Search”。
本研究的主要科学领域是计算机视觉与深度学习,特别是神经架构搜索(Neural Architecture Search, NAS)。NAS的目标是自动设计神经网络架构,以减少人工设计的复杂性和计算成本。然而,传统的NAS方法存在搜索空间巨大、计算成本高的问题。近年来,基于权重共享的超级网络(supernet)训练方法被提出,以降低计算成本。然而,这些方法在训练过程中无法保证每个子网络的权重被充分优化,导致架构排名的准确性受到影响。因此,本研究旨在提出一种多教师引导的NAS方法,通过自适应集成和扰动感知的知识蒸馏算法,提高搜索效率和架构性能。
本研究的工作流程包括以下几个主要步骤:
超级网络训练
首先,研究团队训练了一个超级网络(supernet),该网络包含了所有可能的候选模块。训练过程中,采用了均匀采样策略(如SPOS算法),以确保每个候选模块都能被充分训练。超级网络的训练使用了动量SGD优化器,批量大小为96,训练周期为600次。
架构搜索与教师模型选择
在搜索过程中,研究团队使用进化算法生成新的候选架构。每个搜索周期中,候选架构会通过自适应集成知识蒸馏算法进行训练。教师模型包括三个部分:先前搜索过程中获得的高精度模型、当前搜索迭代中的模型以及带有轻微扰动的候选子网络。教师模型的选择旨在增加特征的多样性,并为后续的知识蒸馏提供更好的特征。
自适应集成知识蒸馏
研究团队提出了一种自适应集成知识蒸馏算法,通过优化算法确定特征图的组合系数。该算法避免了单一架构特征的主导,并更好地利用了所有提取的特征。蒸馏损失包括中间层差异和预测层差异,分别通过KL散度和L2范数计算。
扰动感知知识蒸馏
对于每个搜索周期中的最优架构,研究团队提出了一种扰动感知知识蒸馏算法。该算法通过添加一个损失项来计算最优架构与扰动架构之间的特征差异,以帮助模型学习更适合后续知识蒸馏的特征。
架构更新与教师模型更新
在每次搜索周期结束后,研究团队根据验证集上的精度值对候选架构进行排序,并更新教师模型组。新的候选架构通过交叉和变异操作生成,以保持搜索架构的多样性。
本研究在多个标准数据集上进行了实验验证,包括CIFAR10、CIFAR100、ImageNet16-120和ImageNet。实验结果表明,MNGNAS算法在搜索效率和架构性能上均优于现有的NAS方法。具体结果如下:
CIFAR10和CIFAR100数据集
在ShuffleNet、MobileNet和Darts搜索空间中,MNGNAS算法在相似的搜索时间下,能够搜索到参数更少、精度更高的架构。与SPOS、FairNAS和MixPath等主流NAS方法相比,MNGNAS在CIFAR10和CIFAR100数据集上的错误率分别降低了0.03%和0.1%。
ImageNet16-120数据集
在ImageNet16-120数据集上,MNGNAS算法的精度略高于相应的NAS方法,且计算成本更低。与SPOS算法相比,MNGNAS在ShuffleNet和MobileNet搜索空间中的Top-1指标分别提高了0.22%和0.41%。
NAS基准数据集
在NAS-Bench-101、NAS-Bench-201和NAS-Macro-Bench数据集上,MNGNAS算法能够获得更接近独立训练精度的搜索结果。特别是在NAS-Bench-101数据集上,MNGNAS算法的预测精度与实际精度的相关性显著高于其他NAS方法。
本研究提出的MNGNAS算法通过自适应集成知识蒸馏和扰动感知知识蒸馏,显著提高了NAS的搜索效率和架构性能。该算法能够在不增加计算成本的情况下,搜索到更优的神经网络架构,并在多个标准数据集上验证了其有效性。MNGNAS算法的创新之处在于其多教师模型的集成策略和自适应系数的优化方法,为NAS领域提供了新的研究思路。
多教师引导的NAS方法
MNGNAS算法首次提出了基于多教师模型的知识蒸馏策略,通过集成高精度模型和当前搜索迭代中的模型,提高了架构搜索的效率和精度。
自适应集成知识蒸馏
研究团队提出了一种自适应集成知识蒸馏算法,通过优化算法确定特征图的组合系数,避免了单一架构特征的主导,并更好地利用了所有提取的特征。
扰动感知知识蒸馏
对于最优架构,研究团队提出了一种扰动感知知识蒸馏算法,通过计算最优架构与扰动架构之间的特征差异,帮助模型学习更适合后续知识蒸馏的特征。
本研究还进行了大量的消融实验,验证了知识蒸馏算法、重新训练周期数、教师模型数量等超参数对搜索结果的影响。实验结果表明,MNGNAS算法在不同搜索空间和数据集上均表现出良好的泛化能力,为NAS领域的进一步研究提供了重要的参考。