基于Transformer结构增强的神经网络架构搜索性能预测器

分享自：
基于Transformer结构增强的神经网络架构搜索性能预测器

期刊:计算机学报
本文档属于类型a，以下为根据要求生成的学术报告：
西北工业大学的王继禾、吴颖、迟恒喆、王党辉和梅魁志等学者在2024年7月的《计算机学报》上发表了一篇关于基于Transformer结构增强的神经网络架构搜索（NAS）性能预测器的研究。该研究的主要背景是神经网络架构搜索（Neural Architecture Search, NAS）作为一种通过搜索算法设计神经网络架构的方法，在计算机视觉和自然语言处理等领域得到了广泛应用。相较于人工设计网络，NAS方法可以减少设计成本并提高模型性能。然而，NAS的性能评估需要对候选架构进行大量训练，由此带来的计算量占整个NAS的80%以上。为了降低计算开销和时间成本，近年来已提出许多基于Transformer的NAS预测器，但由于Transformer出色的结构编码能力可以更好地表示拓扑信息，因而得到广泛应用。然而，现有基于Transformer的NAS预测器依然存在三个问题：其一是在预处理阶段，传统的one-hot编码方式描述节点特征的能力较弱，只能区分不同操作节点类型，而难以表达操作的细节特征，如卷积核尺寸等；其二是在编码阶段，Transformer的自注意力机制导致模型结构信息缺失；其三是在评估阶段，现有的Transformer预测器仅使用多层感知机（MLP）对前向传播图进行精度预测，忽略了反向传播梯度流对预测精度的影响，因此难以真正拟合NAS评估中的正、反向交替信息流图，导致预测器精度与实际运行精度误差波动极大（10%？90%）。
为了解决上述问题，本文提出了一种基于Transformer结构增强的NAS性能预测方法。首先，在预处理阶段，本文提出了一种超维嵌入方法增加输入数据维度以强化节点操作的参数描述能力；其次，在编码阶段将Transformer编码后的信息与图结构信息共同输入一个图卷积网络（GCN），弥补由自注意力机制引起的结构缺失；最后，在性能评估阶段，本文构建了同时包含前向传播和反向传播的全训练图，并将数据集信息、图结构编码与梯度编码共同输入到GCN网络预测器中，使预测结果更贴近模型真实性能。实验结果表明，本方法与目前最先进方法相比，肯德尔相关系数提高了7.45%，训练时间减少了1.55倍。
研究的主要流程包括以下几个步骤：首先，在预处理阶段，研究者提出了一种超维嵌入方法，通过增加输入数据的维度来强化节点操作的参数描述能力。这一步骤的创新之处在于，传统的one-hot编码方式只能区分不同操作节点类型，而超维嵌入方法能够更详细地描述操作的细节特征，如卷积核尺寸等。其次，在编码阶段，研究者将Transformer编码后的信息与图结构信息共同输入到一个图卷积网络（GCN）中。这一步骤的目的是弥补由自注意力机制引起的结构缺失问题。通过将Transformer编码与图结构信息结合，GCN能够更好地捕捉神经网络架构的拓扑信息。最后，在性能评估阶段，研究者构建了一个同时包含前向传播和反向传播的全训练图，并将数据集信息、图结构编码与梯度编码共同输入到GCN网络预测器中。这一步骤的创新之处在于，现有的Transformer预测器仅使用多层感知机（MLP）对前向传播图进行精度预测，而本方法同时考虑了反向传播梯度流对预测精度的影响，从而使得预测结果更贴近模型真实性能。
研究的主要结果包括以下几个方面：首先，在预处理阶段，超维嵌入方法显著提高了输入数据的维度，从而强化了节点操作的参数描述能力。实验结果表明，这一方法能够更详细地描述操作的细节特征，如卷积核尺寸等。其次，在编码阶段，将Transformer编码后的信息与图结构信息共同输入到GCN中，有效弥补了由自注意力机制引起的结构缺失问题。实验结果表明，这一方法能够更好地捕捉神经网络架构的拓扑信息。最后，在性能评估阶段，构建同时包含前向传播和反向传播的全训练图，并将数据集信息、图结构编码与梯度编码共同输入到GCN网络预测器中，使得预测结果更贴近模型真实性能。实验结果表明，本方法与目前最先进方法相比，肯德尔相关系数提高了7.45%，训练时间减少了1.55倍。
研究的结论是，基于Transformer结构增强的NAS性能预测方法在预处理、编码和性能评估三个阶段均取得了显著进展。超维嵌入方法强化了节点操作的参数描述能力，GCN网络弥补了自注意力机制引起的结构缺失问题，全训练图的构建使得预测结果更贴近模型真实性能。这些创新方法显著提高了NAS性能预测的精度和效率，具有重要的科学价值和应用价值。
本研究的亮点在于，首先，提出了一种超维嵌入方法，显著提高了输入数据的维度，从而强化了节点操作的参数描述能力；其次，将Transformer编码后的信息与图结构信息共同输入到GCN中，有效弥补了由自注意力机制引起的结构缺失问题；最后，构建同时包含前向传播和反向传播的全训练图，使得预测结果更贴近模型真实性能。这些创新方法显著提高了NAS性能预测的精度和效率，具有重要的科学价值和应用价值。
此外，本研究还提出了其他有价值的观点。例如，现有的Transformer预测器仅使用多层感知机（MLP）对前向传播图进行精度预测，而本方法同时考虑了反向传播梯度流对预测精度的影响，从而使得预测结果更贴近模型真实性能。这一观点为未来的NAS性能预测研究提供了新的思路和方向。
本研究通过提出基于Transformer结构增强的NAS性能预测方法，在预处理、编码和性能评估三个阶段均取得了显著进展。这些创新方法显著提高了NAS性能预测的精度和效率，具有重要的科学价值和应用价值。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问