分享自:

解耦可微分图神经架构搜索的研究

期刊:Information SciencesDOI:10.1016/j.ins.2024.120700

类型a

作者与研究机构及发表信息
本研究的主要作者为Jiamin Chen、Jianliang Gao、Zhenpeng Wu、Raeed Al-Sabri和Babatounde Moctard Oloulade,他们均来自中南大学计算机科学与工程学院。该研究发表于《Information Sciences》期刊,出版时间为2024年。

学术背景
图神经网络(Graph Neural Networks, GNNs)是机器学习领域的一项先进技术,广泛应用于挖掘图数据中的潜在关系特征。由于不同图数据具有不同的分布特性,设计适合特定任务的GNN架构成为一项重要但耗时的工作,且高度依赖领域专家的经验。为了解决这一问题,图神经架构搜索(Graph Neural Architecture Search, GNAS)成为一种自动设计GNN架构的有效方法。GNAS主要包括两种主流范式:多试验GNAS(multi-trial GNAS)和可微分GNAS(differentiable GNAS)。尽管多试验GNAS在性能上表现出色,但其需要独立评估大量采样的GNN架构,计算成本高昂。相比之下,可微分GNAS通过构建混合超网(mixed supernet)显著提高了搜索效率,但由于架构参数与权重优化之间的耦合问题,其性能往往受到限制。因此,本研究旨在提出一种解耦的可微分图神经架构搜索方法(Decoupled Differentiable Graph Neural Architecture Search, D2GNAS),以解决耦合优化偏差问题并提高搜索性能。

研究流程
本研究分为五个主要步骤,详细描述如下:

  1. 单路径超网构建(Single-Path Supernet Construction)
    研究首先基于大规模GNN搜索空间构建单路径超网。该超网包含所有可能的单路径GNN架构,每个路径代表一个特定的GNN架构。为了提高训练效率,研究设计了GNN组件权重共享池(GNN architecture component weight-sharing pool),使得相同GNN组件候选操作在不同架构之间共享权重。研究构建了一个典型的四层堆叠GNN拓扑结构,其中中间两层为可搜索的GNN层,每层包含三种GNN组件操作(卷积、归一化和激活),并提供了多种候选操作选项。例如,卷积组件包括GCN、GAT等9种候选操作,归一化组件包括BatchNorm等5种候选操作,激活组件包括ReLU等8种候选操作。

  2. 解耦可微分搜索(Decoupled Differentiable Search)
    为了解决耦合优化偏差问题,研究使用Gumbel分布作为桥梁,将架构参数与超网权重的优化过程完全解耦。具体而言,研究通过Gumbel Softmax技术构造了解耦的可微分GNN架构采样器(decoupled differentiable GNN architecture sampler)。该采样器基于归一化的架构参数作为采样概率,从单路径超网中采样GNN架构,并利用验证梯度优化架构参数。此过程确保了权重优化的独立性,避免了耦合优化偏差对性能的影响。

  3. 单路径超网剪枝(Single-Path Supernet Pruning)
    在解耦可微分搜索的基础上,研究进一步提出了单路径超网剪枝策略。通过保留由解耦采样器识别出的有前景的GNN架构,逐步压缩冗余的单路径超网。这种方法不仅能够有效减少搜索空间,还能保留更有价值的GNN架构,从而提高搜索效率。

  4. 剪枝后的单路径超网训练(Pruned Single-Path Supernet Training)
    在剪枝后的单路径超网中,研究随机采样一个GNN架构进行单路径训练。采样的GNN架构继承自权重共享池中的预训练权重,并在训练集上生成训练梯度以更新权重。这种独立的训练过程减少了噪声干扰,为架构参数的优化提供了可靠的验证梯度。

  5. 实验与分析
    研究在五个公开图数据集(CS、Photo、PubMed、Physics和Computers)上进行了广泛的实验。实验结果表明,D2GNAS在性能和效率方面均优于所有基线方法,包括手动设计的GNN、可扩展GNN、多试验GNAS和耦合可微分GNAS。此外,研究还进行了消融实验和搜索参数敏感性分析,以验证各模块的有效性和鲁棒性。

主要结果
1. 性能表现
在五个基准数据集上的实验结果显示,D2GNAS在平均测试准确率方面均优于其他方法。例如,在CS数据集上,D2GNAS的准确率为93.88%,显著高于多试验GNAS方法(如GraphNAS的92.73%)和耦合可微分GNAS方法(如DARTS的92.92%)。类似的结果在其他数据集上也得到了验证。

  1. 效率提升
    D2GNAS在搜索效率方面表现出色,相较于多试验GNAS方法实现了平均56倍的速度提升,相较于耦合可微分GNAS方法实现了平均5倍的效率提升。这主要得益于解耦优化和单路径训练策略的结合。

  2. 消融实验
    消融实验表明,超网预热初始化、超网剪枝策略、单路径训练和超参数优化(HPO)过程均对D2GNAS的性能提升起到了重要作用。例如,去除超网预热初始化后,CS数据集上的准确率从93.88%下降至93.38%。

  3. 搜索参数敏感性分析
    实验结果表明,预热训练周期为130、可微分搜索规模为1100、温度系数为0.5、单路径训练周期为80时,D2GNAS的验证性能最佳。

结论与意义
本研究提出的D2GNAS方法通过解耦架构参数与权重优化,有效解决了耦合优化偏差问题,显著提高了可微分GNAS的性能和效率。D2GNAS不仅在多个基准数据集上取得了最优性能,还展示了良好的适应性和鲁棒性。其科学价值在于提供了一种高效且通用的GNN架构搜索框架,而其应用价值则体现在能够自动设计适用于不同图数据分布的高性能GNN架构。

研究亮点
1. 提出了基于Gumbel分布的解耦可微分GNN架构采样器,首次实现了架构参数与权重优化的完全解耦。
2. 设计了单路径超网剪枝策略,有效压缩了搜索空间并提高了搜索效率。
3. 在性能和效率方面均显著优于现有方法,展示了其在实际应用中的潜力。

其他有价值内容
研究还探讨了不同GNN搜索空间对D2GNAS性能的影响,发现归一化组件在GNN设计中具有重要作用,而激活组件的缺失可以通过自适应设计其他组件来补偿。这些结果为进一步优化GNN搜索空间提供了重要参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com