分享自:

图神经网络的通用化变换器架构

期刊:AAAI

基于Transformer的图学习模型研究报告

本文是一篇单一原创研究(类型a)的学术论文,题为“A Generalization of Transformer Networks to Graphs”,主要作者为Vijay Prakash Dwivedi和Xavier Bresson,作者所属机构为Nanyang Technological University(新加坡南洋理工大学)的School of Computer Science and Engineering。整篇论文发表于2021年,属于“AAAI’21 Workshop on Deep Learning on Graphs: Methods and Applications (DLG-AAAI’21)”会议的学术论文。


学术背景

研究领域及背景: 论文属于深度学习(Deep Learning)、图神经网络(Graph Neural Networks, GNNs)及Transformer结构领域。近年来,Transformer模型因其卓越的长序列数据处理能力,在自然语言处理(Natural Language Processing, NLP)领域表现出色。其利用注意力机制(Attention Mechanism)实现了对句子中各单词之间关系的全面建模。然而,传统Transformer模型本质上是通过全连接图(Fully Connected Graph)结构来学习序列数据的各节点(如单词)的特征,这一架构在处理任意图(Arbitrary Graphs)的任务时存在局限性,例如无法充分利用图的稀疏连接信息(Graph Connectivity Inductive Bias)。

与此同时,图神经网络(GNNs)在处理包含图拓扑结构(Graph Topology)的数据集时表现优异,在知识图谱、社交网络、物理模拟等多个领域得到了广泛应用。GNNs通过聚合节点及其邻居的特征信息来学习节点和边的表示,但目前的许多模型未能更好地加强注意力机制和图连接信息的结合。

研究动机及目标: 本文旨在将Transformer架构从自然语言处理的全连接图扩展到任意图的应用中。研究目标是设计一个结合了Transformer关键特性及图表示学习需求的通用图Transformer模型。新模型需在保留Transformer注意力机制优势的同时,进一步利用图的拓扑结构和稀疏性(Sparsity),以提升对各种图数据集的适应性和性能。


研究方法及流程

研究采取了以下具体步骤和创新方法:

模型设计及改进

  1. 图Transformer框架设计

    • 提出了一种针对任意图的通用Transformer结构(Graph Transformer),并进一步扩展到支持边特征(Edge Features)的版本。
    • 在设计上增加了四大改进:
      • 邻域连接注意力机制:将注意力的计算限制在节点的局部邻域内,而非全图范围,显著减少计算量并利用图的稀疏特性。
      • 拉普拉斯特征向量作为位置编码:引入拉普拉斯特征向量(Laplacian Eigenvectors)代替以往在NLP中常用的正弦位置编码(Sinusoidal Positional Encoding),以更好地捕捉节点间的相对位置信息。
      • 批归一化(Batch Normalization):用Batch Normalization替代传统Transformer中的Layer Normalization,能加速训练并改善泛化性能。
      • 边特征处理模块:引入边特征表示的专用通道,在每层更新过程中维护和加工该边信息,被应用于化学分子(如键的种类)和链接预测(如知识图中实体关系)等应用中。
  2. 具体模型结构:

    • 节点特征通过线性映射处理为高维嵌入(Embeddings),叠加预先计算好的拉普拉斯位置编码。
    • 引入多头注意力(Multi-Head Attention)机制,每个节点的表示更新取决于其邻域节点的特征和对应注意力权重。
    • 提出节点和边特征分别通过独立的归一化层、前馈网络和残差连接完成更新。
    • 最后,节点表示或边表示通过特定任务所需的多层感知机(MLP)网络进一步处理用于预测。

数据集及实验设置

研究在三个标准数据集上进行了测试和验证: - ZINC(分子图数据集):用于图回归任务,目标是预测分子的溶解度。数据集包含富含化学键类型等丰富边特征的信息,因此使用扩展版图Transformer模型。 - Pattern(模式节点分类数据集):通过随机块模型(Stochastic Block Model, SBM)生成的图数据,任务是将节点分类到两个社区。 - Cluster(聚类节点分类数据集):同样基于SBM生成,任务是对节点赋予六种聚类标签。

实验中设计了一个由10层图Transformer组成的模型,每层包含8个注意力头,总参数量约为500,000。所有实验都通过Stochastic Gradient Descent优化,使用早停策略。


主要实验结果

  1. 性能对比:

    • 模型在ZINC数据集上实现了0.226的MAE(预测误差均值),在Pattern和Cluster数据集上的分类准确率依次为84.808%和73.169%。
    • 相较于传统GNN(如GCN与GAT)的性能,新模型在多个基准任务中表现出色,尤其在ZINC图回归任务中,几乎达到目前表现最好的模型GatedGCN的水平。
  2. 位置编码效果验证:

    • 定量验证了拉普拉斯特征向量的优越性,与Graph-BERT中的WL-Pe等方法相比,Laplacian Eigenvectors编码在编码节点相对位置及结构特性方面表现更佳。
    • 在Cluster和Pattern数据集中,使用Laplacian位置编码模型的泛化性能显著提高。
  3. 批归一化优势:

    • 实验证实,批归一化(Batch Normalization)比层归一化(Layer Normalization)在加速训练和改进性能方面更具优势。此外,该方法在稀疏图和完全连接图实验中均适用。
  4. 边特征处理创新:

    • 边特征处理模块在ZINC数据集上取得了显著效果,表明这一模块在含丰富边信息的数据集上具有较高的应用潜力。

研究意义及亮点

本研究的主要意义和创新点包括: 1. 提出了第一个适用于任意图的通用Transformer模型,填补了Transformer在图学习应用中的空白。 2. 通过四大创新模块(拉普拉斯特征位置编码、邻居注意力、批归一化、边特征处理),为跨领域图数据处理提供了高效的基准模型。 3. 实验中全面验证了模型在图回归及节点分类任务中的卓越性能,展示出融合Transformer和图神经网络方法的巨大潜力。 4. 扩展了Transformer网络的应用范围,为分子建模、社交网络分析及知识图谱链接预测等领域奠定了基础。


结语

作为一项集Transformer与图神经网络优势于一体的创新成果,该研究不仅加深了对Transformer模型在不同领域适应性的理解,也为进一步探索Transformer与图数据的深度结合提供了重要参考,尤其在处理稀疏图数据和复杂依赖关系时表现出强大潜力。在未来,研究者将专注于提升模型在单一大图上的训练效率,同时扩展至异构图和动态图等复杂场景的应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com