图神经网络的通用化变换器架构

分享自：
图神经网络的通用化变换器架构

期刊:AAAI
基于Transformer的图学习模型研究报告
本文是一篇单一原创研究（类型a）的学术论文，题为“A Generalization of Transformer Networks to Graphs”，主要作者为Vijay Prakash Dwivedi和Xavier Bresson，作者所属机构为Nanyang Technological University（新加坡南洋理工大学）的School of Computer Science and Engineering。整篇论文发表于2021年，属于“AAAI’21 Workshop on Deep Learning on Graphs: Methods and Applications (DLG-AAAI’21)”会议的学术论文。
学术背景研究领域及背景： 论文属于深度学习（Deep Learning）、图神经网络（Graph Neural Networks, GNNs）及Transformer结构领域。近年来，Transformer模型因其卓越的长序列数据处理能力，在自然语言处理（Natural Language Processing, NLP）领域表现出色。其利用注意力机制（Attention Mechanism）实现了对句子中各单词之间关系的全面建模。然而，传统Transformer模型本质上是通过全连接图（Fully Connected Graph）结构来学习序列数据的各节点（如单词）的特征，这一架构在处理任意图（Arbitrary Graphs）的任务时存在局限性，例如无法充分利用图的稀疏连接信息（Graph Connectivity Inductive Bias）。
与此同时，图神经网络（GNNs）在处理包含图拓扑结构（Graph Topology）的数据集时表现优异，在知识图谱、社交网络、物理模拟等多个领域得到了广泛应用。GNNs通过聚合节点及其邻居的特征信息来学习节点和边的表示，但目前的许多模型未能更好地加强注意力机制和图连接信息的结合。
研究动机及目标： 本文旨在将Transformer架构从自然语言处理的全连接图扩展到任意图的应用中。研究目标是设计一个结合了Transformer关键特性及图表示学习需求的通用图Transformer模型。新模型需在保留Transformer注意力机制优势的同时，进一步利用图的拓扑结构和稀疏性（Sparsity），以提升对各种图数据集的适应性和性能。
研究方法及流程研究采取了以下具体步骤和创新方法：
模型设计及改进图Transformer框架设计：
提出了一种针对任意图的通用Transformer结构（Graph Transformer），并进一步扩展到支持边特征（Edge Features）的版本。
在设计上增加了四大改进： 邻域连接注意力机制：将注意力的计算限制在节点的局部邻域内，而非全图范围，显著减少计算量并利用图的稀疏特性。
拉普拉斯特征向量作为位置编码：引入拉普拉斯特征向量（Laplacian Eigenvectors）代替以往在NLP中常用的正弦位置编码（Sinusoidal Positional Encoding），以更好地捕捉节点间的相对位置信息。
批归一化（Batch Normalization）：用Batch Normalization替代传统Transformer中的Layer Normalization，能加速训练并改善泛化性能。
边特征处理模块：引入边特征表示的专用通道，在每层更新过程中维护和加工该边信息，被应用于化学分子（如键的种类）和链接预测（如知识图中实体关系）等应用中。
具体模型结构：
节点特征通过线性映射处理为高维嵌入（Embeddings），叠加预先计算好的拉普拉斯位置编码。
引入多头注意力（Multi-Head Attention）机制，每个节点的表示更新取决于其邻域节点的特征和对应注意力权重。
提出节点和边特征分别通过独立的归一化层、前馈网络和残差连接完成更新。
最后，节点表示或边表示通过特定任务所需的多层感知机（MLP）网络进一步处理用于预测。
数据集及实验设置研究在三个标准数据集上进行了测试和验证： - ZINC（分子图数据集）：用于图回归任务，目标是预测分子的溶解度。数据集包含富含化学键类型等丰富边特征的信息，因此使用扩展版图Transformer模型。 - Pattern（模式节点分类数据集）：通过随机块模型（Stochastic Block Model, SBM）生成的图数据，任务是将节点分类到两个社区。 - Cluster（聚类节点分类数据集）：同样基于SBM生成，任务是对节点赋予六种聚类标签。
实验中设计了一个由10层图Transformer组成的模型，每层包含8个注意力头，总参数量约为500,000。所有实验都通过Stochastic Gradient Descent优化，使用早停策略。
主要实验结果性能对比：
模型在ZINC数据集上实现了0.226的MAE（预测误差均值），在Pattern和Cluster数据集上的分类准确率依次为84.808%和73.169%。
相较于传统GNN（如GCN与GAT）的性能，新模型在多个基准任务中表现出色，尤其在ZINC图回归任务中，几乎达到目前表现最好的模型GatedGCN的水平。
位置编码效果验证：
定量验证了拉普拉斯特征向量的优越性，与Graph-BERT中的WL-Pe等方法相比，Laplacian Eigenvectors编码在编码节点相对位置及结构特性方面表现更佳。
在Cluster和Pattern数据集中，使用Laplacian位置编码模型的泛化性能显著提高。
批归一化优势：
实验证实，批归一化（Batch Normalization）比层归一化（Layer Normalization）在加速训练和改进性能方面更具优势。此外，该方法在稀疏图和完全连接图实验中均适用。
边特征处理创新：
边特征处理模块在ZINC数据集上取得了显著效果，表明这一模块在含丰富边信息的数据集上具有较高的应用潜力。
研究意义及亮点本研究的主要意义和创新点包括： 1. 提出了第一个适用于任意图的通用Transformer模型，填补了Transformer在图学习应用中的空白。 2. 通过四大创新模块（拉普拉斯特征位置编码、邻居注意力、批归一化、边特征处理），为跨领域图数据处理提供了高效的基准模型。 3. 实验中全面验证了模型在图回归及节点分类任务中的卓越性能，展示出融合Transformer和图神经网络方法的巨大潜力。 4. 扩展了Transformer网络的应用范围，为分子建模、社交网络分析及知识图谱链接预测等领域奠定了基础。
结语作为一项集Transformer与图神经网络优势于一体的创新成果，该研究不仅加深了对Transformer模型在不同领域适应性的理解，也为进一步探索Transformer与图数据的深度结合提供了重要参考，尤其在处理稀疏图数据和复杂依赖关系时表现出强大潜力。在未来，研究者将专注于提升模型在单一大图上的训练效率，同时扩展至异构图和动态图等复杂场景的应用。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问