基于Transformer的图表示学习模型Graphormer性能探究

分享自：
基于Transformer的图表示学习模型Graphormer性能探究

期刊:35th conference on neural information processing systems (neurips 2021), sydney, australia
（判断为类型a：单篇原创性研究论文）
Graphormer：基于Transformer架构的图表示学习突破性研究
一、作者与发表信息
 本研究由来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的联合团队完成，主要作者包括Chengxuan Ying、Tianle Cai、Shengjie Luo等，†标注的通讯作者为Shuxin Zheng、Di He和Tie-Yan Liu。论文发表于第35届NeurIPS会议（2021年，悉尼），标题为《Do Transformers Really Perform Bad for Graph Representation?》。
二、学术背景
 1. 研究领域：图表示学习（Graph Representation Learning）与Transformer架构的交叉领域。
 2. 研究动机：
 - Transformer在自然语言处理（NLP）、计算机视觉（CV）等领域占据主导地位，但在图结构数据上的表现长期落后于主流图神经网络（GNN）变体（如GCN、GIN）。
 - 已有研究多通过将注意力机制（attention）替换GNN的关键模块（如特征聚合）来改进性能，但标准Transformer是否适合直接建模图数据仍存在争议。
 3. 核心问题：如何将图的结构信息有效编码至Transformer中，以释放其在图表示学习中的潜力。
三、研究方法与流程
 1. Graphormer架构设计：
 - 基础框架：基于标准Transformer编码器，但调整了层归一化（Layer Normalization）位置以优化训练稳定性。
 - 三大核心编码：
 - 中心性编码（Centrality Encoding）：通过节点的入度和出度分配可学习向量，捕获节点重要性（如社交网络中的关键人物）。具体实现为将度中心性嵌入向量与节点特征相加（公式5）。
 - 空间编码（Spatial Encoding）：引入最短路径距离（SPD）作为节点间空间关系的度量，并为此设计可学习的偏置项（公式6），使模型能区分局部与全局依赖。
 - 边编码（Edge Encoding）：将边特征通过最短路径上的平均点积运算融入注意力机制（公式7），解决了传统方法仅将边信息传播至相邻节点的局限性。
 - 特殊节点[vnode]：类似BERT的[CLS]标记，用于全局图表示，其空间编码被重置为独立可学习标量以区分虚拟连接。
理论验证：
表达能力证明：通过数学推导表明，Graphormer能够覆盖GIN、GCN等经典GNN变体（Fact 1）。例如，通过调整空间编码偏置项，可模拟均值/求和/最大值聚合操作。
 
超越1-WL测试：Graphormer能区分1-WL测试无法区分的图结构（附录A图2）。
 
实验设计：
数据集：涵盖大规模量子化学回归（PCQM4M-LSC，380万图）、分子属性预测（OGB-MOLPCBA、OGB-MOLHIV）和小规模ZINC数据集，覆盖不同任务类型与规模。
 
基准模型对比：包括GCN、GIN、DeeperGCN及其虚拟节点变体，以及Transformer-based模型GT和GROVER。
 
训练设置：
 PCQM4M-LSC上采用12层Transformer（隐藏层768维），100万训练步，AdamW优化器。
 
小数据集（如ZINC）采用轻量化Graphormer-Slim（12层，80维隐藏层，参数仅48.9万）。
 
创新方法：
首次提出将结构编码（中心性、空间、边）直接集成至标准Transformer，而非仅修改注意力机制。
 
开发了高效的边编码方法，通过最短路径上的特征交互提升信息传递效率。
 
四、主要结果
 1. 性能突破：
 - PCQM4M-LSC：Graphormer以0.1234验证MAE（平均绝对误差）显著超越GIN-VN（0.1395），相对误差降低11.5%，并获OGB-LSC挑战赛冠军。
 - 分子数据集：在OGB-MOLPCBA（AP 31.39%）、OGB-MOLHIV（AUC 80.51%）和ZINC（MAE 0.122）上均刷新记录（表2-4）。
 - 预训练迁移：在PCQM4M-LSC预训练的模型微调后性能远超同类预训练方法（如GROVER），且无需额外分子特征（表12-13）。
关键发现：
中心性编码使注意力机制同时捕获语义相关性与节点重要性。
 
空间编码赋予模型自适应关注局部/全局节点的能力，例如当偏置项随SPD递减时，模型更关注邻近节点。
 
边编码通过注意力偏置显著提升分子图中键类型等特征的利用率。
 
消融实验：
移除中心性编码导致验证MAE上升14%（表5）。
 
传统边编码方法（如通过节点特征聚合）性能显著低于本文提出的注意力偏置法（表5）。
 
五、结论与价值
 1. 理论贡献：
 - 证明标准Transformer可通过结构编码直接适用于图数据，并具有强表达能力。
 - 为GNN与Transformer的理论统一提供新视角（如GNN可视为Graphormer的特例）。
应用价值：
在化学、生物医药等领域的大规模分子属性预测中实现精度飞跃，如HOMO-LUMO能隙预测误差降低10%以上。
 
为其他非欧几里得数据（如社交网络、3D点云）的Transformer应用提供范式参考。
 
挑战与未来方向：
计算复杂度（O(n²)）限制了大图场景的应用，需开发高效变体。
 
领域知识驱动的结构编码（如分子几何距离）可能进一步提升性能。
 
六、研究亮点
 1. 方法创新：首个将标准Transformer与多维结构编码结合的图表示学习框架，无需依赖GNN模块。
 2. 性能里程碑：在OGB-LSC等权威榜单上全面超越现有GNN和Transformer变体。
 3. 理论深度：严格证明了模型对经典GNN的覆盖能力及超越1-WL测试的表达力。
七、其他价值
 - 开源代码与模型（GitHub地址）推动社区发展，已被应用于分子生成、蛋白质结构预测等跨领域任务。
 - 研究启发后续工作如Efficient Graphormer、3D Graphormer等，持续扩展Transformer在图数据的边界。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问