分享自:

基于Transformer的图表示学习模型Graphormer性能探究

期刊:35th conference on neural information processing systems (neurips 2021), sydney, australia

(判断为类型a:单篇原创性研究论文)


Graphormer:基于Transformer架构的图表示学习突破性研究

一、作者与发表信息
本研究由来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的联合团队完成,主要作者包括Chengxuan Ying、Tianle Cai、Shengjie Luo等,†标注的通讯作者为Shuxin Zheng、Di He和Tie-Yan Liu。论文发表于第35届NeurIPS会议(2021年,悉尼),标题为《Do Transformers Really Perform Bad for Graph Representation?》。


二、学术背景
1. 研究领域:图表示学习(Graph Representation Learning)与Transformer架构的交叉领域。
2. 研究动机
- Transformer在自然语言处理(NLP)、计算机视觉(CV)等领域占据主导地位,但在图结构数据上的表现长期落后于主流图神经网络(GNN)变体(如GCN、GIN)。
- 已有研究多通过将注意力机制(attention)替换GNN的关键模块(如特征聚合)来改进性能,但标准Transformer是否适合直接建模图数据仍存在争议。
3. 核心问题:如何将图的结构信息有效编码至Transformer中,以释放其在图表示学习中的潜力。

三、研究方法与流程
1. Graphormer架构设计
- 基础框架:基于标准Transformer编码器,但调整了层归一化(Layer Normalization)位置以优化训练稳定性。
- 三大核心编码
- 中心性编码(Centrality Encoding):通过节点的入度和出度分配可学习向量,捕获节点重要性(如社交网络中的关键人物)。具体实现为将度中心性嵌入向量与节点特征相加(公式5)。
- 空间编码(Spatial Encoding):引入最短路径距离(SPD)作为节点间空间关系的度量,并为此设计可学习的偏置项(公式6),使模型能区分局部与全局依赖。
- 边编码(Edge Encoding):将边特征通过最短路径上的平均点积运算融入注意力机制(公式7),解决了传统方法仅将边信息传播至相邻节点的局限性。
- 特殊节点[vnode]:类似BERT的[CLS]标记,用于全局图表示,其空间编码被重置为独立可学习标量以区分虚拟连接。

  1. 理论验证

    • 表达能力证明:通过数学推导表明,Graphormer能够覆盖GIN、GCN等经典GNN变体(Fact 1)。例如,通过调整空间编码偏置项,可模拟均值/求和/最大值聚合操作。
    • 超越1-WL测试:Graphormer能区分1-WL测试无法区分的图结构(附录A图2)。
  2. 实验设计

    • 数据集:涵盖大规模量子化学回归(PCQM4M-LSC,380万图)、分子属性预测(OGB-MOLPCBA、OGB-MOLHIV)和小规模ZINC数据集,覆盖不同任务类型与规模。
    • 基准模型对比:包括GCN、GIN、DeeperGCN及其虚拟节点变体,以及Transformer-based模型GT和GROVER。
    • 训练设置
      • PCQM4M-LSC上采用12层Transformer(隐藏层768维),100万训练步,AdamW优化器。
      • 小数据集(如ZINC)采用轻量化Graphormer-Slim(12层,80维隐藏层,参数仅48.9万)。
  3. 创新方法

    • 首次提出将结构编码(中心性、空间、边)直接集成至标准Transformer,而非仅修改注意力机制。
    • 开发了高效的边编码方法,通过最短路径上的特征交互提升信息传递效率。

四、主要结果
1. 性能突破
- PCQM4M-LSC:Graphormer以0.1234验证MAE(平均绝对误差)显著超越GIN-VN(0.1395),相对误差降低11.5%,并获OGB-LSC挑战赛冠军。
- 分子数据集:在OGB-MOLPCBA(AP 31.39%)、OGB-MOLHIV(AUC 80.51%)和ZINC(MAE 0.122)上均刷新记录(表2-4)。
- 预训练迁移:在PCQM4M-LSC预训练的模型微调后性能远超同类预训练方法(如GROVER),且无需额外分子特征(表12-13)。

  1. 关键发现

    • 中心性编码使注意力机制同时捕获语义相关性与节点重要性。
    • 空间编码赋予模型自适应关注局部/全局节点的能力,例如当偏置项随SPD递减时,模型更关注邻近节点。
    • 边编码通过注意力偏置显著提升分子图中键类型等特征的利用率。
  2. 消融实验

    • 移除中心性编码导致验证MAE上升14%(表5)。
    • 传统边编码方法(如通过节点特征聚合)性能显著低于本文提出的注意力偏置法(表5)。

五、结论与价值
1. 理论贡献
- 证明标准Transformer可通过结构编码直接适用于图数据,并具有强表达能力。
- 为GNN与Transformer的理论统一提供新视角(如GNN可视为Graphormer的特例)。

  1. 应用价值

    • 在化学、生物医药等领域的大规模分子属性预测中实现精度飞跃,如HOMO-LUMO能隙预测误差降低10%以上。
    • 为其他非欧几里得数据(如社交网络、3D点云)的Transformer应用提供范式参考。
  2. 挑战与未来方向

    • 计算复杂度(O(n²))限制了大图场景的应用,需开发高效变体。
    • 领域知识驱动的结构编码(如分子几何距离)可能进一步提升性能。

六、研究亮点
1. 方法创新:首个将标准Transformer与多维结构编码结合的图表示学习框架,无需依赖GNN模块。
2. 性能里程碑:在OGB-LSC等权威榜单上全面超越现有GNN和Transformer变体。
3. 理论深度:严格证明了模型对经典GNN的覆盖能力及超越1-WL测试的表达力。

七、其他价值
- 开源代码与模型(GitHub地址)推动社区发展,已被应用于分子生成、蛋白质结构预测等跨领域任务。
- 研究启发后续工作如Efficient Graphormer、3D Graphormer等,持续扩展Transformer在图数据的边界。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com