(判断为类型a:单篇原创性研究论文)
Graphormer:基于Transformer架构的图表示学习突破性研究
一、作者与发表信息
本研究由来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的联合团队完成,主要作者包括Chengxuan Ying、Tianle Cai、Shengjie Luo等,†标注的通讯作者为Shuxin Zheng、Di He和Tie-Yan Liu。论文发表于第35届NeurIPS会议(2021年,悉尼),标题为《Do Transformers Really Perform Bad for Graph Representation?》。
二、学术背景
1. 研究领域:图表示学习(Graph Representation Learning)与Transformer架构的交叉领域。
2. 研究动机:
- Transformer在自然语言处理(NLP)、计算机视觉(CV)等领域占据主导地位,但在图结构数据上的表现长期落后于主流图神经网络(GNN)变体(如GCN、GIN)。
- 已有研究多通过将注意力机制(attention)替换GNN的关键模块(如特征聚合)来改进性能,但标准Transformer是否适合直接建模图数据仍存在争议。
3. 核心问题:如何将图的结构信息有效编码至Transformer中,以释放其在图表示学习中的潜力。
三、研究方法与流程
1. Graphormer架构设计:
- 基础框架:基于标准Transformer编码器,但调整了层归一化(Layer Normalization)位置以优化训练稳定性。
- 三大核心编码:
- 中心性编码(Centrality Encoding):通过节点的入度和出度分配可学习向量,捕获节点重要性(如社交网络中的关键人物)。具体实现为将度中心性嵌入向量与节点特征相加(公式5)。
- 空间编码(Spatial Encoding):引入最短路径距离(SPD)作为节点间空间关系的度量,并为此设计可学习的偏置项(公式6),使模型能区分局部与全局依赖。
- 边编码(Edge Encoding):将边特征通过最短路径上的平均点积运算融入注意力机制(公式7),解决了传统方法仅将边信息传播至相邻节点的局限性。
- 特殊节点[vnode]:类似BERT的[CLS]标记,用于全局图表示,其空间编码被重置为独立可学习标量以区分虚拟连接。
理论验证:
实验设计:
创新方法:
四、主要结果
1. 性能突破:
- PCQM4M-LSC:Graphormer以0.1234验证MAE(平均绝对误差)显著超越GIN-VN(0.1395),相对误差降低11.5%,并获OGB-LSC挑战赛冠军。
- 分子数据集:在OGB-MOLPCBA(AP 31.39%)、OGB-MOLHIV(AUC 80.51%)和ZINC(MAE 0.122)上均刷新记录(表2-4)。
- 预训练迁移:在PCQM4M-LSC预训练的模型微调后性能远超同类预训练方法(如GROVER),且无需额外分子特征(表12-13)。
关键发现:
消融实验:
五、结论与价值
1. 理论贡献:
- 证明标准Transformer可通过结构编码直接适用于图数据,并具有强表达能力。
- 为GNN与Transformer的理论统一提供新视角(如GNN可视为Graphormer的特例)。
应用价值:
挑战与未来方向:
六、研究亮点
1. 方法创新:首个将标准Transformer与多维结构编码结合的图表示学习框架,无需依赖GNN模块。
2. 性能里程碑:在OGB-LSC等权威榜单上全面超越现有GNN和Transformer变体。
3. 理论深度:严格证明了模型对经典GNN的覆盖能力及超越1-WL测试的表达力。
七、其他价值
- 开源代码与模型(GitHub地址)推动社区发展,已被应用于分子生成、蛋白质结构预测等跨领域任务。
- 研究启发后续工作如Efficient Graphormer、3D Graphormer等,持续扩展Transformer在图数据的边界。