分享自:

基于Shapley值的图神经网络解释方法EdgeShaper

期刊:iscienceDOI:10.1016/j.isci.2022.105043

本文档属于类型a,即报告了一项原创性研究。以下是对该研究的学术报告:

主要作者及机构

本研究的主要作者包括Andrea Mastropietro、Giuseppe Pasculli、Christian Feldmann、Raquel Rodríguez-Pérez和Jürgen Bajorath。他们分别来自意大利罗马大学、德国波恩大学和瑞士诺华生物医学研究所。该研究于2022年10月21日发表在期刊《iScience》上。

学术背景

该研究的主要科学领域是图神经网络(Graph Neural Networks, GNNs)在化学信息学和药物发现中的应用。GNNs因其能够直接从图表示中学习而受到广泛关注,尤其是在分子图的应用中,节点代表原子,边代表化学键。然而,GNNs的“黑箱”特性限制了其在化学等领域的接受度。因此,研究者开发了一种新的解释方法EdgeSHAPer,旨在评估边对GNN预测的重要性,特别是在分子图中化学键的作用。

研究流程

研究流程包括以下几个主要步骤:

  1. 方法开发:EdgeSHAPer是基于合作博弈论中的Shapley值概念开发的,用于量化图中每条边对预测的贡献。研究团队还开发了一种蒙特卡洛采样策略,用于近似计算Shapley值。

  2. 应用场景:EdgeSHAPer最初被设计用于评估分子图中化学键信息对化合物活性预测的重要性。研究者选择了多巴胺D2受体配体的化合物分类任务作为验证场景。

  3. 模型训练:研究者使用了图卷积网络(Graph Convolutional Network, GCN)和随机森林(Random Forest, RF)模型进行化合物分类任务。GCN模型由四个卷积层组成,隐藏单元为256,激活函数为ReLU,训练了100个epoch。

  4. 解释方法比较:EdgeSHAPer与现有的GNN解释方法(如GNNExplainer)进行了比较,评估了其在识别最小相关特征集和解释一致性方面的表现。

  5. 数据分析:研究者使用了Fid+和Fid-两个指标来定量评估解释方法的性能,并通过特征映射将解释结果可视化。

主要结果

  1. 方法验证:EdgeSHAPer在多巴胺D2受体配体的分类任务中表现优异,能够识别出最小的相关特征集,并且在不同的训练集子集上保持了解释的一致性。

  2. 解释一致性:EdgeSHAPer在不同训练集子集上的解释结果高度一致,能够识别出驱动正确预测的化学键,并且这些化学键形成了化学上有意义的子结构。

  3. 与其他方法的比较:与GNNExplainer相比,EdgeSHAPer能够以更高的分辨率区分不同化学键对预测的贡献,并且识别出更小的最小相关特征集。

  4. 特征映射:通过特征映射,EdgeSHAPer识别出的化学键形成了化学上有意义的子结构,而GNNExplainer识别的特征则往往覆盖整个化合物结构,难以区分预测的依据。

结论

EdgeSHAPer为GNN模型提供了一种新的解释方法,特别适用于化学应用中的分子图解释。该方法不仅能够以高分辨率区分不同化学键对预测的贡献,还能够识别出最小的相关特征集,为化学家和药物研究人员提供了直观的解释。EdgeSHAPer的代码已公开,支持进一步的方法扩展和应用。

研究亮点

  1. 新颖性:EdgeSHAPer是首个基于Shapley值的边中心解释方法,特别适用于分子图中化学键的解释。
  2. 高分辨率:EdgeSHAPer能够以高分辨率区分不同化学键对预测的贡献,识别出最小的相关特征集。
  3. 广泛应用性:虽然EdgeSHAPer最初是为化学应用设计的,但其方法具有广泛的适用性,可以应用于其他GNN任务。

其他有价值的内容

研究者还详细讨论了EdgeSHAPer的计算复杂性,并提供了蒙特卡洛采样的详细算法描述,为其他研究者提供了参考。此外,研究者还公开了所有代码和数据集,支持进一步的研究和应用。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com