分享自:

分子图自监督学习的层次化方法及其在性质预测中的应用

期刊:communications chemistryDOI:10.1038/s42004-023-00825-5

基于层次化分子图自监督学习的性质预测研究

作者与发表信息

本文由Xuan Zang(哈尔滨工业大学计算机科学系)、Xianbing Zhao(哈尔滨工业大学计算机科学系)和Buzhou Tang(哈尔滨工业大学计算机科学系;鹏城实验室)共同完成,发表于Communications Chemistry期刊,2023年出版,DOI: 10.1038/s42004-023-00825-5

研究背景

分子图表示学习(Molecular Graph Representation Learning)在化学分析和药物发现中展现出巨大潜力。然而,分子性质标签的获取成本高昂,因此基于自监督学习(Self-Supervised Learning, SSL)的预训练模型逐渐成为分子表示学习的主流方法。现有研究大多采用图神经网络(Graph Neural Network, GNN)作为编码器,但其存在两个关键问题:
1. 传统GNN忽视了分子中隐含的化学结构信息(如官能团、环结构等分子基序(motif)的化学功能);
2. 通过“读出函数”(readout function)获取图级表示的方式阻碍了节点与图表示之间的交互。
为此,本文提出HiMol(Hierarchical Molecular Graph Self-Supervised Learning)框架,旨在通过层次化分子图编码和多级自监督任务提升分子性质预测性能。

研究流程

1. 层次化分子图神经网络(HMGN)

步骤1:分子基序构建
- 输入为SMILES字符串,通过RDKit工具转换为二维分子图(节点为原子,边为化学键)。
- 在BRICS算法(基于化学规则分解分子)的基础上新增规则:将大环结构进一步分解为最小环单元,确保基序的化学合理性。
- 示例:一个含多个环的分子被分解为若干个环状基序和链状基序(图6所示)。

步骤2:增强图构建
- 将基序作为新节点加入原始分子图,并添加两类边:
- 原子-基序边:连接基序节点与其包含的所有原子节点;
- 基序-图边:连接所有基序节点与新增的图级节点(代表整个分子)。
- 最终增强图包含原子级、基序级和图级三个层次。

步骤3:层次化编码
- 采用图同构网络(Graph Isomorphism Network, GIN)作为主干模型,通过消息传递机制同步编码三个层次的表示:
- 原子级表示:捕获局部化学环境;
- 基序级表示:编码官能团等子结构信息;
- 图级表示:通过图级节点动态聚合全局信息,替代传统的读出函数。

2. 多级自监督预训练(MSP)

设计五类自监督任务,分为生成式与预测式两类:
- 原子级任务(生成式):
- 预测原子类型(交叉熵损失);
- 预测键连接(二元交叉熵损失);
- 预测键类型(交叉熵损失)。
- 图级任务(预测式):
- 预测分子中原子总数(平滑L1损失);
- 预测化学键总数(平滑L1损失)。
- 通过可学习权重α平衡多任务损失,优化模型参数。

3. 下游任务微调

  • 预训练的HMGN权重迁移至下游任务,图级表示通过两层MLP预测分子性质。
  • 实验采用12个MoleculeNet数据集(6分类+6回归任务),按支架分割(scaffold-split)划分训练/验证/测试集(80%/10%/10%)。

主要结果

  1. 分类任务(ROC-AUC指标)
    • HiMol在BACE、BBBP等4/6数据集中达到最优性能,平均提升2.4%(表1)。
    • 基序编码模型(如G-Motif、MGSSL)普遍优于非基序方法,验证了子结构信息的重要性。
  2. 回归任务(MAE/RMSE指标)
    • HiMol在5/6数据集上超越基线,尤其在QM9数据集上MAE降低55.5%(表2)。
  3. 可视化分析
    • t-SNE降维显示,HiMol学习的表示能清晰区分不同性质的分子(图2)。
    • 分子相似性排序实验表明,HiMol捕获了官能团和环结构等化学语义(图3)。
  4. 消融实验
    • 移除基序级节点或图级节点均导致性能下降,验证了层次化设计的必要性(图5a);
    • 多级自监督任务的联合优化比单一任务更有效(图5b)。

结论与意义

HiMol通过层次化图编码多级自监督学习,首次实现了节点-基序-图三级表示的联合建模,其科学价值与应用价值体现在:
1. 方法论创新
- 提出化学规则驱动的基序分解方法,避免通用图增强对分子结构的破坏;
- 图级节点的引入实现了局部与全局信息的双向交互,优于传统读出函数。
2. 性能优势
- 在分类和回归任务中均达到SOTA,尤其在复杂量子力学数据集(如QM9)上表现突出。
3. 应用潜力
- 学习的表示可支持药物设计、分子生成等任务,未来可扩展至3D分子建模。

研究亮点

  1. 层次化编码:首次将分子基序作为显式节点嵌入GNN,实现多尺度特征融合。
  2. 化学合理性:基序分解遵循化学规则,保留官能团功能(如羧基的酸性)。
  3. 通用性:框架兼容不同GNN主干(如GIN),代码已开源。

(注:本文涉及的专业术语首次出现时标注英文原词,如自监督学习(Self-Supervised Learning, SSL)、图同构网络(Graph Isomorphism Network, GIN)等。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com