本文由Xuan Zang(哈尔滨工业大学计算机科学系)、Xianbing Zhao(哈尔滨工业大学计算机科学系)和Buzhou Tang(哈尔滨工业大学计算机科学系;鹏城实验室)共同完成,发表于Communications Chemistry期刊,2023年出版,DOI: 10.1038/s42004-023-00825-5。
分子图表示学习(Molecular Graph Representation Learning)在化学分析和药物发现中展现出巨大潜力。然而,分子性质标签的获取成本高昂,因此基于自监督学习(Self-Supervised Learning, SSL)的预训练模型逐渐成为分子表示学习的主流方法。现有研究大多采用图神经网络(Graph Neural Network, GNN)作为编码器,但其存在两个关键问题:
1. 传统GNN忽视了分子中隐含的化学结构信息(如官能团、环结构等分子基序(motif)的化学功能);
2. 通过“读出函数”(readout function)获取图级表示的方式阻碍了节点与图表示之间的交互。
为此,本文提出HiMol(Hierarchical Molecular Graph Self-Supervised Learning)框架,旨在通过层次化分子图编码和多级自监督任务提升分子性质预测性能。
步骤1:分子基序构建
- 输入为SMILES字符串,通过RDKit工具转换为二维分子图(节点为原子,边为化学键)。
- 在BRICS算法(基于化学规则分解分子)的基础上新增规则:将大环结构进一步分解为最小环单元,确保基序的化学合理性。
- 示例:一个含多个环的分子被分解为若干个环状基序和链状基序(图6所示)。
步骤2:增强图构建
- 将基序作为新节点加入原始分子图,并添加两类边:
- 原子-基序边:连接基序节点与其包含的所有原子节点;
- 基序-图边:连接所有基序节点与新增的图级节点(代表整个分子)。
- 最终增强图包含原子级、基序级和图级三个层次。
步骤3:层次化编码
- 采用图同构网络(Graph Isomorphism Network, GIN)作为主干模型,通过消息传递机制同步编码三个层次的表示:
- 原子级表示:捕获局部化学环境;
- 基序级表示:编码官能团等子结构信息;
- 图级表示:通过图级节点动态聚合全局信息,替代传统的读出函数。
设计五类自监督任务,分为生成式与预测式两类:
- 原子级任务(生成式):
- 预测原子类型(交叉熵损失);
- 预测键连接(二元交叉熵损失);
- 预测键类型(交叉熵损失)。
- 图级任务(预测式):
- 预测分子中原子总数(平滑L1损失);
- 预测化学键总数(平滑L1损失)。
- 通过可学习权重α平衡多任务损失,优化模型参数。
HiMol通过层次化图编码和多级自监督学习,首次实现了节点-基序-图三级表示的联合建模,其科学价值与应用价值体现在:
1. 方法论创新:
- 提出化学规则驱动的基序分解方法,避免通用图增强对分子结构的破坏;
- 图级节点的引入实现了局部与全局信息的双向交互,优于传统读出函数。
2. 性能优势:
- 在分类和回归任务中均达到SOTA,尤其在复杂量子力学数据集(如QM9)上表现突出。
3. 应用潜力:
- 学习的表示可支持药物设计、分子生成等任务,未来可扩展至3D分子建模。
(注:本文涉及的专业术语首次出现时标注英文原词,如自监督学习(Self-Supervised Learning, SSL)、图同构网络(Graph Isomorphism Network, GIN)等。)