分享自:

MIFS:一种用于药物发现的自适应多路径信息融合自监督框架

期刊:neural networksDOI:10.1016/j.neunet.2024.107088

在《Neural Networks》期刊2025年卷第184期上,由重庆邮电大学计算智能重点实验室的Gong Xu、Qun Liu、Han Rui,重庆师范大学的Wang Guoyin,以及香港科技大学的Guo Yike合作发表了一篇题为“MIFS: An Adaptive Multipath Information Fused Self-Supervised Framework for Drug Discovery”的原创研究论文。该研究提出了一种创新的自适应多路径信息融合自监督框架,旨在解决人工智能驱动药物发现中标记数据稀缺导致的分子表征学习难题。

本研究的学术背景立足于计算机辅助药物发现这一交叉学科领域。传统的药物研发过程高度依赖实验室内的化学合成与生物试验,成本高昂、周期漫长且成功率低。随着计算技术的发展,计算机辅助药物设计已成为化学家和药物研究人员的有力工具。其核心挑战之一在于如何从有限的标记数据中学习到表达力强的分子表征。主流方法通常遵循“预训练特定分子编码器,再进行微调”的流程,但现有方法存在两大显著缺陷:一是忽略了分子内多样化信息(如原子、化学键、官能团之间)的传播;二是在预训练策略中缺乏化学领域知识和化学约束的融入。因此,本研究的目标是开发一种能从大规模无标记数据中探索分子表征、并有效整合化学知识与结构约束的自监督学习框架,以助力药物发现中的各项下游任务,如分子属性预测、药物-靶点相互作用和药物-药物相互作用预测。

该研究的工作流程可详细阐述为三个核心阶段:专用分子编码器Mol-EN的设计、自适应对比预训练策略的实施,以及结合知识增强的微调过程。

首先,研究人员创新性地设计了一个专用的分子图编码器Mol-EN。与直接采用通用图神经网络框架不同,Mol-EN旨在通过三条路径全面感知和捕获分子内的丰富语义信息:原子到原子、化学键到原子,以及官能团到原子的信息传播。其架构包含多路径消息传播模块和顶点更新模块。在多路径消息传播中,模型通过图注意力机制,动态聚合邻居原子、相连化学键以及包含该原子的官能团的信息。具体而言,对于中心原子,其邻居原子特征与相连化学键特征相加后,与中心原子特征一起通过多头注意力机制计算关联性;同时,通过引入从元素知识图谱中检索的官能团特征作为注意力偏置项,将官能团信息整合进来。随后,消息传播的输出被送入一个前馈网络以增强表达能力。在顶点更新模块,研究采用门控循环单元机制,以当前节点历史状态和汇聚的邻居信息为输入,更新节点表征。这种门控更新机制被设计用于缓解小分子表征学习中常见的过度平滑问题。据作者所知,Mol-EN是首个实现分子内多路径信息传播的专用编码器。

其次,为缓解标记数据稀缺问题,研究提出了一种新颖的自适应对比预训练策略。该策略的核心是摒弃传统基于随机扰动(如随机掩蔽原子或删除键)可能产生无效分子结构的方法,转而借鉴药物工程中的“骨架与侧链”设计理念。对于每个作为锚点的未标记分子,首先提取其原始分子骨架(通过迭代剪除末端链得到)。正例实例通过将随机采样的侧链接枝到原始骨架上生成,以确保与锚点分子的结构相似性。负例实例的生成则更具创新性:通过一个基于化学直觉的扰动函数,有选择地删除原始骨架中的关键化学键(优先删除键能较低、原子化学价较高的键,符合化学反应规律),得到一个扰动后的不同骨架,再将侧链接枝到该扰动骨架上。这样生成的负例在保证分子结构有效性的同时,与锚点分子在骨架上存在显著差异。生成了锚点分子、正例和负例后,将它们输入Mol-EN得到分子级表征,再通过投影网络映射到对比学习空间。最后,研究者设计了一个拓扑对比损失函数来预训练Mol-EN。该损失不仅包含标准的噪声对比估计损失,用于拉近锚点与正例、推远锚点与负例,还引入了一个基于分子拓扑指纹的约束项作为正则化器,防止模型将具有相似化学指纹的分子表征推得过远,从而提供了更细粒度的潜在空间刻画。该预训练在包含约1100万个未标记分子的ZINC数据库上进行。

最后,在微调阶段,为了进一步增强化学知识,研究引入了元素知识图谱来提供知识提示。具体而言,使用化学信息学工具RDKit检测分子中的所有官能团,并从预构建的元素知识图谱中检索这些官能团的实体表征,通过一个融合模块生成知识提示向量,将其与Mol-EN提取的原始分子表征相加,得到知识增强的分子表征,再输入到特定任务的预测器中完成微调。

本研究的主要结果在多个公开药物发现基准数据集上得到了验证,涵盖了分子属性预测、药物-药物相互作用预测和药物-靶点相互作用预测三大类任务。

在分子属性预测任务中,MIFS在9个数据集中的7个上取得了最优性能。特别是在BBBP、Clintox、BACE等小样本数据集上,MIFS相比最新的自监督方法DVMP平均提升了4.13%的ROC-AUC,在BBBP数据集上更是有15.1%的显著提升。这表明基于骨架和侧链的自适应预训练策略能够有效从小样本数据中挖掘潜在的化学语义。在药物-药物相互作用预测任务中,MIFS在DrugBank和BIOSNAP两个数据集上的ROC-AUC、PR-AUC和F1分数均超越了包括DeepDDI、CASTER在内的经典方法。例如,在BIOSNAP上,MIFS比次优的CASTER在PR-AUC上高出4.4%。可解释性分析显示,在预测西地那非与硝酸酯类药物相互作用时,MIFS的注意力机制能够显著聚焦于硝酸酯官能团,这与已知的严重药物相互作用机理相符,证明了模型的可解释性。在药物-靶点相互作用预测任务中,研究将预训练的MIFS作为通用插件,替换到四种代表性DTI模型(如GraphDTA, HS-DTI)的化合物编码器中。结果显示,替换后模型在Human和C.elegans数据集上的平均精度分别提升了2.8%和2.4%,召回率和AUC也有显著改善,证实了MIFS强大的分子建模能力。对蛋白质-药物复合物晶体结构的注意力可视化分析表明,MIFS高注意力值的原子大多位于或围绕蛋白质口袋,与共晶结构高度一致。

此外,对编码器Mol-EN的性能分析表明,其在多项任务上优于GCN、GAT、GIN等主流图编码器。特征可视化实验进一步证明,随着网络层数加深,传统的GCN会出现特征过度平滑问题(不同化学环境的原子特征趋同),而Mol-EN凭借其多路径信息和门控更新机制,即使在深层网络中也能保持特征的高区分度。对MIFS所学表征的探查显示,在潜在空间中,余弦距离相近的分子确实具有较高的Tanimoto结构相似性,且经过预训练的MIFS能够清晰地将基于不同分子骨架的分子聚类,表明其成功捕获了分子支架的底层化学语义和结构特征。

详细的消融研究验证了各个模块的有效性。结果表明:1)预训练至关重要,预训练后的Mol-EN在Clintox数据集上的ROC-AUC相比未预训练版本提升了20.6%;2)自适应预训练策略优于传统的随机节点/边掩蔽和子图掩蔽策略;3)知识增强模块在大多数数据集上都能带来性能提升;4)融合全部三条信息传播路径的模型性能最佳,相比仅包含原子到原子路径的基础模型,平均ROC-AUC提升了4.49,RMSE降低了0.3。超参数调优实验确定了模型的最佳参数组合。

本研究得出结论,提出的自适应多路径信息融合自监督框架MIFS,通过其创新的专用分子编码器Mol-EN和基于化学知识的自适应对比预训练策略,成功地解决了现有方法在信息利用和预训练有效性方面的局限。该框架不仅在一系列药物发现任务中表现出卓越且具有竞争力的性能,还通过注意力机制提供了从化学角度可信的预测解释。其科学价值在于为数据稀缺条件下的分子表征学习提供了新的思路和技术路径,通过深度整合化学领域知识(骨架、侧链、官能团)与自监督学习,实现了更全面、更准确的分子语义理解。应用价值则体现在其作为强大的分子建模工具,能够加速药物属性筛选、药物相互作用预警及靶点识别等早期药物研发环节,潜在降低研发成本与周期。

本研究的亮点突出体现在以下几个方面:第一,方法新颖性:首次提出并实现了一个能同时捕获原子、化学键、官能团三路径信息传播的专用分子图编码器Mol-EN,并设计了门控更新机制以缓解过平滑。第二,预训练策略的创新:摒弃了可能破坏化学结构的随机扰动,开创性地基于药物工程中的“骨架与侧链”概念来构建对比学习样本,确保了增强实例的结构有效性并融入了化学约束。第三,性能卓越:在三大类共14个广泛使用的基准数据集上取得了领先或具有高度竞争力的结果,尤其是在小样本场景下优势明显。第四,可解释性与知识融合:模型注意力机制与化学直觉相符,并通过引入外部知识图谱进行增强,提升了模型的化学合理性。第五,框架的通用性与可插拔性:预训练好的MIFS可作为插件轻松增强现有药物-靶点相互作用预测模型,显示了其强大的泛化能力和实用价值。这些创新使得MIFS成为AI驱动药物发现领域一项具有重要意义的研究工作。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com