分享自:

一种用于知识感知药物相互作用预测的可解释分子标记估计方法

期刊:journal of latex class filesDOI:10.1109/jbhi.2026.3656496

近日,题为《An Explainable Molecular Token Estimation Method for Knowledge-Aware Drug-Drug Interaction Prediction》的研究论文被IEEE期刊接受发表。该研究由来自中国多所大学的研究团队共同完成,主要作者包括西北工业大学的虞辉、宋超、袁佳浩、李鑫坤、张骁和石建瑜,西安医学院的杨阳,以及空军军医大学唐都医院的余哲。论文于2026年发表在IEEE Journal of Biomedical and Health Informatics上,为药物相互作用预测领域提供了一种新颖且具有理论解释性的方法。

本研究属于机器学习,特别是图神经网络在药物发现与生物信息学领域的应用。药物-药物相互作用预测是确保用药安全的关键任务,传统方法依赖于药物相似性假设,但在面对新药时往往失效。近年来,图神经网络因其能有效处理分子图结构而被广泛应用。分子表示学习通常以原子或分子指纹作为基本单元,但不同单元对模型表达能力的影响尚不明确。研究者们观察到,基于特定分子亚结构(如功能基团、环状结构,文中称为motif)作为“令牌”的方法性能往往优于原子作为令牌的方法,且模型性能随令牌数量的增加而提升。然而,现有基于motif的方法大多忽略了motif之间的相互关联,也未能有效区分不同motif对预测结果的贡献差异。因此,本研究旨在从理论层面分析令牌如何影响分子表示学习模型的表达能力,并基于理论洞见,开发一个兼具高性能和强可解释性的DDI预测新方法。

本研究的工作流程主要分为理论研究与模型构建、实验验证两大部分。

第一部分:理论分析与模型构建 首先,研究者从频域视角对分子表示学习进行了公理化定义。他们巧妙地将分子表示类比为频域中的函数,将不同的令牌(如原子、motif)视为该函数经过随机旋转后产生的不同“波形”函数。通过傅里叶序列表示,研究建立了带噪声的令牌观测模型。基于此,他们推导了基于极大似然估计模型收敛性的一个理论上界。核心结论为,模型估计参数与真实参数之间的误差上界与令牌数量n成反比,与令牌表示的方差σ²成正比。这意味着,增加令牌数量可以有效降低模型收敛的理论上界,从而提升模型性能。然而,原子或指纹类型的令牌数量难以在保持化学意义的前提下大幅增加。为解决此问题,并应对现有方法忽略motif间关联的缺陷,研究者提出了SimMotifPro模型。

SimMotifPro是一个基于预定义motif、兼具高效性与可解释性的模型,其构建流程包含几个关键步骤: 1. 构建Motif词库:采用一种被广泛接受的motif定义,仅包含基本环结构和环外键。从训练集的分子图中提取所有此类结构,形成一个包含352种环和单键结构的固定词库,确保了化学意义的合理性。 2. 构建Motif-Motif知识图谱:将词库中的每个motif视为一个节点。如果两个motif在同一个药物分子中同时出现,则在它们之间建立一条边,从而构建一个捕捉motif共现关系的知识图谱。边的权重通过点互信息计算,以衡量motif间的关联强度。此KG仅基于训练集构建,防止信息泄露。 3. 重构分子图:将原始原子图根据motif词库重构为motif图,每个motif作为一个节点,节点特征通过聚合其内部所有原子特征(使用Hölder均值函数)得到。 4. 模型架构:SimMotifPro采用改进的DeeperGCN架构作为编码器,分别处理motif图和motif-motif知识图谱。 * 特征提取:对于分子原子图,使用DeeperGCN编码器学习原子特征并传播。然后将每个motif内部原子的特征聚合,得到该motif的初始特征。 * 知识感知增强:将上述motif初始特征与motif-motif知识图谱中学习到的全局关联特征(也通过DeeperGCN编码)进行拼接,再经过多层感知机处理,得到增强后的motif特征。这使特征同时包含了分子内个体信息和跨分子的共性结构信息。 * Motif排序器:这是本研究引入的关键创新模块。该模块利用Gumbel-Sigmoid函数,对药物对中每个motif的贡献进行近似离散化的打分和排序,从而解耦学习到的表示,区分不同motif的重要性。具体来说,它结合一个药物的motif特征和另一个药物的整体表示,为前者的各个motif生成重要性权重γ。 * 预测:使用加权的motif特征(γ * 增强特征)进行交互,并与交互类型嵌入结合,通过多层感知机和Sigmoid函数输出DDI预测概率。损失函数采用交叉熵损失。

第二部分:实验验证与结果分析 研究采用了DrugBank和TWOSIDES两个公开数据集,在转导式和归纳式(包括S1:新药-新药,S2:已知药-新药)三种设定下进行了广泛的实验。 * 性能对比:实验结果表明,SimMotifPro在两种数据集的转导式预测任务上,在准确率、AUROC、F1分数和平均精度四个指标上均超越了所有基线方法,达到了最先进的性能。在更具挑战性的归纳式场景下,SimMotifPro在S1设定下综合表现优异,在S2设定下则实现了最高的F1分数,这在实际临床应用中对于避免漏报潜在风险交互至关重要。 * 消融实验:研究者系统地移除了模型的关键组件进行消融研究。结果显示,无论是移除Motif排序器、Motif-motif知识图谱,还是直接使用原子图而忽略motif重构,都会导致模型性能显著下降,证明了各模块的有效性和必要性。 * 理论验证实验: * 令牌数量效应:为了验证理论中“增加令牌数量n可提升性能”的结论,研究者在SimMotifPro框架内,随机从知识图谱中删除部分motif节点以模拟不同令牌数量。结果显示,随着保留的motif数量增加,模型性能持续提升,这与理论预测一致。 * 理论普适性验证:研究者进一步将理论应用到其他基于不同令牌类型的方法上,如基于分子指纹的PEB-DDI和混合令牌的R2-DDI。通过在这些模型上随机删除部分令牌并观察性能变化,发现它们的性能也随令牌数量增加而提升,从而证明了所推导理论在不同方法间的普适性和鲁棒性。 * 方差可控性:通过分析不同规模motif集合嵌入表示的p-范数分布,研究发现随着motif数量的增加,分布的方差变得更加可控。这支持了理论中“增加令牌数有助于控制方差(σ²)”的观点,从而解释了其提升模型鲁棒性的机制。 * 案例研究与可解释性:通过可视化具体药物对的预测过程,展示了Motif排序器的解耦能力。例如,在分析西地那非和异山梨酯二硝酸盐(可能导致严重低血压)的相互作用时,SimMotifPro准确地高亮出了西地那非中已知的关键结合结构以及异山梨酯中的硝酸盐基团,并为不同结构分配了差异化的贡献权重。与其他模型的可视化结果对比,SimMotifPro的识别结果更符合已知的药理学知识,凸显了其强大的可解释性。

本研究的结论是双重的。首先,从理论层面,研究首次从频域视角为分子表示学习提供了一个理论分析框架,并推导出模型收敛性能与令牌数量及方差相关的理论上界。这一理论不仅解释了实验中观察到的现象,还被证明适用于多种不同的令牌化方法,具有很好的通用性。其次,在应用层面,基于理论指导提出的SimMotifPro模型,通过构建motif词库和motif-motif知识图谱来增加并关联令牌,并引入Motif排序器来解耦表示,成功地在多个DDI预测基准上实现了最先进的性能,同时提供了清晰、符合化学原理的可解释性。

本研究的亮点和创新之处在于:1)理论与方法创新紧密结合:研究不是单纯提出新模型,而是先通过严谨的理论分析发现问题本质(令牌数量的重要性),再“有的放矢”地设计模型(SimMotifPro)来满足理论要求(增加有意义的令牌数、控制方差、关联令牌),并通过实验反向验证理论,形成了“观察现象 -> 理论分析 -> 指导建模 -> 验证理论”的完整闭环。2)提出新颖的Motif排序器模块:该模块有效地区分了不同分子亚结构对相互作用的贡献度,极大增强了模型预测结果的可解释性,使其不仅能预测,还能“说明”预测的依据。3)构建Motif-Motif知识图谱:突破了现有方法将motif视为独立同分布的局限,通过捕捉motif间的统计关联,丰富了分子表示的上下文信息。4)系统且全面的验证:研究不仅评估了最终模型性能,还通过消融实验、理论普适性验证、不同令牌类型对比、案例可视化等多种方式,全方位地证明了模型的有效性和理论的正確性。

此外,研究也指出了当前工作的局限性,例如理论分析中将噪声视为常数,而实际高、低噪声区域可能存在差异;频域视角与图神经网络中常用的图谱视角之间的关系有待进一步探索。这些为未来的研究指明了方向。这项研究为可解释的分子表示学习和药物相互作用预测做出了重要的理论和实践贡献,其提出的分析框架和SimMotifPro模型有望在药物发现和安全评估中发挥实际价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com