本研究报告介绍了一项由Lidan Zheng, Simeng Zhang, Yihao Li, Yang Liu, Qian Ge, Lingxi Gu, Yu Xie, Xiao Wang, Yunfei Ma, Junfei Liu, Mengyi Lu, Yadong Chen, Yong Zhu 和 Haichun Liu 共同完成的原创性研究。这些作者主要来自中国药科大学理学院,部分作者亦来自南京医科大学公共卫生学院和重庆医科大学药学院。该项研究成果以“MTGNN: A Drug-Target-Disease Triplet Association Prediction Model Based on Multimodal Heterogeneous Graph Neural Networks and Direction-Aware Metapaths”为题,发表于美国化学会出版的《Journal of Chemical Information and Modeling》(J. Chem. Inf. Model.)期刊,该论文于2025年5月22日收到修改稿,并于5月29日被接受。
研究的学术背景 本研究属于计算生物信息学和人工智能在药物发现领域的交叉领域,核心方向是药物-靶点相互作用(Drug-Target Interaction, DTI)预测与药物重定位(Drug Repositioning)。当前新药研发面临成本高昂、周期漫长且临床成功率低的严峻挑战,药物重定位——即发现已上市药物新适应症——成为加速研发、降低风险的重要策略。而药物-靶点相互作用的精准预测是理解药物作用分子机制、实现有效重定位的关键前提。 传统及当前主流方法(如基于双分支架构的模型或图神经网络)通常仅建模药物-靶点或靶点-疾病等二元关联,忽略了在真实生物系统中,药物通过作用于特定靶点来影响疾病进程这一具有方向性的三元协同机制(药物→靶点→疾病)。将这种三元关联割裂建模,会丢失关键的生物学上下文和系统性调控信息,限制了模型的预测准确性和生物学可解释性。因此,直接对药物-靶点-疾病(G-T-D)三元组关联进行建模,成为一个有潜力提供更全面药理学理解的途径。尽管已有基于张量分解、超图神经网络或异质图的方法尝试建模高阶关系,但它们通常在方向性建模、多模态语义整合或计算效率方面存在局限。基于此背景,本研究旨在开发一个能够直接、精准预测药物-靶点-疾病三元组关联的新型计算框架,以克服现有方法的不足,为系统性药物重定位提供更强大的工具。
详细的研究工作流程 本研究包含以下几个主要步骤:问题定义与数据集构建、MTGNN模型设计与实现、模型训练与评估、消融实验与参数分析、案例研究与可视化验证。
第一,问题定义与数据集构建。 研究聚焦于肿瘤学领域。研究团队从多个权威生物医学数据库整合数据:从DrugBank获取了440个小分子抗癌药物及其SMILES结构;从UniProtKB获取了226个与癌症相关的人类蛋白质靶点及其氨基酸序列;从比较毒物基因组学数据库(CTD)和医学主题词表(MeSH)本体中获取了302种癌症相关疾病及其语义描述符。基于这些实体,他们利用DrugBank中的药物-靶点相互作用以及CTD中的药物-疾病和靶点-疾病关联,构建了一个包含75,441个三元组的药物-靶点-疾病(G-T-D)关联数据集。每个三元组被标记为已知关联(正样本)或未知关联(负样本)。此外,他们为药物、蛋白质和疾病分别计算了领域特定的相似性矩阵:药物使用Tanimoto系数基于分子指纹计算相似性;蛋白质使用标准化的Smith-Waterman比对得分;疾病则基于MeSH本体中的有向无环图结构,采用Wang等人提出的方法计算语义相似性。这些相似性矩阵将作为异质图中节点的初始特征。
第二,MTGNN模型架构设计与实现。 研究提出了一种名为MTGNN(多模态Transformer图神经网络)的新型预测框架,其核心架构包含三大模块: 1. 方向感知的异质图构建模块:首先,将药物、靶点、疾病作为节点,将已验证的二元关联(如D-T、T-D)作为边,构建一个基础异质网络。关键在于,研究者引入了方向感知元路径(Direction-Aware Metapaths) 来建模更高阶的、具有生物学方向性的语义关系。他们定义了六种有向元路径(如G→T→D, D→T→G等),并根据每条元路径从原始图中提取对应的有向子图实例。每个子图实例(头节点-中间节点-尾节点)通过一个关系感知的嵌入技术进行编码,该技术结合了节点嵌入和可学习的关系嵌入(如“抑制”、“激活”)。随后,采用多头图注意力机制为不同元路径实例分配合适的权重,并聚合来自多条元路径的信息,最终为每个节点(药物、靶点、疾病)生成高度抽象的图结构表征(Z_g, Z_t, Z_d)。这一过程首次在异质图中显式地建模了生物调控的方向性。 2. 多模态特征编码模块:为了弥补图结构对分子功能基团、蛋白结合域等细粒度生物属性表征的不足,模型同时从原始数据中提取语义特征。对于药物,使用其SMILES序列;对于靶点蛋白质,使用其氨基酸序列;对于疾病,使用其MeSH描述符。对于药物和疾病序列,采用了一个基于CNN的任务感知编码器来提取局部结构-语义模式。对于蛋白质序列,本研究创新性地利用了预训练的大型蛋白质语言模型ESM来获取更丰富的、包含远程空间子结构信息的残基级特征表示,然后通过一个深度神经网络模块得到最终靶点表征。这一步骤整合了来自不同模态(化学、基因组学、本体论)的深度语义信息。 3. 跨模态注意力融合与预测模块:这是模型实现信息整合与最终预测的核心。该模块采用了一种独特的基于Transformer的双分支架构。将图结构表征(Z_topo)和多模态语义表征(H_semantic)分别与一个随机初始化的可学习令牌([CLS] token)拼接,并送入两个平行的单层Transformer模块进行增强,得到增强后的表征H_z和H_h。关键创新在于引入了一个跨模态注意力机制:使用更新后的令牌作为查询向量,分别与另一个分支的其余令牌进行交叉注意力计算。这使得拓扑特征和语义特征能够进行显式的、动态的对齐与交互。最终,将原始令牌、两个Transformer分支的输出以及交叉注意力输出进行加权融合,生成一个统一的、信息丰富的多模态表征。该表征随后被输入一个多层感知机,并通过Sigmoid激活函数输出候选三元组(药物,靶点,疾病)存在关联的概率。
第三,模型训练、评估与基线对比。 研究采用5折交叉验证和独立测试集来评估模型性能。训练时保持正负样本1:1的比例,测试时为每个正样本生成10个负样本以进行排序评估。评估指标包括用于评估排序质量的NDCG@N (N=1,3,5)和MRR,以及用于评估分类性能的AUC和AUPRC。研究将MTGNN与涵盖机器学习(XGBoost, MLP)、张量分解(CP, Tucker)、经典双分支DTI模型(HyperAttentionDTI, BCM-DTI, FMCA-DTI)、知识图谱嵌入(TransH, PairRE, DSGNet)、图神经网络(NeoDTI, MAGNN)和超图模型(HyperGraphSynergy)在内的多达14种基线方法进行了全面对比。
第四,消融实验与参数分析。 为定量评估MTGNN各组件贡献,研究者设计了一系列模型变体进行消融研究,包括:去除异质图编码(noHet)、去除结构特征(noStruct)、去除相似性矩阵(noSim);尝试不同的特征编码器组合(如全部使用CNN,或混合使用ChemBERTa和ESM);比较不同的特征聚合方式(动态加权求和、直接拼接、交叉注意力等);以及替换最终的预测模块(如使用GCN替代MLP)。此外,还对隐藏层维度、损失函数平衡系数、学习率、注意力头数和融合层数等关键超参数进行了敏感性分析,以确定最优配置。
第五,可视化与案例研究。 研究者使用t-SNE对模型预测的高维表征进行降维可视化,以展示模型对不同类型关联的区分能力以及元路径所蕴含的方向性语义。更重要的是,他们进行了深入的案例研究,从模型的预测结果中挑选出若干未包含在原始训练集中的药物-靶点-疾病关联,并通过检索外部生物医学文献进行验证。例如,模型预测了“地塞米松-ATM-毛细胞白血病”、“异维A酸-CHRNA3-类癌瘤”、“姜黄素-ACE-妊娠并发症,肿瘤性”等关联,这些关联的生物学合理性在后续文献中得到了支持。此外,他们还进行了一项额外的鲁棒性测试,在过滤掉高同源性特征(如序列相似性>40%的蛋白质、结构高度相似的药物等)后,评估模型对特定样本的预测一致性,结果证明MTGNN具有良好的鲁棒性。
研究的主要结果 在模型性能对比方面,实验结果表明,MTGNN在所有六项评估指标上均显著且一致地超越了所有基线模型。如表1和图3所示,MTGNN在5折交叉验证中取得了最高的NDCG@5 (0.9209±0.0100)、NDCG@1 (0.8003±0.0247)、MRR (0.8849±0.0139) 和 AUC (0.9784±0.0045)。特别是在代表顶级预测精度的NDCG@1和衡量整体分类性能的AUC上表现尤为突出。与性能最接近的基线模型MAGNN相比,MTGNN在所有指标上均有显著提升,证明了其整合方向性元路径和多模态特征的优势。对比分析指出,传统机器学习方法因缺乏对拓扑结构的学习能力而表现不佳;张量分解方法受限于线性假设;双分支DTI模型无法捕获全局关系结构;知识图谱嵌入方法对复杂生物互作建模不足;而现有的异质图或超图方法则在方向性建模或多模态融合方面存在缺陷。MTGNN通过其创新架构成功地解决了这些问题。
在消融实验结果方面,如表2所示,去除异质图编码(noHet)导致性能下降最为剧烈,凸显了方向感知元路径对于捕获复杂关联的至关重要性。去除结构特征(noStruct)或相似性矩阵(noSim)也导致了明显的性能损失,证实了它们作为补充信息源的价值。在特征编码器组合中,使用ESM处理蛋白质、CNN处理药物和疾病的组合(即MTGNN采用的CEc配置)取得了最佳效果,说明了利用预训练模型处理复杂生物实体的益处。在特征聚合方式上,本研究所用的全局注意力机制(global-attention)显著优于简单的动态求和、拼接或单一的交叉注意力,证明了自适应跨模态语义融合的有效性。使用MLP作为预测器效果优于GCN,表明当前置编码器能够产生高质量表征时,一个轻量级的回归器即可实现可靠预测。
在参数分析结果方面,如图4所示,研究确定了模型的最佳超参数配置:隐藏层维度d=32,损失平衡系数γ=0.6,学习率lr=0.0075,注意力头数k=8,融合层数l=1。这些结果为模型的稳定高效训练提供了依据。
在案例研究与鲁棒性验证结果方面,模型成功预测了多个有文献支持的、新颖的G-T-D关联,展示了其发现潜在生物学机制和推动药物重定位的实际应用潜力。在过滤高同源性数据后,模型对特定样本的预测结果保持稳定(如表3所示),进一步证明了其良好的泛化能力和鲁棒性,而非简单地记忆数据中的同源模式。
研究的结论与价值 本研究成功提出并验证了MTGNN,这是一个用于直接预测药物-靶点-疾病三元组关联的创新性多模态异质图神经网络框架。该模型通过整合方向感知的元路径建模、基于预训练模型的多模态语义编码以及跨模态注意力融合机制,实现了对复杂生物系统中多实体间协同互作的精准、可解释建模。 科学价值:MTGNN超越了传统的二元关联预测范式,为系统性药理学研究提供了一个能够捕捉方向性调控和路径依赖关系的计算工具。它将图结构学习与深度学习语义理解深度融合,推动了人工智能在生物医学关系推断领域的发展,特别是为高阶、异质、多模态生物网络的分析设立了新标准。 应用价值:在肿瘤学领域的验证表明,MTGNN在药物重定位任务中具有强大的预测能力和实际应用前景。其构建的肿瘤相关G-T-D三元组数据集可作为一个有价值的基准。模型框架具有可扩展性,其构建方法可迁移至心血管、神经退行性疾病等其他治疗领域,加速新适应症的发现和候选药物的筛选流程,最终降低药物研发成本与风险。
研究的亮点 1. 问题定义新颖:首次将药物-靶点-疾病三元组关联预测作为一个端到端的回归问题进行系统性建模,直接针对药物重定位的核心生物学逻辑。 2. 方法创新性强: * 方向感知元路径:在异质图中显式引入和建模有向元路径,首次在GNN框架内捕捉了“药物→靶点→疾病”这类因果/调控方向性,显著提升了模型的生物学可解释性。 * 深度融合多模态信息:巧妙结合了图拓扑结构(通过异质图)、序列局部模式(通过CNN)和预训练大语言模型的深度语义(通过ESM),实现了对生物实体全面、多层次的特征表征。 * 创新的跨模态融合架构:采用双分支Transformer与交叉注意力机制,实现了图结构与语义特征间动态、深度的对齐与交互,而非简单的拼接或池化。 3. 验证全面且深入:不仅进行了大规模、多基线的性能对比,还通过系统的消融实验量化了各组件贡献,进行了细致的参数分析,并辅以案例研究和鲁棒性测试,从多角度证明了模型的有效性、必要性和实用性。
其他有价值的内容 研究团队公开了实验代码(GitHub仓库:https://github.com/zzzzld/mtgnn),促进了研究的可复现性及后续工作。论文也指出了当前模型的局限性与未来方向,例如:探索更复杂的结构编码方法(如GCNs)处理药物分子可能带来的效率与收益权衡;在数据极度稀疏或标注噪声大的场景下模型的稳健性有待加强;以及将模型成功应用于肿瘤领域之外的其他疾病类型,需要进行跨领域迁移学习和领域自适应策略的探索。这些坦诚的讨论为领域后续研究指明了有价值的改进空间。