本文档是一篇发表于《Annual Review of Medicine》2026年1月刊(Volume 77, Issue 1)的综述论文,标题为“Artificial Intelligence to Guide Repurposing of Drugs”(人工智能指导药物再利用)。主要作者包括Zhimin Fu、Yuxin Yang、Mina Chung、Serpil Erzurum,以及通讯作者Feixiong Cheng博士,其所属机构主要为美国克利夫兰诊所及其下属的勒纳研究所。
论文的主题集中于探讨人工智能和机器学习技术在药物再利用领域中的应用、方法、挑战与未来方向。在当前生物医学研究中,尽管对疾病遗传风险因素的理解和投资在过去二十年大幅增加,但对于阿尔茨海默病、心脏病、癌症、COVID-19等多种复杂疾病,仍缺乏有效的疾病修正疗法。传统的药物研发耗时长、成本高、失败风险大。相比之下,药物再利用/重定位作为一种新兴策略,旨在为已获批或在研药物寻找新的治疗适应症,因其药代动力学、剂量、安全性及生产工艺已有良好表征,有望快速、低成本地开发出有效疗法。然而,海量且不断增长的遗传学和多组学数据由于缺乏精准的分析方法,尚未被药物再利用领域有效挖掘。因此,本综述旨在对AI/ML工具在药物再利用中的应用提供一个权威、批判性且易于理解的回顾与讨论,以推动该领域的发展。
主要观点一:药物再利用的两种核心策略——以疾病为中心和以靶点为中心 综述首先厘清了药物再利用的两种主要范式。第一种是以疾病为中心的策略。其前提是,当不同疾病共享相似的生物学通路、症状或特征时,同一种药物可用于治疗这些不同疾病。该方法的关键步骤是识别目标疾病与药物原有适应症疾病之间同源的潜在生物学作用机制。文中以西地那非为例进行说明。西地那非原本用于治疗肺动脉高压和勃起功能障碍,其作用机制是通过抑制cGMP特异性磷酸二酯酶5型来减少环磷酸鸟苷的分解。近期研究通过分析阿尔茨海默病内表型疾病模块在蛋白质-蛋白质相互作用网络中的定位,发现西地那非脱颖而出,成为AD的潜在候选药物,真实世界患者数据也显示其使用与AD发病率降低相关。进一步的体内外实验验证了其对AD相关病理标志物和通路的影响。
第二种是以靶点为中心的策略。该策略假设同一靶点蛋白与多种疾病相关,因此能够抑制或激活该靶点的药物有潜力治疗这些疾病。文中以二甲双胍和索马鲁肽为例。二甲双胍是2型糖尿病的一线治疗药物,主要通过激活细胞能量传感器AMPK发挥作用。基于转录组学的网络分析显示AMPK信号通路在心房颤动中至关重要,从而将二甲双胍重新定位为AF的潜在治疗药物。索马鲁肽是一种GLP-1受体激动剂,用于控制2型糖尿病、治疗肥胖和降低心血管疾病风险。研究表明GLP-1受体可能与神经退行性疾病(如AD)相关,索马鲁肽在动物模型中显示出神经保护作用,提示其在AD等疾病中的再利用潜力。这两种策略为利用现有数据快速开发潜在疗法提供了有效框架。
主要观点二:用于药物再利用的人工智能技术与方法学体系 综述系统梳理了支撑AI驱动药物再利用的技术与数据基础,构成了一个多层次的方法学体系。
首先,是AI就绪数据集。有效的药物发现流程需要多模态生物医学数据。文章将相关数据库分为五类:(1)化学信息学数据库(如ChEMBL、PubChem、DrugBank),包含分子结构、性质等信息;(2)生物信息学数据库(如UniProt、PDB、AlphaFold、GenBank、Ensembl),提供蛋白质和基因的结构与功能信息;(3)系统生物学数据库(如KEGG、Reactome),存储分子反应、相互作用及与疾病的关联;(4)多组学数据库(如DisGeNET),详细记录疾病以及与疾病相关的基因和突变;(5)药理学数据库(如BindingDB、PDBBind),呈现药物与靶点之间的相互作用和结合信息。这些数据库为构建和评估各种AI/ML模型提供了丰富的资源。
其次,是机器学习与深度学习技术。ML/DL是AI的子领域,可分为监督学习、无监督学习和半监督学习。在药物再利用中,分子指纹(如圆形指纹、MACCS指纹)常作为传统ML算法的输入,用于预测药物-靶点相互作用——这是靶点中心策略的基础步骤。除了指纹,药物或靶点之间的相似性(如化学结构、副作用谱、氨基酸序列、基因表达响应)也可构建相似性矩阵作为输入。深度学习则能处理非结构化数据,例如SMILES字符串、氨基酸序列、分子图像、3D结构和电子健康记录。序列模型(如SMILES2Vec、ChemBERTa)使用便捷;分子图像数据(如DeepScreen、Chemception、ImageMol)能提供更好的分子结构信息;处理3D结构的方法包括使用几何图数据(原子为节点、连接为边)或将分子不同角度的视图编码为视频(如VideoMol)。当前的一个趋势是多模态学习,即融合不同模态的数据(如序列数据和结构数据)到一个DL模型中,以提供对药物和靶点更全面的理解(如MRL-Mol、MMELON、Clean-Contact)。
第三,是基于网络的方法。这类方法主要应用于疾病中心的药物再利用,利用从疾病相关网络中提取的信息来寻找针对特定疾病的再利用药物。网络由节点(可代表药物、靶点、患者、基因、通路)和边(代表实体间关系)组成。常用的网络包括蛋白质-蛋白质相互作用网络和药物-疾病网络。网络方法擅长学习药物与其潜在靶点、疾病与其靶点蛋白之间尚未被发现的关系。例如,基于系统药理学的网络方法曾预测抗疟药羟氯喹具有降低心血管疾病风险的潜力;基因组定位系统网络(GPSnet)通过将患者DNA/RNA序列映射到人类PPI网络,发现抗心律失常药哇巴因对肺腺癌具有抗肿瘤活性;DeepDTnet通过集成15种不同类型的网络,高精度预测拓扑异构酶抑制剂拓扑替康可能通过抑制ROR-γt来治疗多发性硬化症。
第四,是基于真实世界患者数据的临床试验模拟。随机对照试验虽是金标准,但受试者人群代表性有限。真实世界数据来源于真实世界患者的实践观察,为基于人群的药物再利用验证提供了宝贵资源,但其面临混杂因素(如性别、种族、缺乏详细的临床/生物标志物/遗传信息)的挑战。AI技术,特别是深度学习,可以通过“目标试验模拟”方法来处理RWD中的复杂混杂因素和高维时序性,从而在大型保险索赔等数据中识别潜在的再利用药物。例如,该方法曾用于发现安眠药唑吡坦可能减缓帕金森病痴呆的进展,以及识别出14种可能降低特定临床特征患者亚组AD风险的候选药物。处理RWD的AI策略包括基于卷积神经网络的方法、基于循环神经网络的方法和基于图神经网络的方法,它们分别以不同方式对EHR数据进行表征和预测。
第五,是用于药物再利用假设生成的生物医学知识图谱。利用文献中丰富、相关且高质量的知识,既可以验证从RWD中产生的再利用假设,也可以独立生成基于知识的再利用假设。其方法通常是使用知识图谱嵌入技术(如DGL-KE),为实体(药物、疾病、基因/蛋白质)和关系(如药物-疾病关联)生成向量化表示,然后在同一语义嵌入空间中根据<药物,关系,疾病>三元组的向量相似性评分进行排序,生成再利用假设。例如,有研究开发了用于零样本药物再利用的图基础模型,能够高精度地对17,080种疾病(包括大量罕见病)的潜在适应症和禁忌症药物进行排序。另一项工作构建了一个关于COVID-19的综合性生物医学知识图谱,包含1500万条边和39种关系类型,基于此训练的深度学习模型识别出40多种针对COVID-19的潜在再利用药物,并通过富集分析验证了预测的可信度。
第六,是AI驱动药物再利用的临床与实验验证。利用AI模型预测出候选药物后,实验和临床验证是确认其真实世界准确性和可靠性的关键步骤。主要的实验验证方法包括使用诱导多能干细胞衍生模型和动物模型;临床验证则可利用电子健康记录数据或健康保险索赔数据。综述中列举了几个验证实例:在将西地那非再利用为AD潜在疗法的研究中,使用AD患者iPSC衍生的神经元进行实验,发现西地那非治疗能显著降低AD病理早期生物标志物磷酸化tau蛋白(p-tau 181)的水平,差异表达基因的富集分析也显示其具有神经保护作用。在将二甲双胍用于房颤的研究中,使用了人iPSC衍生的心房样心肌细胞来验证计算预测,结果显示经二甲双胍处理后,一些关键的心血管相关标志物显著上调。另一项研究则用AD患者iPSC衍生的小胶质细胞验证了镇痛药酮咯酸通过下调I型干扰素信号通路发挥作用的机制。
主要观点三:AI方法在特定重大疾病药物再利用中的具体应用 综述选取了阿尔茨海默病、癌症、COVID-19和心血管疾病这四类人类重大复杂疾病,具体阐释AI如何加速通过药物再利用发现疗法。
在阿尔茨海默病领域,AI应用尤为活跃。例如,机器学习框架DRIAD通过量化AD生物过程与相关遗传数据集之间的潜在关联,优先筛选再利用候选药物,并成功将巴瑞替尼确定为候选药物,目前已在临床试验中进行测试。系统生物学平台ALZ-GPS整合了100多个多组学数据集,支持基于网络的AD药物再利用靶点优先排序。网络拓扑深度学习框架NetTag用于识别AD相关基因并优先考虑候选药物和靶点,利用该工具并结合真实世界数据,研究团队发现降脂药吉非罗齐与AD风险降低显著相关。通过多模态分析AD患者脑组织的单细胞/核RNA测序数据,发现两种已获批的哮喘药物(氟替卡松和莫米松)通过靶向AD相关小胶质细胞与AD可能性降低显著相关。通过分析720万患者的真实世界电子保险记录数据,发现FDA批准的p300/CBP抑制剂双水杨酯或二氟尼柳与AD发病率降低相关,并在小鼠中得到神经保护功效验证。这些实例共同展示了AI驱动的多组学方法如何与真实世界数据库及实验方法结合,快速识别AD的潜在疗法。
在癌症领域,AI用于药物再利用的主要方法包括利用癌细胞系模型和患者来源的原代细胞。例如,基于对人类乳腺癌细胞系药物反应的ML算法,发现28种药物中有16种在治疗人类乳腺癌方面表现显著更优。此外,患者的电子健康记录也可用于预测药物对癌症患者的有效性,例如有研究利用来自梅奥诊所和范德比尔特大学医学中心的EHR数据来发现可能降低癌症死亡率的潜在药物。
在COVID-19大流行早期,AI成为发现可再利用治疗药物的关键技术。研究重点集中于抑制SARS-CoV-2刺突蛋白(病毒感染的关键)以及减轻疾病引起的炎症和免疫反应。基于网络的方法识别出16种药物和3种药物组合具有治疗潜力。ImageMol被用于寻找SARS-CoV-2刺突蛋白抑制剂。值得注意的是,褪黑素(调节睡眠的激素)和地塞米松(糖皮质激素激动剂)被提出可用于减轻炎症和免疫反应,而托瑞米芬则被提出作为潜在的SARS-CoV-2刺突蛋白抑制剂。
在心血管疾病领域,通过研究人类蛋白质-蛋白质相互作用组,发现抗癫痫药卡马西平可能增加CVD风险,而抗疟药羟氯喹被认为可降低CVD风险。通过整合药物不良反应信息,已有获批药物被重新用于CVD治疗,同时降低了潜在的不良反应。
主要观点四:挑战、展望与未来方向 尽管AI在药物再利用领域取得了显著进展,但仍面临诸多挑战。其一,模型超参数(如学习率、隐藏层大小)的选择对性能影响巨大,自动化机器学习与神经架构搜索提供了可行的解决方案。其二,大语言模型的出现为通过整合异质数据源推进药物再利用提供了鼓舞人心的方案,但其存在“幻觉”和偏见问题,检索增强生成技术可以用于缓解。其三,AI代理系统是另一个有前景的方向,未来基于LLM的AI代理系统可以通过调用多种最先进的药物再利用工具(如AlphaFold 3、NetTag)来执行不同类型的药物发现查询。将生物医学知识图谱集成到AI代理的LLM中,可以使患者、医生和研究人员就药物和疾病提出任何问题。
构建AI就绪数据集本身也存在挑战:多组学和临床数据来源于不同实验室和医疗系统的异质患者样本,数据协调至关重要但颇具挑战;数据共享有限,尤其是制药公司因知识产权问题无法共享海量数据;人类疾病的复杂性要求覆盖基因组、细胞、临床和行为等多方面的异质数据集,这需要跨实体和机构的协作,利用AI技术整合多样化的患者群体和疾病特征。
数据安全是包容性和维持对AI技术信任的关键。采用FHIR等临床数据传输标准对数据可信度和保密性至关重要。联邦学习是另一个潜在的解决方案,它通过在多个本地站点进行集体学习而不转移原始数据来保护患者个体数据。提高AI模型的透明度和可解释性也是一个重要方向,以便科学家理解药物再利用过程中的决策逻辑,从而正确评估其可用性和潜在失败案例,例如可解释AI技术。模型解释方法有多种潜在用途,例如知识蒸馏技术。然而,这些模型可能容易受到对抗性攻击,因此,推导出鲁棒、可靠且安全的模型解释是未来的重要研究方向。
论文的意义与价值 本综述论文系统性地总结和梳理了人工智能在药物再利用领域的全景图,从核心策略、技术方法、数据基础到在具体疾病中的应用实例,结构清晰,内容全面。它不仅为药物再利用和计算生物医学领域的研究人员提供了详尽的技术路线图和方法学参考,也指出了当前面临的关键挑战和未来的发展方向,特别是对AI代理、大语言模型与知识图谱融合、数据安全与联邦学习等前沿趋势的展望,具有重要的引领意义。论文强调,AI在药物再利用中的应用离不开跨学科团队的合作,以解决临床试验数据分析、将试验成果应用于最能受益的患者等当前差距与挑战。这篇综述有力地论证了AI是未来针对人类重大挑战性疾病进行药物再利用和精准医疗不可或缺的组成部分。