本文介绍了一项发表于学术期刊《Molecules》的研究,由来自中国多所研究机构的科研团队完成。这项研究针对天然产物(Natural Products)药物发现中的关键瓶颈,开发并发布了一款名为DerivaPredict的创新型计算工具。该研究的第一作者是Yu Song和Meng Zhang,通讯作者为Ganghui Chu和Hongchao Ji。作者团队分别来自新疆喀什大学的化学与环境科学学院“新疆本土药用与食用植物资源化学实验室”,以及位于深圳的中国农业科学院农业基因组研究所“农业农村部基因组分析重点实验室”。该研究论文于2025年4月9日正式发表在《Molecules》期刊2025年第30卷第8期上,文章标题为“DerivaPredict: A User-Friendly Tool for Predicting and Evaluating Active Derivatives of Natural Products”。
该研究的学术背景紧密围绕现代药物发现的核心领域——基于天然产物的先导化合物发现与优化。天然产物(如紫杉醇、地高辛等)因其结构的多样性和丰富的生物活性,一直是新药研发的宝贵源泉。然而,现有的天然产物及其衍生物数据库(如SuperNatural、NPAtlas等)仅收录了已知的化合物,无法主动生成和评估新颖的、具有潜在活性的衍生物。尽管近年来人工智能和深度学习在分子生成领域取得了显著进展,例如基于循环神经网络(RNN)、变分自编码器(VAE)、生成对抗网络(GAN)和大语言模型(LLM)的方法,但这些通用模型通常并非专门为天然产物衍生物设计。它们往往忽略了生物化学转化规则和反应机制,可能生成结构上不合理或合成难度极大的分子,限制了其在药物设计中的实用性。因此,本研究旨在填补这一空白,开发一个能够基于已知生物化学规则、系统性地生成和评估天然产物衍生物的计算框架,以加速早期药物发现进程。本研究的具体目标是:创建一个用户友好的软件工具(DerivaPredict),该工具能(1)依据化学、生化和代谢转化规则自动生成结构合理的天然产物衍生物;(2)利用深度学习模型预测这些衍生物与特定靶标蛋白的结合亲和力(Drug-Target Affinity, DTA);(3)通过ADMET(吸收、分布、代谢、排泄和毒性)谱分析评估其类药性质(drug-likeness);(4)为研究人员提供一个整合了上述所有功能的图形化操作平台。
详细的工作流程构成了DerivaPredict软件的核心引擎,主要包含以下几个关键步骤。第一步是反应模板的提取。为了确保生成的衍生物在化学和生物学上是合理的,研究团队从多个来源收集并整理了反应规则库。化学转化模板提取自专利文献中的50,000个有机化学反应。生化(酶促)转化模板则整合自多个知名数据库(如MetaCyc, KEGG, SEED等),包含了约95,000个酶促反应。由于部分酶促反应缺乏原子映射信息,团队使用了基于神经网络的自动原子映射工具RxnMapper进行处理。此外,代谢转化功能则通过集成BioTransformer 3.0模块来实现,该模块能够预测多种代谢过程,包括酶促反应、环境微生物转化、细胞色素P450介导的I相和II相反应以及人体肠道微生物反应等。这些经过精心整理的规则库是DerivaPredict区别于通用分子生成模型的基础,保证了衍生物生成过程的生物相关性。
第二步是潜在衍生物的生成。DerivaPredict利用强大的化学信息学工具包RDKit,将上一步提取的反应模板应用于用户输入的天然产物底物。软件支持多种输入方式:直接输入SMILES字符串、通过内置分子编辑器绘制结构、或上传包含多个SMILES的文件。用户可以选择化学、生化或代谢转化类型,并设定迭代次数(通常为1-3次)。在每一轮迭代中,RDKit的反应引擎会识别底物分子中可应用反应模板的位点,并执行相应的结构修饰(如官能团添加、氧化还原、开环闭环等),从而产生一系列新的衍生物。这个过程可以多次迭代,以前体-产物的方式不断扩展化学空间。研究指出,随着迭代次数的增加,产生的结构数量呈指数增长,但计算时间也会相应延长。
第三步是分子性质的预测与评估。对于生成的每一个衍生物,DerivaPredict会调用一系列先进的算法进行多维度评估。(1)合成复杂性评估:使用SCScore算法对每个衍生物进行打分,分值越高表示合成难度越大,这有助于研究人员优先考虑更易于合成的候选分子。(2)类药性评估:使用定量药物相似性评估(QED)指标,提供一个综合分数,衡量分子与已知药物在分子量、脂溶性、氢键等性质上的相似程度。(3)ADMET谱分析:集成ADMET-AI软件包,预测多达91种与药物吸收、分布、代谢、排泄和毒性相关的关键性质,如脂水分配系数(logP)、极性表面积(TPSA)、血脑屏障渗透性、对细胞色素P450酶(CYP1A2, CYP2C19, CYP3A4)的抑制潜力以及肠道渗透性(Caco-2, PAMPA)等。这些预测为候选化合物的药代动力学和安全性提供了初步的、全面的见解。
第四步是与特定靶点的结合亲和力预测。这是评估衍生物潜在药效的关键环节。DerivaPredict集成了多种基于深度学习的药物-靶点亲和力预测模型,这些模型使用DeepPurpose库并基于BindingDB数据集进行了预训练。模型架构包括卷积神经网络(CNN)和图神经网络(GNN)等。用户可以通过输入靶标蛋白的UniProt ID或基因名称来指定目标,软件会自动从UniProt数据库检索蛋白序列。然后,预训练模型会对每个衍生物与指定靶点之间的结合亲和力进行预测,通常以半数抑制浓度(IC50)的形式输出。这个功能使得研究人员能够在海量生成的衍生物中,快速筛选出对特定疾病靶点可能具有高活性的候选分子。
除了上述核心计算流程,研究还详细描述了软件的架构与功能设计。DerivaPredict是一个基于Python和PyQt5开发的开源软件,采用前后端分离的模块化设计。前端提供了一个直观的图形用户界面,允许用户轻松完成所有设置(输入底物、选择靶点、配置参数)并可视化结果。后端则负责所有复杂的计算任务。这种设计提高了软件的可靠性、可维护性和可扩展性,便于未来集成新的数据库或算法。软件还内置了分子结构查看器和结果导出功能,方便后续分析。
研究的主要结果通过两个具体的案例研究得到了充分展示。首先,在结构多样性评估中,研究团队选择姜黄素和紫杉醇作为母体化合物。通过应用化学、生化和代谢转化规则,分别生成了1299个和1497个独特的衍生物。利用摩根指纹和UMAP降维可视化技术,结果显示这些衍生物覆盖了广阔的化学空间,且不同类型的转化(化学/生化 vs. 代谢)产生的衍生物在结构相似性上表现出明显差异。化学和生化转化产生的衍生物与母体结构相似度较高(主要涉及官能团的添加或修饰),而代谢转化则产生了结构多样性更丰富的衍生物(常涉及环闭合、链延长或键断裂等更大变化)。合成复杂性分析(SCScore)显示,紫杉醇衍生物的分数普遍高于姜黄素衍生物,这与其母体分子本身更复杂的结构一致。
其次,在药理学活性预测的案例中,研究聚焦于姜黄素及其衍生物对表皮生长因子受体(EGFR)的抑制潜力。研究使用DerivaPredict内置的预训练CNN模型预测了所有姜黄素衍生物对EGFR的结合亲和力(IC50)。在生成的衍生物中,有737个被预测其IC50值低于姜黄素本身,即预测活性更强。研究进一步展示了两个示例衍生物的结构及其预测IC50值。为了验证这些预测,研究团队使用AutoDock Vina对预测结合亲和力最高的一个衍生物(及姜黄素本身)与EGFR的三维结构(PDB ID:1M17)进行了分子对接模拟。对接结果显示,该衍生物与姜黄素结合在EGFR的相同位点,但形成了更强的氢键和疏水相互作用,结合更紧密,这从计算角度支持了深度学习模型的预测。值得注意的是,该衍生物(ChEMBL ID:ChEMBL103410)在ChEMBL数据库中已有记录,处于“临床前”阶段,且之前的计算研究也验证了其相比姜黄素对EGFR具有更高的结合亲和力,这为DerivaPredict的预测提供了一定的佐证。此外,ADMET性质预测表明,该衍生物相比姜黄素具有更高的脂溶性(logP),并且整体ADMET谱良好,显示出作为EGFR抑制剂的优化潜力。
基于上述工作流程和结果,本研究得出的核心结论是:DerivaPredict作为一个理性的设计引擎,成功地桥接了药物发现中的两个关键阶段——基于生物转化规则的衍生物生成和基于计算预测的候选物优先排序。它的核心价值在于,通过整合已知的化学与生物反应规则,系统地扩展了天然产物的化学空间,超越了现有数据库的局限,为药物化学家提供了一个平衡了新颖性、合理性和类药性的预筛选化合物库。该软件作为一个“假设生成器”,其意义不在于取代湿实验,而在于利用机器学习模型高效地识别出具有高潜力的衍生物,为后续的实验验证提供明确的方向和高质量的起点,从而加速天然产物研究中的活性化合物发现进程。
本研究的亮点突出体现在以下几个方面:第一,方法的创新性:DerivaPredict并非一个通用的分子生成模型,而是首个专门针对天然产物衍生物、并整合了化学、生化和代谢转化规则的计算设计框架。这种“规则引导”的生成策略确保了衍生物结构的合理性和潜在的可合成性。第二,功能的集成性:软件创造性地将衍生物生成、结合亲和力预测和ADMET评估三大功能无缝集成于一个工作流中,提供了从“设计”到“初步评价”的一站式解决方案。第三,用户友好与开源:软件提供了图形化界面,降低了计算药物设计的技术门槛,同时以开源形式发布,鼓励研究社区参与改进和扩展,具有很好的可及性和发展潜力。第四,案例验证的扎实性:研究不仅展示了软件的功能,还通过姜黄素和紫杉醇的详细案例,从结构多样性到药理活性预测进行了多层次验证,并将对接结果与现有数据库记录进行比对,增强了结果的说服力。
此外,研究论文中还包含了其他有价值的信息,例如详细列出了所有使用的数据源和工具(RDKit, DeepPurpose, ADMET-AI, BioTransformer等),明确了软件的获取地址(GitHub仓库),并提供了完整的材料与方法描述,确保了研究的可重复性。作者也坦言,软件预测的结果仅为早期筛选提供参考,并不能保证体内实验的活性,后续的蛋白质组学和细胞实验仍是必要的,这体现了科学研究的严谨态度。DerivaPredict工具的开发和发布,为基于天然产物的药物研发领域提供了一个强大、实用且具有前瞻性的新型计算武器,有望在未来的创新药物设计中发挥重要作用。