TeroAct:一种萜类化合物生物活性图谱与发现平台研究报告
一、 研究作者、机构与发表信息
本研究的主要作者包括Xiaojuan Shen、Shijia Yan、Xu Kang、Kangwei Xu、Yongxing Jian、Tao Zeng、Guohui Wan和Ruibo Wu。其中,Guohui Wan和Ruibo Wu为通讯作者。研究作者主要来自中山大学药学院抗感染药物研发国家重点实验室,部分合作者来自海南大学药学院。本研究以“TeroAct: a terpenoid bioactivity landscape and discovery platform”为题,已于2025年9月正式发表于药学期刊 *Acta Pharmaceutica Sinica B*。
二、 学术背景与研究目标
本研究属于计算药物发现与计算化学生物学的交叉领域,具体聚焦于天然产物萜类化合物的系统生物学研究与人工智能辅助药物发现。萜类化合物是由多个异戊二烯单元构成的最大类天然产物家族,结构高度多样化,具有广泛的药理活性,如抗肿瘤、抗炎、抗菌、抗氧化等。然而,萜类化合物庞大的化学空间与生物活性谱尚未得到系统性的探索与利用,其药物发现过程往往依赖于耗时费力的实验筛选,缺乏高效的、数据驱动的预测工具。
尽管已有一些数据库(如DrugBank、TCMBank)收录了部分萜类化合物及其活性信息,但尚未有一个能够整合多维生物活性关系(化合物-靶点-基因-细胞-疾病)的综合性知识平台,也缺乏专门针对萜类化合物的高效预测模型。因此,本研究旨在填补这一空白,目标在于: 1. 构建一个大规模、多维度关联的萜类化合物生物活性知识图谱。 2. 开发基于知识图谱和深度学习的高性能预测模型,用于预测萜类化合物与疾病的关联以及化合物与蛋白质的相互作用。 3. 将以上数据资源和计算工具整合到一个用户友好的网络平台“TeroAct”上。 4. 通过具体的案例研究(如抗黑色素瘤和抗炎活性筛选),验证平台的实用性和有效性,加速萜类化合物的药物发现与药物重定位。
三、 详细工作流程
研究流程主要分为三个核心部分:知识图谱构建、预测模型开发与验证、及网络平台集成与案例研究。
第一部分:萜类生物活性知识图谱构建 1. 数据整合与网络构建:研究团队在已有的Terokit数据库基础上,从多个权威数据库中整合信息,包括:DrugBank中的获批药物信息、TCMBank中的中药成分、Cellosaurus中的细胞系与疾病关联数据、以及CTD、GeneCards、TTD等数据库中的基因-靶点-疾病信息。最终,他们构建了一个包含11,653个非重复萜类化合物、1,321个靶标蛋白、975个细胞系、1,178个基因以及基于ICD-11、NCIt、ORDO等标准分类的疾病的异构生物网络。网络中的实体通过已验证的实验关系(如结合、抑制、调控)相互连接。 2. 数据挖掘与可视化:对整合数据进行了深入分析。例如,从TCMBank中识别出2526个萜类化合物,其中仅19%具有已知活性注释。从DrugBank中识别出238个萜类药物条目,其中111个具有明确的靶点作用。研究还构建了基于化合物相似性的生物活性化学空间网络,以可视化具有相似骨架化合物的活性分布,并识别“活性悬崖”现象。此外,他们还利用气泡图展示了特定化合物簇与靶点间的关联强度,为研究者提供直观的结构-活性关系启示。
第二部分:预测模型开发与评估 本研究开发了多个预测模型,核心是萜类化合物-疾病关联预测模型(Terpenoid–Disease Association, TerDA)。 1. TerDA模型架构:该模型采用双模块设计。 * 分子特征融合模块:从分子结构提取两类特征:其一是基于RDKit计算的10个分子描述符(如LogP、TPSA、分子量等),经卷积神经网络(CNN)处理;其二是将分子视为图结构,通过图卷积网络(GCN)提取拓扑和原子级特征。两种特征向量进行早期融合后,通过多层感知机(MLP)生成统一的高层级分子表示。 * 链接预测模块:利用知识图谱嵌入技术。该模块将知识图谱中的萜类(头实体)、疾病(尾实体)及其关系嵌入到连续的向量空间。研究比较了三种经典的KGE模型作为“解码器”:DistMult、TransE和TransH。模型优化的目标是使已验证的萜类-疾病关联对获得比未验证关联对更高的预测得分。训练时,采用了不同的正负样本比例(1:1, 1:5, 1:10),并使用基于权重的交叉熵损失函数来处理类别不平衡问题。 2. 模型训练与评估:模型在五折交叉验证框架下进行训练和评估。评估指标分为两类: * 分类指标:准确度、AUC(受试者工作特征曲线下面积)、AUPR(精确率-召回率曲线下面积)、精确率、召回率和F1分数。 * 排序指标:在“过滤”设置下计算平均排名(MR)、平均倒数排名(MRR)和前K命中率(Hit@K)。 3. 对比基线与性能验证:将TerDA与HNet-DNN、REDDA、LHGCG、HDGAT等先进的药物-疾病关联预测基线模型进行比较。结果显示,在三种不同的负采样比例下,采用DistMult解码器的TerDA模型在绝大多数分类和排序指标上均表现最佳,展现出卓越的推荐能力和对类别不平衡数据的鲁棒性。 4. 药物重定位任务验证:设计了“全局”和“局部”两种药物重定位场景来进一步验证模型。 * 全局:逐步随机掩蔽(20%、40%、60%、80%)知识图谱中已知的关联,然后预测这些被掩蔽关联在所有候选疾病中的排名。结果显示,即使知识图谱已知信息大幅减少,TerDA模型仍能将被掩蔽的真实关联稳定地推荐到较靠前的位置,显著优于基准模型LHGCG。 * 局部:随机选择10个化合物,分别掩蔽其一部分已知疾病关联,然后预测这些被掩蔽的关联。结果显示,TerDA能有效利用知识图谱的整体拓扑信息,为单个化合物推断疾病,即使在关联信息稀疏的情况下也保持了稳健的性能。 5. 其他预测工具优化:除了TerDA,研究团队还在TeroAct平台集成了多个化合物-蛋白质相互作用(CPI)预测模型,包括对经典模型如SPVec进行萜类数据优化后得到的SPVec_Tero,以及DeepCDA、CPI_GNN、MONN、CPI_HGCNC、MolTrans和TransformerCPI等。这些工具用于靶点垂钓和虚拟筛选。
第三部分:TeroAct平台搭建与案例研究验证 1. 平台搭建:将构建的知识图谱、TerDA模型、多种CPI预测工具以及其他分析工具部署在名为“TeroAct”的交互式网络平台(http://terokit.qmclab.com/teroact/)。平台提供数据检索、知识图谱浏览、在线预测等服务。 2. 抗黑色素瘤案例研究: * 计算筛选:利用TerDA模型对所有萜类-疾病关联对进行评分,针对“黑色素瘤”疾病,得到一个推荐化合物列表。根据预测排名和结构新颖性(通过Intra-List Similarity, ILS@20评估),选择了排名靠前且与已知抗黑色素瘤化合物结构相似度较低的6个化合物进行实验验证,同时选择了7个低排名化合物作为对照。 * 体外实验验证:细胞实验(CCK-8、克隆形成、EdU掺入、伤口愈合、Transwell迁移、细胞凋亡实验)表明,高排名化合物(如Mollugin和Columbianadin)能显著抑制黑色素瘤细胞(A375, B16-F10)的增殖、迁移并诱导凋亡,而低排名化合物活性较弱或无活性。其中Mollugin的IC50值约为25 μM(A375),Columbianadin约为32 μM(A375)。 * 体内实验验证:在B16-F10细胞构建的CDX小鼠模型中,口服给予Mollugin能显著抑制肿瘤生长,且未引起明显体重下降和器官毒性。然而,Columbianadin在体内未显示明显抗肿瘤效果,推测可能与其在体内快速代谢为活性较低的Columbianetin有关。 * 机制初探:利用平台中的SPVec_Tero模型预测Mollugin的潜在靶点,排名第三的是脂肪酸结合蛋白5(FABP5)。表面等离子共振实验证实了Mollugin与FABP5的结合,KD值约为1.03 μM。分子动力学模拟显示其结合模式。定量RT-PCR分析表明Mollugin能下调多个脂质代谢相关基因的表达,提示其可能通过干扰肿瘤细胞的脂质代谢稳态发挥作用。 3. 抗炎活性验证:使用TerDA模型预测具有抗炎潜力的萜类化合物,并选取23个化合物在LPS刺激的RAW264.7巨噬细胞模型中进行验证。实验证实了其中多个化合物的抗炎活性,并能显著降低促炎细胞因子水平。统计分析显示,高预测排名或高预测得分的化合物组,其抗炎效果显著优于低分组,进一步验证了模型的预测能力。
四、 主要研究结果
本研究产出了系统性、多层次的结果。 1. 数据资源方面:成功构建了迄今最全面的萜类化合物生物活性知识图谱,整合了逾万种化合物与数千个生物实体(蛋白、基因、细胞、疾病)间的复杂关系,形成了“萜类-靶点-疾病”的多维数据网络。该图谱不仅揭示了萜类作为药物和中药成分的丰富活性谱,还通过可视化工具揭示了其结构-活性关系的规律,为后续研究提供了宝贵的数据基础。 2. 算法模型方面:开发的TerDA模型在萜类-疾病关联预测任务上,无论是分类准确性还是推荐排序性能,均超越了现有的先进基线模型。其在“全局”和“局部”药物重定位任务中的优异表现,证明了该模型不仅能有效挖掘隐藏关联,还能对新化合物进行可靠的疾病推断。对SPVec等CPI模型的优化,也增强了其在萜类靶点预测中的适用性。这些结果共同验证了融合分子深度学习特征与知识图谱嵌入策略的有效性。 3. 平台应用方面:TeroAct平台的搭建,使上述数据资源和计算工具能够被学术界便捷地访问和使用。平台集成了数据浏览、关联预测、靶点筛选等功能,形成了闭环研究框架。 4. 生物学发现方面:通过平台指导的案例研究,成功发现了Mollugin和Columbianadin两个具有显著抗黑色素瘤活性的萜类化合物,并首次报道了它们对该疾病的治疗潜力。详尽的体外和体内(针对Mollugin)实验数据,强有力地验证了平台驱动的计算筛选策略的可行性。初步机制研究将Mollugin的活性与FABP5靶点和脂质代谢调控联系起来,为后续深入研究提供了方向。抗炎活性的批量验证结果,也证明了平台的普适性和预测可靠性。
五、 研究结论与价值
本研究成功创建了“TeroAct”——一个集成了大规模萜类生物活性知识图谱与人工智能驱动预测工具的综合性计算发现平台。该研究的主要结论和价值体现在: * 科学价值:提出并验证了一种整合多维生物网络数据、深度学习分子表示与知识图谱推理的框架,显著提升了萜类化合物生物活性挖掘和疾病关联预测的效率和准确性。这为复杂天然产物的系统性研究提供了新的方法论范例。 * 应用价值:TeroAct平台作为一个公开的、用户友好的资源,将极大地加速萜类化合物的药物发现进程。研究者可以利用该平台进行快速的虚拟筛选、靶点预测、药物重定位以及机制假设生成,从而降低早期药物发现的成本和周期。 * 发现价值:通过平台应用,本研究不仅验证了其预测能力,还直接推动了新的生物学发现,如鉴定出Mollugin和Columbianadin作为抗黑色素瘤候选药物,并初步揭示了其潜在作用机制,为相关疾病治疗提供了新的候选分子。
六、 研究亮点
七、 其他有价值内容
本研究还包含了详尽的实验方法学描述(如细胞培养、动物模型、分子对接与动力学模拟、表面等离子共振等),为其他研究者进行类似验证提供了参考。同时,论文的附录部分(Supporting Information)包含了大量的补充数据和图表,如不同超参数下的模型性能比较、详细的化合物活性数据、模型在独立外部测试集上的验证等,进一步增强了研究的严谨性和深度。此外,对药物重定位中不同负采样比例的探讨、以及对化合物结构新颖性的定量评估(ILS),也体现了研究的细致考量。