类型b
作者与期刊信息
本文由Amit Gangwal和Antonio Lavecchia*撰写,其中Antonio Lavecchia是意大利那不勒斯费德里科二世大学药学系“药物发现”实验室的教授及负责人。文章发表于《Journal of Medicinal Chemistry》,DOI为10.1021/acs.jmedchem.4c01257,修订版接受日期为2025年1月28日。
主题概述
本文探讨了人工智能(AI)在天然产物(Natural Products, NPs)药物发现中的应用现状、挑战及未来前景。作者详细分析了AI技术如何加速NPs的研究流程,包括化合物筛选、结构预测、合成路径设计以及生物活性评估,并提出了当前方法的局限性和改进方向。
AI,尤其是机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL),已经彻底改变了药物发现领域。传统药物发现依赖于高通量筛选(High Throughput Screening, HTS)和试错法,而AI通过数据分析和模式识别显著提升了效率。例如,AI能够快速分类分子、预测其生物活性,并优化合成路径。对于NPs而言,这些技术尤为重要,因为NPs通常具有复杂的化学结构和多样的生物活性,传统方法难以全面解析。
支持证据:
- 文中提到,AI驱动的计算化学工具(如Chematica/Synthia)可以设计复杂天然产物的合成路径,例如Engelheptanoxide C的全合成。
- 深度生成模型(Deep Generative Models)能够自主设计受NPs启发的候选药物分子,简化其结构并改善药物特性。
子观点:
- AI在虚拟筛选(Virtual Screening, VS)中的应用尤为突出,特别是在基于配体或基于结构的筛选中。
- 自然语言处理(Natural Language Processing, NLP)和计算机视觉技术进一步扩展了AI在NP研究中的能力,例如从科学文献中提取关键数据或通过图像分析识别生物活性元素。
NPs因其天然来源和3D结构特征,更可能与转运系统有效结合,从而被递送到靶点。AI在预测分子靶点、生物活性和潜在副作用方面发挥了关键作用。例如,TIGER算法能够根据小分子的2D化学结构预测其靶点,而不依赖于靶点结构信息。
支持证据:
- TIGER成功预测了Resveratrol对雌激素受体β的拮抗作用,并通过实验验证。
- DeepBG算法利用细菌基因组序列识别生物合成基因簇(Biosynthetic Gene Clusters, BGCs),为新NP的发现提供了基础。
子观点:
- 基于监督学习或半监督学习的去孤儿化预测器(Deorphanizing Predictors)能够预测NPs的蛋白质靶点。
- 在基因组挖掘(Genome Mining)中,AI帮助识别具有制药潜力的BGCs,克服了传统规则方法的局限性。
AI被广泛用于从序列或光谱数据中预测生物合成基因和代谢物结构。例如,DeepFLAVO和DeepGinsen通过DL模块检测远距离编码的前体肽,发现了新的核糖体合成和翻译后修饰肽(Ribosomally Synthesized and Post-Translationally Modified Peptides, RiPPs)。
支持证据:
- Pristinin A3是一种新型Lanthipeptide,通过DeCRIPPTER算法预测发现。
- AI在质谱(Mass Spectrometry, MS)和核磁共振(Nuclear Magnetic Resonance, NMR)数据分析中的应用,显著提高了代谢组挖掘的效率。
子观点:
- AI结合MS/NMR技术,能够重建光谱、去噪并进行峰检测,从而加速结构解析。
- 新型算法(如LatentGAN架构)在生成全新化合物方面表现出色,同时保留了训练集的化学空间特征。
AI在NP合成路径设计中展现了巨大潜力。例如,Chematica/Synthia程序通过整合专家知识和启发式算法,成功设计了Ciguatoxin CTX3C等复杂分子的合成路径。
支持证据:
- 2020年,Synthia被增强以设计复杂天然化合物的合成路线,其路径被认为与化学家设计的路径相当甚至更优。
- Monte Carlo树搜索和符号AI的结合,显著提高了逆合成路径规划的效率。
子观点:
- 当前AI工具在NP合成中的应用仍有限,主要受限于训练数据不足和NP结构复杂性。
- 强化学习(Reinforcement Learning, RL)和图神经网络(Graph Neural Networks, GNNs)有望进一步提升合成路径规划的准确性。
尽管AI在NP药物发现中取得了显著进展,但仍面临诸多挑战:
1. 数据可用性有限:NP数据库缺乏全面的化学结构、生物活性和药理学性质数据,影响了AI模型的训练效果。
2. NP结构复杂性:NPs通常具有多个立体中心、功能基团和异构体,增加了AI预测的难度。
3. 合成困难:即使AI能够设计出理想的分子,其合成路径可能仍然难以实现。
4. 生物学复杂性:NPs与生物系统的相互作用涉及多个靶点、途径和机制,AI难以准确捕捉这种复杂性。
5. 可解释性不足:深度学习模型的“黑箱”特性限制了研究人员对其预测的信任和理解。
支持证据:
- 数据稀缺问题可通过迁移学习(Transfer Learning)、主动学习(Active Learning)和联邦学习(Federated Learning)等方法部分缓解。
- 图形化方法和多变量数据分析有助于优化生物活性预测。
子观点:
- 标准化数据集和混合模型(Hybrid Models)的开发是解决上述问题的关键。
- AI与传统规则方法的结合(Hybrid Approaches)能够更好地应对NP的结构复杂性。
本文强调了AI在NP药物发现中的巨大潜力。尽管目前尚未有直接由AI设计的NP药物进入临床使用,但其在加速药物发现、优化分子设计和揭示新机制方面的贡献不可忽视。未来,AI与化学、生物学等领域的跨学科合作将推动NP药物发现迈向新高度。
支持证据:
- Deep Generative Models能够设计出具有简化结构和改善药物特性的NP候选分子。
- 社区策划的数据集和标准化格式将促进数据共享和模型开发。
子观点:
- AI在NP药物发现中的应用不仅限于现有技术的改进,还可能催生全新的研究范式。
- 通过扩大化学数据库和优化算法,研究人员可以解锁更多创新机会。
本文系统总结了AI在NP药物发现中的应用现状,并指出了当前方法的局限性和未来发展方向。其科学价值在于为研究人员提供了全面的技术综述和改进建议;其应用价值在于推动了AI技术在药物发现领域的实际落地,为解决未满足的医疗需求提供了新思路。