连接化学空间与生物效能：生成模型在天然产物结构修饰中的应用进展与挑战

分享自：
连接化学空间与生物效能：生成模型在天然产物结构修饰中的应用进展与挑战

化学
信息科学
期刊:Natural Products and BioprospectingDOI:10.1007/s13659-025-00521-y
【点击此处】阅读全文、收藏及针对性提问
人工智能驱动天然产物结构修饰：进展、挑战与展望
作者与发表信息 本文由来自沈阳药科大学中药学院的刘传苏、卢金才，以及中国科学院昆明植物研究所植物化学与西部植物资源持续利用国家重点实验室的颜秉超、孙汉董、Pema-Tenzin Puno（通讯作者）共同撰写。该综述文章发表于学术期刊《Natural Products and Bioprospecting》2025年第15卷第37期。
论文主题 本文是一篇系统性综述，聚焦于人工智能（AI）在天然产物（Natural Products, NPs）结构修饰领域的应用。文章的核心议题是探讨如何利用生成式模型（Generative Models）来“桥接化学空间与生物效能”，即如何通过AI技术高效、理性地设计与优化天然产物衍生物，以加速药物发现进程。
主要论点与论述
一、 天然产物在药物发现中的价值与面临的挑战 天然产物因其结构复杂多样、生物活性丰富，一直是创新药物先导物的重要来源。据统计，1981年至2019年间FDA批准的药物中，约30%源于天然产物或其衍生物，尤其在抗感染和抗肿瘤领域贡献卓著。然而，其临床应用面临多重瓶颈：复杂的立体化学结构常导致不利的ADMET（吸收、分布、代谢、排泄和毒性）性质，违反类药五原则（Lipinski’s Rule），存在口服生物利用度低、肠道吸收差等问题；同时，许多天然产物存在活性强度不足、特异性有限或毒性较高等缺陷。因此，对天然产物进行结构优化以提升其成药性，是药物化学领域的关键挑战。
传统的结构修饰方法，如基团修饰、骨架跃迁和结构简化，常依赖于试错法，效率低下且成本高昂。计算机辅助药物设计（Computer-Aided Drug Design, CADD）技术（如分子对接、分子动力学模拟、定量构效关系模型）的引入提供了一定帮助。近年来，随着数据库规模的指数级增长和人工智能算法的突破，AI药物发现与设计（AI Drug Discovery & Design, AIDD）应运而生，它通过融合生成式深度学习与多模态数据，实现了从“试错优化”到“数据驱动理性设计”的范式转变，为天然产物的结构修饰开辟了革命性道路。
二、 分子生成模型的分类及其在天然产物结构修饰中的应用策略 本文对2020年至2024年间发展的分子生成模型进行了系统性分类，重点关注开源模型，并基于其在天然产物结构修饰中可能应用的两种主要场景——“靶点已知”和“靶点未知”——将模型进一步细分为“靶点-相互作用驱动”和“分子活性数据驱动”两大类。
1. 靶点-相互作用驱动策略 此类模型适用于靶点蛋白已知的情况，利用蛋白质-配体相互作用数据（如晶体结构）来指导分子生成，旨在提高设计的特异性与成功率。 * 模型细分：根据生成方式，可进一步分为： * 片段拼接法：从预定义的化学片段库中选择片段并拼接至骨架上。代表模型如DeepFrag，它将分子生成转化为分类任务，通过移除蛋白质-配体复合物中的配体片段，让模型预测并填补最合适的片段。其他模型如FREED、DEVELOP、STRIFE等，则分别结合了强化学习、图神经网络与卷积神经网络、片段热点图等技术，以不同程度利用蛋白口袋的3D信息。 * 分子生长法：直接在靶点口袋的3D空间内，以原子或子结构为单位逐步生成分子。代表模型如DiffDec、AutoFragDiff、PMDM等，它们通常基于扩散模型或强化学习，能够更灵活地探索口袋的化学空间，无需依赖预定义的片段库。 * 应用案例：文中列举了两个成功应用DeepFrag进行先导化合物优化的案例。一是在抗SARS-CoV-2药物开发中，研究人员基于N蛋白的结合口袋环境，对具有潜在抗病毒活性的菲啶啉生物碱衍生物进行侧链定向替换，并结合EMPIRE模型扩大生成化学空间，最终通过虚拟筛选和实验验证得到了高亲和力、高活性的化合物。二是在抗癌靶点拓扑异构酶IIα抑制剂优化中，利用DeepFrag分析ATP结合位点，指导三嗪类化合物R基团的优化，成功获得了活性显著提升的衍生物。
2. 分子活性数据驱动策略 此类模型适用于靶点未知或旨在进行理化性质优化的场景。它通过分析已知活性分子的结构与活性特征，学习构效关系，从而预测并生成具有潜在活性的新分子。 * 模型细分：根据分子表示和输入数据的形式，可分为： * 基于SMILES序列的方法：利用自然语言模型（如Transformer）处理SMILES字符串。代表模型如Scaffold Decorator，通过定义连接点标记来避免非法连接；REINVENT 4结合了迁移学习、强化学习和课程学习，能针对小数据集任务生成具有特定性质的分子。 * 基于分子图的方法：将分子表示为图结构（原子为节点，化学键为边），直接捕获原子间键合关系。代表模型如GraphScaffold、DrugEx v3、Tree-invent等，它们能更自然地处理分子结构并实现多目标优化。 * 基于3D结构的方法：结合原子坐标和化学键信息生成具有空间构象的分子，如3D-Scaffold，能直接输出3D坐标，但计算复杂度高。 * 应用案例：文中介绍了多个成功案例。例如，利用Scaffold Decorator对已知活性分子的3-胺基和3-苄基骨架进行多样化衍生，生成了超过9万个虚拟分子，通过虚拟筛选发现了高选择性的腺苷A2B受体拮抗剂和DDR1选择性抑制剂。LibInvent模型则通过结合反应规则和强化学习，成功用于发现新的Cbl-B抑制剂。SAMOA模型通过结合基于结构的药物设计（SBDD）和基于配体的药物设计（LBDD）的复合评分函数进行强化学习，动态优化ATM激酶抑制剂，最终获得了高活性、高选择性的候选化合物。
三、 骨架跃迁模型的应用 当局部基团修饰受限于原始骨架固有缺陷时，需要进行全局性的骨架跃迁以实现成药性的飞跃。 * 靶点-相互作用驱动：例如DeepHop模型，能结合靶点蛋白序列信息和分子3D构象信息，生成具有相似3D结构但不同2D骨架的分子。DiffLinker则是一个靶点驱动的连接子设计模型，能考虑蛋白口袋的几何约束生成分子。 * 分子活性数据驱动：主要用于连接子设计，同时也涉及骨架跃迁。例如DeLinker是首个将3D结构信息纳入生成过程的连接子设计模型。SyntaLinker将片段连接任务转化为类似自然语言处理的任务，实现端到端的可控生成。其改进版SyntaLinker-Hybrid通过迁移学习微调靶点聚焦的活性化合物数据，结合片段杂交技术，可生成具有靶点特异性的分子。 * 应用案例：在JAK1抑制剂开发中，研究人员使用GraphGMVAE模型从已上市药物Upadacitinib出发，生成了大量新颖骨架的JAK1抑制剂，其中97.9%的分子具有不同于已知抑制剂的新骨架，并通过实验验证了活性。在TBK1抑制剂优化中，利用经激酶抑制剂数据集迁移学习构建的SyntaLinker模型，替换已知抑制剂MRT67307的非铰链结合片段，成功发现了高活性、高选择性的新型抑制剂。
四、 现有模型在天然产物应用中面临的挑战与局限性 尽管案例证明了生成模型在优化合成药物分子方面的可行性，但其在天然产物领域的直接应用仍面临独特挑战： 1. 数据依赖性与质量： * 靶点驱动模型：严重依赖高质量、大量的蛋白质-天然产物复合物结构数据，而这在公开数据库中极为稀缺，实验验证成本高昂。 * 活性数据驱动模型：易受数据集偏差影响（阳性分子过表征、阴性结果缺失），且不同研究报道的活性数据实验条件不统一，影响模型泛化能力。现有数据集对复杂天然产物（如大环内酯、聚酮类）的表征不足。 2. 模型本身的局限性： * 静态建模：许多模型基于静态晶体结构，无法模拟靶点蛋白的动态构象变化（如变构效应）以及细胞微环境（pH、离子浓度）的影响。 * 合成可行性：部分模型缺乏对合成路径的显式建模，生成分子可能因合成难度过高而无法进入实验验证。少数模型（如LibInvent）通过预定义反应类型来约束合成可行性。 * “生成-验证”脱节：当前流程大多依赖CADD虚拟筛选进行活性验证，未能实现端到端的动态优化闭环。 * 可解释性与泛化性：模型多为“黑箱”，其构效关系缺乏透明解释；对全新或跨物种靶点的泛化能力有限。 3. 计算资源与系统复杂性：深度学习模型训练需要大量计算资源，且现有模型难以完全模拟真实生物系统的复杂性（如基因互作网络、代谢通路调控）。
五、 未来展望与发展方向 为推进天然产物结构修饰的智能化转型，需要在数据、算法和技术层面实现系统性突破： 1. 小样本学习与数据增强：基于反应规则驱动的分子模块化或碎片化构建虚拟分子库；利用在通用分子库上预训练的模型，通过迁移学习针对天然产物数据集进行微调，并结合主动学习策略降低实验验证成本。 2. 动态相互作用建模与多模态融合：引入等变图神经网络和自适应分子动力学模拟靶点变构效应；构建“结构-活性-通路”多层预测模型，整合靶点相互作用网络、转录组学和代谢组学数据，分析多靶点协同机制。 3. 轻量化模型架构：通过知识蒸馏等技术将大参数模型压缩为轻量级版本，降低计算资源消耗。 4. 构建自动化闭环系统：整合深度学习分子设计、逆合成分析、自动化合成平台、生物合成途径设计、模块化反应器及高通量活性检测，构建“虚拟设计 → 机器人合成 → 实验反馈”的全流程系统，实现天然产物合成与结构修饰的“生成-合成-验证”闭环。 5. 升级天然产物数据库：现有数据库（如NPASS, SuperNatural 3.0, LOTUS, COCONUT）在化学结构分析和理化性质表征方面已形成体系，但存在生物活性数据维度单一、动态合成途径缺失、注释有限等不足。未来需整合多模态数据，实现实时更新，并嵌入AI工具链，将数据库仓库转变为智能化的合成与活性预测中心。
论文的意义与价值 本综述系统梳理了AI生成式模型在药物设计，特别是天然产物结构修饰领域的最新进展，具有重要的学术价值和指导意义： 1. 系统性归纳：首次从“靶点已知”和“靶点未知”两大应用场景出发，对分子生成模型进行了清晰、逻辑性强的分类，为研究者选择合适的工具提供了路线图。 2. 跨领域验证：通过整合合成药物分子优化中的成功案例，有力地论证了这些生成模型在天然产物结构修饰领域的跨领域适用性与技术可行性，为天然产物研究者提供了宝贵的参考范例。 3. 前瞻性分析：不仅总结了当前模型的优势，更深入剖析了其在应用于天然产物这一特殊领域时面临的独特挑战（如数据稀缺、结构复杂），并提出了切实可行的未来发展方向（如小样本学习、动态建模、闭环自动化）。 4. 推动范式转变：文章明确指出，AIDD正在推动天然产物结构修饰从“试错优化”向“数据驱动理性设计”范式转变。通过展望轻量化架构、多模态融合、动态建模和闭环自动化等方向，为克服数据稀缺、合成可行性低、多目标冲突等关键挑战提供了思路，有望促进天然产物从“化学实体”向“临床药物”的高效转化。
这篇综述为从事天然产物药物研发和计算药物设计的科研人员提供了一份及时、全面且深入的“技术地图”和“发展指南”，标志着该交叉领域正迈向一个更加理性、高效和智能的新阶段。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问