人工智能加速药物发现、开发与临床试验的综述

分享自：
人工智能加速药物发现、开发与临床试验的综述

光学
教育学
期刊:MedDOI:10.1016/j.medj.2024.07.026
【点击此处】阅读全文、收藏及针对性提问
人工智能加速药物发现、开发与临床试验的学术综述报告
本文的作者是来自哈尔滨工业大学（深圳）的Yilun Zhang、Mohamed Mastouri和Yang Zhang，Yang Zhang为通讯作者。该文于2024年9月13日发表在国际医学期刊《Med》（Volume 5, Pages 1050-1070）上，是一篇关于人工智能（Artificial Intelligence, AI）在药物研发领域应用的系统性综述。
本文的核心主题在于全面阐述人工智能如何深刻变革药物研发的全流程，从早期靶点发现到临床开发，并聚焦于小分子、RNA和抗体三大类药物。文章不仅总结了当前AI技术在药物研发各环节的具体应用、主流算法模型及其优劣，还深入分析了AI制药产业所面临的“无AI设计药物获批”的核心困境，并对以大型语言模型（Large Language Models， LLMs）和扩散模型（Diffusion Models）为代表的未来发展方向进行了展望。
主要观点与论述：
观点一：人工智能正在系统性重塑药物研发的全过程，显著提升效率并降低成本。 文章开篇即指出，药物研发是一个耗时漫长、成本高昂且失败率极高的过程，其中临床试验阶段占据了近60%的总成本。这为AI的介入提供了巨大机遇。AI能够通过处理和分析海量、高维的生物医学数据，在各个关键节点上优化流程。例如，在靶点发现阶段，AI模型可以整合基因组、蛋白质组、转录组等多组学数据以及海量文献，更精准地识别与疾病相关的潜在治疗靶点。在候选化合物发现与优化阶段，AI驱动的生成模型（如变分自编码器VAEs、生成对抗网络GANs）可以设计具有特定属性的全新分子结构，或从庞大的虚拟化合物库中进行高效筛选，极大地拓展了化学探索空间。在临床开发阶段，AI可以优化患者招募，通过自然语言处理（Natural Language Processing, NLP）技术分析结构化和非结构化的电子健康记录，快速匹配符合条件的患者，从而加速试验进程。麦肯锡全球研究所的报告数据被引用作为支持，指出AI每年可为制药行业创造600亿至1100亿美元的经济价值，主要通过在研发早期阶段节省数十亿美元，以及优化临床试验设计和数据分析来实现。
观点二：卷积神经网络、图神经网络和Transformer已成为AI驱动药物设计的三大主流架构，各具优势，适用于不同类型药物和数据。 文章通过详尽的统计分析和图示（基于2014-2024年PubMed论文的统计）指出，在药物设计中，最常使用的AI核心架构（或称“骨干网络”，Backbones）包括多层感知机（MLP）、卷积神经网络（CNNs）、循环神经网络（RNNs）、图神经网络（GNNs）、Transformer、变分自编码器（VAEs）和生成对抗网络（GANs）。其中，CNNs、GNNs和Transformer已成为最受欢迎的选择。 * 卷积神经网络（CNNs） 因其擅长处理网格状数据（如图像）和提取层次化特征，在各类药物（小分子、抗体、RNA）设计中应用最广。它能有效分析从组织学到临床的各种高维数据，其参数共享和稀疏连接的特性也保证了计算效率。 * 图神经网络（GNNs） 在处理小分子药物时更为频繁地被使用。这是因为小分子可以很自然地用图结构表示（原子为节点，化学键为边），而GNNs专为处理图结构数据设计，能有效捕获原子和键之间的复杂关系。相比之下，将RNA和蛋白质等大分子表示为图则更具挑战性。 * Transformer模型 凭借其自注意力机制，在处理长序列和捕获长程依赖关系方面优于传统的RNN。在药物发现中，它被广泛用于分析DNA、RNA、蛋白质序列（如使用BERT模型），以及用于分子生成（如使用GPT模型）。
观点三：AI已深度渗透至药物研发的三大关键环节：靶点发现与验证、先导化合物发现与优化、临床试验设计，并催生了一系列成功案例和工具平台。 文章用大量篇幅和具体案例详细阐述了AI在各个环节的应用。 * 靶点发现与验证：随着基因表达、基因组、蛋白质组和细胞成像等实验技术的进步，生物医学数据库极大丰富，为AI应用奠定了基础。例如，GuiltyTargets方法利用属性网络表示学习来对蛋白质-蛋白质相互作用（PPI）网络进行排名，成功识别出阿尔茨海默病等疾病的潜在靶点。Insilico Medicine的Pandaomics平台整合了多组学数据和文献专利信息，用于系统性发现靶点和生物标志物。在抗体疗法设计中，AI模型如GraphBepi通过结合AlphaFold2预测的结构信息和ESM-2语言模型的序列编码，显著提升了B细胞表位预测的准确性。 * 先导化合物发现与优化：AI通过处理包含化学性质、生物活性和药代动力学特征的大规模数据集，极大地促进了潜在先导化合物的识别。案例包括：基于消息传递神经网络（MPNN）的Chemprop模型用于筛选抗菌分子；Frame2Seq模型用于基于结构信息设计蛋白质序列；生成式深度学习模型如GENTRL和基于条件RNN（CRNN）的模型用于生成针对特定激酶靶点（如DDR1, RIPK1）的抑制剂库。在预测药物-靶点相互作用（DTI）方面，文章介绍了多种先进方法，如多核三协同矩阵分解、DrugBAN双线性注意力网络以及AI-Bind管道，这些方法通过整合化学、生物和临床信息，提高了预测的准确性和跨领域适应性。对于抗体药物，DeepAIR模型通过整合序列和结构信息来预测适应性免疫受体与抗原的结合。对于mRNA药物，IDRO算法通过双向LSTM和Transformer模型优化开放阅读框和UTR区域，以提升蛋白表达效率。 * 临床试验设计：AI的应用能显著降低成本和提升成功率，尤其是在患者招募环节。例如，IBM的Watson for Clinical Trial Matching (CTM)系统利用NLP处理电子健康记录，高效筛选符合条件的患者。针对中文临床文本的特殊性（如长篇幅病史描述、语义差异），也有研究开发了专门的中文CTM系统，并在肝癌患者中展示了应用潜力。 * 成功案例平台：文章重点介绍了Insilico Medicine的Pharma.AI平台，它集成了靶点发现（Pandaomics）、分子设计与优化（Chemistry42）和临床试验结果预测（InClinico）三大模块，代表了端到端AI药物研发的实践。该平台成功推动小分子药物INS018_055进入特发性肺纤维化（IPF）的II期临床试验，从靶点发现到临床前研究完成仅用时约27个月，展现了AI带来的惊人速度。此外，文章还列举了其他进入临床阶段的AI设计药物（通过Table 1和网络图展示），覆盖癌症、自身免疫性疾病、代谢疾病等多个领域，包括首款AI设计的靶向IL-2/CD25的单克隆抗体AU-007，以及利用AI工具LinearDesign优化稳定性和密码子使用的COVID-19 mRNA疫苗SW-BIC-213。
观点四：尽管潜力巨大，但AI制药领域面临“无AI设计药物获得FDA批准”的核心悖论，其挑战源于数据、模型复杂性和行业协作等多方面。 文章坦率地指出，尽管学术界不断涌现新技术，许多公司也宣称建立了端到端的药物发现平台，但至今尚无AI从头设计的药物获得监管批准。一些AI设计药物在临床试验中失败或遭到公司降级优先度（如Exscientia的EXS21546、BenevolentAI的BEN-2293），引发了行业内的质疑。 失败原因被归结为多重因素： 1. 数据瓶颈：高质量、大规模的生物医学和临床数据是AI算法的基石，但这些数据往往被大型药企作为商业机密持有，导致数据可用性不足、质量参差不齐。数据共享缺乏也阻碍了训练更稳健、公平的模型。 2. 模型复杂性与可解释性：药物设计涉及人体内复杂的吸收、分布、代谢和药效过程，远超图像或文本处理任务。处理这些高维数据需要复杂模型，但其决策过程往往像“黑箱”，缺乏可解释性，难以获得科学家和监管机构的信任。 3. 行业认知与整合：存在对AI能力的高估，误以为AI可以完全取代传统实验和人类专家。实际上，AI的预测必须经过严格的实验验证和专家解读。AI应是增强传统方法的工具，而非替代品。 4. 监管与伦理：AI在药物发现中的应用较新，缺乏清晰的监管指南。同时，数据共享涉及患者隐私和伦理问题，需要建立相应的数据匿名化、去标识化和使用规范。
观点五：大型语言模型和扩散模型代表了克服当前挑战、推动AI制药未来发展的关键方向。 文章最后展望了以LLMs和扩散模型为代表的新兴技术如何有望破解现有困境。 * 大型语言模型（LLMs）：擅长整合和分析海量多源异构数据，在预测药物疗效、识别副作用和发现新靶点方面潜力巨大。例如，基因组基础模型Evo能够预测和生成长达数十万碱基的DNA序列；DeepGO-SE模型利用蛋白质语言模型ESM2和基因本体论知识来预测蛋白质功能；临床语言模型GatorTron在多项临床NLP任务上表现卓越。这些领域特异性的大模型展示了其强大的知识整合与推理能力。 * 扩散模型（Diffusion Models）：作为一种强大的生成模型，在蛋白质设计方面展现出革命性潜力。例如，RFdiffusion能够从头设计具有原子级精度的蛋白质结构和功能，已被用于设计靶向特定表位的抗体可变区。更引人瞩目的是，基于扩散模型的AlphaFold3能够直接预测蛋白质-核酸、蛋白质-小分子等大型复合物的结构，提供了一个有望加速药物设计的通用预测工具。 文章强调，尽管挑战重重，但AI加速整个药物开发进程的趋势不可逆转。学术界和工业界的研究人员正在持续推动这一领域的发展。广泛采用LLMs和扩散模型，并加强跨学科合作与数据共享，被认为是培育繁荣的AI驱动药物发现生态系统的关键。
论文意义与价值： 本文的价值在于它为读者提供了一幅关于AI在药物研发中应用的全景式、深入且批判性的图景。它不仅系统梳理了技术进展、应用案例和主流算法，更难能可贵的是，它直面产业核心痛点，分析了AI药物在临床转化中遭遇挫折的深层次原因。这种“既报喜也报忧”的客观态度，使得该综述不仅具有高度的学术参考价值，也为产业界的战略决策提供了重要洞察。最后，文章对LLMs和扩散模型的前瞻性探讨，为研究人员指明了富有潜力的未来探索方向。因此，该文对于计算生物学、药物化学、生物信息学以及制药产业的投资与研发人员而言，都是一份极具价值的综合性参考资料。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问