分享自:

Molscore:用于从头药物设计中生成模型的评分、评估和基准框架

期刊:journal of cheminformaticsDOI:10.1186/s13321-024-00861-w

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


MolScore:用于从头药物设计中生成模型的评分、评估与基准测试框架

一、作者与发表信息
本研究由Morgan Thomas(剑桥大学分子信息学中心)、Noel M. O’Boyle(NXera Pharma计算化学部门)、Andreas Bender(剑桥大学)和Chris de Graaf(NXera Pharma)合作完成,发表于*Journal of Cheminformatics*(2024年,卷16,第64期)。论文标题为《MolScore: A scoring, evaluation and benchmarking framework for generative models in de novo drug design》,开放获取且遵循知识共享许可协议(CC BY 4.0)。

二、学术背景
科学领域与背景
研究聚焦于计算药物化学人工智能生成模型的交叉领域。近年来,基于深度学习的生成模型在从头药物设计(de novo drug design)中快速发展,但存在两大挑战:
1. 评价标准碎片化:现有基准(如GuacaMol、MOSES)多关注单一指标(如分子相似性),缺乏对药物设计多维需求的整合(如合成可行性、靶点选择性);
2. 实用性不足:多数模型优化目标脱离真实药物发现场景(如仅优化类药性指标LogP),且缺乏标准化评估工具。

研究目标
团队开发了MolScore框架,旨在:
- 统一生成模型的评分功能(scoring functions)与性能评估(performance metrics);
- 提供灵活配置的多参数优化(multi-parameter optimization, MPO)能力;
- 支持结构-活性双驱动的分子生成(如分子对接与预测模型结合)。

三、研究流程与方法
1. 框架设计
MolScore分为两大子模块:
- MolScore子包:负责分子评分,整合了20余类评分函数(如分子描述符、2D/3D相似性、分子对接、合成可行性预测等),支持并行化计算与分布式集群处理。
- Moleval子包:提供后验评估,扩展了MOSES基准的评估指标,新增Sphere Exclusion Diversity(SEdiv)骨架多样性等药物设计相关指标。

关键技术
- 动态配置系统:通过JSON文件定义评分目标,无需修改代码即可适配不同任务(如5-HT2A配体设计或ADMET优化);
- 多样性过滤器:防止模型陷入局部最优(mode collapse),通过惩罚重复分子促进化学空间探索;
- 异构环境兼容:针对依赖特定库版本的预测模型(如PIDGINv5、RaScore),采用独立Conda环境运行,避免冲突。

2. 案例验证
研究以5-HT2A血清素受体配体设计为例,设计了三类任务:
- 任务1(基础优化):结合5-HT2A活性预测(PIDGINv5模型)与合成可行性(RaScore);
- 任务2(选择性优化):引入266个GPCR靶点的脱靶活性预测,优化5-HT2A/D2受体选择性;
- 任务3(结构优化):通过GlideSP对接评分与极性相互作用约束(如D1553.32残基结合),驱动生成类药分子。

实验流程
- 生成模型:采用SMILES-RNN结合增强爬山算法(Augmented Hill-Climb);
- 评估指标:对比生成分子与ChEMBL31中3771个已知5-HT2A配体的分布差异;
- 结果可视化:通过Streamlit GUI实时监控分子生成质量(如活性分数、骨架多样性)。

四、主要结果
1. 多参数优化有效性
- 任务1中,结合合成可行性评分后,生成分子的合成可及性(SA Score)提升30%,且活性预测值(pActivity > 6)占比达45%;
- 任务2显示,优化多靶点选择性时,模型需更多迭代(>500步)才能接近真实配体水平,反映选择性设计的复杂性。

  1. 结构引导的优势

    • 任务3中,分子对接约束成功生成新颖骨架(如环丙烷核心),其5-HT2A对接得分(GlideSP ≤ -8 kcal/mol)优于70%已知配体;
    • 关键相互作用(如D1553.32氢键)在90%的生成分子中保留,验证了框架的药效团保持能力
  2. 基准测试对比

    • MolScore复现了GuacaMol和MolOpt基准,并新增任务配置灵活性(如用户可自定义参考分子);
    • 样本效率测试中,其多参数优化性能优于ReinVENT等专用工具(FCD距离降低15%)。

五、结论与价值
科学意义
- 首次提出标准化-可扩展的生成模型评估框架,填补了药物设计领域工具链的空白;
- 证明了结构-活性双驱动优化在复杂目标(如靶点选择性)中的必要性。

应用价值
- 开源工具:MolScore可通过PyPI安装,仅需3行代码即可集成至现有流程;
- 工业适配性:支持商业软件接口(如Schrödinger LigPrep、ROCS),适合药企研发管线。

六、研究亮点
1. 方法创新
- 首创动态JSON配置系统,支持用户自定义评分函数组合;
- 开发实时监控GUI,实现生成过程的交互式分析(如分子聚类、3Dpose可视化)。

  1. 领域突破
    • 通过5-HT2A案例,揭示了生成模型在多参数药物设计中的潜力与当前局限(如选择性优化难度);
    • 提出“实用性基准”概念,推动生成模型研究从理论指标向真实需求靠拢。

七、其他价值
- 框架内置2337个预训练QSAR模型(覆盖ChEMBL31靶点),远超同类工具(如TDC仅含3个模型);
- 提供完整文档与案例库(GitHub),包括SMILES-RNN、GraphGA等模型的集成示例。


(注:全文约2000字,涵盖研究全貌,重点突出方法创新性与药物设计应用场景的紧密结合。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com