分享自:

利用知识蒸馏从类似预训练数据中增强大环类药物渗透性的预测能力

期刊:Journal of Medicinal ChemistryDOI:10.1021/acs.jmedchem.5c02620

关于“通过知识蒸馏从类似预训练数据中提升大环药物渗透性预测能力”研究的学术报告

一、 研究作者与发表信息 本项研究由来自芬兰图尔库大学(University of Turku)生物医学研究所、综合生理学与药学院以及Inflames研究旗舰中心的Yu ZhangOlli T. Pentikäinen共同完成。该研究成果以题为“Enhancing the Predictive Power of Macrocyclic Drug Permeability by Knowledge Distillation from Analogous Pretraining Data”的论文形式,发表于《Journal of Medicinal Chemistry》期刊,并收录于该刊2026年第69卷第387-399页的“大环化合物作为挑战性药物靶点的治疗模式”特刊中。该论文于2025年12月20日在线发表。

二、 学术背景 本研究隶属于计算药物化学与人工智能辅助药物设计领域,具体聚焦于大环化合物(Macrocycles)的膜渗透性(Membrane Permeability)预测这一关键挑战。大环化合物因其独特的构象和立体化学复杂性,在调节蛋白质-蛋白质相互作用等传统小分子难以成药的靶点方面展现出巨大潜力。然而,其口服生物利用度常常受限于难以预测的膜渗透性。实验测定渗透性耗时耗力,而基于三维构象的计算模拟则因大环化合物庞大的构象空间而计算成本高昂。因此,开发快速、准确的计算模型来早期预测大环化合物的渗透性,对于加速其药物发现进程至关重要。

尽管深度学习(Deep Learning, DL)在预测药物吸收、分布、代谢和排泄(ADME)性质方面显示出优势,但在药物发现领域常面临标记数据稀缺、实验条件异质性(不同细胞系、不同实验室)以及由此产生的标签噪声等问题。传统的单一数据集训练的模型泛化能力有限。本研究旨在解决这些问题,其核心目标是开发一个名为Multi_DDPP的深度学习框架,该框架能够直接从二维分子结构(2D Structures)出发,高效、准确地预测大环化合物的膜渗透性。研究的关键创新在于利用知识蒸馏(Knowledge Distillation) 技术,从包含多种细胞系(如Caco-2, MDCK, RRCK, PAMPA)渗透性数据的“大”数据集中提取通用知识,并将其迁移到一个更小但更精准的“高保真”大环化合物数据集上,从而提升模型在特定任务上的预测性能和鲁棒性。此外,研究还引入了“摆动范围”(Swing-Range)策略来处理实验数据中的噪声标签,并整合了多种分子表征(物理化学描述符、分子指纹、分子图、混合特征)以全面捕捉分子信息。

三、 详细研究流程 本研究的工作流程系统而严谨,主要包含以下几个关键步骤:

1. 数据集的构建与处理: * 大型多细胞系数据集(预训练数据集): 研究人员从ChEMBL和PubChem数据库中收集了来自Caco-2、MDCK、RRCK和PAMPA四种常用渗透性测定方法的实验数据。经过去重(使用InChIKey)后,最终获得包含23,086个分子的数据集,涵盖小分子、线性肽和大环化合物。该数据集用于知识蒸馏的“教师模型”训练,旨在学习与膜渗透性相关的广泛化学空间和潜在特征。 * 高保真任务特定数据集(微调/评估数据集): 专门针对大环化合物的PAMPA渗透性数据,从CycPeptMPdb、NPMPD数据库及相关文献中收集。为了解决不同实验组数据间的差异(噪声),研究提出了创新的“摆动范围”策略。他们分析了227个由不同研究组测试的相同大环分子的数据对,发现约31.7%的分子在不同实验中得到了矛盾的渗透性分类(可渗透 vs. 不可渗透)。为了在保留尽可能多数据的同时减少标签噪声,研究者定义了-log P值在5.5到6.5之间的区域为“摆动范围”,并排除了落在此范围内的数据点,从而构建了一个更可靠的高保真数据集,包含6733个条目(3999个可渗透,2734个不可渗透)。

2. Multi_DDPP模型框架的构建: * 核心架构: Multi_DDPP是一个深度学习框架,其核心是知识蒸馏与多表征学习的结合。 * 知识蒸馏流程: 首先,在一个大型、多来源的渗透性数据集上训练一个“教师模型”。该模型学习到的“暗知识”(Dark Knowledge),即其输出的软化概率分布(通过温度缩放参数T调整),被用来指导在较小的高保真大环化合物数据集上训练的“学生模型”。通过设计蒸馏损失函数(L_soft)与真实标签的交叉熵损失(L_true)相结合(L_total = L_true + λ * L_soft,其中λ为权重参数),学生模型不仅能学习真实标签,还能吸收教师模型从更广泛数据中归纳出的更平滑、更丰富的特征表示,从而提升泛化能力。 * 分子表征融合: 模型输入整合了多种分子表征:1)传统描述符(如Mordred, RDKit 2D);2)分子指纹(如ECFP, MACCS);3)基于SMILES字符串构建的分子图(Graph),使用有向消息传递神经网络(DMPNN)进行特征提取;4)混合特征(描述符与图特征的结合)。为了有效处理这些多样的输入,研究采用了专家混合(Mixture of Experts, MoE) 架构。MoE包含多个专家网络(每个擅长处理一种特定类型的输入特征)和一个门控网络(Gating Network)。门控网络根据输入动态分配权重给各个专家,最终加权聚合专家输出,使模型能自适应地学习不同表征的细粒度信息。 * 回归模型扩展: 除了分类任务,研究还构建了回归模型来预测具体的渗透系数(-log P)。该模型进一步尝试整合生理参数(如pH、温度)的表示,方法包括独热编码、将全局特征融入分子图,以及从文本描述中提取关键描述符。结果表明,将生理参数作为全局特征整合的效果最佳。

3. 模型训练与评估方案: * 基准模型对比: 为了全面评估Multi_DDPP的性能,研究将其与众多基准模型进行了比较,包括:四种传统机器学习模型(随机森林RF、支持向量机SVM、极端梯度提升XGB、梯度提升决策树GBDT)配合不同描述符/指纹;六种图神经网络模型(AttentiveFP, GAT, GCN, InfoGraph, MPNN, DMPNN);两种预训练模型(ChemBERTa-3, Uni-Mol);以及同样结合了描述符和图特征的Chemprop模型。此外,还设置了不进行知识蒸馏的版本Macro_PP(仅在高保真数据集上训练,但采用MoE架构)作为直接对照。 * 评估策略: 采用10折交叉验证,并基于SMILES字符串或Murcko骨架进行数据划分,以防止数据泄露和评估模型对新颖骨架的泛化能力。主要评估指标包括准确率(ACC)、曲线下面积(AUC)、马修斯相关系数(MCC)和精确率-召回率曲线下面积(PR-AUC)。 * 鲁棒性测试: 通过改变“摆动范围”的阈值(0.2, 0.4, 0.6, 0.8)来构建不同噪声水平的数据集,测试模型在不同数据质量下的表现。同时,还按大环的环大小(12-15原子,16-18原子,>18原子)分析了模型性能。 * 可解释性分析: 采用节点掩蔽(Node Masking) 策略来识别对模型预测最重要的原子级特征。通过掩蔽分子图中特定节点的特征(如原子类型、氢键供体/受体属性等)并观察模型预测损失的变化,可以量化每个节点特征的重要性。 * 三维结构关联分析: 为了将2D图模型学习到的特征与3D结构性质联系起来,研究选取了模型高置信度预测的50个可渗透和50个不可渗透大环分子。对每个分子生成50个构象,计算了氢键供体(HBD)的溶剂可及表面积(SASA),以分析极性基团在三维空间中的暴露程度与渗透性的关系。

四、 主要研究结果 1. 模型性能卓越: 在所有评估中,Multi_DDPP均显著优于所有基准模型。 * 与基准模型对比: 在高保真数据集上,Multi_DDPP(ACC=0.948, AUC=0.988, MCC=0.892)的表现全面超越了传统机器学习模型、图神经网络模型以及Chemprop。即使与不进行知识蒸馏但架构先进的Macro_PP(ACC=0.912, AUC=0.964, MCC=0.818)相比,Multi_DDPP通过知识蒸馏带来了明显的性能提升(例如ACC提升约3.6%)。这证明了从大规模、多来源数据中蒸馏知识对于提升特定任务预测精度的有效性。 * 鲁棒性验证: 在不同噪声水平(摆动值从0.2到0.8)的数据集上,Multi_DDPP始终保持着最佳性能。即使在噪声最高的设置下(摆动值=0.2),其ACC、AUC、MCC和PR-AUC仍显著高于其他模型。这表明Multi_DDPP能够有效抵抗标签噪声的干扰,具备很强的鲁棒性。 * 对不同环大小的适应性: 模型对中小环(12-18原子)的大环化合物预测性能最佳,而对大于18原子的大环预测性能有所下降。这符合化学直觉,因为更大的环通常具有更高的构象复杂性和物理化学变异性,可能需要更精细的3D结构信息来准确建模。 * 大规模数据集的影响评估: 通过逐步将高保真数据以不同策略(基于指纹、基于骨架、随机)加入大型预训练数据集,研究发现当加入适当比例(40%-70%)的高保真数据时,模型性能达到最优。这证实了预训练数据集的质量(与目标任务的相似性)对知识蒸馏的效果有重要影响,但Multi_DDPP能够有效地从大规模数据中提取有价值的潜在信息。

2. 特征重要性揭示渗透性关键因素: 节点掩蔽分析提供了模型决策的可解释性。 * 关键原子特征: 对模型预测影响最大的节点特征包括氢键供体(HBD)孤对电子(Lone Pairs)以及原子是否属于大环(Part of Large Ring)。这与已知的药物化学知识高度一致:减少非必要的氢键供体是提高口服生物利用度的经典策略;孤对电子影响分子极性和偶极矩;而环化(属于大环)则与分子刚性相关,刚性有助于渗透。 * 结构-性质关系可视化: 通过对代表性可渗透与不可渗透分子的案例分析,模型识别出的重要子结构与三维性质关联。例如,不可渗透的分子往往在柔性侧链上具有完全暴露于溶剂的强氢键供体(如羟基),导致较高的去溶剂化能 penalty。而可渗透的分子则通过以下方式减少极性暴露:1)形成分子内氢键(大环的“变色龙效应”);2)邻位芳香环或脂肪环的疏水屏蔽;3)甲基等取代基增加局部疏水性。对高置信度案例的3D-SASA分析进一步证实,可渗透分子的HBD平均SASA显著低于不可渗透分子,说明有效的极性基团“隐藏”是提高大环渗透性的关键。

3. 回归模型与外部验证成功: * 回归模型表现: 在包含10,806个数据点的回归任务中,整合了生理参数全局特征的模型取得了最佳性能,训练集和测试集的确定系数(R²)分别达到0.794和0.741,优于当前其他预测大环渗透性的回归模型。 * 外部验证: 在一个独立收集的、包含40个条目的外部数据集上,Multi_DDPP的分类任务(ACC=0.950, AUC=0.970)和回归任务(R²=0.755)均表现出色,证明了其良好的泛化能力和对未知数据的预测能力。

五、 研究结论与价值 本研究成功开发了Multi_DDPP,一个基于知识蒸馏和多表征学习的深度学习框架,用于从二维结构直接、准确地预测大环化合物的膜渗透性。该模型通过从大规模异质数据中蒸馏知识,并结合任务特定的高保真数据与创新的噪声处理策略,实现了对现有机器学习与深度学习模型的全面超越。

科学价值: 1. 方法论创新: 首次将知识蒸馏系统性地应用于大环药物渗透性预测,为解决药物发现中标记数据稀缺和异质性问题提供了新范式。 2. 模型先进性: 证明了整合多种分子表征(图+描述符)并结合MoE架构的有效性,以及从大规模相关但噪声较多的数据中迁移学习对提升小规模精准任务性能的显著价值。 3. 可解释性贡献: 通过节点掩蔽等策略,将深度学习模型的“黑箱”预测与传统的药物化学物理原理(如氢键、极性表面积、分子刚性)联系起来,增强了模型的可信度和实用性。

应用价值: 1. 加速药物发现: Multi_DDPP能够作为高效的虚拟筛选工具,在合成前优先筛选出具有良好渗透性潜力的大环化合物,节省大量实验成本和时间。 2. 指导分子设计: 模型识别出的关键特征(如减少侧链氢键供体暴露、利用环骨架屏蔽极性)可以为药物化学家设计具有更佳类药性的大环分子提供具体、可操作的指导。 3. 平台扩展潜力: 该框架可被推广至其他ADME性质或生物活性的预测,只需更换相应的预训练和任务特定数据集。

六、 研究亮点 1. 创新性地应用知识蒸馏: 利用大规模、多细胞系的渗透性数据作为“教师”,显著提升了在小规模、高质量大环化合物数据集上的预测性能,解决了数据稀缺与异质性的核心难题。 2. 提出“摆动范围”策略: 巧妙处理实验数据中的不一致性和噪声,通过统计分析定义模糊区间并排除,在保留大部分数据的同时提高了标签可靠性。 3. 深度融合多维度分子信息: 综合运用分子图(局部拓扑)、物理化学描述符(全局性质)和分子指纹,并通过MoE架构自适应融合,全面捕捉决定渗透性的结构特征。 4. 实现预测与机理的关联: 不仅追求高精度预测,还通过节点重要性分析和3D-SASA计算,将模型的2D结构学习与影响渗透性的关键3D物理化学性质(极性基团暴露程度)明确关联,赋予了模型良好的可解释性。 5. 构建全面评估体系: 进行了广泛的基准对比、不同噪声水平下的鲁棒性测试、按环大小细分分析、大规模数据集影响评估以及独立外部验证,充分证明了模型的有效性和可靠性。

七、 其他有价值内容 研究还探讨了未来改进方向,例如整合更丰富的分子表征,特别是三维结构信息。作者指出,大环的不同组成片段(如氨基酸类型)会影响环的柔性、电子环境和疏水性,未来的模型可以结合这些更详细的结构信息。此外,模拟更真实的细胞环境(如通过“虚拟细胞”)进行多模态表征,可能实现对不同细胞环境下渗透性的更全面预测。这些展望为后续研究指明了有潜力的方向。

本研究提出的Multi_DDPP框架是一个强大、鲁棒且可解释的工具,它通过融合前沿的深度学习技术与深刻的药物化学洞察,为大环药物的早期渗透性预测和优化设计提供了有力的解决方案,具有重要的理论意义和实际应用价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com