深度学习在3D表面静电势点云上的应用:增强毒性分类及其在疑似环境雌激素研究中的实践
作者及发表信息
本研究由Liguo Wang、Lu Zhao、Xian Liu*、Jianjie Fu和Aiqian Zhang*合作完成,主要研究机构为中国科学院生态环境研究中心环境化学与生态毒理学国家重点实验室。研究成果发表于《Environmental Science & Technology》2021年第55卷,页码9958−9967,DOI: 10.1021/acs.est.1c01228。
学术背景
环境化学品的雌激素活性是内分泌干扰效应的重要研究方向,但传统实验方法成本高且覆盖范围有限。定量构效关系(QSAR)模型虽被广泛用于毒性预测,但其分子结构描述多局限于二维(2D)水平,难以捕捉三维(3D)构象差异(如17α-与17β-雌二醇的活性差异)。深度学习(DL)为QSAR研究提供了新机遇,但现有DL-QSAR模型仍缺乏对3D分子表面静电势(ESP)的有效表征。本研究提出了一种基于3D分子表面静电势点云(SEPPC)的新型深度学习架构SEPPCNet,旨在提升环境雌激素的毒性分类能力,并探索其作用机制。
研究流程与方法
1. 数据准备与预处理
- 数据集:采用美国EPA ToxCast计划中18项雌激素受体(ER)相关实验的1317种化学品(内部数据集)和40种已知活性的参考化学品(外部验证集)。
- 数据平衡:通过过采样和样本权重调整解决数据不平衡问题(活性样本仅占11%)。
- 分子表征:
- 3D结构优化:使用Gaussian 09软件(DFT/B3LYP/6-31G(d)方法)优化分子几何构型。
- 静电势计算:通过Multiwfn计算分子范德华表面上的ESP值,网格间距为0.25玻尔半径。
- 点云生成:每个分子表面随机采样4096个点,包含3D坐标和ESP值,构成SEPPC输入矩阵(4096×4)。
模型构建(SEPPCNet)
性能评估与验证
机制解释与可视化
主要结果与逻辑关联
- 分子表征有效性:SEPPC通过3D坐标和ESP值保留了分子表面形状与电荷分布信息,验证了采样策略的合理性(如Emamectin保留6%点云仍保持ESP分布一致性)。
- 模型性能:高分类精度表明SEPPCNet能有效捕捉3D结构特征,尤其在异构体区分中表现突出。
- 机制发现:关键点可视化揭示了雌激素活性与特定表面区域(如带正电氢原子)的关联,与已知ER结合机制一致。
结论与价值
1. 科学价值:首次将点云数据引入毒性预测,突破了传统QSAR的2D限制,为3D分子表征提供了新范式。
2. 应用价值:可用于大规模环境化学品的虚拟筛选,辅助监管决策;模型开源代码(支持信息)促进方法推广。
3. 方法论创新:SEPPCNet兼具高精度与可解释性,通过特征可视化破解DL“黑箱”问题。
研究亮点
- 新颖性:提出SEPPC概念及SEPPCNet架构,实现无序点云数据的直接学习。
- 性能优势:在高度不平衡数据中保持高敏感性,外部验证准确率达92.5%。
- 机制洞察:通过关键点和特征激活图谱揭示静电势与活性的定量关系。
其他重要内容
- 多任务学习初步:针对18项ER相关实验的扩展模型表现出潜力(表S6)。
- 局限性:依赖DFT计算,未来可探索更高效的ESP生成方法。
(注:专业术语如SEPPC(表面静电势点云)、ESP(静电势)、GMP(全局最大池化)等在首次出现时标注英文原词。)