ECDformer:高效且可解释的电子圆二色光谱预测的解耦峰值属性学习

高效且可解释的电子圆二色光谱预测:Decoupled Peak Property Learning

学术背景

电子圆二色光谱(Electronic Circular Dichroism, ECD)是研究分子手性的关键工具,特别是在不对称有机合成和药物工业中,用于区分手性分子的绝对构型。然而,现有的ECD光谱预测方法存在两个主要问题:数据稀缺性可解释性不足,导致预测结果的可信度较低。当前的ECD光谱预测依赖于耗时的量子化学计算,包括分子结构提取、构象搜索、结构优化、时间相关密度泛函理论(TD-DFT)计算和玻尔兹曼加权等步骤。这不仅需要实验化学家具备深厚的专业知识,还耗费大量的计算资源和时间。因此,如何加速ECD光谱的理论计算并提高其预测的准确性和可解释性,成为了一个亟待解决的问题。

论文来源

本论文由Hao LiDa LongLi YuanYu WangYonghong TianXinchang WangFanyang Mo共同撰写,作者分别来自北京大学深圳研究生院厦门大学北京大学。论文于2024年12月4日发表在Nature Computational Science期刊上。

研究流程

1. 数据集构建

流程描述

为了解决ECD光谱预测中的数据稀缺性问题,研究团队首先构建了一个大规模的ECD光谱数据集CMCDS。该数据集包含22,190个手性分子的ECD光谱及其简化分子线性输入系统(SMILES)序列。这些分子的ECD光谱通过Gaussian 16软件包计算得到,计算过程包括分子结构优化(B3LYP/6-31G水平)和ECD光谱计算(CAM-B3LYP/6-31G(d)水平,nstates=20)。

研究对象与处理

研究对象为从不对称催化文献中提取的手性分子。分子结构通过RDKit包转换为MDL Molfiles格式,并批量生成Gaussian计算文件。

实验结果

CMCDS数据集通过大规模理论计算生成,为后续的深度学习模型训练提供了高质量的数据支持。

2. ECDformer模型的构建

流程描述

研究团队提出了一种基于Transformer架构的深度学习模型ECDformer,用于高效且可解释的ECD光谱预测。ECDformer将ECD光谱分解为峰实体,并分别预测峰的数量位置符号。模型架构包括四个主要模块: 1. 分子特征提取模块:基于几何增强的图神经网络(GeoGCN),从分子的原子-键图和键-角图中提取几何和描述符信息。 2. 峰属性学习模块:使用Transformer编码器结构,从分子特征中提取峰相关的信息。 3. 峰属性预测模块:分别预测峰的数量、位置和符号。 4. 光谱渲染模块:从预测的峰属性重建ECD光谱。

研究对象与处理

输入为目标分子的原子-键-角特征和分子描述符。模型通过几何增强的GNN进行分子表示学习,并使用Transformer编码器进行峰属性提取。

实验结果

ECDformer在预测峰属性方面表现出色,峰值符号准确率从37.3%提升至72.7%,光谱预测时间从平均4.6 CPU小时降至1.5秒。

3. 模型性能评估

流程描述

研究团队使用三组基于峰属性的评估指标对ECDformer进行性能评估:数量根均方误差(Number-RMSE)位置根均方误差(Position-RMSE)符号准确率(Symbol-Acc)

研究对象与处理

评估对象为CMCDS数据集中的手性分子,模型预测的峰属性与真实光谱进行比较。

实验结果

ECDformer在所有评估指标上均优于基线模型,特别是在预测复杂光谱(峰数量>5)时表现尤为突出。位置差异和符号差异的分布也表明,ECDformer的预测更接近真实值。

4. 模型的可解释性与泛化能力

流程描述

通过积分梯度法,研究团队标记了分子中对光谱生成贡献最大的区域,发现发色团结构在峰预测中起关键作用。此外,ECDformer在预测红外光谱(IR)和质谱(MS)方面也表现出色,展示了其强大的泛化能力。

研究对象与处理

研究对象包括多种天然产物和药物分子,如具有抗病毒、拮抗和抗炎作用的化合物。

实验结果

ECDformer能够准确预测这些复杂天然产物的ECD光谱,并在质谱和红外光谱预测任务中展示了良好的泛化性能。

研究结论

研究的意义与价值

本研究的核心贡献在于提出了一个高效且可解释的ECD光谱预测框架,解决了现有方法在数据稀缺性和可解释性方面的不足。通过大规模数据集的构建和深度学习模型的引入,ECDformer显著提升了光谱预测的准确性和效率。此外,模型的峰解耦方法不仅提高了预测精度,还为光谱生成过程提供了更高的可解释性。

研究的创新点

  1. 大规模数据集CMCDS:填补了手性分子ECD光谱数据的空白,为深度学习模型提供了高质量的训练数据。
  2. ECDformer模型:通过峰解耦和属性预测,显著提升了光谱预测的准确性和效率。
  3. 泛化能力:ECDformer能够准确预测红外光谱和质谱,展示了其在不同光谱预测任务中的广泛应用潜力。

其他有价值的信息

研究团队还探讨了ECDformer在分子结构推断方面的潜力,尽管当前模型无法从光谱中完全重建分子结构,但其在识别分子轨道和功能团方面表现出一定的能力。未来的研究将进一步优化数据集,特别是增加多手性中心分子的数据,以提升模型对手性结构的全面表征能力。