类型a:
基于机器学习的电解质溶剂分子供体数(Donor Number, DN)与受体数(Acceptor Number, AN)预测研究
1. 研究作者与发表信息
本研究的通讯作者为Jinglun Wang、Lingjun Wu和Wanqiang Liu,第一作者为Huaping Hu和Yuqing Shan(二者贡献并列),合作作者包括Qiming Zhao。研究团队来自湖南科技大学化学与化工学院(School of Chemistry and Chemical Engineering, Hunan University of Science and Technology)。该研究于2024年7月5日在线发表在《Journal of Energy Chemistry》第98卷,页码374–382。
2. 学术背景
电解质溶剂是高性能电池设计中的关键组分,其供体数(DN)和受体数(AN)是衡量溶剂分子给电子能力(亲核性)和受电子能力(亲电性)的重要参数。传统实验测定DN和AN的方法(如量热法、核磁共振光谱法)耗时昂贵,且难以适用于复杂溶剂体系(如离子液体)。因此,本研究提出基于机器学习(Machine Learning, ML)的预测模型,通过分子结构描述符快速预测DN和AN,以加速电解质溶剂的筛选与设计。
3. 研究流程与方法
研究分为数据准备、特征筛选、模型构建与解释四个步骤:
(1)数据准备
- 数据集:收集279个溶剂分子的DN(211个)和AN(60个)实验数据,涵盖烃类、含氧化合物、卤代物等结构类型。
- 分子描述符计算:使用Dragon软件计算每个分子的描述符,DN和AN初始分别生成1633和2191个描述符。通过去除高相关性(≥85%)和低方差特征,最终保留DN相关111个特征和AN相关157个特征。
(2)特征筛选
采用递归特征消除法(Recursive Feature Elimination, RFE)进一步降维:
- DN模型:筛选出8个关键描述符,包括tdb02m(基于质量的3D拓扑距离描述符)、c%(碳原子百分比)、o%(氧原子百分比)等。
- AN模型:筛选出5个关键描述符,如hats1s(基于i-state加权的自相关描述符)、mor13u(3D-Morse描述符)等。
(3)模型构建
使用四种机器学习算法(CatBoost、GBRT、RF、RR)构建预测模型,并通过k折交叉验证评估性能:
- DN模型:采用5折交叉验证,70%数据训练,30%测试。
- AN模型:采用3折交叉验证,相同数据划分比例。
- 评估指标:决定系数(R²)、均方根误差(RMSE)、平均绝对误差(MAE)。
(4)模型解释
通过SHAP(Shapley Additive Explanations)分析特征重要性:
- DN模型:tdb02m对预测影响最大(平均SHAP值2.61),其反映分子三维拓扑结构与氢键形成能力。
- AN模型:hats1s贡献显著(平均SHAP值7.26),其表征分子极性及电子接受能力。
4. 主要结果
- DN预测模型:CatBoost表现最优,测试集R²=0.860,RMSE=5.221,MAE=3.923。关键描述符tdb02m与DN呈负相关,表明分子空间位阻增大会降低给电子能力。
- AN预测模型:CatBoost同样最优,测试集R²=0.966,RMSE=4.225,MAE=3.430。hats1s与AN正相关,反映分子极性增强会提升受电子能力。
- 与传统方法对比:相比DFT计算(如LC-WPBE、B97D3),机器学习模型的预测误差(MAE=2.65)显著低于DFT方法(MAE=6.99–12.34)。
5. 结论与价值
- 科学价值:首次将机器学习应用于DN/AN预测,揭示了分子描述符与溶剂性质的定量关系,为电解质设计提供理论工具。
- 应用价值:可快速筛选高DN溶剂(提升锂硫电池中多硫化物溶解性)或高AN溶剂(增强离子电导率),加速电池研发。
6. 研究亮点
- 方法创新:结合CatBoost算法与SHAP解释技术,实现高精度预测与特征重要性分析。
- 关键发现:tdb02m和hats1s分别是影响DN和AN的核心结构参数。
- 数据覆盖广:涵盖多种溶剂类型,模型泛化能力强。
7. 其他价值
研究开源了数据集与模型代码(见补充材料),可供后续研究直接应用或扩展至其他溶剂体系。