分享自:

基于机器学习算法的不同类别表面活性剂临界胶束浓度预测的QSPR研究

期刊:journal of molecular graphics and modellingDOI:10.1016/j.jmgm.2024.108757

学术研究报告:基于机器学习算法的不同类别表面活性剂临界胶束浓度预测研究

第一作者及机构
本研究的通讯作者为Nada Boukelkal(邮箱:nadaboukelkal@gmail.com),合作者包括Soufiane Rahal、Redha Rebhi和Mabrouk Hamadache。研究团队来自阿尔及利亚Medea Yahia Fares大学的生物材料与传输现象实验室(LBMPT),隶属于工艺工程与环境系。研究成果发表于《Journal of Molecular Graphics and Modelling》2024年第129卷,文章编号108757,于2024年3月11日在线发布。


学术背景与研究目标
临界胶束浓度(Critical Micelle Concentration, CMC)是表面活性剂的核心性质,直接影响其降低表面张力、乳化、增溶等性能,在制药、洗涤剂、食品和农业等领域具有重要应用。传统CMC测定依赖实验方法(如张力测定法、电导率法),但耗时耗力且成本高。定量结构-性质关系(Quantitative Structure-Property Relationship, QSPR)模型通过分子结构描述符预测CMC,可显著提高效率。然而,现有QSPR模型多针对单一类别表面活性剂(如阴离子或非离子),缺乏普适性。

本研究旨在解决以下问题:
1. 构建涵盖阴离子、阳离子、非离子、两性离子和双子型(Gemini)表面活性剂的通用QSPR模型;
2. 比较多种机器学习算法(MLR、RFR、ANN、SVR)的预测性能;
3. 筛选关键分子描述符并分析其对CMC的贡献。


研究流程与方法
1. 数据收集与预处理
- 样本规模:收集593种表面活性剂的实验CMC数据,覆盖5类(阴离子、阳离子、非离子、两性离子、双子型),温度范围10–60°C。
- 数据转换:将CMC转换为负对数形式(pCMC)以确保正态分布(图2)。

  1. 分子描述符计算与筛选

    • 工具:使用Mordred计算1826个2D/3D分子描述符(如疏水性参数sLogP、自相关描述符GATS6D等)。
    • 筛选流程
      • 剔除零值、缺失值及低方差描述符;
      • 通过逐步多元线性回归(Stepwise-MLR)和方差膨胀因子(VIF)筛选出14个关键描述符(表1),包括sLogP、GATS6D、温度等。
  2. 模型构建与优化

    • 数据集划分:80%训练集(475样本),20%测试集(118样本)。
    • 算法对比
      • 多元线性回归(MLR):线性模型,性能较差(测试集R²=0.4343);
      • 人工神经网络(ANN):采用{15,10,1}架构,贝叶斯正则化优化,R²=0.8877;
      • 随机森林回归(RFR):100棵树,R²=0.8121;
      • 支持向量回归(SVR):通过蜻蜓算法(Dragonfly)优化超参数(C=200, γ=0.008),R²=0.9864,性能最优。
  3. 模型验证与适用性分析

    • 统计指标:SVR-DA模型全局集R²=0.9740,均方根误差(RMSE)=0.2047,显著优于其他模型(表2-3)。
    • 适用域(Applicability Domain):通过Williams图分析,95.95%样本预测可靠(图4),仅24个异常值。

主要结果与逻辑关联
1. 描述符贡献分析(图5)
- 正相关:sLogP(疏水性,+0.57)、GATS6D(空间自相关)等;
- 负相关:温度(-0.18)、nAcid(酸性基团数量)等。

  1. 模型性能对比

    • SVR-DA在测试集表现最佳(MAE=0.0566),其非线性拟合能力优于线性MLR和树模型RFR。
    • ANN虽表现良好,但需复杂权重计算(表S2-S3),实用性低于SVR。
  2. 与已有研究对比(表4)

    • 本研究模型覆盖类别更广(593样本),优于Qin等(202样本,R²=0.92)和Anoune等(49样本,R²=0.90)。

结论与价值
1. 科学价值
- 首次建立覆盖5类表面活性剂的通用QSPR模型,证实SVR结合蜻蜓算法在CMC预测中的优越性。
- 揭示sLogP和温度是影响CMC的核心因素,为分子设计提供理论依据。

  1. 应用价值
    • 可快速预测新型表面活性剂的CMC,减少实验成本;
    • 模型开源代码(Python/Matlab)便于工业界直接应用。

研究亮点
1. 数据全面性:迄今最大的多类别表面活性剂CMC数据集(593种)。
2. 方法创新:首次将蜻蜓算法用于SVR超参数优化,提升预测精度。
3. 跨学科融合:结合计算化学(Mordred描述符)与机器学习(SVR-DA)。

其他价值
- 补充材料提供全部预测数据(表S1)和ANN权重参数,支持模型复现。
- 对11种未参与建模的表面活性剂进行外部验证(表5),SVR预测误差显著低于ANN。


(注:全文约2000字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com