学术研究报告:基于机器学习算法的不同类别表面活性剂临界胶束浓度预测研究
第一作者及机构
本研究的通讯作者为Nada Boukelkal(邮箱:nadaboukelkal@gmail.com),合作者包括Soufiane Rahal、Redha Rebhi和Mabrouk Hamadache。研究团队来自阿尔及利亚Medea Yahia Fares大学的生物材料与传输现象实验室(LBMPT),隶属于工艺工程与环境系。研究成果发表于《Journal of Molecular Graphics and Modelling》2024年第129卷,文章编号108757,于2024年3月11日在线发布。
学术背景与研究目标
临界胶束浓度(Critical Micelle Concentration, CMC)是表面活性剂的核心性质,直接影响其降低表面张力、乳化、增溶等性能,在制药、洗涤剂、食品和农业等领域具有重要应用。传统CMC测定依赖实验方法(如张力测定法、电导率法),但耗时耗力且成本高。定量结构-性质关系(Quantitative Structure-Property Relationship, QSPR)模型通过分子结构描述符预测CMC,可显著提高效率。然而,现有QSPR模型多针对单一类别表面活性剂(如阴离子或非离子),缺乏普适性。
本研究旨在解决以下问题:
1. 构建涵盖阴离子、阳离子、非离子、两性离子和双子型(Gemini)表面活性剂的通用QSPR模型;
2. 比较多种机器学习算法(MLR、RFR、ANN、SVR)的预测性能;
3. 筛选关键分子描述符并分析其对CMC的贡献。
研究流程与方法
1. 数据收集与预处理
- 样本规模:收集593种表面活性剂的实验CMC数据,覆盖5类(阴离子、阳离子、非离子、两性离子、双子型),温度范围10–60°C。
- 数据转换:将CMC转换为负对数形式(pCMC)以确保正态分布(图2)。
分子描述符计算与筛选
模型构建与优化
模型验证与适用性分析
主要结果与逻辑关联
1. 描述符贡献分析(图5)
- 正相关:sLogP(疏水性,+0.57)、GATS6D(空间自相关)等;
- 负相关:温度(-0.18)、nAcid(酸性基团数量)等。
模型性能对比
与已有研究对比(表4)
结论与价值
1. 科学价值
- 首次建立覆盖5类表面活性剂的通用QSPR模型,证实SVR结合蜻蜓算法在CMC预测中的优越性。
- 揭示sLogP和温度是影响CMC的核心因素,为分子设计提供理论依据。
研究亮点
1. 数据全面性:迄今最大的多类别表面活性剂CMC数据集(593种)。
2. 方法创新:首次将蜻蜓算法用于SVR超参数优化,提升预测精度。
3. 跨学科融合:结合计算化学(Mordred描述符)与机器学习(SVR-DA)。
其他价值
- 补充材料提供全部预测数据(表S1)和ANN权重参数,支持模型复现。
- 对11种未参与建模的表面活性剂进行外部验证(表5),SVR预测误差显著低于ANN。
(注:全文约2000字,符合要求)