分享自:

基于结构差异的机器学习预测表面活性剂的临界胶束浓度

期刊:colloids and surfaces a: physicochemical and engineering aspectsDOI:10.1016/j.colsurfa.2024.135276

类型a:

基于结构差异的机器学习方法预测表面活性剂临界胶束浓度(CMC)的研究报告

1. 研究作者及发表信息
本研究由Jiaying Chen(江南大学)、Linxi Hou(福州大学)、Jing Nan(中国矿业大学)、Bangqing Ni(江南大学,通讯作者)、Wei Dai(中国矿业大学,通讯作者)和Xin Ge(江南大学/福州大学,通讯作者)合作完成,发表于《Colloids and Surfaces A: Physicochemical and Engineering Aspects》期刊,2024年9月5日在线发表。

2. 学术背景
临界胶束浓度(Critical Micelle Concentration, CMC)是表面活性剂的重要性质,决定了其界面行为和应用性能。传统CMC测定方法(如表面张力法、电导率法)耗时长、误差大,理论计算(如分子热力学模型、分子动力学模拟)则受限于计算复杂度。机器学习(Machine Learning, ML)因其高效预测能力成为替代方案,但现有研究多聚焦单一类型表面活性剂,忽略了结构差异对CMC的影响。本研究旨在开发一种基于结构分类的ML模型,实现多类型表面活性剂CMC的高精度预测,并揭示结构与性质的关系。

3. 研究流程与方法
3.1 数据收集与预处理
- 数据集构建:从文献和书籍中收集779种表面活性剂的CMC数据,包括173种阳离子、253种阴离子、66种两性离子和287种非离子表面活性剂,涵盖硫酸盐、磺酸盐、糖苷类等多样结构。
- 数据标准化:实验条件统一为无盐/无共溶剂的20–50°C水溶液,CMC值经负对数转换(pCMC = -logCMC)以改善数据分布。

3.2 分子描述符生成
- 结构编码:通过ChemDraw绘制结构式并转换为SMILES(Simplified Molecular Input Line Entry System)格式,利用Python的RDKit库计算208种分子描述符,包括拓扑结构、亲脂性(如molLogP)和电拓扑状态指数(如E-state indices)。
- 特征筛选:通过皮尔逊相关系数(阈值|r|>0.08)和递归特征消除(Recursive Feature Elimination, RFE)筛选出19个关键描述符,消除冗余特征(相关性>0.9)。

3.3 机器学习建模
- 算法选择:对比多元线性回归(MLR)、随机森林(RF)、极端梯度提升(XGBoost)、轻量梯度提升机(LightGBM, LGBM)和梯度提升决策树(GBDT)五种算法,采用9折交叉验证评估性能。
- 分类建模:根据表面活性剂电离特性(离子型/非离子型)分别建模,LGBM和GBDT分别被选为最优算法。

3.4 模型验证与解释
- 性能指标:通过决定系数(R²)、均方根误差(RMSE)等评估模型,整体R²达0.944。
- 可解释性分析:采用SHAP(Shapley Additive Explanations)和主成分分析(PCA)揭示描述符贡献度,如molLogP(亲脂性)对非离子型表面活性剂的预测影响显著。

4. 主要结果
- 模型性能:离子型和非离子型表面活性剂的预测R²分别为0.95和0.935,优于传统图卷积神经网络(GCN)模型(R²提升6.5%)。
- 结构影响:离子型CMC主要受电拓扑指数(如chi1v)影响,而非离子型则依赖亲脂性(molLogP)和分子复杂度(如QED)。
- 误差分析:长碳链两性离子和含硫/羟基的非离子结构预测偏差较大,源于数据稀缺和结构复杂性。

5. 结论与价值
- 科学意义:首次通过结构分类的ML模型实现多类型表面活性剂CMC的高精度预测,揭示了结构-性质关系的物理化学机制。
- 应用价值:为新型表面活性剂的设计与筛选提供高效工具,减少实验成本。模型代码开源,支持后续扩展至其他性质预测。

6. 研究亮点
- 数据全面性:涵盖779种结构多样的表面活性剂,远超同类研究(如Boukelkal的593种数据集)。
- 方法创新:自主开发的“分类增量集成算法”自动选择最优模型,避免人工调参偏差。
- 可解释性:结合SHAP和PCA,明确分子描述符的物理化学意义,增强模型可信度。

7. 其他价值
- 跨学科融合:结合化学信息学与ML,为胶体科学提供新研究方法。
- 技术通用性:工作流可推广至其他界面活性剂性质预测,如乳化性能或溶解性。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com