分享自:

基于机器学习的二元表面活性剂混合物临界胶束浓度预测

期刊:journal of cheminformaticsDOI:10.1186/s13321-025-01112-2

机器学习预测二元表面活性剂混合物的临界胶束浓度:Choudhary等人在《Journal of Cheminformatics》的研究报告

作者与发表信息

本研究由Aditya Choudhary(桑迪亚国家实验室)、Saaketh DesaiMethun KamruzzamanAlexander LanderKoushik GhoshKunal Poorey合作完成,发表于Journal of Cheminformatics(2025年,卷17,页170)。研究得到美国能源部(DOE)资助,数据与代码已开源。

学术背景

表面活性剂(surfactants)在药物递送、化妆品、消防泡沫和润滑剂等领域至关重要,其性能取决于临界胶束浓度(critical micelle concentration, CMC)——胶束形成的阈值浓度。然而,二元表面活性剂混合物的CMC预测因化学多样性和非线性相互作用而极具挑战性。传统实验方法(如张力测定法、荧光光谱法)耗时且成本高,而现有机器学习(ML)模型仅针对单一表面活性剂,无法处理混合物。本研究首次提出基于人工神经网络(ANN)的框架,预测二元混合物的完整CMC-组成曲线,填补了胶体与界面科学的空白。

研究流程与方法

1. 数据收集与特征工程

  • 数据集构建

    • 单一表面活性剂数据:扩展Qin等人的数据集,涵盖440种表面活性剂,包含SMILES字符串和实验测定的CMC值(log μM)。
    • 二元混合物数据:从34篇文献中收集979组数据,包含两种表面活性剂的SMILES、摩尔分数(xA, *xB*)及CMC。
    • 数据拆分策略
    • 插值任务:训练集包含部分摩尔分数数据,测试集评估未测组成的预测能力。
    • 外推任务:完全未见的表面活性剂组合用于测试模型泛化性。
  • 分子描述符生成
    使用RDKitMordred(1800+描述符)和PaDEL(1875+描述符)计算分子特征,涵盖拓扑、电子和几何属性。例如:

    • 疏水表面积(hydrophobic surface area)
    • 电子拓扑描述符(electronic topological descriptors)
    • 头基碱性(headgroup basicity)
  • 特征聚合策略

    • 算术平均(Arithmetic Mean):按摩尔分数加权线性组合(*xAfA + xBfB*)。
    • 调和平均(Harmonic Mean):模拟理想混合定律(适用于相似头基体系)。
    • 拼接法(Concatenation):直接拼接两组特征,但易导致过拟合。

2. 机器学习模型开发

  • 模型选择与优化
    对比随机森林(RF)、XGBoost和ANN,通过网格搜索和五折交叉验证优化超参数。
    • ANN架构:全连接网络,输入层(聚合后的描述符)、隐藏层(ReLU激活)、输出层(预测log CMC)。
    • 特征选择:使用BorutaPy算法(基于XGBoost)剔除冗余特征,保留如peoe_vsa6(极性表面积)、slogP(疏水性)等关键描述符。

3. 性能评估与可解释性分析

  • 评估指标:均方误差(MSE)、决定系数(R²)、平均绝对百分比误差(MAPE)。
  • SHAP分析:揭示模型决策机制,例如:
    • 负贡献:高疏水性(slogP)和芳香簇(nAromBond)降低CMC,符合胶束稳定原理。
    • 正贡献:头基电荷(nBase)增加CMC,因静电排斥抑制胶束形成。

主要结果

  1. 单一表面活性剂预测
    ANN模型(RDKit描述符)表现最佳(测试集R²=0.907,MSE=0.137),优于文献报道的图神经网络(GNN)。例如:

    • 癸基三甲基铵(C13H30N⁺):预测log CMC=4.83(实验值4.72)。
    • 异常值分析:双子表面活性剂(如C33H56N2O3²⁺)因复杂结构预测偏差较大。
  2. 二元混合物预测

    • 插值任务:算术平均+ANN组合最优(MSE=0.099,R²=0.941),准确捕捉如阴离子-阳离子混合物的U型CMC曲线(图2e)。
    • 外推任务:Mordred描述符+ANN泛化性最佳(MSE=0.236),成功预测未训练体系的完整CMC曲线,如:
      • 氟碳/烃链混合(C14H27N2⁺ + C7F15CO2⁻):模型重现协同效应导致的凹型曲线(图4b)。

结论与价值

本研究首次实现了二元表面活性剂混合物CMC的高精度预测与解释,其科学与应用价值包括:
1. 科学价值:揭示了疏水性、电荷分布和拓扑结构对CMC的定量影响,验证了非理想混合行为的机器学习建模可行性。
2. 工业应用:减少实验筛选负担,加速医药(如药物载体优化)、环境修复(如PFAS替代品设计)等领域的配方开发。
3. 方法论创新:算术平均策略平衡了特征表达与物理意义,为多组分体系性质预测提供了通用框架。

研究亮点

  • 首创性:首个针对二元表面活性剂混合物的ML模型,支持插值与外推预测。
  • 可解释性:通过SHAP分析关联描述符与胶束化学原理,增强模型可信度。
  • 开源数据:完整数据集与代码公开,促进领域内协作验证(GitHub链接见原文)。

其他价值

研究还探讨了温度、pH等未包含变量的扩展潜力,为后续工作指明方向。例如,引入离子强度描述符可能进一步提升复杂电解质体系的预测精度。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com