分享自:

基于定量结构-性质关系(QSPR)预测非离子表面活性剂的亲水亲油平衡值(HLB)

期刊:colloids and surfaces a: physicochemical and engineering aspectsDOI:10.1016/j.colsurfa.2020.125812

本研究由Jiaqi Wu、Fangyou Yan(通讯作者)、Qingzhu Jia和Qiang Wang共同完成,作者单位均为Tianjin University of Science and Technology(天津科技大学)化学工程与材料科学学院及海洋与环境学院。研究成果发表于期刊《Colloids and Surfaces A: Physicochemical and Engineering Aspects》第611卷(2021年),文章于2020年10月26日在线发表,标题为《QSPR for predicting the hydrophile-lipophile balance (HLB) of non-ionic surfactants》。

学术背景

本研究属于胶体与界面科学领域,聚焦非离子表面活性剂的亲水亲油平衡值(Hydrophile-Lipophile Balance, HLB)预测。HLB值是表征表面活性剂性能的关键指标,由Griffin于1949年提出,定义为表面活性剂亲水性与疏水性的比值(0-20范围),直接影响其在乳化、分散、增溶等应用中的表现。传统实验测定HLB值的方法(如相转变温度法)耗时且复杂,而现有理论模型(如Davies基团贡献法)存在参数获取困难或适用范围有限的问题。因此,作者旨在开发一种基于定量结构-性质关系(QSPR)的通用预测模型,利用新型描述符(Norm descriptors)提升预测精度和适用范围。

研究流程

  1. 数据集构建
    从文献中收集237种非离子表面活性剂的HLB实验值,涵盖直链烷基、聚氧乙烯链和聚氧丙烯链三类结构(见补充材料Table S1)。数据集按4:1比例随机划分为训练集(190个样本)和测试集(47个样本)。

  2. 分子描述符开发

    • 结构优化:使用HyperChem软件通过AM1半经验方法优化分子结构。
    • Norm描述符计算:提出22个基于原子分布矩阵的Norm描述符,包括:
      • 距离矩阵(Ma-Md):描述原子间路径距离(式3-6)。
      • 性质矩阵(表1):如原子量(Paw)、最外层电子数(Poe)、范德华半径(Pr)等9类原子级性质。
      • 复合矩阵运算:通过矩阵转置、乘法及四种范数计算(式7-10)生成最终描述符(表2)。
  3. 模型建立与验证

    • 建模方法:采用多元线性回归构建QSPR模型(式11),模型包含22个描述符及其系数(bk)。
    • 验证策略
      • 内部验证:留一法(LOO)、5折和10折交叉验证,计算Q²、AARD(平均绝对相对偏差)和RMSE(均方根误差)。
      • 外部验证:测试集预测,评估R²和RMSE。
      • Y随机化检验:1000次随机化验证排除偶然相关性。
      • 应用域(AD)分析:通过杠杆值(h)和标准化残差确定模型适用范围(图6)。
  4. 对比分析
    与文献模型(如Gad等和Chen等)在相同和不同数据集上对比,评估预测性能(表4)。

主要结果

  1. 模型性能

    • 训练集R²=0.9901,AARD=2.92%,RMSE=0.4201;测试集R²=0.9900,AARD=3.47%,表明模型具有高精度和泛化能力。
    • 交叉验证结果(Q²_LOO=0.9873)和Y随机化检验(平均R²_y=0.1276)证实模型稳健且无过拟合。
  2. 描述符贡献
    t检验显示原子量(Paw)和最外层电子数(Poe)对HLB影响显著(表S2)。例如,描述符5(基于Poe和距离矩阵)系数为3.2133,反映亲水基团的电子分布对HLB的正向贡献。

  3. 应用域分析
    94.1%样本位于标准化残差(-3,3)和临界杠杆值(h*=0.3632)内(图6),表明模型适用于广泛结构类型的非离子表面活性剂。

  4. 对比优势

    • 相比Chen等(R²=0.9673,样本数90)和Gad等(R²=0.9272,样本数98),本模型在更大数据集(237样本)上实现更高精度(R²=0.9901)。
    • 相同样本对比中,本模型AARD(3.49%)显著低于Gad等(8.49%),验证其优越性(表4)。

结论与价值

本研究成功开发了基于Norm描述符的QSPR模型,首次实现非离子表面活性剂HLB值的高通量精准预测。科学价值体现在:
1. 方法论创新:Norm描述符通过原子级矩阵运算捕捉分子结构特征,为胶体科学中的QSPR建模提供新思路。
2. 应用扩展:模型覆盖三类主流非离子表面活性剂结构,解决了传统方法(如ECL法)参数缺失的局限。
3. 工业意义:可加速表面活性剂配方设计,减少实验成本,在化工、医药等领域具有实用潜力。

研究亮点

  1. 高精度预测:模型R²>0.99,是目前文献中HLB预测性能最佳的QSPR模型。
  2. 描述符创新:22个Norm描述符通过矩阵运算整合多维结构信息,突破传统基团贡献法的限制。
  3. 全面验证:采用7种验证方法(包括MAE测试和AD分析),确保模型可靠性和透明度。
  4. 数据开源:补充材料公开全部237种表面活性剂的结构与HLB数据,促进后续研究。

其他价值

作者指出,Norm描述符概念可扩展至其他表面活性剂性质(如临界胶束浓度)的预测,为后续研究提供工具基础。此外,模型代码与计算流程的详细说明(补充材料)有助于方法复现。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com