分享自:

利用图神经网络预测表面活性剂临界胶束浓度的温度依赖性

期刊:Journal of Chemical Theory and ComputationDOI:10.1021/acs.jctc.4c00314

基于图神经网络预测表面活性剂临界胶束浓度的温度依赖性研究

作者及机构
本研究由Christoforos Brozos(巴斯夫个人护理与营养有限公司及亚琛工业大学过程系统工程研究所)、Jan G. Rittig(亚琛工业大学)、Sandip Bhattacharya、Elie Akanny、Christina Kohlmann(均来自巴斯夫个人护理与营养有限公司)及Alexander Mitsos(亚琛工业大学及于利希研究中心能源与气候研究所)共同完成,发表于*Journal of Chemical Theory and Computation*,发表日期为2024年6月。


学术背景
表面活性剂的临界胶束浓度(Critical Micelle Concentration, CMC)是其在工业应用中(如洗涤剂、化妆品、石油开采)的关键性质。传统定量结构-性质关系(Quantitative Structure-Property Relationship, QSPR)模型和深度学习技术(如图神经网络,Graph Neural Networks, GNNs)已成功预测室温下的CMC,但温度依赖性尚未系统研究。不同表面活性剂类别(离子型、非离子型、两性离子型)的CMC随温度变化规律复杂,缺乏统一模型。本研究旨在开发一种GNN模型,预测多温度下所有表面活性剂类别的CMC,并验证其对新分子结构的泛化能力。


研究流程
1. 数据收集与处理
- 从公开文献中收集了1377个CMC数据点,涵盖492种表面活性剂(包括离子型、非离子型、两性离子型),温度范围0–90°C。
- 数据包含分子结构(SMILES字符串)、温度及CMC值,优先选择张力法测量数据。
- 通过RDKit工具包生成分子图,节点和边特征编码原子/键的化学信息(如手性、立体化学)。

  1. 模型构建

    • GNN架构:基于分子图直接学习,采用GINE卷积层和求和池化(sum pooling)生成分子指纹(molecular fingerprint)。
    • 温度整合:将归一化温度(0–10)与分子指纹拼接,通过多层感知机(MLP)映射到CMC。
    • 创新点:引入手性和立体化学信息作为原子/边特征,增强对糖基表面活性剂等复杂结构的表征能力。
  2. 训练与验证

    • 数据划分
      • 不同温度测试集:227个分子(训练集中包含其部分温度数据)。
      • 新分子测试集:218个数据点(100种未参与训练的分子)。
    • 集成学习:训练40个GNN模型,通过平均预测提高鲁棒性。
    • 基线模型:基于扩展连接指纹(ECFP)的随机梯度提升(SGB)模型,用于对比。
  3. 性能评估

    • 指标:均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R²)。
    • 实验对比:与文献中其他GNN模型(如Qin et al. 2021)及传统QSPR方法比较。

主要结果
1. 预测准确性
- 不同温度测试集:R²=0.97,RMSE=0.16(log CMC),绝对CMC误差5.16 mM。
- 新分子测试集:R²=0.95,RMSE=0.24,显示强泛化能力。
- 基线模型对比:SGB模型在新分子测试中R²=0.74,显著低于GNN。

  1. 温度依赖性捕获

    • 模型准确复现了离子型表面活性剂的U型CMC-温度关系(最小值在20–30°C)及非离子型的单调下降趋势(如聚氧乙烯醚类)。
    • 糖基表面活性剂的复杂温度依赖性(如U型或单调变化)亦被捕捉,但硫醚连接体(−S−)的预测误差较高(因训练数据不足)。
  2. 类别差异分析

    • 离子型表面活性剂预测误差最低(MAPE%),两性离子型因CMC-温度关系多样而误差较高(MAPE≈10%)。

结论与价值
1. 科学意义
- 首次实现多温度下全类别表面活性剂CMC的精准预测,填补了温度依赖性模型空白。
- 证明了GNN在复杂物理化学性质预测中的优势,尤其是对立体化学敏感的结构。

  1. 应用价值
    • 为可持续表面活性剂(如糖基衍生物)的设计提供工具,支持个人护理和家居行业向可再生原料转型。
    • 模型开源(GitHub),可扩展至其他环境参数(如pH、电解质)的CMC预测。

研究亮点
1. 数据规模与多样性:涵盖1400+数据点,为迄今最大CMC多温度数据集。
2. 方法创新:温度与分子指纹的拼接策略增强模型敏感性;手性特征编码提升糖基分子预测。
3. 工业相关性:针对生物基表面活性剂的专项分析,推动绿色化学发展。


其他发现
- 模型对糖基头基的立体构型(如α/β-异头体)预测存在局限,需更多数据优化。
- 未来可结合三维分子表征(如几何GNNs)进一步提升精度。

(字数:约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com