基于图神经网络预测表面活性剂临界胶束浓度的温度依赖性研究
作者及机构
本研究由Christoforos Brozos(巴斯夫个人护理与营养有限公司及亚琛工业大学过程系统工程研究所)、Jan G. Rittig(亚琛工业大学)、Sandip Bhattacharya、Elie Akanny、Christina Kohlmann(均来自巴斯夫个人护理与营养有限公司)及Alexander Mitsos(亚琛工业大学及于利希研究中心能源与气候研究所)共同完成,发表于*Journal of Chemical Theory and Computation*,发表日期为2024年6月。
学术背景
表面活性剂的临界胶束浓度(Critical Micelle Concentration, CMC)是其在工业应用中(如洗涤剂、化妆品、石油开采)的关键性质。传统定量结构-性质关系(Quantitative Structure-Property Relationship, QSPR)模型和深度学习技术(如图神经网络,Graph Neural Networks, GNNs)已成功预测室温下的CMC,但温度依赖性尚未系统研究。不同表面活性剂类别(离子型、非离子型、两性离子型)的CMC随温度变化规律复杂,缺乏统一模型。本研究旨在开发一种GNN模型,预测多温度下所有表面活性剂类别的CMC,并验证其对新分子结构的泛化能力。
研究流程
1. 数据收集与处理
- 从公开文献中收集了1377个CMC数据点,涵盖492种表面活性剂(包括离子型、非离子型、两性离子型),温度范围0–90°C。
- 数据包含分子结构(SMILES字符串)、温度及CMC值,优先选择张力法测量数据。
- 通过RDKit工具包生成分子图,节点和边特征编码原子/键的化学信息(如手性、立体化学)。
模型构建
训练与验证
性能评估
主要结果
1. 预测准确性
- 不同温度测试集:R²=0.97,RMSE=0.16(log CMC),绝对CMC误差5.16 mM。
- 新分子测试集:R²=0.95,RMSE=0.24,显示强泛化能力。
- 基线模型对比:SGB模型在新分子测试中R²=0.74,显著低于GNN。
温度依赖性捕获
类别差异分析
结论与价值
1. 科学意义
- 首次实现多温度下全类别表面活性剂CMC的精准预测,填补了温度依赖性模型空白。
- 证明了GNN在复杂物理化学性质预测中的优势,尤其是对立体化学敏感的结构。
研究亮点
1. 数据规模与多样性:涵盖1400+数据点,为迄今最大CMC多温度数据集。
2. 方法创新:温度与分子指纹的拼接策略增强模型敏感性;手性特征编码提升糖基分子预测。
3. 工业相关性:针对生物基表面活性剂的专项分析,推动绿色化学发展。
其他发现
- 模型对糖基头基的立体构型(如α/β-异头体)预测存在局限,需更多数据优化。
- 未来可结合三维分子表征(如几何GNNs)进一步提升精度。
(字数:约2000字)