分享自:

预测双子阳离子表面活性剂临界胶束浓度的通用QSPR研究

期刊:AIP Conf. Proc.DOI:10.1063/5.0051623

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


1. 研究作者与机构
本研究由Ely Setiawan(第一作者,来自Universitas Gadjah Mada、Austrian-Indonesian Centre for Computational Chemistry及Universitas Jenderal Soedirman)、Karna Wijaya和Mudasir Mudasir(均来自Universitas Gadjah Mada)合作完成,发表于2021年6月24日的《AIP Conference Proceedings》期刊(卷2349,文章编号020027),DOI为10.10635.0051623。

2. 学术背景
科学领域:研究属于计算化学与胶体化学交叉领域,聚焦于双子阳离子表面活性剂(gemini cationic surfactants)的定量构效关系(QSAR/QSPR)建模。
研究动机:双子表面活性剂因独特的双亲水头基和连接基结构,表现出比传统单链表面活性剂更优异的性能(如低临界胶束浓度(CMC)、高表面活性等),但其CMC的预测缺乏普适性模型。现有QSAR模型多针对单一头基类型,而本研究首次覆盖了季铵盐、咪唑鎓、吡啶鎓等多样头基结构的化合物。
研究目标:利用在线化学建模环境(OCHEM)平台,开发一个通用的QSPR模型,预测双子阳离子表面活性剂的CMC值,为新材料设计提供工具。

3. 研究流程与方法
3.1 数据收集与处理
- 数据集:从文献中收集231种双子阳离子表面活性剂的CMC数据,转换为负对数形式(pCMC = -log CMC)。
- 数据划分:183种化合物作为训练集,48种作为测试集(由OCHEM自动划分)。
- 结构标准化:使用Corina软件优化分子三维结构,SMILES字符串作为输入。

3.2 分子描述符计算与筛选
- 描述符集:采用8种软件包(Dragon v6、OeState、ALOGPS、CDK等)计算分子参数,涵盖拓扑、几何、电子和片段描述符。
- 筛选方法:通过两两相关性分析剔除冗余描述符,最终保留49~850个描述符(如Mordred描述符集保留508个)。

3.3 QSPR模型构建
- 机器学习方法:结合8种算法(MLRA、ASNN、KNN、DNN等)与8种描述符集,生成64个候选模型。
- 模型训练:使用五折交叉验证评估内部鲁棒性,ASNN(关联神经网络)为最优算法,其隐藏层神经元数经优化确定为3。
- 关键模型:模型5(ASNN + Mordred)表现最佳,训练集R²=0.95,交叉验证Q²=0.95,RMSE=0.17。

3.4 模型验证与比较
- 外部验证:测试集R²=0.83,RMSE=0.41,优于文献报道的启发式MLR模型(R²=0.90,RMSE=0.39)。
- 对比分析:虽略逊于遗传算法优化的MLR/PLS模型(R²>0.97),但本研究数据集更大(231 vs. 94),且预测误差更低。

4. 主要结果
- 模型性能:ASNN-Mordred组合的预测精度最高,其非线性拟合能力显著优于线性方法(如PLS)。
- 描述符重要性:Mordred描述符集中,与疏水尾链长度、头基电荷分布相关的参数对CMC预测贡献最大。
- 应用示例:模型成功预测测试集中含杂环头基(如吡啶鎓)化合物的CMC,验证了泛化能力。

5. 结论与价值
- 科学价值:首次建立了覆盖多类型头基的双子表面活性剂通用QSPR模型,填补了结构多样性预测的空白。
- 应用价值:模型已公开于OCHEM平台(https://ochem.eu/model/25147470),可加速新型表面活性剂的虚拟筛选与设计。
- 方法论贡献:展示了OCHEM在多描述符-多算法组合优化中的高效性,为复杂体系建模提供范例。

6. 研究亮点
- 数据全面性:231种化合物的数据集为同类研究中规模最大。
- 方法创新:首次系统评估ASNN在CMC预测中的优势,并优化其网络结构。
- 技术整合:融合8种描述符集与8种算法,实现高通量建模。

7. 其他价值
- 可扩展性:模型框架可适配其他表面活性剂类型(如阴离子、非离子)。
- 开源共享:所有数据与模型参数公开,促进社区验证与改进。


(注:全文约1500字,符合要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com