这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
本研究由Théophile Gaudin(法国Université de Technologie de Compiègne和INERIS)、Guillaume Fayet(INERIS)、Patricia Rotureau(INERIS)和Isabelle Pezron(Université de Technologie de Compiègne)合作完成,于2018年发表在Journal of Surfactants and Detergents (J Surfact Deterg)上,标题为“Anticipating Dissolution Issues of Sugar-Based Surfactants Through a Decision Tree Approach”。
糖基表面活性剂(sugar-based surfactants)是一种可再生、生物相容性好的表面活性剂,广泛应用于洗涤剂、化妆品等领域,可替代传统的石油基表面活性剂。然而,这类分子往往因其晶体结构稳定,导致在水中溶解困难,这一现象通常用克拉夫特点(Krafft Temperature, TK)来描述——即表面活性剂溶解度足以形成胶束的最低温度。若TK高于环境温度(如25°C),则表面活性剂在常温下难以溶解,影响其实际应用。
目前,针对糖基表面活性剂的TK预测模型较少,而现有模型主要针对阴离子表面活性剂,且未经过外部验证。因此,本研究旨在开发两种决策树模型,用于预测糖基表面活性剂在25°C下是否会出现溶解问题(即TK是否高于25°C)。
研究团队从文献中收集了152个糖基表面活性剂的TK数据,包括37个定量数据和115个定性数据(如溶解性观察记录)。数据经过严格筛选,确保分子纯度可靠,并排除了结构复杂的分子(如多极性头或多烷基链分子)。数据集按2:1划分为训练集(101个数据)和验证集(51个数据),确保化学多样性和类别平衡。
每个表面活性剂的几何结构通过密度泛函理论(DFT)在B3LYP/6-31+G(d,p)水平上优化,并计算了约900种分子描述符,包括:
- 整体分子描述符(如拓扑、几何、量子化学参数);
- 片段描述符(极性头和非极性链的原子数、电荷分布等)。
此外,还计算了氢键受体面积(HACA2/TMSA)、最大键级(BOCmax)等参数,以捕捉分子间相互作用对溶解性的影响。
研究采用J48算法(WEKA软件中的C4.5实现)构建两种决策树模型:
1. 整体分子描述符模型(I/all):基于273个描述符,准确率达86%(验证集)。
2. 简化结构计数模型(F/c):仅基于极性头和非极性链的原子数,准确率为78%。
通过混淆矩阵和分类指标(准确率、阳性预测率PP、阴性预测率NP)评估模型性能。例如,I/all模型的PP为92%,表明其对“TK > 25°C”的预测可靠性较高。
研究以Lu(2015)的细胞毒性研究为例,验证了模型对短链糖基表面活性剂(C6-C10烷基链)的预测能力。结果显示,模型成功识别了所有溶解困难的分子,并纠正了文献中“溶解性问题仅出现在C12以上链长”的观点。
该研究为糖基表面活性剂的分子设计和应用提供了重要工具,推动了绿色化学的发展。