本研究由Aditya Choudhary(桑迪亚国家实验室)、Saaketh Desai、Methun Kamruzzaman、Alexander Lander、Koushik Ghosh和Kunal Poorey合作完成,发表于Journal of Cheminformatics(2025年,卷17,页170)。研究得到美国能源部(DOE)资助,数据与代码已开源。
表面活性剂(surfactants)在药物递送、化妆品、消防泡沫和润滑剂等领域至关重要,其性能取决于临界胶束浓度(critical micelle concentration, CMC)——胶束形成的阈值浓度。然而,二元表面活性剂混合物的CMC预测因化学多样性和非线性相互作用而极具挑战性。传统实验方法(如张力测定法、荧光光谱法)耗时且成本高,而现有机器学习(ML)模型仅针对单一表面活性剂,无法处理混合物。本研究首次提出基于人工神经网络(ANN)的框架,预测二元混合物的完整CMC-组成曲线,填补了胶体与界面科学的空白。
数据集构建:
分子描述符生成:
使用RDKit、Mordred(1800+描述符)和PaDEL(1875+描述符)计算分子特征,涵盖拓扑、电子和几何属性。例如:
特征聚合策略:
单一表面活性剂预测:
ANN模型(RDKit描述符)表现最佳(测试集R²=0.907,MSE=0.137),优于文献报道的图神经网络(GNN)。例如:
二元混合物预测:
本研究首次实现了二元表面活性剂混合物CMC的高精度预测与解释,其科学与应用价值包括:
1. 科学价值:揭示了疏水性、电荷分布和拓扑结构对CMC的定量影响,验证了非理想混合行为的机器学习建模可行性。
2. 工业应用:减少实验筛选负担,加速医药(如药物载体优化)、环境修复(如PFAS替代品设计)等领域的配方开发。
3. 方法论创新:算术平均策略平衡了特征表达与物理意义,为多组分体系性质预测提供了通用框架。
研究还探讨了温度、pH等未包含变量的扩展潜力,为后续工作指明方向。例如,引入离子强度描述符可能进一步提升复杂电解质体系的预测精度。