分享自:

聚合物可溶性预测的机器学习模型:浓度与温度之间的关系

期刊:J. Phys. Chem. BDOI:10.1021/acs.jpcb.4c06500

研究报告

研究背景与发表信息

这项研究由Mona Amrihesari、Joseph Kern、Hilary Present、Sofia Moreno Briceno、Rampi Ramprasad和Blair Brettmann共同完成,研究机构为美国佐治亚理工学院。研究成果发表在 The Journal of Physical Chemistry B 上,文章标题为 *“Machine Learning Models for Predicting Polymer Solubility in Solvents across Concentrations and Temperatures”*,在线发表时间为2024年12月12日。研究中获得的实验与数据已发布在GitHub仓库,以开放获取的形式为科学界提供资源(https://github.com/mona2442/polymer-solubility-data_crystal16)。

研究领域与背景

本研究属于材料科学领域中涉及高分子溶解性的研究方向,尤其关注通过人工智能方法预测高分子在特定溶剂中的溶解性能。这一研究方向近年来得到了快速发展,因为高分子溶解性是新材料配方设计和溶液加工中的关键属性之一。然而,目前关于高分子溶解性的预测模型往往受限于低质量或稀疏的实验数据集,无法完整反映溶解过程中的复杂性例如浓度、温度对溶解性的影响等。

高分子通常拥有复杂的属性,例如宽分子量分布、温度相关形态变化以及加工依赖的半结晶特性,这些都为数据的质量控制与溶解性预测提出了挑战。本研究尝试以高质量实验数据为基础,利用机器学习模型对高分子与溶剂的匹配溶解性进行三分类,同时扩展了传统仅解决”溶剂/非溶剂”的二分类模型的能力。

研究目标

研究的总目标是通过实验方法与机器学习算法相结合,对特定温度、浓度下的溶液透光率进行预测并进而分类溶解性为“可溶”、”不可溶”以及”部分溶解”。为此,作者设计了一套标准化实验流程,生成了高分子溶解行为的高质量数据集。同时,该研究探索模型性能的技术细节与潜在挑战。


研究设计流程与方法细节

数据集构建与实验方法
  1. 实验设备与数据源:
    作者利用Crystal16平行结晶仪(Technobis Crystallization Systems)生成了高分子溶液的透光率数据,此仪器通过具有645nm波长的激光测量样品的浊度。实验在10°C到60°C的温度区间内,通过加热冷却循环完成;分别记录了不同温度和浓度下的透光率,实验同时对样品分离行为的动力学效应进行了高度控制。

  2. 实验材料选择:
    数据集包括30种不同高分子和45种溶剂组合。例如,测试了聚乙二醇(polyethylene glycol,PEG)、聚丙烯(polypropylene,PP)等范围分布广泛的高分子材料。这些高分子的分子量多数在5000–15000 Da之间,选择适中的分子量以降低动力学影响。溶剂则覆盖非极性、极性质子型和极性非质子型溶剂。

  3. 测试过程与数据生成:
    每组溶质-溶剂组别在4种浓度下(5、15、30、50 mg/ml)进行测试,并测得温度-透光率曲线。总共生成了780多个反应器数据点,其中75%以上的测试集中在单浓度条件下,有限的测试覆盖了所有四个浓度条件。

  4. 数据后处理:
    实验所得原始数据中可能存在噪声,作者采用了Savitzky-Golay滤波器(Savitzky-Golay filter)对透光率曲线进行平滑化处理,结合时间温度阶段数据离散化处理,进行了分类整理。部分噪声较大的数据点被滤除,总共处理了739组合格反应器数据。


数据分析与建模流程
  1. 特征提取与模型输入变量:
    作者为溶剂采用Morgan分子指纹编码法,聚合物则通过“独热编码”进行标识(一种将类别属性编码为二进制的方法)。模型输入依赖于温度、浓度、多样溶剂分子结构特征与聚合物类别。

  2. 机器学习建模:
    研究对比了三类机器学习模型的表现:随机森林(Random Forest)、XGBoost回归模型、神经网络(Neural Network)。XGBoost在模型训练速度和准确性上表现最佳。

  3. 模型优化与测试:

    • 作者利用五折交叉验证方法(five-fold cross-validation)对超参数进行了调优。
    • 留一法交叉验证(Leave-One-Out Cross-Validation, LOO)用于评估模型泛化能力。
    • 为解决模型在高透光率(>95%)或低透光率(%)数据上的偏差,修改训练策略并衡量传输值在5-95%区间的预测性能。

研究主要结果解析

  1. 模型性能:
    最终选用的XGBoost模型对训练集的透光率预测取得了极高的表现,均方根误差(RMSE)仅为6%,决定系数(R²)为0.98。这表明模型能够解释98%的实验数据方差。

  2. 留一法分析:

    • 当溶剂-高分子组合为完全新类别(从未见过)时,预测性能略有下降,但决定系数仍为0.63。
    • 添加一个新浓度后,R²升至0.80;随着进一步增加浓度组合至三种,性能继续提升至R²为0.90。这一结果对于指导实验设计具有重要意义,即对于新体系,3种浓度的数据点即可接近最佳预测能力,显著节约实验时间与成本。
  3. 三分类预测性能:

    • 基于透光率的三分类模型成功将溶解行为分类为“可溶、不可溶和部分溶解”。其中“可溶”和“不可溶”的分类准确率较高(F1得分∼0.70),而“部分溶解”表现相对较弱。
    • 针对部分溶解类别,团队采集了更多中间值数据(增加了44组实验点),通过重新训练优化后,中间态分类性能得到了显著改善(F1得分总体大幅提高)。

研究意义与价值

本研究从多个角度取得了显著成果: 1. 提供了目前关于高分子溶解性领域实验数据质量最高且控制严谨的数据集,为下一步研究奠定了坚实基础。 2. 提升了使用人工智能和机器学习预测材料溶解性这一领域的技术能力,特别是实现了更精细化的三分类(“可溶、部分溶解、不可溶”),明显优于现有二分类模型。 3. 为实验设计提供了确切建议:通过3种浓度即可实现良好的性能,为工业中的快速数据筛选、过程设计等提供了指导。 4. 提出了定量评估方法,为未来扩展数据集至动态平衡参数(例如通用溶解相图、高斯参数预测)提供方向。


研究亮点

  1. 标准化实验仪器与方法: 使用Crystal16结晶仪生成数据,涵盖独特的透光率测量流程,保证了数据质量与实验一致性。
  2. 结合机器学习实现分类预测: 利用XGBoost模型完成了从数据预测到溶解行为分类的全过程。
  3. 高质量实验数据: 数据点高度集中在真实工业应用场景温度区间(10°C至60°C)下,为未来的实际应用带来直接指导意义。

总结

本研究综合了严格的实验流程、多维数据分析与机器学习方法,推动了溶解性预测领域的技术进步,并为溶解相图数据的高效生成和分类预测提供了范例。未来随着更多数据收集、延展至其他高分子类型及条件,该模型有望在药物制剂、功能涂层和材料加工等领域发挥更大的价值。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com