本研究报告基于一篇发表在 computational materials science 期刊2026年卷264期的研究文章,题目为《Descriptor and graph-based molecular representations in prediction of copolymer properties using machine learning》。文章的主要作者包括来自西班牙马德里理工大学材料科学系和IMDEA材料研究所的 Elaheh Kazemi-Khasragh、Carlos Gonzalez 和 Maciej Haranczyk,以及来自瑞典查尔姆斯理工大学的 Rocío Mercado。
本研究旨在通过机器学习技术加速共聚物的设计过程。在材料科学领域,共聚物因其单体组合的无限可能性而展现出极其广泛的性质,但传统上通过实验方法筛选和优化这些材料既耗时又昂贵。因此,利用计算方法和数据驱动模型进行性质预测,成为加速新材料发现的关键策略。尽管机器学习已广泛应用于均聚物性质预测,但针对序列结构更复杂的共聚物,如何有效地进行分子表示(即将分子结构转化为计算机可处理的数据)以准确预测其多样化的物理性质,仍是一个待深入研究的核心问题。本研究的目标即是系统地比较两种主流的分子表示方法——基于描述符的表示和基于图神经网络的表示——在预测共聚物多种物理性质时的表现优劣,并探索单任务与多任务学习模式的影响,从而为针对特定性质选择最合适的预测模型提供指导。
本研究的工作流程严谨而系统,主要包括数据生成、分子表示构建、模型训练与评估等关键步骤。
第一步是数据集的生成与验证。 由于共聚物实验数据稀缺,研究团队首先采用分子动力学模拟来生成可靠的训练和测试数据。研究对象为140种二元共聚物,涵盖了无规、嵌段和交替三种不同的序列构型。使用LAMMPS软件通过General Amber力场进行模拟,每条聚合物链包含50个单体单元,每个体系由10条链组成以模拟块体非晶态材料。通过一个包含21个步骤的压缩/减压平衡协议,确保体系达到平衡状态,随后计算了七种关键物理性质:密度、回转半径、定压比热容、定容比热容、体弹性模量、线性膨胀系数和体积膨胀系数。为了验证模拟数据的可靠性,研究者从PolyInfo数据库中提取了146个实验数据点进行比较。评估指标包括决定系数、斯皮尔曼等级相关系数和均方误差。结果表明,分子动力学模拟能够较好地再现实验趋势,特别是对于密度、线性膨胀系数和体积膨胀系数,其决定系数均高于0.70,斯皮尔曼等级相关系数大多超过0.80,这为后续机器学习模型的训练提供了坚实的数据基础。最终构建的数据集包含980个条目,并按80%:10%:10%的比例随机划分为训练集、验证集和测试集。所有目标性质均经过标准化处理以利于模型训练。
第二步是构建两种不同的分子表示。 第一种是基于描述符的表示。研究者使用PaDEL软件从每个共聚物单体的SMILES表示计算超过1400个分子描述符,涵盖一维、二维和三维特征。对于一个二元共聚物,其描述符指纹通过两个单体描述符的线性组合来构建,权重为各自的组成分数。这种表示方法简单直接,但有一个固有局限:它无法区分具有相同组成但序列构型不同的共聚物(如无规、嵌段和交替)。第二种是基于图的表示,旨在克服描述符方法的局限性。研究者采用了Aldeghi和Coley提出的加权有向消息传递神经网络图表示法。在这种表示中,聚合物被表示为图,原子为节点,化学键为边,但关键创新在于为边赋予了权重,以编码不同序列构型下单体单元之间的连接概率。例如,在交替共聚物中,A-B连接的权重为1;在无规共聚物中,A-A、B-B和A-B连接的权重均为0.5;而在嵌段共聚物中,A-A和B-B连接的权重较高(0.95),A-B连接的权重较低(0.05)。这种表示能够捕捉到序列结构信息。
第三步是机器学习模型的构建与训练。 研究团队为两种表示分别训练了对应的模型。对于描述符表示,使用随机森林作为预测模型。他们不仅训练了针对每个性质的单任务RF模型,还通过修改Scikit-learn库以支持多输出目标,构建了多任务RF模型。模型超参数通过网格搜索进行优化,并针对每个性质独立调整。对于图表示,则采用加权有向消息传递神经网络作为预测模型。所有WD-MPNN模型均在单任务设置下训练,以确保与单任务RF模型的可比性。WD-MPNN的超参数使用Optuna框架进行优化。两种类型的模型均使用均方误差作为损失函数,并通过决定系数、斯皮尔曼等级相关系数和均方误差在测试集上的表现进行全面评估。
研究的主要结果清晰地揭示了不同分子表示和模型架构在预测各类共聚物性质上的优势与局限。
在基于描述符的随机森林模型评估中,单任务模型表现出色。密度、定压比热容和定容比热容的预测精度最高,测试集的决定系数分别达到0.93、0.87和0.89,表明这些性质与特定的分子描述符(如与共振、电荷分布、电子拓扑相关的特征)存在强关联,容易被RF模型捕捉。通过特征重要性分析,研究者识别出对每个性质预测贡献最大的前10个描述符。有趣的是,当仅使用这些重要描述符重新训练单任务RF模型时,大多数性质的预测性能反而得到提升,说明精简特征集有助于模型聚焦于化学意义上最相关的信息,减少过拟合。然而,对于线性膨胀系数、体积膨胀系数和体弹性模量,单任务RF的预测能力相对较弱,测试集决定系数在0.60至0.69之间。这表明这些性质可能与更复杂的、非局域的结构相互作用有关,难以被固定的描述符集完全编码。另一方面,多任务RF模型在使用全部描述符时,其表现普遍不如单任务模型。更值得注意的是,当多任务RF模型仅使用各任务的前10个重要描述符时,其性能显著下降。这揭示了多任务学习的一个关键点:它依赖于丰富的特征集来发掘不同任务之间的共享信息和关联,过度精简特征会损害其利用跨任务相关性的能力。
在基于图表示的神经网络模型评估中,WD-MPNN展现出了互补的优势。对于单任务RF模型表现较弱的性质——线性膨胀系数、体积膨胀系数和体弹性模量,WD-MPNN取得了更好的预测结果,测试集决定系数分别达到0.78、0.76和0.70,相比单任务RF有显著提升(提升幅度约1.3%至30%)。这支持了研究者的假设:这些依赖于长程相互作用、聚合物链构象和网络机械响应的性质,能够通过图神经网络直接从分子拓扑结构中自动学习到的分层和非局部特征来更好地建模。然而,对于密度和热容性质,WD-MPNN的表现略逊于最优的单任务RF模型。
最终的模型比较综合了所有结果。研究明确得出结论:没有一种模型在所有性质上都绝对最优。随机森林模型结合分子描述符,在预测密度和热容这类与明确局部分子特征强相关的性质时更具优势,且在数据量有限的情况下表现稳健,模型也更具可解释性。而图神经网络模型则在预测膨胀系数和体弹性模量这类更依赖于复杂结构相互作用的性质时更为出色,其优势在于能够自动学习不受预定义描述符限制的复杂拓扑特征。这一对比结果构成了本研究核心结论的基础。
本研究的结论明确指出,在共聚物性质预测的机器学习模型中,选择合适的分子表示至关重要,而这需要基于对所预测性质背后结构-性能关系的领域知识理解。对于主要由本征分子属性(如原子类型、局部电荷)主导的性质,基于描述符的随机森林模型是高效且可解释的选择。而对于更多由分子拓扑和长程相互作用决定的“涌现”性质,基于图的神经网络模型能提供更强大的预测能力。将两种方法结合,可以为共聚物设计提供一个更全面的框架,在可解释性和预测准确性之间取得平衡,从而指导开发具有定制化性能的新材料。
本研究的亮点突出体现在以下几个方面:首先,研究视角具有明确的比较性和指导性,它不是简单地应用一种先进模型,而是系统对比了两种主流技术路线(描述符vs. 图表示)在相同数据集上的表现,为领域内研究者根据具体任务选择模型提供了实证依据。其次,数据生成与验证工作扎实,通过分子动力学模拟构建了专门针对共聚物的数据集,并谨慎地以实验数据进行了验证,解决了该领域数据匮乏的核心瓶颈。第三,对图表示进行了有针对性的改进与应用,采用了能够编码共聚物序列构型概率权重的图表示方法,使其更适合聚合物体系,这体现了对研究对象的深入理解。第四,深入探索了单任务与多任务学习范式,不仅比较了不同表示,还分析了不同学习设置下的性能差异,并对其背后原因(如特征共享机制)进行了探讨,增加了研究的深度。最后,研究强调了在数据有限场景下结合领域知识选择模型的重要性,这对实际材料信息学研究具有重要的现实意义。
此外,研究也坦诚地指出了自身的局限性,如数据集规模受限于计算成本、嵌段共聚物样本相对较少、模型性能在真实实验数据上的泛化能力有待进一步检验等,这些都为未来研究指明了方向。研究团队公开了所有数据和代码,体现了可重复研究的科学精神,将有力促进该领域的后续发展。