基于特征选择和联合学习的MODNET框架实现有限数据集材料性能预测

分享自：
基于特征选择和联合学习的MODNET框架实现有限数据集材料性能预测

期刊:npj computational materialsDOI:10.1038/s41524-021-00552-2
本研究由比利时鲁汶大学（UCLouvain）凝聚态与纳米科学研究所（IMCN）的Pierre-Paul De Breuck、Geoffroy Hautier以及美国达特茅斯学院（Dartmouth College）塞耶工程学院的Geoffroy Hautier和鲁汶大学的Gian-Marco Rignanese共同完成。该研究以论文《Materials property prediction for limited datasets enabled by feature selection and joint learning with MODNet》的形式，于2021年发表在期刊npj Computational Materials上。
学术背景 本研究的科学领域属于计算材料学与机器学习（Machine Learning, ML）的交叉领域。在材料科学中，利用机器学习模型预测材料的性质（如形成能、带隙、热力学性质等）已成为加速新材料发现的重要工具。然而，当前许多高性能的机器学习模型，尤其是基于图神经网络（Graph Neural Networks）的模型，通常需要大量的训练数据才能达到高精度。但在实际研究中，许多重要的材料性质（例如通过高精度量子化学方法计算的振动性质、GW方法计算的带隙等）因其计算成本高昂，可用的数据量往往非常有限（通常只有数百到数千个样本）。这构成了一个核心矛盾：最需要机器学习辅助的、计算成本高昂的问题，恰恰是数据最匮乏的问题。
为了应对这一挑战，现有的方法大致可分为三类：1) “特设”模型：针对特定材料类别和性质手工设计描述符（descriptor），虽然在小范围内可能表现良好，但缺乏通用性；2) 基于图的通用模型：如CGCNN、MEGNet等，将晶体结构转换为图进行处理，通用性强，但在小数据集上表现不佳，容易过拟合；3) 旨在弥合上述两类方法优势的模型：如SISSO、AUTOMATMINER等，尝试在有限数据下实现较好的预测性能。本研究提出的MODNet模型即属于第三类，其核心目标是开发一种能够在小数据集上实现高精度材料性质预测的通用框架。
研究详细工作流程 本研究的工作流程主要围绕MODNet模型的构建、训练、评估以及与现有方法的对比展开，包含以下几个关键步骤：
1. 模型框架设计 (MODNet) MODNet是一个基于前馈神经网络（Feedforward Neural Network）的框架，其核心创新在于三个关键方面：物理意义明确的特征、特征选择和联合学习。 * 特征表示：模型输入并非原始晶体结构，而是从matminer数据库中提取的、经过预处理的物理、化学和几何描述符。这些描述符包含了基于物理化学直觉的先验知识（如原子质量、电负性、空间群、局域环境特征等），使得模型在数据有限时能更直接地学习特征与目标性质之间的关系，相当于将部分学习任务“前置”。 * 特征选择算法 (MOD-Selection)：为了避免“维度灾难”并提高模型泛化能力，研究者设计了一种基于归一化互信息的特征选择算法。该算法旨在从大量初始特征中筛选出一个最优子集。其核心是计算每个特征与目标性质之间的相关性，以及该特征与已选特征子集之间的冗余性。算法通过一个评分函数（公式2）迭代地选择那些与目标高度相关但彼此之间冗余度低的特征，直到达到预设的特征数量阈值。该算法是对经典mRMR算法的改进，引入了动态调整的参数以更好地平衡相关性与冗余性。 * 联合学习架构：为了充分利用同一材料多个相关性质的数据（例如不同温度下的振动熵、焓、热容等），MODNet采用了树状分层神经网络架构。网络底层（靠近输入层）的块由多个性质共享，学习通用的材料表示；随着网络层次的加深，网络分支针对不同的性质组（如热力学性质、力学性质）进行特异性学习。这种架构实现了联合迁移学习，共享层可以利用所有相关性质的数据进行优化，相当于扩大了有效训练数据集，从而减少了过拟合，并提高了对小数据集的预测精度。
2. 性能评估与基准测试 研究通过两个案例研究来评估MODNet的性能，并与当前主流方法进行对比。所使用的数据集均来自Materials Project等公开数据库。 * 案例一：单性质预测：预测形成能、带隙和折射率。研究比较了MODNet与基于图的模型MEGNet（包含随机初始化和使用迁移学习两种变体）以及压缩感知方法SISSO。为了模拟小数据场景，除了使用完整数据集（形成能和带隙约6万个样本，折射率3240个样本）外，还特意构建了仅包含550个随机样本的小型训练集进行测试。 * 案例二：多性质联合预测：预测材料的振动热力学性质，包括在5K到800K之间40个不同温度下的振动熵、焓、亥姆霍兹自由能和比热，同时联合预测形成能。该数据集仅包含1245种材料。研究将MODNet与多种基线方法对比，包括：仅基于成分的随机森林（C-RF）、基于所有计算特征的随机森林（RF）、使用迁移学习的MEGNet、SISSO、使用所有特征的单输出前馈神经网络（AllNet），以及同样进行多任务学习的M-SISSO。评估时，重点关注305K下的振动熵（S305K）的预测误差，并使用了严格的训练/验证/测试集划分及十折交叉验证方案。 * 模型训练细节：对于神经网络模型，优化了层数、每层神经元数量、学习率、批次大小、激活函数等超参数。MODNet还有一个额外的超参数，即最优输入特征的数量。最终用于振动性质预测的MODNet架构包含四个块，神经元数量分别为256、128、64和8，使用ReLU激活函数和Adam优化器进行训练。
3. 特征选择方法的深入比较 为了验证其提出的MOD-Selection算法的优越性，研究者将其与其他五种特征选择方法进行了系统比较：1) Corr-Selection：基于皮尔逊相关系数；2) NMI-Selection：基于归一化互信息（仅考虑相关性，忽略冗余性）；3) RF-Selection：基于随机森林的杂质重要性排序；4) SISSO-Selection：基于SISSO框架（仅限前10个特征）；5) OMP-Selection：基于正交匹配追踪算法。比较的指标包括预测误差随特征数量的变化、预测误差随训练样本量的变化，以及不同训练样本量下所选特征集与在全数据集上所选特征集之间的杰卡德相似度，以衡量特征选择算法的稳定性。
主要研究结果 1. 单性质预测结果：在小训练集（约550个样本）场景下，MODNet在形成能、带隙和折射率的预测上，其平均绝对误差（MAE）系统性地低于MEGNet（即使使用了迁移学习）和SISSO。例如，对于550个样本的训练集，形成能预测的MAE，MODNet为0.210 eV/atom，而MEGNet（无迁移学习）为0.342 eV/atom，MEGNet（有迁移学习）为0.262 eV/atom，SISSO为0.312 eV/atom。这证明了MODNet在小数据集上的显著优势。然而，在大型数据集（6万个样本）上，MEGNet的表现略优于MODNet，这印证了图网络模型在数据充足时的强大能力，同时也明确了两种方法的适用边界：特征模型（如MODNet）更适合小到中型数据集，而图模型更适合大型数据集。
2. 多性质联合预测结果：在振动熵（S305K）的预测上，MODNet展示了最佳性能。当训练样本仅为200个时，MODNet的MAE比使用所有特征的基线神经网络（AllNet）低约12%，这归功于特征选择有效降低了噪声。此外，采用联合学习策略的M-MODNet比单目标学习的MODNet进一步降低了约8%的误差，体现了联合学习通过共享表示提升泛化能力的效果。最终，M-MODNet在145个测试样本上对S305K的预测达到了8.9 μeV/K/atom的MAE，比之前文献中基于300个化合物的研究结果（Legrain et al.）降低了4倍，比基于相同数据集的研究（Tawfik et al.）降低了25倍，成为目前该性质预测最准确的ML模型。模型对其他振动性质（如焓、比热）在不同温度下也表现出优异的预测精度（见表2），并能准确预测整个温度曲线（如图3中Li2O的示例）。
3. 特征选择的分析与比较结果： * 重要性：特征选择对提升小数据集上的模型性能至关重要。在200个训练样本时，特征选择带来了约12%的误差降低，但随着训练样本量增加至1000个，其增益下降至约5%，表明特征选择在小数据 regime 下作用更为突出。 * 可解释性：MOD-Selection算法筛选出的关键特征有助于理解物理机制。例如，对于振动熵，最重要的两个特征是AGNIFingerprint（衡量平均键长的倒数）和p价电子范围（与离子性相关）。分析表明，平均键长越长，振动熵越大；离子性越强，振动熵也越大。对于折射率，最重要的特征是估计的带隙和材料密度，这与“带隙与折射率通常存在反比关系”的物理直觉一致。这展示了MODNet不仅提供预测，还能揭示影响目标性质的关键物理因素。 * 算法比较：当仅选择前10个特征时，考虑冗余性的方法（MOD, SISSO）优于不考虑冗余性的方法（Corr, NMI, RF）。但当需要选择数百个特征（实际常见情况）时，MOD-Selection算法在几乎所有训练规模下都取得了最低的预测误差。杰卡德相似度分析表明，MOD-Selection和NMI-Selection比RF-Selection能更快地收敛到稳定特征集，而OMP-Selection表现最差，选择结果极不稳定。这证实了MOD-Selection在平衡相关性、冗余性以及算法稳定性方面的综合优势。
研究结论与意义 本研究成功开发并验证了MODNet框架，一个专门为小数据集材料性质预测而设计的机器学习模型。其核心贡献在于明确指出了基于物理描述符的模型与基于图的通用模型之间的适用边界：对于训练样本少于约4000个的问题，前者更具优势。MODNet通过结合物理启发的特征、创新的特征选择算法以及多性质联合学习架构，在小数据集上实现了超越现有图网络模型和压缩感知方法的预测精度，特别是在振动热力学性质的预测上达到了新的 state-of-the-art 水平。
该研究的价值体现在多个层面： * 科学价值：为数据稀缺的材料性质预测问题提供了高效、可靠的解决方案，扩展了机器学习在计算材料学中的应用范围。提出的特征选择算法不仅提升了性能，还增强了模型的可解释性，能够自动识别与目标性质最相关的物理描述符，从而辅助研究者理解潜在的物理机制。 * 应用价值：MODNet能够快速、准确地预测诸如温度函数等复杂性质，相比传统的第一性原理计算（如密度泛函微扰理论DFPT），速度提高了数个数量级，可用于大规模材料初筛。其多性质预测能力使得用一个模型同时获取材料的多种特性成为可能，提高了计算效率。 * 方法论贡献：研究系统比较了多种特征选择算法在小数据集上的表现，为后续研究提供了参考。提出的树状联合学习架构为多任务学习在材料科学中的应用提供了一个有效范例。
研究亮点 1. 针对小数据集的优异性能：MODNet在多个小数据集基准测试中显著优于当时的先进图网络模型（如MEGNet）和压缩感知方法（如SISSO），确立了在小数据场景下的优势地位。 2. 创新的特征选择算法：提出的MOD-Selection算法基于归一化互信息，巧妙平衡了特征与目标的相关性以及特征之间的冗余性，被证明是提升小数据集模型性能的关键，且优于其他常见选择方法。 3. 有效的多性质联合学习架构：通过树状分层神经网络实现联合迁移学习，不仅能够同时预测多个相关性质，还通过共享表示提升了单一性质的预测精度，这是对传统单任务学习的重要改进。 4. 预测精度突破：在振动熵的预测上，将平均绝对误差降低至先前最佳结果的四分之一，展示了其解决具体科学问题的强大能力。 5. 物理可解释性：模型不仅是一个“黑箱”，其特征选择过程能够输出对预测贡献最大的物理描述符，建立了机器学习预测与材料物理化学本质之间的桥梁，满足了科学研究中对模型可解释性的需求。
其他有价值的内容 研究提供了完整的代码实现（GitHub仓库）和预训练模型，促进了该框架的推广和使用。此外，论文在补充信息中详细提供了数据集分布、模型超参数优化过程、架构选择示例以及更全面的误差度量结果，为复现研究和深入理解模型行为提供了丰富信息。研究也讨论了模型的可扩展性，指出MODNet不仅限于基于结构的预测，也可轻松扩展到仅基于成分的预测任务。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问