机器学习在材料发现与设计中的应用综述

分享自：
机器学习在材料发现与设计中的应用综述

期刊:Journal of MateriomicsDOI:10.1016/j.jmat.2017.08.002
机器学习在材料发现与设计中的应用综述报告
作者及发表信息 本文作者为 Yue Liu, Tianlu Zhao, Wangwei Ju（均来自上海大学计算机工程与科学学院）以及 Siqi Shi*（来自上海大学材料科学与工程学院及材料基因组研究所）。通讯作者为 Siqi Shi。该综述文章发表于期刊 Journal of Materiomics (J Materiomics) 2017年第3卷第159-177页，于2017年8月8日在线发表。
论文主题与背景 本文是一篇关于机器学习在材料科学领域应用的系统性综述。其核心主题是探讨如何利用机器学习（Machine Learning）这一强大的数据分析工具，来加速新材料发现与设计的进程，并提升材料性能预测的准确性。文章旨在为材料科学研究者提供一个关于机器学习应用模式、基本流程、常用算法、研究现状、存在问题及未来方向的全面指南。
传统的材料研发主要依赖实验测量和计算模拟。实验方法直观但耗时耗力、成本高昂，且受限于实验条件和设备。计算模拟（如基于密度泛函理论、分子动力学等）虽然能提供微观洞察，但其计算成本巨大，强烈依赖于材料微观结构，且难以复用先前计算结果。新材料从发现到应用通常需要10-20年，流程割裂，反馈不畅。在此背景下，随着“材料基因组计划”（Materials Genome Initiative, MGI）的启动和“大数据”时代的到来，材料科学领域积累了海量数据（如ICSD, Materials Project等数据库）。机器学习作为一种能从高维数据中发现模式的强大工具，为克服传统方法的局限性、实现高效、靶向的材料研发提供了新的范式。本文的写作目的正是回顾和梳理机器学习在材料发现与设计中的应用现状，分析其成功经验与共性问题，并为该领域的未来发展提供见解。
论文主要观点阐述
第一，机器学习在材料科学中的应用范式与基本流程。 文章首先为读者构建了一个清晰的框架。作者指出，构建一个用于解决材料科学问题的机器学习系统，其通用范式可概括为：目标 + 样本 + 算法 = 模型。具体实施包含三个基本步骤： 1. 样本构建：这是基础，涉及从实验或计算数据中收集原始数据，并进行数据清洗和特征工程（Feature Engineering）。特征工程是核心，包括特征提取、选择、构建和学习，其质量直接决定模型的预测能力。文章以预测锂离子电导率的研究为例，说明如何从众多影响因素中筛选出最相关的特征（如离子扩散率、平均体积等）。 2. 模型构建：这是一个“黑箱”过程，通过特定的机器学习算法（线性或非线性函数）来学习样本中条件属性（输入特征）与目标属性（输出，如性能）之间的映射关系。例如，在预测玻璃化转变温度Tg时，很难用显式公式描述Tg与刚性、链迁移率等因素的关系，但机器学习模型可以基于样本数据建立这种复杂的映射。 3. 模型评估：为确保模型的泛化能力（即在未见数据上的表现），需要使用独立的测试数据对模型进行评估。文章介绍了三种评估方法：留出法（Hold-out）、交叉验证法（Cross-validation）和自助法（Bootstrapping）。评估指标根据任务类型而定：分类问题常用分类准确度（Classification Accuracy, CA）；回归问题则常用平均绝对百分比误差（MAPE）、均方根误差（RMSE）和相关系数（R²）。
此外，文章对材料科学中常用的机器学习算法进行了分类和比较，主要分为四类：用于新材料发现的概率估计算法（如贝叶斯方法）；以及用于材料性能预测的回归算法（如支持向量回归SVR、人工神经网络ANN）、聚类算法（如K-means）和分类算法（如支持向量机SVM、决策树DT）。这些算法常与遗传算法（GA）、模拟退火算法（SAA）等智能优化算法结合，以优化模型参数或解决空间构型优化等问题。
第二，机器学习在材料性能预测中的应用现状。 这是机器学习在材料科学中最广泛的应用领域。文章将其分为宏观性能预测和微观性能预测。 * 宏观性能预测：主要关注材料的力学、物理等宏观性质与其微观结构之间的构效关系（QSAR）。由于宏观性能与影响因素间关系复杂，传统方法难以建模。机器学习，特别是人工神经网络（ANN）和支持向量机（SVM），在此展现出优势。 * ANN的应用：例如，反向传播神经网络（BP-ANN）被用于预测聚合物的玻璃化转变温度，其平均预测误差（17K）显著低于线性回归模型（30K）。径向基函数神经网络（RBF-ANN）则被用于研究沥青路面结构的裂纹扩展。ANN的优势在于其强大的任意函数逼近能力和无需过多先验知识，但其需要大量多样化的训练数据，且模型可解释性差（“黑箱”问题）。 * SVM的应用：例如，结合遗传算法（GA）和支持向量回归（SVR）的混合模型，被用于预测锌和钢的大气腐蚀行为，表现出优于其他方法的预测能力。针对存在转折点的As-Se玻璃转变温度预测，提出了基于特征选择的两阶段SVR（FSTS-SVR）方法，提高了预测精度。SVM模型在小样本、高维问题上具有独特优势，能有效克服“维数灾难”和“过学习”问题。SVM还被用于预测离子电导率、玻璃化转变温度等。 * 微观性能预测：聚焦于材料的原子和结构特性，如晶格常数、带隙能、分子原子化能等。这些性质是宏观性能的基础，但通过第一性原理计算耗时巨大。 * 晶格常数预测：文章以钙钛矿（Perovskite）材料为例，对比了不同机器学习方法的表现。研究表明，支持向量回归（SVR）、广义回归神经网络（GRNN）和人工神经网络（ANN）等方法在预测ABO₃型钙钛矿化合物的晶格常数时，均能达到较高的精度（平均绝对百分比误差PAD可低于1%），且性能优于传统的经验软件（如SPuDS）。其中，SVR在小训练样本下表现出更好的泛化能力。 * 其他微观性质预测：机器学习方法（如核岭回归KRR、随机森林RF等）已被用于高效预测分子原子化能（误差可低至3 kcal/mol）、带隙能、锂离子电池材料的体积变化、空位迁移/形成能、电子亲和能等。文章特别强调了特征选择的重要性，并引用作者团队提出的多层过滤特征选择（MLFFS）方法，通过实验证明该方法能有效减少特征数量，同时提高多个材料性质数据集的预测精度（RMSE和MAPE降低，R²提高）。
第三，机器学习在新材料发现中的应用。 传统的新材料发现（通过元素替换或结构转变进行筛选）搜索空间巨大，如同“穷举搜索”，效率低下。机器学习与计算模拟（如密度泛函理论DFT）结合，形成了一种“建议-测试”的自适应方法，能大幅缩小搜索范围。 * 一般流程：系统包括学习系统和预测系统。学习系统进行数据清洗、特征选择和模型训练。预测系统则利用训练好的模型进行组分预测或结构预测，推荐候选材料，然后通过DFT计算验证其相对稳定性。 * 晶体结构预测：目标是预测给定化学成分下最稳定的晶体结构。例如，Curtarolo等人将机器学习与量子力学计算结合，预测二元合金的晶体结构；Fischer等人开发了基于信息学的结构建议模型（DMSP），通过挖掘实验数据中的关联来指导量子力学计算寻找稳定结构；Liu等人提出系统性的机器学习框架，用于预测Fe-Ga合金的微结构，将平均运行时间减少了80%。 * 组分预测：目标是预测可能形成稳定化合物的元素组合。贝叶斯统计模型在此类后验概率估计问题上表现出色。例如，Hautier等人利用贝叶斯方法从183种常见氧化物中提取知识，成功预测了209种新的三元氧化物，计算成本降低了近30倍。Meredig等人用类似方法预测了4500种热力学稳定的三元化合物。此外，机器学习还能用于基于离子替换规则发现新化合物。 * 创新应用：Raccuglia等人的工作尤为突出，他们利用失败实验的数据训练支持向量机（SVM）衍生的决策树模型，来预测模板化钒亚硒酸盐的结晶反应结果，成功率高达89%。这证明了“黑暗”（失败）数据在确定成功与失败边界、指导新材料发现方面的巨大价值。
第四，机器学习在材料科学中的其他用途。 除了上述核心应用，文章还概述了机器学习在其他方面的应用： * 工艺优化：例如，利用模糊神经网络（FNN）建立钛合金Ti-10V-2Fe-3Al工艺参数与力学性能的关系模型，以快速选择最优加工参数；结合最小二乘支持向量机（LSSVM）优化铝合金的时效工艺。 * 寻找密度泛函：Snyder等人将机器学习应用于密度泛函理论（DFT）中的交换关联能泛函近似问题，仅用不到100个密度数据训练，就在一维非相互作用无自旋费米子体系的动能预测上达到了化学精度（平均绝对误差低于1 kcal/mol），远超现有近似方法。 * 电池状态监测：用于实时预测锂离子电池的荷电状态（SOC）、健康状态（SOH）和剩余使用寿命（RUL）等参数。方法包括结合模糊神经网络与扩展卡尔曼滤波器（EKF）等，以处理电池状态与内外条件间的非线性时变关系。 * 其他分类问题：如将三维微结构重建视为模式识别问题；使用贝叶斯分类器进行工程材料损伤检测模拟；利用支持向量机（SVM）快速筛选用于CO₂捕获的高性能金属有机框架（MOF）材料。
第五，机器学习在材料科学中面临的常见问题与对策。 文章在综述应用之余，也冷静分析了当前面临的挑战： 1. 样本构建问题：数据来源分散，格式不统一；特征向量的构建至关重要但缺乏通用方案（常用的有成分、结构、电子密度、库仑矩阵等），其选择严重影响预测精度；样本大小的确定也因研究课题和算法而异。 2. 泛化能力问题：模型在训练集上表现良好，但在新数据上预测能力不足，涉及欠拟合和过拟合。模型的泛化能力与样本质量、样本大小和训练算法都有关。 3. 可理解性问题：许多机器学习模型（如SVM、ANN）是“黑箱”，其内部决策逻辑难以解释，这不利于研究者从中提取物理洞察或化学规则。解决方案包括开发更具可解释性的算法，或从“黑箱”模型中提取知识规则（如从神经网络中提取IF-THEN规则）。 4. 易用性问题：应用机器学习的复杂性高，一方面体现在选择合适的算法、特征和参数需要专业知识；另一方面，缺乏用户友好的集成软件平台，使得材料科学家难以直接使用这些工具。 5. 学习效率问题：面对材料科学中日益增长的海量、高维数据，传统机器学习算法的学习效率可能成为瓶颈。需要开发更高效的算法或利用并行计算、云计算等技术。
论文的意义与价值 本综述文章具有重要的学术价值和指导意义： 1. 系统性梳理：首次全面、系统地回顾了截至2017年机器学习在材料发现与设计领域的应用全景，涵盖了从性能预测到新材料发现的各个主要方向，并指出了其他新兴应用。 2. 框架性指导：为材料科学研究者提供了一个清晰的“路线图”，详细阐述了应用机器学习解决材料问题的典型模式、基本步骤、算法选择和数据评估方法，降低了该领域的入门门槛。 3. 问题导向分析：不仅展示了机器学习的成功案例，还深入剖析了当前应用中存在的核心挑战（如数据、泛化、可解释性等），并提出了可能的解决思路，为后续研究指明了需要突破的方向。 4. 前瞻性展望：通过强调结合计算研究与实验、洞察影响材料性能的参数，文章倡导了一种更高效、目标更明确的研究模式，推动了材料信息学（Materials Informatics）这一交叉学科的发展。 这篇综述是材料科学与人工智能交叉领域的一篇重要文献，它标志着机器学习正从辅助工具转变为驱动材料研发创新的核心引擎之一，为加速材料研发从“试错法”向“理性设计”的范式转变提供了理论依据和实践指南。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问