本研究发表于Computational Materials Science期刊147卷(2018年)。主要作者为P.C. Verpoort(剑桥大学)、P. Macdonald(Granta Design)以及通讯作者G.J. Conduit(剑桥大学)。研究工作由剑桥大学和Granta Design合作完成,并获得了英国工程与自然科学研究委员会(EPSRC)和英国皇家学会的资助。
这项研究属于材料信息学(Materials Informatics)与计算材料科学的交叉领域。其学术背景是,尽管材料数据库(如商业数据库MaterialUniverse和Prospector Plastics)汇集了海量材料性能数据,但数据不完整、存在错误或估计值不准确是普遍存在的难题。这直接影响了材料研发、选型和设计的可靠性。传统的材料性能预测方法,如第一性原理计算、唯象模型或简单的拟合函数,在处理不完整数据、利用多性能间复杂关联以及处理图形化数据(如应力-温度曲线)方面存在局限性。因此,本研究旨在开发并验证一种新型的人工智能算法框架,专门用于材料数据的验证(找出并修正错误)、插补(预测缺失值)和建模。其核心目标是提升现有材料数据库的质量和可用性,并为材料发现提供更强大的预测工具。
研究的详细工作流程如下:
本研究构建并应用了一个具有特殊能力的人工神经网络(Artificial Neural Network, ANN)框架。整个工作包含算法框架开发、模型验证和实际应用三大阶段。
1. 算法框架开发: 本研究提出的ANN核心创新在于其独特的设计理念和能力扩展。 * 网络结构: 采用单隐藏层的全连接神经网络。其关键设计是,所有材料属性(包括成分和性能)都被视为平等的输入和输出。通过在网络权重中设置约束,确保网络的解与恒等算子正交,从而迫使网络学习属性之间的内在关联,而非简单地复制输入。这使得网络能够利用任意已知属性来预测任意未知属性。 * 处理不完整数据的能力: 这是本算法的核心优势。面对训练或预测时数据条目部分缺失的情况,算法采用一种期望最大化(Expectation-Maximization)迭代方法。首先,用数据集的平均值(或聚类平均值)初始化缺失值。然后,固定网络参数,通过迭代公式 ( x_{n+1} = c x_n + (1-c) f(x_n) ) 来更新缺失值的估计,直至收敛。其中,( f ) 是训练好的ANN,( c ) 是软化参数(通常设为0.5)以防止振荡。这使得网络能够充分利用“成分-性能”和“性能-性能”之间的双重关联来增强预测质量,而非丢弃不完整记录。 * 处理图形化数据的能力: 针对依赖于参数(如温度)的性能曲线,传统方法是将每个数据点视为独立样本,效率低下。本研究将整条曲线提升为向量实体。当预测其他标量属性时,将曲线的关键矩(如平均值)作为输入;当预测曲线本身时,则对向量的每个分量独立计算。这种方法减少了数据存储和计算量,并将图形数据纳入了统一建模框架。 * 训练过程: 网络参数通过随机游走和梯度下降法优化,以最小化所有数据点预测值与实际值之间的均方根误差(RMS error)。为评估预测的不确定性,研究同时训练一个由多个独立ANN模型组成的集合(4到64个),以其预测的平均值作为最终结果,标准差作为不确定性度量。这能反映数据噪声和插值的不确定性。
2. 模型验证(使用模拟数据): 在应用于真实数据库前,研究者使用多种模拟数据对ANN框架的各方面能力进行了系统验证。 * 一维函数拟合测试: 使用带有高斯噪声的余弦、对数和二次函数数据训练ANN。结果显示ANN能准确恢复底层函数关系,且其预测的不定性在数据边界和曲率高的区域(如极值点)更大,合理地反映了拟合难度。通过分析训练误差、缩减误差(考虑自由度)和交叉验证误差,研究者提出了一种通过最小化缩减误差来确定最优隐藏节点数的实用方法,以避免过拟合。 * 错误数据识别能力测试: 生成包含“好”点(高斯噪声)和“坏”点(均匀分布噪声,模拟严重错误)的二次函数数据集。ANN通过计算每个数据点预测偏差的标准差倍数(( d_r ))来识别潜在错误。测试中,ANN成功找出了大部分人为引入的“坏”点。更重要的是,研究者推导了一个公式(公式8),用于根据已发现的错误数量和数据分布范围,预测数据集中剩余的错误条目数量,为数据库质量控制提供了量化工具。 * 不完整数据处理能力测试: 设计三维数据集(( z = x + y )),分别测试了“在完整数据上训练,在不完整数据上预测”和“在不完整数据上训练,在完整数据上预测”两种场景。对于完全无关的数据(( x ) 和 ( y ) 独立),ANN在缺失( x )或( y )时,会合理地用其平均值进行预测;即使在训练数据缺失率高达60%的情况下,ANN仍能较好地捕捉底层关系。对于完全相关的数据(( y = x^2 )),ANN表现更优。这证明了算法对现实世界数据的鲁棒性。 * 图形数据处理能力测试: 使用函数 ( z_l = 4x + y_l^2⁄4 ) 生成图形数据(( z ) 随 ( y ) 变化)。ANN成功预测了完整的( z )曲线。反向测试中,仅提供部分( (y, z) )点对,ANN也能有效预测出参数( x ),即使只提供两个点对也能区分不同的( x )值,证明了其处理图形数据的效率。
3. 实际应用(应用于真实材料数据库): 将训练好的ANN框架应用于Granta Design公司的MaterialUniverse(金属合金) 和 Prospector Plastics(聚合物) 商业数据库。 * 密度分析(合金): 以31种元素的成分为输入。首先建立混合法则基准模型,然后用ANN对残差进行建模,将均方根误差从0.19 g/cm³降低到0.12 g/cm³。利用ANN的( d_r )指标筛选出20个最可疑的密度条目,经与原始数据源核对,确认了其中7个为录入错误,纠错准确率达50%。修正后,估计数据库中仍有约17个错误密度值。 * 熔点分析(合金): 数据库约20%的熔点值为拟合函数估计值。ANN首先在实验数据上训练,并识别出4个错误条目予以修正。随后,针对那些仅有拟合估计值的条目,将ANN预测与数据库原有拟合函数的预测进行比较。在差异最大的30个条目中,有20个条目的ANN预测比原拟合函数更接近原始数据源的值,显示了其更优的估算能力。当遇到多个原始数据源冲突时,ANN还能通过计算似然比来辅助判断哪个值更可信。 * 屈服强度分析(合金): 屈服强度强烈依赖于热处理。仅用成分预测误差很大(0.349)。加入伸长率(相关性能)后误差降至0.092。进一步创新性地引入热处理制度的比特位编码(如是否回火、退火等)作为输入,使误差进一步降至0.052,优于数据库原有拟合模型的0.072。利用此模型,筛选出的前20个可疑条目中,有8个被确认为错误,可确认的纠错准确率达100%。 * 断裂韧性分析(合金): 通过逐一测试发现,伸长率是与断裂韧性最相关的性能。ANN仅使用实验测定的数据(约200个点)进行训练,其预测误差对于钢、镍、铝合金均低于数据库原有的、按材料类别分别建立的拟合函数的误差。这表明ANN能够利用整个数据集的隐含信息来改善对各个子集的预测,展现了其超越传统分组建模方法的优势。 * 聚合物数据分析: 聚合物数据不包含明确的成分信息,且许多条目缺失填料类型和含量。ANN以各种物理性能(如密度、拉伸模量)和分类属性作为输入。首先,在拉伸模量预测中识别出3个数量级错误的条目。其次,针对许多密度异常但填料信息缺失的聚合物,ANN成功预测了其填料类型和含量,并经原始数据源确认。这证明了ANN在高度不完整、非成分驱动型数据集上的强大数据填充和表征能力。
研究的主要结果如下:
各阶段的验证和应用结果紧密衔接,共同支撑了最终结论。 * 在模拟测试阶段,ANN成功拟合复杂函数、识别错误数据、处理高缺失率数据以及高效处理图形数据的结果,从原理上证明了所提出框架在数学和算法上的有效性与鲁棒性。这些结果为后续处理真实、混乱的材料数据奠定了信心。 * 在密度案例中,ANN不仅提升了预测精度,更重要的是展示了其作为数据“质检工具”的实用性,能够以高准确率定位数据库中的转录错误,并量化剩余错误水平。 * 在熔点案例中,结果证明了ANN在数据估算方面优于人工预设的拟合函数,并且能辅助解决数据源冲突,提升了数据库内容的准确性和一致性。 * 在屈服强度案例中,关键结果是证明了将非数值、分类化的工艺信息(热处理)有效编码并纳入ANN模型的可行性及其带来的显著精度提升。这拓宽了材料信息学模型所能处理的信息范畴。 * 在断裂韧性案例中,最突出的结果是ANN用一个统一的模型,在多个材料子类上均击败了为该子类量身定制的传统模型。这凸显了ANN善于发现和利用跨材料类别的深层隐含规律的能力。 * 在聚合物案例中,结果极端体现了ANN处理不完整、异质数据的能力,既能发现离谱错误,又能智能推断缺失的关键分类信息,解决了传统方法难以处理的问题。
研究的结论是: 本研究成功开发并验证了一个功能强大的人工神经网络框架,专门用于材料数据的验证、插补和建模。该框架具有处理不完整数据集、利用性能间复杂关联、整合图形化数据以及智能编码工艺信息等独特能力。将其应用于商业材料数据库,不仅能够高效识别和纠正数据错误,提供比现有方法更准确的数据估算,还能从数据中提取更深层次的关联。这项研究展示了人工智能算法在提升材料数据库质量、辅助材料研究和优化工业选材方面的巨大潜力,是材料信息学迈向实际工程应用的重要一步。
本研究的亮点包括: 1. 算法创新性: 提出了一个将所有属性同时作为输入和输出的ANN架构,并结合迭代期望最大化算法,实现了对不完整数据集的原生支持,这是与传统ANN应用的关键区别。 2. 功能全面性: 框架集错误检测、数据插补、性能预测于一体,并创新性地解决了图形化数据和分类化工艺信息的建模难题。 3. 验证系统性: 从模拟数据到真实数据库,进行了层层递进、严谨全面的测试,充分验证了框架在各种场景下的有效性。 4. 应用实效性: 直接在工业界广泛使用的商业数据库上取得实效——发现了20处经确认的数据错误,并在多个性能预测上超越了数据库原有的估算模型,具有明确的工程应用价值。 5. 提供实用工具: 提出了确定最优网络复杂度的方法和估计剩余错误数量的公式,为实际使用者提供了操作性指导。
其他有价值的内容: 论文中提到了与高斯过程(Gaussian Process)的对比,指出ANN在计算成本(线性 vs 立方级)和处理聚类数据能力方面的优势,这为算法选型提供了依据。所有数据和论文均已开放获取,体现了研究的可重复性和开放性。