本报告介绍的是一项发表于 Solar Energy Materials & Solar Cells 期刊第271卷(2024年)、文章编号112881的最新原创性研究成果。这项研究由Chaofan Liu, Zhengxin Chen, Chunliang Ding, Shengde Jin, Jiafan Wang, Jiawei Feng, Jiang Wu*, Heping Huang, Jia Lin, Jingfei Yu, Yuyue Quan, Kaiyuan Zhang 等研究者共同完成,其研究团队主要来自上海电力大学能源与机械工程学院、数理学院,以及加州大学伯克利分校、宁波理工学院等机构。该研究致力于利用一种目标驱动的、可解释的机器学习(ML)框架,来加速具有直接带隙的掺杂尖晶石光伏材料的发现过程。
1. 研究背景与目标
在碳中和背景下,太阳能作为一种清洁可再生能源至关重要。光伏技术的核心在于高性能的光伏材料。尖晶石(spinel)结构(通式 AB₂X₄)因其在单一晶格内融合了四面体和八面体配位,展现出独特的光电性质,被认为是钙钛矿和传统半导体的有潜力替代者。然而,大多数已发现的尖晶石材料具有间接带隙,这严重限制了其在光电器件(尤其是太阳能电池)中的应用效率,因为直接带隙材料通常具有更高的光吸收系数和光电转换效率。因此,通过元素掺杂(doping)将间接带隙尖晶石调控为直接带隙材料,成为一个关键的科学问题。传统的材料研发方法(如实验试错法或第一性原理计算)在面对庞大的化学空间(例如,对259种基础尖晶石进行A/B位掺杂,可产生超过16万种候选组合)时,面临着耗时过长、计算成本高昂的挑战。
本研究的核心目标是:开发一个集成的、目标驱动的机器学习框架,高效、精准地从海量的未知掺杂尖晶石组合中筛选出具有直接带隙的候选材料。该框架不仅要求预测准确性高,还需具备可解释性,以揭示决定尖晶石带隙类型的物理化学规则,从而指导理性材料设计。最终,研究旨在提供一个能够显著加速新型光伏材料探索的通用性方法。
2. 详细工作流程
本研究的工作流程是一个精心设计的闭环系统,主要包括数据准备、特征工程、模型评估与解释、以及目标驱动的顺序筛选四个主要部分。
第一部分:数据集准备与预处理 首先,研究团队从 Materials Project 数据库、已有文献以及通过第一性原理计算(Density Functional Theory, DFT)补充的数据中,构建了一个关于尖晶石材料带隙类型的初始数据集。该数据集共包含385种化学式为AB₂X₄(空间群号为227)的尖晶石结构,涉及32种A位元素和43种B位元素。这些化合物的阴离子X主要为O、S和Se。数据清理后,注意到数据集中直接带隙样本的数量远少于间接带隙样本(约为后者的二分之一),存在明显的类别不平衡问题。此外,可用的数据集规模较小,是材料机器学习中常见的挑战。为此,后续采用了SVM-SMOTE(支持向量机-合成少数类过采样技术)算法来平衡数据集,生成合成样本以提高模型对少数类(直接带隙)的分类能力。最终,构建了一个包含518个实例(含合成数据)的高质量数据集。
第二部分:特征工程 特征工程是连接材料化学组成与其性质(此处为带隙类型)的关键桥梁。研究人员基于尖晶石的化学式,最初生成了67个与元素性质相关的描述符,包括偶极极化率(dipole polarizability)、轨道电子数、电负性、第一电离能等。为了消除冗余信息、避免过拟合并提升模型性能,他们进行了严格的特征筛选。首先,通过计算皮尔逊相关系数,剔除了高度相关的特征(相关系数>0.8)。随后,利用随机森林模型评估特征重要性,并迭代调整重要性阈值,比较不同特征数量下的模型精度。最终,从67个初始特征中精选出23个最具信息量的特征,用于后续的机器学习模型训练。分析显示,其中与带隙类型相关性最高的八个特征包括B位离子的第一电离能(Fib)、偶极极化率(Dpb)和最低未占据分子轨道特征(Lumo_character)等。
第三部分:模型开发、评估与解释 研究团队在扩增后的数据集上训练了多种机器学习分类模型,包括K-最近邻(KNN)、随机森林(RF)、LightGBM、决策树(DT)、神经网络(NN)、二次判别分析(QDA)和逻辑回归(LR)。通过五折交叉验证和留一法交叉验证,以准确率(Accuracy)、F1分数(F1-score)和马修斯相关系数(MCC)等指标评估模型性能。结果表明,经过超参数优化的随机森林(RF)模型表现最佳,在未使用合成数据的初始数据集上,其平均分类准确率达到0.87,F1分数为0.87,MCC为0.74,其接收者操作特征曲线下面积(AUC)平均值达到0.85,显示出优异的区分能力。
为了打开机器学习模型的“黑箱”,理解模型决策背后的物理化学原理,研究人员采用了SHAP(Shapley Additive exPlanations)方法进行模型解释。SHAP分析能够量化每个特征对模型输出的贡献。全局重要性分析(图6a, b)揭示,B位离子的第一电离能(Fib)是决定尖晶石带隙类型的最重要特征,其次是B位离子的偶极极化率(Dpb)和最低未占据分子轨道特征(Lumo_character)。具体而言,SHAP依赖图(图6c)显示,当Fib值低于约600时,倾向于预测为直接带隙;高于此值时,则倾向于预测为间接带隙。此外,局部解释性分析(图6d, e, f)展示了单个化合物(如CaIn₂O₄, Si(NiO₂)₂, CaSm₂O₄)的预测结果如何由各个特征的贡献值叠加而成,从而验证了模型的可靠性与可解释性。基于这些洞见,研究总结出了设计直接带隙尖晶石的关键化学规则:倾向于选择B位离子第一电离能较低、偶极极化率较高的元素,并且最低未占据分子轨道主要由s或p轨道组成。
第四部分:目标驱动的顺序筛选 在建立了高性能且可解释的RF分类模型后,研究团队将其应用于大规模虚拟筛选。首先,他们以初始数据集中的259种间接带隙尖晶石为基质,分别考虑了32种A位和43种B位掺杂元素,生成了庞大的候选材料库(64,672种A位掺杂和97,032种B位掺杂类型)。然后,为了确保筛选出的材料在实验上具有可行性,他们应用了基于成分限制注意力网络(Crabnet)的稳定性筛选标准,包括形成能(Ef)≤ 0 eV、能量高于凸包(Eh)≤ 25 meV以及带隙(Eg)> 0 eV(确保为半导体)。经过此初步稳定性筛选后,分别得到12,843种A位掺杂和19,563种B位掺杂候选材料。最后,利用训练好的RF模型对这约3.2万种候选材料进行直接/间接带隙性质预测。成功筛选出3,449种(AxA’₁-x)B₂X₄型(A位掺杂)和3,809种A(BxB’₂-x)X₄型(B位掺杂) 理论上稳定且预测为直接带隙的掺杂尖晶石材料。这个数量是初始数据集(仅含约100多种直接带隙材料)的七倍以上,极大地拓展了潜在的直接带隙尖晶石材料库。
3. 主要结果
这些结果环环相扣:高质量的数据和特征集是训练可靠模型的基础;高性能模型是实现精准大规模预测的工具;模型的可解释性不仅增加了结果的可信度,更重要的是提炼出了可指导材料设计的物理化学规则;最终,结合稳定性筛选的ML预测,实现了从海量化学空间中高效、定向地发现目标材料(直接带隙尖晶石)的最终目的。
4. 结论与意义
本研究成功设计并实现了一个结合可解释机器学习与第一性原理计算的目标驱动材料设计框架。该框架能够显著加速直接带隙掺杂尖晶石光伏材料的发现进程。研究不仅提供了一个性能优异的带隙分类预测工具,更重要的是通过可解释ML揭示了决定尖晶石带隙性质的深层物理化学规律,特别是B位离子第一电离能的核心作用。这些规律为材料科学家提供了清晰、定量的设计准则。最终,通过大规模虚拟筛选,研究预测了数千种新型稳定的直接带隙掺杂尖晶石,极大地丰富了潜在的高性能光伏材料库。
5. 研究亮点
6. 其他有价值内容
本研究的代码和数据将根据请求提供,体现了研究的可重复性和开放性。此外,研究还展示了如何将材料稳定性(形成能、能量高于凸包)与目标功能性质(带隙类型)的预测相结合进行多级筛选,这更贴近实际材料研发的需求,因为一个可用的材料必须同时满足稳定性和功能性的要求。这项工作也凸显了在材料科学中,机器学习不仅能作为快速预测的工具,更能通过与物理化学知识的结合,成为揭示构效关系、指导理性设计的强大手段。