基于可解释机器学习的钙钛矿太阳能电池高效开发预测研究学术报告
近年来,钙钛矿太阳能电池凭借其制备简便、光电转换效率高、环境友好等优势,成为可再生能源领域极具前景的研究方向。然而,传统“试错法”开发高性能电池的过程效率低下、成本高昂。为此,由Jinghao Hu、Zhengxin Chen、Jia Lin(通讯作者)及Xianfeng Chen(通讯作者)等学者组成的联合研究团队,提出了一种结合机器学习与数据挖掘的目标驱动型新方法,用于快速筛选高效钙钛矿太阳能电池。这项题为“Interpretable machine learning predictions for efficient perovskite solar cell development”的研究成果于2024年4月5日在线发表在期刊 solar energy materials & solar cells 上。本报告旨在详细介绍该研究的学术背景、技术流程、核心发现及其科学价值。
一、 研究背景与目的
该研究隶属于材料信息学和可再生能源技术交叉领域。钙钛矿太阳能电池的效率(Power Conversion Efficiency, PCE)在过去十年间从3.8%迅速提升至26.1%,展现出巨大潜力。然而,当前高性能器件的实现严重依赖于试错法,这包括材料合成与开发、薄膜性能优化以及新器件制备工艺的反复试验,耗费大量时间、材料及人力资源。同时,尽管已开发出多种类型的钙钛矿太阳能电池,但缺乏对这些成果进行系统性、集体性的分析以揭示其背后的普遍规律。传统数据处理方法难以处理海量、复杂且含有噪声和不确定性的数据。相比之下,机器学习能够更高效地处理大规模数据,并从中挖掘出复杂、隐含的规律。
因此,本研究旨在构建一个基于机器学习的目标驱动型框架,其核心目标有二:第一,利用超过一万六千个钙钛矿太阳能电池器件数据,建立能够准确预测高效率(PCE > 18%)电池的模型,以快速、低成本地筛选出具有高潜力的器件结构。第二,通过可解释机器学习方法,揭示影响钙钛矿太阳能电池性能(特别是PCE)的关键性主导因素,为实验优化提供明确的指导方向,从而加速高效钙钛矿太阳能电池的研发进程。
二、 研究方法与技术流程
本研究的技术路线严谨而系统,主要包含数据准备、特征工程、模型构建与优化、性能预测及结果解释等多个关键步骤,流程详见图1。
第一步:数据收集与预处理。 研究团队从“Perovskite Database Project”项目中选取了超过42,400条钙钛矿太阳能电池数据作为原始数据集。每个数据点包含398个特征。首先,剔除非浮点型数据。其次,针对特征缺失值问题,采取了分层处理策略:对于缺失值超过总数据量45%的特征直接删除;对于缺失比例低于45%的特征,由于其特征值的众数占比远高于其他值,采用众数进行填充;而对于至关重要的“perovskite_band_gap”(钙钛矿带隙)特征,则采用线性插值法填补缺失值。此外,研究移除了当前业界公认与PCE无关的特征(如“stability_measured”),并删除了目标标签HPCE(高效电池标识)缺失的数据。最终,基于PCE是否大于18%的标准,生成了分类标签HPCE(High PCE),其中HPCE=1代表高效电池,HPCE=0代表非高效电池。由于原始数据集中正负样本比例严重失衡(约1:7),为避免模型过度关注数量占优的低效电池而忽视高效电池的预测,研究采用了SMOTE-ENC合成少数类过采样技术,通过对少数类样本进行合成来平衡数据集。处理后,数据集样本量达到23082个。
第二步:特征工程与筛选。 特征工程是模型成功的关键。首先,为避免不同特征量纲差异对模型的影响,对所有特征数据进行了归一化处理。原始特征数量庞大,存在“维度灾难”风险。为此,研究进行了系统的特征筛选:首先,计算所有特征间的皮尔逊相关系数,若两个特征的相关系数绝对值大于0.8,则视为强相关并剔除其中之一,以消除冗余信息并防止过拟合。随后,采用基于机器学习原理的前向特征选择方法,根据随机森林模型计算出的特征重要性排序,通过设置不同特征数量阈值进行交叉验证评估。结果表明,当选择的特征数量达到15个时,模型性能的提升不再明显,因此最终确定了15个核心特征。这些特征涵盖了器件结构(如电池架构cc_arch)、工艺参数(如钙钛矿沉积淬火诱导结晶cp_dqic、电子传输层总厚度he_sthick)、材料属性(如钙钛矿带隙cp_bgap、A位离子性质ca_menu, ca_awe, ca_mt、卤素离子性质cl_fmlnu, cl_awe, cl_mt, cl_ega, cl_nfv)以及测试条件(如电池测量面积ac_area、稳定性能测量fs_mea)等多个维度。
第三步:机器学习模型构建、优化与评估。 研究团队采用了集成学习的思路来预测HPCE。他们首先构建并优化了五个独立的基分类器:分类提升树、梯度提升决策树、随机森林、逻辑回归和高斯朴素贝叶斯。为了寻找每个模型的最佳超参数组合,研究使用了贝叶斯优化算法,这是一种高效的自动化调参方法,能够在有限迭代次数内找到提升模型性能和泛化能力的最佳参数配置。在模型评估方面,采用了五折交叉验证以避免因训练集划分不同而产生的模型性能浮动,并使用准确率、召回率、精确率、F1分数和AUC(曲线下面积)五个指标进行全面评估。随后,研究人员选取了表现最佳的CatBoost、GBDT和RF三个模型,采用软投票法构建了一个投票分类器(Voting Classifier, Vot)。软投票法的核心理念是对多个模型输出的概率预测进行加权平均,然后选择平均概率最高的类别作为最终预测结果(流程见图2)。结果显示,Vot模型在各项评估指标上均表现最优,其准确率达到0.876,AUC值高达0.886,F1分数为0.557,证明其能够有效且稳定地预测高效钙钛矿太阳能电池。
第四步:模型可解释性与关键因素分析。 为深入理解模型决策逻辑并识别影响HPCE预测的关键特征,研究采用了SHAP(Shapley Additive Explanations)方法对表现最佳的Vot模型进行可解释性分析。SHAP值可以量化每个特征对于单个预测结果的贡献度。分析生成的SHAP图(见图9)显示,在所有特征中,钙钛矿带隙(cp_bgap)和电子传输层总厚度(he_sthick) 对预测结果的影响最为显著。钙钛矿带隙直接决定了器件对太阳光谱的吸收范围和电荷分离传输效率;而电子传输层厚度则影响电子注入效率,过薄或过厚都会导致性能下降。此外,特征重要性分析(见图8)也印证了这一点,钙钛矿带隙被确定为最具影响力的因素。SHAP图还揭示了一些工艺细节的影响,例如采用连续加速结晶工艺(cp_dqic特征)有助于提升PCE。这些发现为实验优化提供了直接的、量化的指导。
第五步:钙钛矿带隙的专门预测与深入分析。 鉴于钙钛矿带隙被证明是影响PCE的最关键因素,研究团队进一步建立了一个专门的回归模型来预测钙钛矿材料的带隙。他们基于原始数据集,通过随机下采样处理获得了一个包含4683个数据、呈正态分布的子数据集(分布见图10b)。随后,使用极限随机树、随机森林回归、轻量级梯度提升机和K近邻四种模型进行训练与比较。结果显示,极限随机树模型表现出最佳的预测性能。通过对该模型进行SHAP分析(见图12),研究发现了影响钙钛矿带隙的深层材料学因素,例如,构成钙钛矿的元素的原子序数较低时,往往对应于较高的带隙。这一分析将器件性能的宏观预测与材料成分的微观描述符联系起来,为设计具有理想带隙的钙钛矿材料提供了理论线索。
三、 主要研究结果
cp_bgap)和电子传输层总厚度(he_sthick) 是决定钙钛矿太阳能电池能否实现高效率的两个最关键参数。这一发现与光伏物理原理高度吻合,为实验优化提供了最明确、最直接的靶点。cp_dqic特征)对提升PCE有积极影响。这为改进薄膜制备工艺提供了具体方向。这些结果之间逻辑连贯:首先,高质量的数据集和平衡处理是模型可靠的基础;其次,通过构建并优化预测模型,实现了高效电池的快速筛选功能;最后,也是最重要的,通过可解释性分析将“黑箱”模型转化为“玻璃箱”,输出了具有明确物理意义和指导价值的科学洞见——即确定了钙钛矿带隙和电子传输层厚度为最关键优化参数,并将带隙与材料本征属性相关联。这些结果共同支撑并实现了研究的最初目标:不仅“预测”高效电池,而且“解释”为何高效。
四、 研究结论与价值
本研究成功开发了一个目标驱动、基于可解释机器学习的完整框架。该框架不仅能快速、准确地预测高性能钙钛矿太阳能电池,更重要的是,它能够清晰地揭示出决定电池效率的关键性器件参数(钙钛矿带隙、电子传输层总厚度)以及工艺条件(如结晶方式),并进一步将钙钛矿带隙这一关键性能参数与材料的微观描述符联系起来。
其科学价值在于:第一,提供了一种超越传统试错法的材料与器件研发新范式,将数据驱动决策引入钙钛矿光伏领域。第二,通过可解释机器学习,将复杂的“结构-性能”关系量化、可视化,发现了在传统有限实验中难以系统观测到的新趋势,并将这些发现与已有物理理论相互印证,加深了对钙钛矿太阳能电池工作原理的理解。第三,所建立的数据处理、特征工程和模型构建流程,对基于机器学习的其他材料体系研究具有重要的方法论参考意义。
其应用价值则更为直接:研究输出的“特征贡献图”如同为实验科学家提供了一份“导航图”,明确指出了在追求高效率钙钛矿太阳能电池的道路上,应优先调控哪些参数(尤其是钙钛矿带隙和ETL厚度),以及向哪个方向调控(如采用连续加速结晶工艺),从而能够显著减少盲目实验,缩短研发周期,降低研发成本,加速高性能器件的落地。
五、 研究亮点
六、 其他有价值内容
研究还包含了详尽的模型评估指标(如准确率、召回率等)计算公式和说明,以及完整的特征列表(见表1),确保了研究的可重复性和透明度。此外,作者公开表示数据可根据请求提供,并公布了用于特征生成的MAGPIE工具和所使用的多种机器学习算法库(如scikit-learn),体现了开放科学的精神。该工作得到了中国国家自然科学基金等多个项目的资助,显示了该研究方向受到的重要关注与支持。