钙钛矿太阳能电池的高效逆向设计:机器学习与贝叶斯优化的融合
本研究发表在国际期刊《Applied Physics Letters》第125卷第063901页(2024年)。论文标题为“基于实验知识约束的高效钙钛矿太阳能电池的贝叶斯逆向设计”。主要作者包括来自上海电力大学数理学院的Hongyu Liu、Zhengxin Chen、Yaping Zhang、Lin Peng、Yanan Wang、Xiaolin Liu和Jia Lin,来自上海电力大学能源与机械工程学院的Jiang Wu,以及来自上海交通大学物理与天文学院、先进光通信系统与网络国家重点实验室和山东师范大学光调控与应用协同创新中心的Xianfeng Chen。通讯作者为Xiaolin Liu、Xianfeng Chen和Jia Lin。
这项研究的学术背景聚焦于光伏材料与器件领域,特别是钙钛矿太阳能电池。自2009年以来,单结钙钛矿太阳能电池的功率转换效率(Power Conversion Efficiency, PCE)已从最初的3.8%迅速提升至26.1%以上。然而,PSC的性能对其器件结构中各功能层(如电子传输层、钙钛矿吸光层、空穴传输层)的材料配置和制备工艺参数极为敏感。传统的优化方法依赖于“试错法”,这不仅过程漫长、成本高昂,且难以系统性地探索庞大的参数组合空间及其与性能之间复杂的相互作用。随着研究积累,产生了海量的实验数据,这为利用人工智能(AI)技术,特别是具有强大模式识别能力的机器学习(ML),以数据驱动的方式加速PSC研发提供了契机。此前,ML在PSC领域的应用多集中于“正向预测”,即输入器件参数预测性能。但更关键的需求是“逆向设计”:根据特定性能目标(如高PCE)来设计最优的器件结构和制备工艺。贝叶斯优化(Bayesian Optimization, BO)作为一种高效的全局优化技术,是实现性能导向逆向设计的关键。然而,当优化目标扩展到整个器件层面,包含所有功能层时,会引入一系列“硬约束”,例如材料与添加剂之间的兼容性。BO本身通常不会自动考虑这些约束,可能导致优化结果出现“参数不匹配”问题,使得预测的最优配置在实际实验中无法实现或效果不佳。因此,本研究旨在开发一个数据驱动的逆向设计框架,以克服传统方法的低效和高成本问题。其核心目标是将ML的模式识别能力与BO的高效全局寻优能力相结合,并创新性地引入“实验知识约束”来确保优化结果的合理性与实用性,从而精准、快速地推荐最有潜力实现高效率的PSC参数配置。
本研究的详细工作流程可分为四大阶段:数据集建立与预处理、机器学习模型构建与优化、基于约束的贝叶斯优化逆向设计、以及模型可解释性分析。
在第一阶段,研究团队基于Jacobsson等人创建的开放PSC数据库,构建了专注于MAPbI3器件的专属数据集。该数据集包含3526个器件数据点,数据来源于截至2020年2月的同行评议实验。输入特征涵盖了器件结构(如电池架构n-i-p或p-i-n)和制备工艺参数(如各层材料、添加剂、溶剂比例、退火条件等)。输出标签则根据PCE是否达到17%这一阈值,将器件分为“高效率”(正类)和“低效率”(负类)两类。由于原始数据中存在大量与材料和工艺相关的文本特征,研究采用了标签编码(LabelEncoder)方法将其转换为数值标签,形成机器学习可识别的低维矩阵,避免了获取材料物理属性描述符的困难以及独热编码可能引发的维度爆炸。初步分析显示,数据集中正负类样本比例严重失衡,约为1:6。
第二阶段是机器学习模型构建与优化,这是整个框架的预测核心。为了缓解类别不平衡问题,研究团队设计了一种新颖的“两阶段采样策略”:首先使用随机欠采样(RandomUnderSampler, RUS)减少多数类样本,然后使用合成少数类过采样技术(SMOTE)生成新的少数类样本。通过贝叶斯优化,确定了最优的欠采样率(0.38)和过采样率(0.93),在F1分数提升至0.633峰值的同时,仅以约0.07的准确率轻微下降为代价,有效改善了模型对少数类的识别能力。在模型选择上,研究对比了逻辑回归、决策树以及四种基于树的集成学习模型(随机森林-RF、轻量梯度提升机-LGBM、极端随机树-ET、极端梯度提升-XGB)。基于性能比较,选择了更稳健的RF、LGBM、ET和XGB进行后续工作。为了在保证性能的同时降低计算资源消耗,研究通过特征重要性排序,从原始特征中筛选出16个关键特征构成最优特征子集用于建模。随后,利用贝叶斯优化对这四个模型的超参数进行精细调优。本研究更关注模型对输出概率排序的能力(这对后续的贝叶斯优化至关重要),而不仅仅是分类精度。因此,最终集成了一个投票(Voting)模型,它基于性能最佳的RF和XGB模型(权重分别设为0.47和0.53),遵循“少数服从多数”原则进行集体决策,从而进一步提升模型的整体鲁棒性和泛化能力。优化后的投票模型在曲线下面积(AUC)指标上达到了0.861的优秀性能。十折交叉验证显示,其最大AUC值可达0.916,平均值为0.861。特别值得注意的是,所有预测概率超过0.927的样本都被准确分类,表明模型对此高阈值以上的正类预测具有极高的可靠性。
第三阶段是基于约束的贝叶斯优化逆向设计,这是本研究的创新核心。在此阶段,研究团队使用了Optuna这一超参数优化框架来执行贝叶斯优化过程。优化目标函数设定为器件成为“高效率”PSC的潜力,即投票模型将其分类为正类的概率。搜索空间被限制在之前确定的最优特征子集所定义的范围内。为了解决传统BO在优化复杂器件系统时可能出现的“参数不匹配”问题,本研究创造性地提出了“实验知识约束”方法。该策略基于已有的实验知识(例如,n-i-p和p-i-n架构在电荷传输机制上的差异直接影响电荷传输层材料的选择;特定材料与添加剂之间存在已知的相容性组合),构建多个“特征关联字典”。具体流程是:首先根据实验知识确定不同特征之间的关联性及其所属的功能层;然后,利用矩阵变换和标签编码方法,将数据集中所有相关特征的参数配置组合转换为多个字典。在BO过程中,用这些字典所定义的参数空间来替代相关特征原有的、独立的参数空间,从而对参数选择施加约束。例如,针对n-i-p架构的电子传输层(ETL),会建立一个专门的字典(如etl_dic_nip),其中只包含数据集中实际与n-i-p架构配套使用过的ETL材料选项,避免了BO盲目推荐一个在n-i-p架构中从未使用过或不兼容的ETL材料。这种方法确保了逆向设计推荐的参数配置在物理原理和实验事实层面是合理且可行的,显著提升了设计的准确性和实用性。
第四阶段是模型可解释性分析。为了理解影响PSC效率的关键因素,研究使用了SHAP(Shapley Additive Explanations)值来量化每个特征对模型预测的贡献。SHAP是一种先进的模型可解释性工具,能够揭示器件参数与其性能之间的复杂机制。
本研究在各个阶段取得了明确而重要的结果。在数据集分析阶段,结果清晰地展示了MAPbI3器件中PCE的分布、以及不同器件架构(n-i-p vs p-i-p)下电荷传输层材料使用的显著差异,这为后续引入“实验知识约束”提供了直接依据。在机器学习建模阶段,两阶段采样策略使模型的F1分数从较低水平提升至0.633,证明了该策略在解决类别不平衡问题上的有效性。特征选择过程确定了16个关键特征,在维持模型高性能的同时简化了模型。最终构建的投票模型不仅实现了0.861的AUC值,更重要的是其概率输出具有高度的可区分性和可靠性,特别是高概率预测样本的准确性极高,这为将模型概率作为BO的目标函数奠定了坚实基础。这些结果环环相扣:高质量的数据集和优秀的预测模型是逆向设计的前提;而预测模型输出的高置信度概率,则为BO提供了一个稳定、可靠的目标进行优化。
在逆向设计阶段,应用了“实验知识约束”的贝叶斯优化过程成功地推荐出了一组最优参数配置。对应的器件结构为:FTO|SnO2-NP|MAPbI3|PTAA|AgAl。该配置被投票模型预测为“高效率”PSC的概率高达0.981。这一结果并非凭空产生,研究团队通过回顾相关文献,为优化结果中的每一项参数选择找到了科学依据。例如,SnO2-NP层的Zr掺杂可增强电子传输性能;在钙钛矿前驱体中引入适量的PbI2和PbBr2可改善薄膜质量;使用特定比例的DMF:DMSO混合溶剂(对于n-i-p器件,推荐比例接近已知的优化值)有利于形成大晶粒薄膜;氯苯作为反溶剂有助于提升薄膜结晶性;PTAA空穴传输层搭配Li-TFSI、TBP等添加剂可改善其电学性能;AgAl复合电极比单质Ag或Al电极具有更优的性能和稳定性。这些文献支持表明,BO推荐的配置是汇集了众多已知有效实验经验的“集大成者”,并通过智能优化找到了一个协同效果极佳的组合。这直接证明了“实验知识约束”引导下的BO逆向设计框架的实用性和有效性。
在可解释性分析阶段,SHAP分析揭示了影响PCE的最关键因素。排名前三的特征分别是:钙钛矿溶剂中DMF与DMSO的比例(SHAP值0.13)、电子传输层材料的选择、以及反溶剂的种类。这一结果与近期诸多实验研究的结论一致,验证了模型决策的科学性。例如,DMF:DMSO比例通过影响中间相形成和结晶动力学,对薄膜形貌和器件性能有决定性影响;ETL材料需要与钙钛矿层能级匹配以促进电子抽取;反溶剂处理则是调控钙钛矿结晶质量的关键步骤。这些分析不仅增加了模型的黑箱透明度,也为实验研究者指明了需要重点关注的工艺参数。
本研究的结论是,团队成功开发了一个数据驱动的高效钙钛矿太阳能电池逆向设计框架。该框架通过融合机器学习与贝叶斯优化,并创新性地引入“实验知识约束”和两阶段采样策略,实现了对PSC性能的准确预测(AUC 0.861)和对最优参数配置的高效、可靠搜索(成功概率0.981)。框架推荐的器件配置(FTO|SnO2-NP|MAPbI3|PTAA|AgAl)具有坚实的文献基础和高性能潜力。此外,通过SHAP分析明确了影响效率的关键工艺因素,如溶剂工程。
本研究的价值体现在多个层面。在科学价值上,它提出并验证了“实验知识约束”这一概念,为解决复杂多参数系统优化中的参数不匹配问题提供了一种通用方法,丰富了贝叶斯优化在材料与器件设计中的应用范式。在应用价值上,该框架能极大减少研发过程中的冗余实验和表征工作,缩短优化周期,降低研发成本,为PSC乃至其他具有类似结构的光伏器件(如钙钛矿/硅叠层太阳能电池)的理性设计提供了强有力的工具支持。
本研究的亮点突出表现在以下几个方面:首先,方法论的创新性:“实验知识约束”的引入是核心创新点,它巧妙地将领域先验知识转化为可计算的约束规则,确保了数据驱动设计与物理化学规律的结合,使逆向设计结果既智能又可靠。其次,工作流程的严谨性与系统性:从数据预处理(两阶段采样解决不平衡)、特征工程、集成模型构建,到约束贝叶斯优化和可解释性分析,形成了一套完整、闭环的逆向设计流程,每个环节都有针对性的优化和验证。再次,研究目标的实用性:研究直接面向器件级别的整体优化,而非单一材料,更具实际应用意义。最后,优秀的性能表现:框架最终的预测精度(AUC 0.861)和逆向设计推荐配置的高置信度(概率0.981),充分证明了其有效性和强大潜力。
此外,论文还指出,虽然本研究主要针对单结PSC,但所提出的方法具有普适性,可推广至其他需要多参数协同优化的光伏器件设计,展现了该框架广泛的应用前景。研究的所有数据和处理细节均在补充材料中提供,确保了工作的可重复性和透明性。