钙钛矿太阳能电池(Perovskite Solar Cells, PSCs)作为一种极具前景的下一代光伏技术,因其优异的光吸收系数、可调带隙和简单的制造工艺而备受关注。然而,溶液法制备的钙钛矿薄膜在快速结晶和热处理过程中不可避免地会产生大量缺陷,尤其是表面缺陷,如未配位的Pb²⁺和卤素空位,这些缺陷作为非辐射复合中心,严重损害了器件的性能和长期稳定性。传统的钝化剂(passivator)筛选主要依赖试错法,耗时耗力且严重依赖专家经验,难以全面探索广阔的化学空间。因此,开发一种高效、系统的方法来快速筛选高性能表面钝化剂,对于推动高效稳定PSCs的发展至关重要。
近期,由浙江大学、浙江工业大学、西湖大学、白马湖实验室等多个单位的研究人员组成的团队,在 Chemical Engineering Journal 期刊(2026年3月23日在线发表,卷535,文章号175529)上发表了一项题为“data-driven discovery of high-performance surface passivators for efficient and stable perovskite solar cells”的研究。该研究提出并验证了一种集成了大型语言模型(Large Language Model, LLM)、机器学习和实验验证的自动化平台“MatInsight”,用于高效筛选钙钛矿太阳能电池的表面钝化分子,并成功发现了一种高性能钝化剂3-氟-4-氨基苯甲腈(3-fluoro-4-aminobenzonitrile, FABN),使器件获得了25.7%的冠军光电转换效率(Power Conversion Efficiency, PCE)和优异的长期稳定性。本报告将详细介绍该研究的背景、工作流程、主要结果、结论及其重要意义。
研究背景与目标 钙钛矿太阳能电池的性能瓶颈很大程度上源于其表面和界面缺陷。这些缺陷不仅导致电荷非辐射复合,降低开路电压和填充因子,还为水分和氧气的侵入提供了通道,加速器件退化。尽管小分子、聚合物等钝化策略被证明有效,但传统的发现过程缓慢且无法覆盖巨大的潜在分子库。机器学习(Machine Learning, ML)为材料发现提供了新范式,能够从海量数据中挖掘结构-性能关系。然而,现有的ML研究多依赖于化学数据库,往往忽略了真实器件结构、制备参数和实验性能指标的关键影响。因此,本研究旨在建立一个从科学文献中自动提取真实实验数据、构建机器学习模型、并指导实验验证的完整工作流,以实现对高效钝化剂的快速、精准筛选,最终目标是获得兼具高效率和长寿命的PSCs。
详细工作流程 本研究的工作流程是一个从数据到预测再到验证的闭环系统,主要包括六个关键步骤:文献筛选、参数提取、描述符构建、机器学习建模、薄膜表征和实验验证。
首先,文献筛选与数据集建立。研究团队系统检索了Web of Science数据库中2021年1月至2025年6月间发表的关于“钙钛矿太阳能电池”的SCI论文。通过四阶段筛选(剔除综述、限定期刊范围、仅选择具有n-i-p结构的单结PSCs、限定使用SnO₂电子传输层和Spiro-OMeTAD空穴传输层并通过旋涂法制备),初步获得了550篇文献。为了从这些文献中高效、准确地提取关键信息,研究团队自主开发了一个名为“MatInsight”的LLM平台。该平台利用光学字符识别(OCR)技术将扫描文档转换为文本,通过图像分割和多模态识别模块,智能识别并提取钙钛矿层组成、钝化剂信息、制备参数以及器件性能指标(如PCE)等。提取的数据经过语义验证、单位标准化和人工核对,最终构建了一个包含制备参数(如钙钛矿组成、顶/底钝化剂)和性能指标的结构化数据集。这一步骤的创新之处在于利用LLM自动化处理非结构化的科学文献,构建了基于真实实验数据的训练集,克服了以往研究依赖理论数据库的局限性。
其次,分子描述符构建。为了将分子的化学结构转化为机器学习模型可处理的数字特征,研究团队使用RDKit软件包,为数据集中的钝化剂分子系统计算了一系列特征描述符。这些描述符主要涵盖三大类:1)结构特性,如分子量(MolWt)、氢键供体/受体数量(NumHDonors/NumHAcceptors)、拓扑极性表面积(TPSA)等;2)物理化学特性,如油水分配系数(MolLogP)、摩尔折射率(MolMR)等;3)电子特性,如电子拓扑态(E-state)指数。E-state指数反映了原子在分子环境中的电子状态,低阶指数对应缺电子原子,高阶指数对应富电子原子(如O、N、S)。这些描述符旨在量化分子与钙钛矿表面缺陷(如Pb²⁺、I⁻空位)发生相互作用的潜力。
第三,机器学习建模与特征分析。为了建立分子描述符与器件PCE之间的预测模型,研究团队训练并评估了七种不同的ML模型,包括随机森林回归(RF)、支持向量机(SVM)、线性回归(LR)、轻量梯度提升机(LGBM)、分类提升(CatBoost)、极限梯度提升(XGBoost)和多层感知器(MLP)。为了提高模型可解释性并聚焦于顶界面钝化剂的影响,在建模时将底界面钝化剂固定为“无”。将PCE值分为两类(I类: 20% ≤ PCE < 25%;II类: PCE ≥ 25%)进行预测分类。通过10次随机划分训练集(90%)和测试集(10%)的交叉验证,CatBoost模型表现出最佳的预测性能,平均准确率达到0.932。CatBoost是一种梯度提升决策树算法,擅长处理中小型数据集中的非线性关系和特征交互,非常适合本研究的结构化分子描述符数据。
为了理解哪些分子特征对PCE预测最为关键,研究团队采用了SHAP(SHapley Additive exPlanations)分析来量化每个描述符的贡献。分析结果显示,二面角(Phi)、拓扑复杂性(BertzCT)、摩尔折射率(MolMR)和最小绝对E-state指数(MinAbsEStateIndex)是影响PCE的四个最关键特征。SHAP依赖图进一步揭示了这些特征与PCE之间的复杂关系:1)Phi:存在一个最优范围,分子刚柔适中时最有利于钝化;过于刚性的分子难以与钙钛矿晶格适配,而过于柔性的分子则易发生团聚。2)BertzCT:适中的分子复杂性(如单环芳烃)有利于通过多位点吸附钝化缺陷,但过高的复杂性(如多环芳烃)会因分子刚性过强或溶液聚集而降低性能。3)MolMR:适当的分子极性有助于增强与钙钛矿表面的相互作用,从而提高钝化效果。4)MinAbsEStateIndex:该指数与SHAP值呈正相关,表明具有富电子官能团(如氨基-NH₂、羧基-COOH)的分子能更有效地钝化铅空位(V_Pb)。
第四,虚拟筛选与分子选择。基于机器学习模型揭示的规律,研究团队构建了一个包含235个候选分子的虚拟库,这些分子主要包含常见的钝化基团(如-NH₂、苯环)并通过结构修饰得到。利用训练好的CatBoost模型对这些分子的钝化效果进行了预测。值得注意的是,预测结果显示4-氨基苯甲腈(ABN)、4-氨基邻苯二甲腈(APN)和3-氟-4-氨基苯甲腈(FABN)在结构上高度相似,但预测性能存在差异:ABN钝化的器件PCE低于25%,而APN和FABN则高于25%。考虑到PCE分布和结构相似性,研究团队最终选择ABN、APN和FABN这三种分子进行深入的薄膜表征和实验验证,以检验模型的预测准确性。
第五,分子与钙钛矿相互作用的机理研究。为了从原子层面理解预测结果的物理化学基础,研究团队结合密度泛函理论(DFT)计算和多种实验表征手段,深入分析了三种分子与钙钛矿表面的相互作用。DFT计算模拟了分子在FAPbI₃ (100)面上的吸附。结果表明,所有分子均通过-NH₂基团与暴露的Pb²⁺形成配位键,而-CN基团和F原子则可以钝化碘空位(V_I)。其中,FABN表现出最强的相互作用:其N-Pb键长最短(2.93 Å),晶体轨道哈密顿布居(COHP)分析显示键强度最高(0.58 eV),吸附能也最大(1.74 eV)。缺陷形成能计算进一步表明,经过分子钝化后,钙钛矿表面V_I、V_Pb和甲脒空位(V_FA)的形成能均显著提高,尤其是FABN对V_I形成的抑制效果最为明显,这对于减少非辐射复合至关重要。
实验表征结果与计算结果相互印证。X射线光电子能谱(XPS)显示,经分子钝化后,Pb 4f和I 3d的峰位均向低结合能力方向移动,表明-NH₂与Pb²⁺的Lewis酸碱相互作用以及分子与I⁻的氢键作用增强了电子云密度。FABN中F 1s的峰位向高结合能力移动,证实了F与钙钛矿表面的强配位作用。傅里叶变换红外光谱(FTIR)中-CN特征峰的位移也证实了分子与PbI₂发生了化学键合。
第六,钝化薄膜与器件性能的实验验证。在机理研究的基础上,研究团队制备并系统表征了钝化后的钙钛矿薄膜和完整太阳能电池器件。原子力显微镜(AFM)显示,经ABN、APN和FABN钝化后,薄膜的均方根粗糙度(RMS)从对照组的32 nm依次降低至29 nm、26 nm和25 nm,表明钝化剂在晶界处聚集,平滑了薄膜表面。开尔文探针力显微镜(KPFM)显示钝化后薄膜表面电势更高且分布更均匀,表明表面缺陷态受到抑制。导电原子力显微镜(C-AFM)则显示晶界处的电流密度增强,意味着电荷传输效率提升。
光学表征进一步支持了缺陷钝化的效果。光致发光(PL)和PL mapping显示,FABN钝化的薄膜发光强度显著增强,表明非辐射复合被有效抑制。瞬态吸收光谱(TAS)和瞬态光致发光(TRPL)测试表明,FABN钝化薄膜具有更长的载流子寿命,归因于表面缺陷的强钝化和改善的电荷传输条件。
最终,器件性能测试完全验证了机器学习模型的预测。基于ITO/SnO₂/钙钛矿/钝化剂分子/Spiro-OMeTAD/Au结构制备的PSCs,其冠军器件的PCE分别为:对照组24.1%,ABN组24.9%,APN组25.3%,FABN组25.7%。器件的各项参数(开路电压Voc、短路电流密度Jsc、填充因子FF)均随钝化效果提升而系统性改善,统计分布与预测类别高度一致。莫特-肖特基测试显示,FABN器件具有最大的内建电势(0.86 V),有利于电荷分离。更重要的是,在环境条件(25°C, 40% RH)下进行的长时期稳定性测试中,未封装的FABN钝化器件在1400小时后仍能保持初始效率的84%,远优于对照组的63%。这归因于FABN分子中苯环的疏水性增强了薄膜的耐湿性,动态接触角测试证实了这一点。
研究结论与价值 本研究成功开发并演示了一个集成了文献挖掘(LLM)、机器学习预测和实验验证的完整数据驱动工作流,用于高效发现钙钛矿太阳能电池的高性能表面钝化剂。主要结论如下:1)自主开发的“MatInsight”平台能够自动化地从海量科学文献中提取关键实验数据,构建高质量的机器学习训练集。2)在多种ML模型中,CatBoost模型对钝化剂性能的预测准确率最高。SHAP分析揭示了对PCE影响最大的关键分子描述符:二面角(Phi)、拓扑复杂性(BertzCT)、摩尔折射率(MolMR)和最小绝对E-state指数(MinAbsEStateIndex),为理性分子设计提供了明确指导。3)通过虚拟筛选和实验验证,发现3-氟-4-氨基苯甲腈(FABN)是一种高效的钝化剂。其分子中的-NH₂和-CN/F基团能分别与Pb²⁺和I⁻空位形成强化学键,显著抑制缺陷形成,改善薄膜形貌和光电性能。4)FABN钝化的冠军PSC获得了25.7%的光电转换效率,并在环境条件下展现出卓越的长期稳定性(1400小时后效率保持率84%),实验结果与模型预测高度吻合。
本研究的科学价值在于:首先,它证明了结合真实世界实验数据的机器学习方法在材料发现中的巨大潜力,超越了仅依赖理论数据库的传统方法。其次,通过SHAP分析深入揭示了分子结构特征与钝化效能之间的构效关系,为理解钝化机理提供了新的量化视角。最后,该工作流是通用且可扩展的,随着文献数据集的不断扩大,其预测能力有望进一步增强,能够持续发现性能更优的钝化分子。
在应用价值方面,该研究为钙钛矿太阳能电池乃至其他光电器件的高性能界面材料筛选提供了一条高效、可靠的路径。它显著加速了从“试错”到“理性设计”的研发进程,降低了时间和经济成本,为开发高效率、高稳定性的钙钛矿太阳能电池,推动其商业化进程提供了有力的工具和材料解决方案。
研究亮点 本研究的亮点主要体现在以下几个方面:1)方法创新:首创了融合大型语言模型(MatInsight)、机器学习和实验验证的自动化平台,实现了从非结构化文献数据到高性能材料发现的端到端闭环。2)模型与机理结合:不仅利用CatBoost模型实现了高精度预测,更通过SHAP分析深度解读了影响钝化性能的关键分子描述符及其物理意义,将“黑箱”预测与清晰的化学原理联系起来。3)优异的实验成果:通过该平台筛选出的FABN分子,在实验中实现了25.7%的高效率和高稳定性,有力证明了该数据驱动方法的有效性和实用性。4)系统性与可扩展性:整个工作流程从数据获取、特征工程、模型训练、虚拟筛选到实验验证,构成了一个严谨、完整的科学研究范式,并且其框架易于扩展至其他材料体系或性能目标的筛选。