基于SHAP值与机器学习理解暂态稳定极限趋势的研究报告
本研究由来自英国斯特拉斯克莱德大学电子与电气工程系的Robert I. Hamilton和Panagiotis N. Papadopoulos(IEEE会员)合作完成,其研究成果以论文《Using SHAP Values and Machine Learning to Understand Trends in the Transient Stability Limit》的形式,于2024年1月发表在电力系统领域的重要期刊《IEEE Transactions on Power Systems》(第39卷,第1期)上。
一、 学术背景
本研究的核心科学领域为电力系统暂态稳定评估(Transient Stability Assessment, TSA)。随着全球脱碳议程的推进,大量碳密集型同步发电机被间歇性、非同步的可再生能源资源所取代。这一转型带来了严峻挑战:同步发电机所提供的关键系统属性(如惯性)随之减弱或丧失,使得电力系统的复杂、高度非线性动态特性更加难以掌控,尤其是在暂态稳定问题上。可再生能源接入对暂态稳定边界的影响呈现出高度可变性(可能改善也可能恶化),且趋势通常具有位置特异性,并依赖于多种参数,传统分析方法难以透彻理解。
传统的TSA方法,如基于李雅普诺夫稳定性理论的时域仿真或暂态能量函数法,虽然精确但计算速度较慢。尤其在计算诸如临界切除时间(Critical Clearing Time, CCT)等暂态稳定极限时,考虑大量由可再生能源接入带来的运行工况会显著加剧计算负担。此外,仅凭时域仿真结果很难深入分析导致稳定极限变化的原因,这使得设计有针对性的暂态稳定增强措施变得困难。
机器学习已被证明是克服TSA计算局限的有效工具。然而,机器学习方法在实际应用中面临两大关键信心壁垒:1) 准确性:模型预测结果相对于真实值(通常由时域仿真确定)的精确度;2) 可解释性:理解模型如何根据特征(电力系统变量)做出预测的能力。高准确性有助于建立对模型捕获复杂系统动态行为的信心,而高可解释性不仅能增强对模型的信任(通过与工程原理对比),还能加深对系统暂态稳定性的认知。遗憾的是,这两者往往存在矛盾:线性回归、决策树等易于解释的模型可能精度不足,而能达到更高精度的“黑箱”模型(如极端梯度提升、人工神经网络)则难以解释。
近年来,可解释机器学习(Interpretable Machine Learning, IML)研究日益受到关注。本文旨在利用一种基于合作博弈论中Shapley值的统一可解释性框架——SHAP(SHapley Additive exPlanations),为预测临界切除时间的机器学习模型提供深入洞察。研究的目标是:在优先保证模型预测准确性的前提下,通过SHAP框架解释“黑箱”模型,从而理解影响整个系统稳定边界的因素,并识别系统中与特定变量相关的稳定性趋势,最终为系统规划和运行决策提供信息支持。
二、 详细工作流程
本研究提出了一个完整的方法论,其工作流程可分为以下几个关键步骤:
数据生成与数据库构建:研究以改进的IEEE 39节点测试系统为对象。首先,通过交流最优潮流(AC OPF)模拟电力市场调度偏好,为数千个不同的运行场景(共3906个,成功收敛3762个)确定发电机出力。这些场景模拟了同步发电机逐步被同区域可再生能源(本文采用IV型风机)替代的过程,并考虑了不同负荷水平和可再生能源渗透率。接着,对于每个成功收敛的运行场景,在系统的每一个母线上(共25个故障位置,排除了发电机低压侧母线等特定位置)设置三相接地短路故障,并利用DIgSILENT PowerFactory软件进行时域仿真,通过迭代增加故障持续时间直至检测到同步机失步,精确计算出该场景下每个母线对应的CCT。同时,记录下所有母线CCT中的最小值,即临界故障持续时间(CCTmin)。最终,为每一个母线故障位置(n=25)以及CCTmin,分别构建一个暂态稳定数据库。每个数据库的行代表不同的运行场景,列则代表一系列精心选择的仅包含故障前状态的电力系统变量作为特征(共223个),包括同步机和可再生能源的出力、电压设定值、容量、惯性,系统总负荷、母线电压、相角、线路潮流以及可再生能源渗透率参数等。最后一个列是目标变量——对应位置的CCT或CCTmin。这样就形成了26个(n+1)结构相同(特征相同)但目标变量不同的数据库。
机器学习模型训练与算法选择:基于上述26个数据库,研究者为每个位置训练一个独立的机器学习模型来预测其CCT(或CCTmin)。为了确保后续从SHAP分析中获得的洞察是可靠的,模型必须具有高精度。研究遵循一个渐进式的算法选择流程:从简单的决策树开始,依次尝试随机森林、XGBoost,最后是人工神经网络,直到达到预设的精度阈值。评估指标不仅包括决定系数、均方误差等常规指标,更关键的是关注最大过估计误差和最大欠估计误差(特别是对于CCT<0.30秒的危急故障),因为暂态稳定评估中对极端误差的容忍度极低。结果表明,前三种树模型在减少最大误差方面表现不佳,而人工神经网络在保持高整体精度的同时,能最有效地降低最大过/欠估计误差,满足了本研究对准确性的严格要求。因此,最终选择人工神经网络作为26个位置特异性模型的算法,充分利用其“黑箱”特性实现高精度预测。
SHAP框架应用与模型解释:在训练好高精度的“黑箱”ANN模型后,研究采用模型无关的SHAP框架(具体使用针对神经网络的DeepExplainer)来解释每一个模型。SHAP的核心思想是为每个预测实例(即一个运行场景)中的每个特征计算一个SHAP值。该值可以被解释为:在已知该特征特定取值的情况下,它将模型的预测结果从“基线值”(即模型在没有任何特征信息时的平均预测,通常为训练集目标变量的平均值)推动了多少。SHAP值是有单位的(在本研究中为秒),直接反映了特征对CCT预测值的影响量级和方向(正值为提升CCT,负值为降低CCT)。
稳定性边界趋势识别:这是本研究的一个核心创新点。为了理解改变某个关注变量(Variable of Interest, VOI,如某台发电机的出力、某处可再生能源的渗透率)如何影响整个网络的稳定性边界(而不仅仅是单个故障位置),研究者提出了一个基于协方差分析的方法。具体而言:
三、 主要结果
模型准确性结果:ANN模型在26个位置特异性CCT预测任务上表现出色。平均决定系数高,均方根误差小。更重要的是,其最大过估计误差和最大欠估计误差均被控制在0.02秒的阈值以内,显著优于其他对比算法(DT, RF, XGBoost),证明了选择ANN作为高精度“黑箱”模型的合理性,为后续的SHAP解释奠定了可信基础。
局部解释示例:以CCTmin模型对一个特定运行场景的解释为例(图8),结果显示G09有功出力满载(100%)是使CCTmin预测值从基线0.225秒降低至最终预测0.145秒的最主要负向因素(贡献约-0.03秒)。这为系统操作员提供了明确的、可操作的见解:要改善当前运行状态下的临界稳定性,降低G09的出力是一个潜在的有效措施。
全局解释与特征洞察:对CCTmin模型的SHAP全局汇总分析(图10)显示,影响临界故障持续时间的最重要特征集中在几台特定同步发电机(G07, G09, G08等)的有功出力百分比上。这与电力系统暂态稳定的经典认知(发电机出力分配对稳定至关重要)相符,从而增强了从“黑箱”模型和SHAP解释中获取知识的信心。进一步分析表明,G07的出力存在一个大约55%的阈值,低于此阈值其SHAP值为正(改善稳定性),高于则转为负(恶化稳定性)。结合总可再生能源容量这一次要变量,依赖图(图11)揭示了交互效应:在高可再生能源渗透下,维持G07低出力的益处更大。这些发现可以转化为具体的运行或规划规则。
系统范围趋势识别结果:
规则验证:为了评估从SHAP解释中推导出的规则的有效性,研究者进行了一项验证。根据对母线B25的SHAP分析(图17),G08的断开被识别为导致该位置CCT降低的关键因素。因此,制定规则:“避免断开G08以最大化B25的稳定极限”。研究者重新运行了所有原本包含G08断开的场景(但强制保持G08连接),并计算B25的新CCT。对比结果显示(图18),遵循此规则后,B25在所有相关场景下的CCT下界、中位数和上界均获得了显著提升(如下界从0.19秒升至0.25秒),证实了基于SHAP解释的规则的有效性。
四、 结论与意义
本研究提出并验证了一种结合高精度“黑箱”机器学习与SHAP可解释性框架的新方法,用于深入理解复杂电力系统(尤其是高比例可再生能源接入背景下)的暂态稳定极限。该方法的核心在于训练一系列位置特异性的CCT预测模型,并利用SHAP框架对这些模型进行局部和全局解释。其科学价值和应用价值主要体现在: 1. 突破“黑箱”局限:使得在追求机器学习模型高预测精度的同时,无需牺牲模型的可解释性,增强了TSA中应用先进ML技术的信心。 2. 提供深度洞察:SHAP值以物理单位(秒)量化了每个特征对稳定极限的贡献,不仅能确认已知的工程原理(如发电机出力的重要性),更能揭示复杂、非线性的交互效应和阈值行为,这是传统时域仿真或简单灵敏度分析难以系统获得的。 3. 创新趋势识别:提出的基于协方差的系统范围趋势识别方法,能够清晰描绘改变任一关注变量(如发电机调度、可再生能源渗透)对整个网络暂态稳定边界的空间影响图,为系统级的规划和运行决策(如确定预防控制措施、评估并网方案)提供了前所未有的量化工具。 4. 支持决策制定:从SHAP分析中提取的规则(如“保持G07出力低于55%”)可以转化为具体的、可操作的运行指南或规划约束,帮助系统运行人员避免导致稳定裕度不足的运行状态。
五、 研究亮点