基于检索增强生成与大型语言模型的电网调度运行可靠性评估

分享自：
基于检索增强生成与大型语言模型的电网调度运行可靠性评估

工程学
电气科学与工程
信息科学
计算机科学
人工智能
期刊:energy and aiDOI:10.1016/j.egyai.2026.100688
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，即报告了一项单一原创性研究的科学论文。以下是基于文档内容生成的学术报告。
基于检索增强生成的大型语言模型在电力系统运行可靠性评估中的应用研究
一、 研究作者、机构与发表信息
本研究由来自多个知名学术与工业机构的研究人员合作完成。主要作者包括：Yuheng Cheng（香港中文大学深圳理工学院/深圳市人工智能与机器人研究院）、Huan Zhao（香港理工大学建筑环境及能源工程学系，通讯作者）、Dejun Xiang、Zhengwen Zhang（香港中文大学深圳理工学院）、Guolong Liu（南洋理工大学电气与电子工程学院）、Yanli Liu（天津大学电气自动化与信息工程学院）、Junhua Zhao（香港中文大学深圳理工学院/深圳市人工智能与机器人研究院，通讯作者）以及Xinlei Cai（广东电网有限责任公司）。
该研究成果以题为《Power System Operational Reliability Evaluation with Retrieval-Augmented Generation Enhanced Large Language Model》的论文形式，发表于期刊Energy and AI（2026年第24卷，文章ID 100688）。论文于2025年11月10日收稿，经修订后于2026年1月20日被接受，并于2026年2月2日在线发表。
二、 研究学术背景
本研究主要聚焦于电力系统调度运行与人工智能的交叉领域，具体方向是电力调度操作的运行规程合规性自动评估。电力系统作为现代社会关键基础设施，其安全稳定运行至关重要。调度操作在执行前需经过安全验证，主要包括两个方面：一是基于最优潮流等数值计算的系统状态评估，该方法已较为成熟；二是运行规程评估，即判断拟执行的操作是否符合以自然语言编写的操作规程、安全规定和指南。后者目前高度依赖调度员的人工经验和判断，自动化程度低，且面临规程频繁更新、语义理解复杂等挑战。传统的基于规则的方法虽然可解释性强，但将海量、动态变化的自然语言规程手动转化为结构化规则耗时耗力，难以推广和更新。而基于深度学习的自动化方法又受限于对标注数据的依赖、泛化能力不足以及缺乏自然语言理解能力。
近年来，大型语言模型在自然语言理解与生成方面展现出强大能力。然而，直接将LLM应用于电力调度规程评估存在三大难题：1) 知识更新滞后：LLM的静态知识无法实时跟进频繁修订的电力规程；2) “幻觉”风险：LLM可能生成不准确或虚构的信息；3) 专业领域知识处理局限：LLM对高度专业化的电力系统知识理解有限。为解决这些问题，本研究引入了检索增强生成技术。RAG允许LLM在推理时实时检索并利用外部知识库，从而将静态的预训练知识与动态的外部知识相结合。本研究旨在首次提出一个专为电力调度运行规程评估设计的RAG增强LLM框架，以实现高精度、可实时更新、且具备深度语义理解能力的自动化合规检查。
三、 研究详细工作流程
本研究提出的RAG增强LLM框架包含离线规程预处理和在线运行可靠性评估两个主要阶段，其核心创新在于分层文档检索方法与操作自动提示生成技术。
第一阶段：离线规程预处理 此阶段的目标是将电力运行规程文档转化为便于高效检索的结构化知识库。 1. 文档处理与分层分割：首先，HDR模块解析PDF格式的规程文档。它并非进行简单的固定长度分割，而是先依据文档的章节结构进行“分层文档”划分（例如，按设备类型或操作场景分章）。随后，对每个分层文档，采用基于BERT模型语义分析的滑动窗口方法，将其进一步分割成更细粒度的“分割文档”。该方法预设一个可变窗口长度范围（L_min到L_max），利用BERT的下一句预测功能，在窗口内寻找语义连贯性最弱的边界进行分割，以确保每个分割文档在语义上的完整性。对于超出最大长度限制的长条文，系统会识别自然断点，并通过元数据标签链接相邻片段，在检索时共同获取以保持语义连贯。 2. 自动标签与元数据生成：为提高检索精度和效率，研究设计了一个基于提示工程的自动标签模块。该模块利用LLM，根据预设的标签示例（如操作类型、设备类型、安全等级等），为每个分割文档自动生成多个结构化标签。这些标签并非直接附加到文本中，而是作为元数据与文档的向量嵌入一同存储在向量数据库中。这为后续的混合检索（先基于标签过滤，再基于语义搜索）奠定了基础。 3. 向量化与存储：使用预训练的BGE-M3嵌入模型，为每个处理好的分割文档计算其向量表示。计算公式为：v_i = BGE-M3(tokenize(splitted-document_i))。所有分割文档的向量及其元数据被存入专用的向量数据库，构建完成用于实时检索的知识库。当规程更新时，仅需对更新部分重新执行上述分割、打标和向量化流程，即可实现知识库的“热更新”，无需重新训练整个模型。
第二阶段：在线运行可靠性评估 当调度员通过智能指挥平台输入一个拟执行的操作指令时，系统启动实时评估流程。 1. 操作指令与上下文信息获取：系统从DICP接收操作计划（类型、描述、调度员信息），同时从能量管理系统实时获取当前运行条件，如设备状态、负荷水平、网络拓扑等。 2. 操作自动提示生成：OAG模块是提升评估准确性的关键。它首先将调度员可能非正式、简略的操作描述（如“调整52号母线所连发电机的无功出力”）与EMS提供的实时上下文信息（如“52号母线电压1.06 p.u.”）相结合。接着，利用LLM通过小样本学习，将操作分类到预定义的几个专业模板类别中（如“发电机启动序列”、“变压器分接头调整”等）。然后，基于选定的模板、操作动作和实时数据，LLM自动生成多个（实验中设置为7个）候选的、正式的、包含完整技术术语和上下文的提示文本。 3. 最优提示选择与相关规程检索：系统计算每个候选提示的向量表示，并用其查询向量数据库。对于每个候选提示，检索与之最相似的前3个分割文档，计算平均相似度作为该提示的评分。选择评分最高的候选提示作为最终的“最优提示”。这一步骤确保了输入给后续流程的查询信息是语义最丰富、最贴近规程表述的。 4. LLM预回答与增强检索：使用最优提示，让LLM进行一次“预回答”，对操作进行初步分析和合理性推断。预回答的文本（例如，“由于电压偏高，建议降低无功出力”）很可能与相关规程的语义高度相似。系统将原始操作计划与预回答文本合并，再次计算向量，并利用HDR模块从知识库中检索最相关的规程文本块及其完整的原始文档上下文。 5. 最终评估与自反思：将检索到的相关规程信息、操作描述以及EMS数据一同作为提示，输入给LLM进行最终的合规性评估。LLM输出“合规”或“不合规”的判断及理由。为降低“幻觉”风险，框架引入了自反思机制：LLM被要求第二次评估自己的初始输出，严格检查其判断和推理的每一步是否都直接得到检索到的规程文本和EMS数据的支持。这一步骤作为安全护栏，增强了最终输出的可靠性。 6. 结果交付与决策支持：最终评估结果（包括合规判断和所依据的规程摘录）呈现给调度员。框架被明确设计为决策支持工具而非决策替代工具。调度员保留最终决策权，可以审查LLM提供的依据，结合自身专业判断，决定是执行、修改还是拒绝该操作。
四、 研究主要结果
研究通过构建包含IEEE 118节点标准模型实时操作手册、意大利电网规程、新加坡能源市场管理局传输规范以及真实的广东电网调度管理条例日志在内的四个数据集，对所提框架进行了全面实验验证。
不同评估方法的性能对比：将提出的RAG增强LLM框架与半自动化规则基方法、TF-IDF结合DNN的方法以及先进的PDR-RAG基线方法进行对比。实验以合规准确率和泛化准确率（在训练分布之外的数据集上的表现）作为核心指标。结果表明，RAG增强LLM框架在所有数据集上均取得最优性能。例如，在意大利电网规程数据集上，合规准确率达到93%，显著高于PDR-RAG的90%、TF-IDF+DNN的64%和规则基方法的62%。在泛化能力上，该框架也表现出最强的稳健性。分析认为，其优势在于能够深入理解复杂语境和隐含规则，而传统方法难以处理例如“正常”与“紧急”状态下不同电压限值这类需要上下文理解的语义。
消融实验验证各模块有效性：通过消融实验，分别评估HDR、预回答、OAG和自反思机制对系统性能的贡献。实验以Recall@3（前3检索结果中包含相关规程的比例）和合规准确率为指标。基线（RAG+LLM）在IEEE数据集上Recall@3为0.70，合规准确率为0.80。逐步添加各模块后，性能持续提升。当集成所有优化（HDR+预回答+OAG+自反思）后，性能达到最佳：在IEEE数据集上Recall@3提升至0.76，合规准确率提升至0.85；在EMA数据集上Recall@3达到0.84，合规准确率达到0.91。自反思机制虽未改变检索结果，但通过纠正初始判断错误，直接提升了合规准确率（如在IEEE数据集上从0.80提升至0.83）。分析表明，检索错误是导致评估失败的主要原因（占65%-70%），这凸显了优化检索组件的重要性。
文档分割策略对比：将提出的HDR方法与基于Transformer的文本分块方法和基于图的语义解析方法进行对比。HDR方法在三个数据集上的Recall@3和合规准确率均全面领先。例如，在IEEE数据集上，HDR的Recall@3为0.76，合规准确率为0.85，优于Transformer基方法的0.72和0.81，以及图基方法的0.68和0.79。这验证了HDR利用规程文档固有层次结构进行分割的有效性。
超参数实验与实时性分析：
检索数量Top-k：实验发现Top-k=5时在性能与计算效率间达到最佳平衡，合规准确率高且计算开销可控。
文本块大小：512令牌的块大小在多数数据集上表现最优，因其能捕获更聚焦、更相关的内容，避免过大块引入噪声。
不同LLM对比：测试了GPT-4o和Qwen2-72B，两者性能接近，GPT-4o略优（如意大利数据集合规准确率0.93 vs. 0.92），表明框架对不同LLM具有良好的适应性和鲁棒性。
实时可行性：测量单次评估查询的总耗时。使用GPT-4o API平均需5.6秒，本地部署Qwen2-72B平均需7.0秒。该耗时满足调度员在常规和计划操作中进行人工决策支持的时间要求（秒到分钟级），证明了框架的实际应用可行性。文章明确指出，该系统不旨在取代毫秒级响应的保护控制系统，而是作为规划与验证阶段的辅助工具。
错误分析与案例研究：
对错误类型的分析显示，意大利数据集表现最佳（误报率和漏报率均为0.07），而IEEE数据集相对较高（误报率0.17，漏报率0.15）。进一步分析指出，检索错误是主要错误来源。
论文通过两个详细的广东电网真实案例（无功功率调整、母线接地刀闸操作）和附录中的补充案例（线路跳闸后重合闸），生动展示了框架的工作流程。案例表明，系统能够整合调度员指令、EMS实时数据（如电压、负载、天气），通过OAG生成精准查询，利用HDR检索相关规程，并由LLM结合所有信息进行综合推理和合规判断，最终通过自反思确保结论的可靠性。例如，在无功调整案例中，系统能根据高电压上下文，正确推断出应“降低”而非“增加”无功，并引用具体规程条款。
五、 研究结论与价值
本研究成功提出了一个创新的、结合RAG与LLM技术的电力运行规程智能验证系统。结论表明，该框架能够显著提高调度操作合规性评估的自动化程度、准确性和效率，平均合规准确率达到90%，在处理意大利电网规程时甚至达到93%，且处理单次查询仅需5.6至7.0秒，满足实际应用需求。
研究的科学价值在于：首次将RAG技术与LLM深度融合并应用于电力调度运行规程评估这一特定领域，为解决LLM在专业领域应用中的知识更新滞后和“幻觉”问题提供了有效范例。提出的HDR方法和OAG技术是具有领域针对性的创新。
研究的应用价值极为显著：为电网调度中心提供了一种高效、准确的自动化决策支持工具。它能减轻调度员手动查找和解读规程的负担，降低因人为疏忽或经验不足导致的违规操作风险，通过实时集成最新规程和系统状态数据，提升电网运行的安全性与可靠性。与广东电网的合作与离线测试验证了其实际应用潜力。
六、 研究亮点
首创性应用：据作者所知，这是首次将LLM应用于电力调度运行规程评估的具体任务，开辟了AI在电力系统运行控制领域的新应用方向。
方法创新： 分层文档检索：创新性地利用规程文档的结构化信息，通过章节划分和语义分割，结合自动标签和混合检索，显著提升了专业文档的检索精度。
操作自动提示生成：设计了一套端到端的提示自动生成与优化流程，能够将调度员非正式的指令转化为富含上下文和专业术语的标准化查询，极大提升了人机交互效率和检索质量。
集成化框架：将离线预处理、在线检索、LLM推理、自反思机制无缝集成，形成了一个完整、可实时更新、以LLM为核心动力的自动化评估工作流。
实证效果显著：通过多数据集、多角度的实验（性能对比、消融分析、超参数调优、错误分析、案例研究），全面且有力地证明了所提框架在准确性、泛化性和实时性方面均优于传统方法。
明确的定位与安全性设计：研究清晰地将系统定位为“决策支持工具”，强调调度员的最终决策权。通过引入“自反思”机制，主动应对LLM的“幻觉”问题，增强了系统的可靠性和可信度。
七、 其他有价值内容
论文还介绍了用于模型验证的半自动化验证数据生成方法。由于真实操作数据难以获取，作者利用LLM结合专家审核，从规程文本块自动生成多样化的调度操作描述，并由资深专家进行严格审查（约86%通过率），构建了高质量的验证数据集。该方法为缺乏标注数据的专业领域应用LLM提供了可行的数据解决方案。
此外，论文在结论部分展望了未来的研究方向，包括：深化模型的语义理解能力；探索知识图谱等技术以处理跨多个规程文档的复杂交互与依赖关系；引入置信度评分等不确定性量化机制；以及探索该框架在其它需要实时知识更新和规则验证的行业中的跨领域应用潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问