基于多智能体深度强化学习的区域综合能源系统协同能量管理:一种融合主动需求侧管理的新框架
作者及机构:本研究的核心作者团队由Jiejie Liu、Yanan Ma、Ying Chen、Chunlu Zhao、*Xianyang Meng 和 Jiangtao Wu 组成。他们均隶属于中华人民共和国陕西省西安市的西安交通大学热流科学与工程教育部重点实验室。
发表信息:此项原创性研究成果正式发表于国际知名学术期刊 Energy,文章在线发表于2025年2月15日,收录于期刊第319卷,文章编号为135056。
一、 学术背景与研究目标
本研究聚焦于能源系统工程与人工智能交叉领域,具体研究方向为区域综合能源系统(Regional Integrated Energy System, RIES)的优化运行与协同管理。面对全球能源危机与气候变化的严峻挑战,建筑领域作为碳排放大户,其低碳化转型迫在眉睫。RIES因其靠近用户、多能互补的特性,被视为未来建筑能源网络的理想框架。然而,RIES的高效运行面临多重挑战:源荷双侧的不确定性、多种异质能源载体的耦合流动、以及参与主体(如不同能源站、用户、储能运营商)之间复杂的利益博弈。传统的基于集中式或分布式模型优化的方法,在处理这些动态、高维、充满不确定性的协同决策问题时,往往显得不够灵活,计算负担重,且过度依赖精确的数学模型。
具体而言,现有研究存在三个主要空白:首先,多数需求侧管理研究将用户视为被动响应者,忽略了用户参与需求响应(Demand Response)的主观意愿和决策自主性;其次,RIES中多参与主体间的利益协调机制不清,特别是缺乏能够有效协调供需的灵活资源;最后,传统基于模型的方法和早期的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)方法在处理RIES复杂的状态-动作空间和硬约束时,存在收敛慢、训练不稳定、难以充分探索最优策略的问题。
因此,本研究旨在填补上述空白,提出一个创新的协同能量管理框架。其核心目标可归纳为三个递进的科学问题: 1. 问题1:如何构建一个融合主动需求侧管理(考虑用户主观决策)和共享储能的RIES协同能量管理框架? 2. 问题2:如何利用多智能体深度强化学习方法,解决上述框架中多主体分散式控制下的最优运行利润优化问题? 3. 问题3:如何改进MADRL的训练性能,以有效应对协同运行中复杂的多能流交互和硬约束带来的巨大状态-动作空间挑战?
二、 研究流程与方法详述
本研究遵循一个系统性的工作流程,包含模型构建、算法设计、仿真验证三个主要阶段,具体步骤如下:
第一阶段:协同优化问题建模 本阶段的研究对象是一个概念性的RIES,包含三个供给区域,每个区域有不同类型的建筑群、对应的综合能源站,以及一个服务于整个区域的共享储能系统(含电池和储热罐)。研究将七个关键参与实体建模为智能体:1个共享储能运营商、3个IES能源站、3个用户集群。
主动需求侧管理建模:此步骤首次将用户的主观决策纳入模型。用户不再是简单的负荷曲线,而是能根据IES能源站提供的激励信号,主动决策是否以及如何调整用能行为的智能体。具体灵活性资源包括:
基于共享储能的能源交易建模:共享储能运营商作为“能源银行”,制定实时的电能和热能买卖价格。各IES能源站根据自身供需情况和市场价格,决策向共享储能买入或卖出能量。这建立了一个去中心化的市场协调机制,取代了传统的虚拟聚合商模式。
多目标协同优化问题构建:每个智能体有其独立的目标函数。
通过上述建模,研究将复杂的物理系统和经济博弈问题,形式化为一个多智能体马尔可夫决策过程。每个智能体的状态空间包括负荷、储能状态、市场价格、天气信息等;动作空间包括设备出力、交易量、激励价格(对于IES和储能)、负荷调整量(对于用户)等;奖励函数则融合了经济收益和对各类运行约束(如能量平衡、储能状态、用户满意度)的满足程度奖惩。
第二阶段:改进的多智能体深度强化学习算法设计 为了高效求解上述MAMDP问题,本研究没有使用现有算法,而是提出了一种创新的 “模仿执行者-注意力评判者”机制,并将其与多智能体双延迟深度确定性策略梯度算法(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient, MATD3)结合,形成了全新的 IAAC-MATD3算法。该算法的开发是本研究的核心方法创新,具体包含两个关键组件:
模仿学习增强的执行者网络:
注意力机制增强的评判者网络:在MADRL中,每个智能体的评判者网络需要评估联合状态-动作的价值。本研究引入注意力机制,使得每个智能体的评判者在评估时,能够动态地关注其他智能体中对其决策影响更大的那些智能体的状态和动作信息,从而生成更精确的价值函数估计。这有助于在多智能体复杂交互中做出更明智的协作决策。
第三阶段:案例研究与性能分析 研究设计了一个基于中国西安某新区气象和负荷数据的仿真案例。系统配置了具体容量的光伏、风机、燃气轮机、热泵等设备。研究流程包括: 1. 算法训练与对比:将提出的IAAC-MATD3算法与基线算法(MATD3、MADDPG及其结合模仿学习的变体)进行对比训练。评估指标包括累计奖励收敛曲线、约束违反次数与惩罚、收敛所需回合数和最终策略性能。 2. 多场景仿真验证:设置了五个对比场景以验证框架的有效性: * 场景1:基准场景(无共享储能,无主动需求响应)。 * 场景2:仅含共享储能。 * 场景3:仅含主动需求响应。 * 场景4:协同优化场景(同时包含共享储能和主动需求响应),即本研究提出的框架。 * 场景5:集中式MILP优化场景(作为性能上限参考)。 在每个场景下,运行训练好的策略(对于场景1-4)或求解MILP模型(场景5),计算并比较各参与方的运行成本/利润。 3. 运行细节分析与敏感性分析:详细分析场景4下的小时级运行结果,包括电能/热能平衡、共享储能充放行为、用户负荷调整、价格信号等。此外,进行了敏感性分析,探讨用户参与意愿(表现为可调负荷阈值、温度设定阈值等参数)对系统经济运行的影响。
三、 主要研究结果
1. 算法性能优越性: IAAC-MATD3算法在训练性能上显著优于所有基线算法。其在第600个训练回合即达到收敛,而MATD3、IAAC-MADDPG和MADDPG分别在第1300、1100和1900回合才收敛。在收敛后的最终累计奖励上,IAAC-MATD3也最高。更重要的是,得益于模仿学习的引导,IAAC-MATD3在训练过程中产生的约束违反次数和受到的惩罚远少于其他算法,表明其学到的策略更安全、更可行。
2. 协同优化框架的经济效益: 协同优化场景(场景4)展现了最佳的整体经济效益。与基准场景(场景1)、仅共享储能场景(场景2)和仅主动需求响应场景(场景3)相比,场景4中IES能源站的综合运行成本分别降低了43.7%、19.9%和34.6%。同时,共享储能运营商和用户都获得了可观的利润。虽然场景4的IES运行成本略高于集中式MILP优化(场景5),但其在提升共享储能和用户收益方面表现更优,体现了协同博弈下各方利益均得到改善的“共赢”特性。
3. 运行机制解析: * 主动需求响应的作用:结果显示,用户成功地将日间高峰电负荷(特别是10:00-15:00)转移至夜间低谷时段。同时,通过主动调节室内温度设定点,在保证热舒适度的前提下平滑了热负荷曲线。电动汽车更倾向于在电价高峰时段向系统放电以获利,而非充电。 * 共享储能的协调作用:共享储能有效充当了能量缓冲池。当某能源站有能量盈余时,出售给储能;当另一能源站短缺时,从储能购买。其制定的交易价格紧随电网电价但略低,激励了能源站优先进行内部交易而非与电网交互。 * 价格信号的形成:IES能源站给出的需求响应激励价格与电网高峰电价高度相关,成功引导用户“削峰填谷”。共享储能的买卖价差构成了其利润来源,同时也协调了不同能源站间的供需。
4. 敏感性分析结果: 分析表明,用户参与意愿对系统经济性有显著影响。用户允许的负荷调整阈值越大(即参与意愿越强),系统运行成本降低越多。室内温度可调范围越宽,也有利于成本降低,但效果受舒适度约束限制。电动汽车充放电阈值的影响相对较小,因其主要扮演放电供能角色。
四、 研究结论与价值
本研究成功构建并验证了一个融合主动需求侧管理与共享储能的RIES协同能量管理新框架,并创新性地提出了IAAC-MATD3算法来高效求解这一复杂问题。
科学价值: 1. 理论创新:首次在RIES优化中系统性地集成了用户的“主观决策”模型,使需求响应从“被动响应”迈向“主动参与”,更贴合实际。 2. 方法创新:提出的IAAC机制为解决复杂MADRL环境下的探索难、收敛慢问题提供了有效方案。模仿学习引导和注意力机制分别从策略初始化和价值评估两个层面提升了算法性能。 3. 模型创新:建立了一个去中心化的、基于市场交易的共享储能与多能源站协同运行模型,清晰刻画了多主体间的利益协调机制。
应用价值: 1. 经济效益显著:所提框架能显著降低RIES整体运行成本,同时提高储能运营商和用户的收益,具有明确的商业化应用前景。 2. 提升系统灵活性:通过激活用户侧灵活性资源和共享储能的时空调节能力,极大地增强了RIES应对源荷不确定性的能力,提高了系统韧性和可再生能源消纳水平。 3. 可扩展性:该数据驱动、模型无关的MADRL框架可以方便地扩展到其他类型的分布式能源系统,如微电网、虚拟电厂等。
五、 研究亮点
本研究为区域综合能源系统的智能化、协同化、市场化运行提供了一套从理论模型到求解算法的完整且先进的解决方案,对推动能源系统低碳转型与智能化升级具有重要的参考意义。