《电网技术》网络首发论文《基于多智能体最优折中强化学习的多主体含氢综合能源系统优化调度》研究报告
作者及机构
该研究由华东交通大学电气与自动化工程学院的彭春华、钟沂辰、孙惠娟、张大权合作完成,发表于《电网技术》期刊(ISSN 1000-3673),网络首发日期为2025年9月1日,DOI编号10.13335/j.1000-3673.pst.2025.0692。
学术背景
本研究属于能源系统优化调度领域,聚焦于含氢综合能源系统(Hydrogen Integrated Energy Systems, HIES)的多主体协同优化问题。背景源于2024年中国《关于加强电网调峰储能和智能化调度能力建设的指导意见》对多能源协同调度的政策需求。当前HIES面临多主体利益冲突、异质能源(电/热/氢)动态耦合及不确定性等挑战,传统优化算法(如博弈论、粒子群算法)在解决高维非线性问题时存在局限性。研究旨在提出一种基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的新型算法框架,以实现多主体(含氢综合能源服务商HIEp、电/热/氢负荷聚合商ELA/TLA/HLA)的高效协作与成本优化。
研究流程与方法
1. 模型构建阶段
- 建立多主体HIES优化调度模型,目标函数为最小化系统总运行成本(含运维、购能、负荷补偿等6项成本)。约束条件涵盖CHP机组、电制氢设备(Electrolyzer, EL)、燃料电池(Hydrogen Fuel Cell, HFC)等10类设备的物理限制及能量平衡。
- 将系统分解为4个智能体(HIEp-agent、ELA-agent、TLA-agent、HLA-agent),设计其状态空间(含风光出力、负荷预测、储能荷电状态等动态参数)与动作空间(如CHP热出力、负荷削减量、储能充放电功率)。
算法开发阶段
仿真验证阶段
主要结果
1. 算法性能
- MAOCPPO将系统日运行成本降至48.3864万元,较MAPPO降低3.64%(1.8万元),优化时间仅1秒,显著优于PSO(727秒)。
- 训练曲线显示,MAOCPPO在200次迭代后收敛,ELA-agent因电价波动奖励值存在±5%波动,而HIEp-agent稳定性最佳(波动%)。
调度优化细节
鲁棒性验证
在5种风光出力场景下,MAOCPPO系统成本波动幅度%(表5),表明算法对可再生能源随机性具有强适应性。
结论与价值
1. 科学价值
- 提出首个融合TOPSIS与MAPPO的多智能体强化学习框架,解决了传统算法因状态-动作独立导致的协作不足问题。
- 构建的HIES多主体协同模型明确了电-热-氢能流耦合机制,为异质能源系统建模提供新范式。
研究亮点
1. 创新性提出”有序决策生成+TOPSIS评估”的双层优化机制,突破传统MARL的局部最优限制。
2. 首次在HIES中实现氢能负荷聚合商(HLA)作为独立决策主体参与调度,验证氢储能的调峰经济性。
3. 开源PyTorch代码框架(未在文中明确提及但可推断)为后续研究提供可复现基础。
其他价值
附录D提供的设备参数表(D2)与成本系数表(D3)具有行业参考价值,可作为同类研究的基准数据。此外,作者强调的”初始储能容量设置逻辑”(图4/6/8)为储能规划提供了工程启发。