基于多智能体最优折中强化学习的多主体含氢综合能源系统优化调度

分享自：

基于多智能体最优折中强化学习的多主体含氢综合能源系统优化调度

能源工程与动力工程

工程学

期刊:电网技术DOI:10.13335/j.1000-3673.pst.2025.0692

【点击此处】阅读全文、收藏及针对性提问

《电网技术》网络首发论文《基于多智能体最优折中强化学习的多主体含氢综合能源系统优化调度》研究报告
作者及机构
 该研究由华东交通大学电气与自动化工程学院的彭春华、钟沂辰、孙惠娟、张大权合作完成，发表于《电网技术》期刊（ISSN 1000-3673），网络首发日期为2025年9月1日，DOI编号10.13335/j.1000-3673.pst.2025.0692。
学术背景
 本研究属于能源系统优化调度领域，聚焦于含氢综合能源系统（Hydrogen Integrated Energy Systems, HIES）的多主体协同优化问题。背景源于2024年中国《关于加强电网调峰储能和智能化调度能力建设的指导意见》对多能源协同调度的政策需求。当前HIES面临多主体利益冲突、异质能源（电/热/氢）动态耦合及不确定性等挑战，传统优化算法（如博弈论、粒子群算法）在解决高维非线性问题时存在局限性。研究旨在提出一种基于多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）的新型算法框架，以实现多主体（含氢综合能源服务商HIEp、电/热/氢负荷聚合商ELA/TLA/HLA）的高效协作与成本优化。
研究流程与方法
 1. 模型构建阶段
 - 建立多主体HIES优化调度模型，目标函数为最小化系统总运行成本（含运维、购能、负荷补偿等6项成本）。约束条件涵盖CHP机组、电制氢设备（Electrolyzer, EL）、燃料电池（Hydrogen Fuel Cell, HFC）等10类设备的物理限制及能量平衡。
 - 将系统分解为4个智能体（HIEp-agent、ELA-agent、TLA-agent、HLA-agent），设计其状态空间（含风光出力、负荷预测、储能荷电状态等动态参数）与动作空间（如CHP热出力、负荷削减量、储能充放电功率）。
算法开发阶段
改进传统多智能体近端策略优化算法（Multi-Agent Proximal Policy Optimization, MAPPO），提出多智能体最优折中强化学习算法（Multi-Agent Optimal Compromise Proximal Policy Optimization, MAOCPPO）。核心创新包括：
 有序决策生成机制：通过concat函数将相邻智能体动作信息融入当前状态观测（如ELA-agent接收HIEp动作），形成24种动作序列方案。
 
TOPSIS多方案评估：采用逼近理想解排序法（Technique for Order Preference by Similarity to Ideal Solution, TOPSIS）筛选最优折中解，平衡个体奖励与系统全局效益。
 
训练框架基于PyTorch平台，采用Actor-Critic网络结构，通过裁剪机制限制策略更新幅度（剪切范围ε=0.2），熵正则系数η=0.01鼓励探索。
仿真验证阶段
测试场景：构建含光伏、风电、CHP、EL、HFC及电/热/氢储能的HIES，设备参数参考文献[14]，分时电价数据见附录D图D2。
 
对比实验：与粒子群算法（PSO）、MADDPG、MAPPO对比，评估成本与计算效率。
 
鲁棒性测试：通过5种风光出力场景（附录D图D3）验证算法适应性。
主要结果
 1. 算法性能
 - MAOCPPO将系统日运行成本降至48.3864万元，较MAPPO降低3.64%（1.8万元），优化时间仅1秒，显著优于PSO（727秒）。
 - 训练曲线显示，MAOCPPO在200次迭代后收敛，ELA-agent因电价波动奖励值存在±5%波动，而HIEp-agent稳定性最佳（波动%）。
调度优化细节
氢能调度：HLA通过谷时储氢（22:00-05:00）与峰时释氢（06:00-21:00），购氢成本降低9.6%（2.42万元）。HIEp的EL设备在电价高峰时段主动削减氢负荷，配合HFC调节（图5）。
 
热能调度：TLA利用热储能在气价低谷时段蓄热，优化后购热成本下降14.2%，CHP与HFC热出力互补（图7）。
 
电能调度：ELA通过电储能平抑峰谷差价，购电成本降低22%，同时HIEp在谷时购电并高价售电（图10）。
鲁棒性验证
 在5种风光出力场景下，MAOCPPO系统成本波动幅度%（表5），表明算法对可再生能源随机性具有强适应性。
结论与价值
 1. 科学价值
 - 提出首个融合TOPSIS与MAPPO的多智能体强化学习框架，解决了传统算法因状态-动作独立导致的协作不足问题。
 - 构建的HIES多主体协同模型明确了电-热-氢能流耦合机制，为异质能源系统建模提供新范式。
应用价值
 实际部署中，该算法可降低HIES运行成本10%以上，且计算效率满足实时调度需求。
 
政策层面，为国家”源网荷储协同调度”战略提供了技术支撑，尤其适用于高比例可再生能源场景。
研究亮点
 1. 创新性提出”有序决策生成+TOPSIS评估”的双层优化机制，突破传统MARL的局部最优限制。
 2. 首次在HIES中实现氢能负荷聚合商（HLA）作为独立决策主体参与调度，验证氢储能的调峰经济性。
 3. 开源PyTorch代码框架（未在文中明确提及但可推断）为后续研究提供可复现基础。
其他价值
 附录D提供的设备参数表（D2）与成本系数表（D3）具有行业参考价值，可作为同类研究的基准数据。此外，作者强调的”初始储能容量设置逻辑”（图4/6/8）为储能规划提供了工程启发。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问