分享自:

基于图神经网络多智能体强化学习的电力-交通融合网协同优化运行

期刊:高电压技术DOI:10.13336/j.1003-6520.hve.20221965

学术研究报告:基于图神经网络多智能体强化学习的电力-交通融合网协同优化运行

一、作者及发表信息
本研究的通讯作者为福州大学电气工程与自动化学院(福建省电器智能化工程技术研究中心)的江昌旭(第一作者)、卢玥君邵振国林俊杰(通信作者)。研究发表于《High Voltage Engineering》(《高电压技术》)2023年第49卷第11期(2023年11月30日出版),DOI编号为10.13336/j.1003-6520.hve.20221965。

二、学术背景与研究目标
本研究属于能源与交通交叉领域,聚焦电力-交通融合网(Integrated Electric Power and Traffic Network, IETN)的协同优化问题。随着电动汽车(Electric Vehicle, EV)的普及,电力系统与交通系统的动态交互日益复杂,涉及多重不确定性因素(如充电需求随机性、交通拥堵、可再生能源出力波动等)。传统优化方法(如静态定价、最短路径算法)难以处理此类动态耦合问题,导致充电成本高、电网峰谷差大等问题。

研究目标包括:
1. 建模动态交互:通过图理论构建EV间的动态网络关系模型,量化多智能体(EV)间的相互影响。
2. 算法创新:提出基于图注意力网络(Graph Attention Network, GAT)的多智能体强化学习算法(Graph Multi-Agent Reinforcement Learning, GMARL),优化EV充电引导策略。
3. 协同优化:结合配电网二阶锥优化(Second Order Conic Relaxation, SOCR)与对偶理论,求解节点边际电价(Locational Marginal Price, LMP),实现电力-交通系统的动态协同。

三、研究流程与方法
1. 动态图模型构建
- 研究对象:区域内100辆需充电的EV(模拟10%渗透率),覆盖108节点交通网络与IEEE 33节点电力系统。
- 图模型设计:将EV视为节点,相邻EV(同路段或半径内)通过边连接,形成动态图结构(GT=(N, E)),以捕捉EV间的时空交互。

  1. GMARL算法开发

    • 状态空间:包含EV自身状态(如剩余电量、速度)、交通信息(路段车流量)、邻近EV状态及充电站信息(电价、排队数量)。
    • 动作空间:EV选择路径前往充电站,动作决策基于局部观测马尔可夫过程(Partially Observable Markov Decision Process, POMDP)。
    • 奖励函数:综合充电时间成本(行驶、排队、充电时间)与充电费用,目标为最小化总成本(式1-7)。
    • 注意力机制:采用GAT为邻近EV分配动态权重,增强关键交互的特征提取(式15-17)。
  2. 配电网最优潮流求解

    • 数学模型:基于支路潮流模型(BFM-OPF)与SOC松弛,构建配电网优化模型(式20-29),目标为最小化发电成本与购电费用。
    • 节点边际电价:通过求解对偶变量获得LMP,反映充电站的动态电价(受风电出力、EV负荷影响)。
  3. 仿真验证

    • 场景设置:对比GMARL与最短路径算法(Shortest Distance, SD),指标包括奖励函数、充电时间、峰谷差等。
    • 参数优化:通过网格搜索确定学习率(α=1×10⁻⁴)与折扣因子(γ=0.96),确保算法收敛性(附录图C5-C6)。

四、主要结果与逻辑关系
1. 充电引导性能
- 奖励函数:GMARL的单次平均奖励值(111.27)显著高于SD算法(108.39),表明其能有效降低总成本。
- 排队时间:GMARL将平均排队时间从11.46分钟降至1.04分钟(降幅90%),避免了充电站拥堵(图2-3)。
- 峰谷差:GMARL下配电网负荷峰谷差为69.87%,优于SD的70.86%,缓解了电网波动。

  1. 电价动态响应

    • SD算法中,EV集中涌向107号充电站,导致其节点边际电价(LMP)飙升(图4);而GMARL通过电价信号均衡分配EV负荷,保持各充电站电价稳定(图5)。
  2. 算法鲁棒性验证

    • 扩展性测试:当EV数量从50增至500时,GMARL仍保持优势,尤其在充电排队时间上始终优于SD(图6)。
    • 协作必要性:剔除EV交互信息后,奖励函数下降20%,损失函数波动加剧(附录图C7),证明多智能体协同的必要性。

五、结论与价值
1. 科学价值
- 提出首个融合图神经网络与多智能体强化学习的IETN协同优化框架,解决了多重不确定性下的动态决策问题。
- 通过注意力机制量化EV间交互影响,为复杂网络中的多智能体协同提供了新方法。

  1. 应用价值
    • 电网侧:降低配电网峰谷差,提升可再生能源消纳能力。
    • 交通侧:缩短EV充电等待时间,优化路网流量分布。
    • 政策建议:支持动态电价机制与智能充电引导系统的落地。

六、研究亮点
1. 方法创新:首次将GAT与多智能体强化学习结合,处理非欧式结构的EV交互数据。
2. 跨学科融合:统一了电力系统优化(SOC松弛)与交通流模型(BPR函数)的数学表达。
3. 工程实用性:在108节点交通网与IEEE 33节点电网中的仿真验证了算法的可扩展性。

七、其他价值
- 开源代码与仿真数据集(未明确提及但可推断)可为后续研究提供基准。
- 研究首次量化了EV协作对充电成本的贡献(如剔除协作后奖励下降20%),为政策制定提供数据支撑。

(注:附录中的图/表未具体展示,但文中引用其关键结论以支持分析。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com