分享自:

基于图神经网络与多智能体深度强化学习的动态V2X通信资源分配

期刊:2024 20th International Conference on Mobility, Sensing and Networking (MSN)DOI:10.1109/MSN63567.2024.00062

学术研究报告:基于图神经网络与多智能体深度强化学习的动态V2X通信资源分配方法

一、研究团队与发表信息
本研究的核心作者包括Bingkun Zheng、Haoyu Liang、Jiahao Ling、Shimin Gong和Bo Gu,均来自中山大学智能系统工程系,其中Shimin Gong和Bo Gu同时隶属于广东省火灾科学与智能应急技术重点实验室。该研究发表于2024年的*20th International Conference on Mobility, Sensing and Networking (MSN)*,论文标题为《Integrating Graph Neural Networks with Multi-Agent Deep Reinforcement Learning for Dynamic V2X Communication》。

二、学术背景与研究目标
随着车联网(Internet of Vehicles, IoV)技术的快速发展,蜂窝车联网通信(Cellular Vehicle-to-Everything, C-V2X)因其覆盖广、低延迟和高吞吐量的优势成为研究热点。然而,动态变化的网络拓扑结构和多样化的服务质量(Quality of Service, QoS)需求(如低延迟和高传输速率)对资源分配提出了严峻挑战。传统优化方法(如基于Lyapunov优化或遗传算法)因依赖全局信道状态信息(Channel State Information, CSI)且难以适应高动态环境,实际应用受限。

本研究提出了一种名为动态感知图近端策略优化(Dynamic-aware Graph-based Proximal Policy Optimization, DGPPO)的新方法,结合图神经网络(Graph Neural Network, GNN)与多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL),旨在解决C-V2X网络中频谱与功率联合分配的动态优化问题。其核心目标包括:
1. 在部分CSI条件下适应高动态环境;
2. 通过GNN提取低维全局特征,优化资源分配;
3. 提升V2V链路的低延迟可靠性和V2I链路的吞吐量。

三、研究方法与流程
1. 动态图建模与特征提取
- 图构建:将V2V通信链路建模为图中的节点,节点特征包括局部观测的信道增益(如(gn[m])、干扰信道增益(g{n’,n}[m])等)和上一时隙的干扰功率(I{n}^{t-1}[m])。边权重通过车辆间距离矩阵动态计算(公式9),反映链路间干扰强度。
- GNN设计:采用改进的图Transformer模型(公式11-12),通过多头注意力机制聚合邻域节点信息,生成低维全局特征(x
{agg,t}^n),用于表征网络拓扑的动态变化。

  1. 多智能体强化学习框架

    • 状态空间:每个智能体(V2V链路)的观测状态(o_t^n)包含局部信道信息和GNN提取的全局特征。
    • 动作空间:智能体选择子频段(离散值)和发射功率(四档:-100 dBm至23 dBm)。
    • 奖励函数(公式15-16):平衡V2I链路吞吐量((\sum c_{V2I}))与V2V链路剩余负载(若超时则惩罚项(\rho)),通过权重系数(\lambda_1, \lambda_2)调节目标优先级。
  2. 训练与执行流程

    • 集中训练:采用近端策略优化(PPO)算法,通过重要性采样(公式17)和广义优势估计(GAE, 公式19-20)更新策略网络(Actor)和值函数网络(Critic)。
    • 分布式执行:训练后,各智能体基于局部观测和GNN特征独立决策,实现实时资源分配。

四、主要实验结果
1. 收敛性能:DGPPO在3000次训练迭代中表现稳定(图4-5),其奖励曲线优于对比算法D3QN-LS,方差更低,表明GNN特征提取有效提升了策略学习的鲁棒性。
2. 负载适应性测试(图6):
- V2I吞吐量:随着V2V负载((b))增加,DGPPO的V2I总速率降幅最小,接近穷举搜索(Exhaustive Search)性能,显著优于随机分配和MAPPO基线。
- V2V成功率:在(b=6 \times 1060)字节时,DGPPO的成功传输概率仍保持0.85以上,验证其对高负载动态环境的适应性。

五、研究结论与价值
1. 科学价值
- 提出首个融合GNN与MADRL的C-V2X资源分配框架,解决了动态拓扑下部分CSI的优化难题。
- 通过GNN的图注意力机制,实现了干扰关系的隐式建模,降低了传统方法对精确CSI的依赖。
2. 应用价值
- 为5G-V2X的实际部署提供了低复杂度、高实时性的解决方案,可支持自动驾驶中的安全关键通信。
- 代码开源与参数标准化(表II)为后续研究提供了可复现的基准。

六、研究亮点
1. 方法创新
- 动态图模型与GNN的结合,实现了网络拓扑变化的在线建模;
- 多智能体PPO框架引入GAE和重要性采样剪裁(公式18),提升了策略更新的稳定性。
2. 性能优势:在3GPP标准场景(TR 36.885)中,DGPPO的V2I吞吐量比D3QN-LS提升约15%,V2V成功率提高10%以上。

七、其他贡献
- 公开了仿真代码与参数集(如Adam优化器学习率(5 \times 10^{-5})、批量大小128等),推动领域内算法可比性研究。
- 讨论了未来方向(如环境突变下的鲁棒性优化),为后续研究指明路径。

(注:全文术语首次出现时均标注英文原文,如“服务质量(Quality of Service, QoS)”)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com