基于多智能体强化学习的车联网资源分配策略

分享自：

基于多智能体强化学习的车联网资源分配策略

交通与运载工程

电子科学与信息系统

工程学

信息科学

人工智能

期刊:微电子学与计算机DOI:10.19304/j.issn1000-7180.2023.0810

【点击此处】阅读全文、收藏及针对性提问

基于多智能体强化学习的车联网资源分配策略学术报告
一、作者及发表信息
 本文由重庆邮电大学通信与信息工程学院的谢弘明（硕士）、彭大芹（正高级工程师，硕士生导师）和赵梦青合作完成，发表于《微电子学与计算机》（Microelectronics & Computer）2024年第41卷第11期（22-30页），DOI编号10.19304/j.issn1000-7180.2023.0810。
二、学术背景与研究目标
 本研究属于智能交通与无线通信交叉领域，聚焦5G车联网（Internet of Vehicles, IoV）中的动态资源分配问题。传统车联网资源分配方法在车辆高动态场景（如交叉路口）中面临频谱调度效率低、网络拥塞和时延高等挑战。为此，作者提出了一种基于注意力机制的多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）策略，旨在通过增强全局状态特征编码能力和多智能体依赖关系建模，提升资源分配效率。研究目标包括：
 1. 设计集中式训练-分布式执行的MARL框架，优化频谱共享和功率控制；
 2. 引入注意力机制构建多视角全局状态特征，解决局部观测信息编码能力不足的问题；
 3. 验证算法在提升V2I（车-基础设施通信）链路容量和V2V（车间通信）链路负载传输成功率上的有效性。
三、研究流程与方法
 1. 系统建模与问题定义
 - 通信模型：构建蜂窝车联网环境，包含V2I和V2V链路。V2I链路需高数据率，V2V链路需高可靠性。采用正交频分复用（OFDMA）技术，V2V链路复用V2I频谱资源。
 - 优化目标：联合最大化V2I链路总容量和V2V链路负载传输成功率，约束条件为式（3）中的速率约束。
 - DEC-POMDP模型：将每个V2V链路视为智能体，局部观测包括信道增益、剩余负载和干扰功率（式4-5），动作空间为4级功率控制和子信道选择。
算法设计
QMix框架改进：在QMix算法基础上提出QMixATT，核心创新包括：
 多头注意力机制：通过式（11）学习智能体间依赖关系，构造全局状态特征(s_{att})，增强特征编码能力；
 
多视角值函数学习：设计两组全局状态(s{att,1})和(s{att,2})，采用最小化目标值策略（式12）避免过估计，损失函数如式（13）。
 
训练流程：集中式训练时收集智能体交互样本，分布式执行时各智能体独立决策。
 
仿真实验
环境设置：基于3GPP TR 38.886标准，模拟十字路口场景，参数见表1（载波频率3.5 GHz，车速10-15 m/s等）。
 
基线对比：与MADQN、MADDPG和随机方案对比，评估指标包括累积奖励、V2I容量和V2V传输成功率。
 
四、主要结果
 1. 收敛性能：QMixATT在500训练步内快速收敛（图3），优于QMix，尤其在车辆数增加时表现稳定。
 2. 通信性能：
 - V2I容量：负载增大时，QMixATT的容量下降幅度最小（图4），在20×100 bytes负载下仍保持35 Mbps，较MADDPG提升约20%。
 - V2V成功率：QMixATT在相同负载下成功率最高（图5），5.5 KB负载时达95%，而MADQN仅70%。
 3. 实时性：QMixATT仅需25 ms完成4条V2V链路负载传输（图6），较随机方案（45 ms）效率提升80%。
五、结论与价值
 1. 科学价值：
 - 提出首个结合注意力机制的MARL车联网资源分配框架，解决了全局状态特征编码薄弱的问题；
 - 多视角值函数学习方法为多智能体强化学习的策略评估提供了新思路。
 2. 应用价值：为5G车联网的频谱共享和功率控制提供了高效、自适应的解决方案，尤其适用于高动态交通场景。
六、研究亮点
 1. 方法创新：注意力机制与QMix的结合显著提升了多智能体协作能力；
 2. 性能优势：在复杂负载和干扰环境下，QMixATT的鲁棒性优于传统优化和单智能体强化学习方法；
 3. 工程意义：仿真结果验证了算法在实际车联网部署中的可行性，为智慧交通系统提供了技术支撑。
七、其他要点
 - 局限性：算法可能因保守策略导致值函数欠估计，未来将设计更鲁棒的值函数更新方案；
 - 扩展方向：可结合边缘计算进一步优化资源分配的实时性。
（全文约2000字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问