分享自:

基于多智能体强化学习的MEC-UAV辅助车联网资源管理研究

期刊:IEEE Journal on Selected Areas in CommunicationsDOI:10.1109/jsac.2020.3036962

基于多智能体强化学习的 MEC 和 UAV 协同车辆网络资源管理研究综述

本文档是一篇发表于 IEEE Journal on Selected Areas in Communications (JSAC), Vol. 39, No. 1, January 2021 的学术研究,题为“Multi-Agent Reinforcement Learning Based Resource Management in MEC- and UAV-Assisted Vehicular Networks”。主要作者为 Haixia Peng 和 Xuemin Shen,作者所属机构为加拿大滑铁卢大学电子及计算机工程系。这项研究在分布式资源管理和强化学习领域具有重要贡献,探索了移动边缘计算(Multi-Access Edge Computing,简称 MEC)和无人机(Unmanned Aerial Vehicles,简称 UAV)在支持车辆网络中高效资源分配的潜力。


一、研究背景和动机

随着汽车工业和无线通信技术的快速发展, 车联网(Vehicular Networks)成为智能交通服务的关键技术支持。它能够让车辆与外界实现实时信息交换,提高交通安全性、效率,并通过无处不在的互联网访问支持新兴车辆数据服务和应用。然而,随着车辆生成的移动数据快速增长,随之而来的过载算力任务和带宽限制等问题变得愈发突出。现有车载计算和缓存能力以及频谱资源有限,因此难以满足高动态性、多样化服务需求,尤其是低延迟应用。然而,MEC 技术作为云计算的扩展,通过将计算和缓存能力迁移至用户设备附近,可以降低延迟,同时减少对云服务器的依赖。UAV 技术则以其灵活调度能力,在需高动态性任务支持的场景中提供补充。两者的结合被广泛视为解决车联网中资源管理挑战的重要方向。

本文旨在研究如何在 MEC 和 UAV 协同支持的车联网中,通过多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)实现分布式、多维度资源的高效管理,为具有异构质量需求(Quality of Service,QoS)的应用提供支持。


二、研究目标

本研究的目标是解决以下关键问题: 1. 在 MEC 和 UAV 协同支持的环境中,车辆生成的任务具有高动态性和异构 QoS 需求,如何优化分布式资源分配。 2. 在缺乏中央控制器的分布场景中,如何快速做出车辆关联决策与资源分配决策。 3. 通过多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)方法,探索一种分布式工具,以实现资源分配问题的实时求解。


三、研究方法与工作流程

本文中的研究过程采用了分步设计。以下为详细工作流程:

网络架构与模型设定

研究首先设计了一种 MEC 和 UAV 协同的车联网架构。在该架构中: - 宏基站(Macro eNodeB, MENB)内置 MEC 服务器,同时多个 UAV 安装了 MEC 服务器,飞行于 MENB 的覆盖范围内,共同为车辆提供资源支持。 - 每辆车周期性生成异构计算任务,任务包括数据大小、所需的 CPU 计算周期数及最大延迟需求等信息。 - 车辆通过无线链路请求资源访问,关联成功后将任务卸载至对应的 MEC 服务器进行处理。

多维度资源管理建模

资源管理分为三部分:频谱管理、计算资源管理和缓存资源管理。模型设计需要考虑: 1. 车辆任务 QoS 满足率 :将任务的完成时间与最大延迟进行比对,同时需预分配缓存资源。 2. 车辆与 MEC 的关联模式:对于重叠区域的车辆,至少选择关联 MENB 或 UAV 之一。 3. 资源分配形式:采用分布式优化方法,使得 MEC 服务器内的频谱、计算与缓存资源分配高效且满足约束条件。

转换为分布式优化问题

因上述问题耦合复杂,且传统优化方法求解速度较慢,研究将问题转化为 Partially Observable Markov Decision Process (POMDP),进一步表述为多智能体强化学习的马尔可夫博弈(Markov Game),并设计针对性的多智能体算法。 1. 状态与观测:定义车辆和 UAV 的空间位置、任务需求和资源可用性作为环境状态,而 MEC 和 UAV 作为智能体只能观察到局部信息。 2. 动作空间:每个智能体的动作包括车辆关联模式(松弛后的连续变量)以及三个资源分配的比例。 3. 奖励机制:设计 shaped reward 函数,把延迟或 QoS 需求是否满足量化,通过对数函数确保公平,推动智能体学习更多任务的高效资源分配策略。

提出的算法:基于 MADDPG 的分布式资源管理

  • MADDPG 框架:设计了一个混合多智能体学习架构,其中 MENB 和 UAV 各自作为智能体,通过离线集中式训练和在线分布式执行相结合的方法,使每个 MEC 服务节点可以独立决策。
  • 离线集中训练:在训练阶段,每个智能体不仅可以学习自己的策略,也可以同时感知其他智能体的行动,生成更多代表全局信息的样本进行网络参数优化。
  • 在线分布式执行:训练完毕后,完成的模型支持智能体仅根据本地观测迅速做出局部资源分配决策。

四、实验与主要结果

实验使用交通模拟工具 PTV VISSIM 模拟了双向两车道路段的车辆运动,生成大量环境状态。研究对算法的收敛性能、资源管理效果和与其他方法的对比测试进行了全面评估。

收敛性

训练阶段,MADDPG 算法在约 200 轮训练后达到稳定,获得较高且波动较小的平均奖励,与单智能体 DDPG (SADDPG) 算法相比,收敛速度相当。

综合性能

测试阶段,研究发现: 1. 基于 MADDPG 的方案在多种场景下,延迟满足率和 QoS 满足率均高于随机方案,且大多数情况下优于 SADDPG。 2. 在资源有限的情况下,MADDPG 更好地在联邦系统中平衡了任务完成数量和资源利用效率。

数据支持

实验分别测试了频谱、计算和缓存资源变化对资源管理方案的影响。MADDPG 在多种资源分配参数下均展现了较高性能,尤其在资源动态波动大的情境下,灵活性更强。


五、研究结论与价值

本研究通过引入 MADDPG 算法,提出了一种高效的分布式资源管理方案,显著提高了车辆网络中异构任务的 QoS 满足率。该研究在科学和实际应用中具有重要价值: 1. 提供了一种分布式强化学习框架,解决了车联网高动态环境下资源管理的关键问题。 2. 在实际应用中,为支持如无人驾驶和高可靠通信等延迟敏感型应用提供了参考方案。 3. 验证了具有协作性的多智能体学习方法在网络资源优化领域的应用潜力。


六、研究亮点

  1. 首次将 MADDPG 深入应用于 MEC 和 UAV 协同的车联网,创造性地解决了分布式优化问题。
  2. 提出了分布式无中央控制器的智能体学习方式,适用于高动态、多目标约束场景。
  3. 在多智能体学习过程中有效协调了代理间的策略耦合问题,为相关集成优化问题提供了技术支持。

七、未来工作展望

未来研究可进一步探索跨卫星和地面节点的混合车联网场景,研究其中的任务卸载和资源管理问题,以满足更复杂的物联网通信需求。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com