基于多智能体深度强化学习的V2X通信网络切片资源分配研究

分享自：

基于多智能体深度强化学习的V2X通信网络切片资源分配研究

工程学

电气科学与工程

信息科学

人工智能

计算机科学

期刊:IEEE Transactions on Network and Service ManagementDOI:10.1109/TNSM.2024.3454758

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，即报告了一项原创性研究。以下是基于文档内容的学术报告：
研究作者及机构本研究由Binbin Lu、Yuan Wu（IEEE高级会员）、Liping Qian（IEEE高级会员）、Sheng Zhou（IEEE高级会员）、Haixia Zhang（IEEE高级会员）和Rongxing Lu（IEEE Fellow）共同完成。研究团队来自澳门大学智能城市物联网国家重点实验室、浙江大学信息工程学院、清华大学电子工程系、山东大学控制科学与工程学院以及加拿大新不伦瑞克大学计算机科学学院。该研究发表于2024年12月的《IEEE Transactions on Network and Service Management》期刊，卷21，第6期。
学术背景本研究的主要科学领域为车联网（V2X，Vehicle-to-Everything）通信中的网络切片（Network Slicing）技术。随着5G及未来移动网络的发展，V2X通信在智能交通系统（ITS）中扮演着重要角色，支持自动驾驶、协同避撞和娱乐等多种应用。然而，网络切片在动态V2X场景中面临诸多挑战，包括时变的服务水平协议（SLA）、快速变化的网络拓扑以及资源分配中的隐私保护问题。传统的集中式资源分配方案需要全局信息，可能损害数据隐私。为解决这些问题，本研究提出了一种基于多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning, MADRL）的双时间尺度资源分配机制，旨在为不同V2X切片提供定制化资源，同时保证服务质量（QoS）并避免资源过度或不足分配。
研究流程本研究分为两个主要时间尺度的资源分配问题：长期时间尺度和短期时间槽。
长期时间尺度在长期时间尺度中，研究提出了一种基于近端策略优化（Proximal Policy Optimization, PPO）的多智能体深度强化学习算法，用于动态分配带宽资源以满足不同切片的SLA。每个智能体仅观察其部分状态空间，而非全局信息，从而增强隐私保护。此外，研究还引入了一种专家示范机制，以指导智能体的行动策略，减少无效行动探索并加速收敛。
短期时间槽在短期时间槽中，研究提出了一种基于交叉熵（Cross Entropy, CE）和逐次凸近似（Successive Convex Approximation, SCA）的算法，用于优化每个切片的物理资源块（Physical Resource Blocks, PRBs）分配和发射功率控制，以满足QoS要求。具体流程如下： 1. PRBs分配优化：使用CE算法优化PRBs分配策略，最大化系统能效。 2. 功率控制优化：在给定PRBs分配的情况下，使用SCA算法优化发射功率，以满足QoS要求并最大化能效。
研究对象及数据处理研究对象为V2X通信系统中的网络切片，包括信息娱乐服务（IS）切片和关键消息服务（CMS）切片。研究假设每个时间槽内的车辆数量固定，但在不同时间槽之间可能变化。研究通过仿真验证了所提出算法的有效性，仿真环境基于真实世界的交通拓扑数据，使用SUMO软件生成交通数据。
主要结果频谱效率提升：与基线方法相比，所提出的双时间尺度资源分配方案在频谱效率方面最大可提升8.4%，同时保证用户的QoS要求。
能效优化：通过CE和SCA算法，系统能效得到了显著优化，尤其是在车辆数量增加的情况下。
QoS保证：所提出的算法能够有效保证IS切片的最小传输速率要求和CMS切片的延迟与可靠性要求。
结论本研究提出了一种基于MADRL的双时间尺度资源分配框架，用于V2X通信中的网络切片管理。长期时间尺度中，PPO算法动态分配带宽资源以最大化系统频谱效率；短期时间槽中，CE和SCA算法优化PRBs分配和功率控制以最大化能效。仿真结果表明，所提出的算法在频谱效率和能效方面均优于基线方法，同时有效保证了QoS要求。该研究为动态V2X场景中的网络切片资源分配提供了新的解决方案，具有重要的理论和应用价值。
研究亮点多智能体深度强化学习：首次将PPO算法应用于V2X网络切片资源分配，显著提高了频谱效率和隐私保护。
双时间尺度资源分配：通过长期和短期两个时间尺度的资源分配，有效应对了动态V2X场景中的挑战。
专家示范机制：引入专家示范机制，加速了智能体的收敛并减少了无效行动探索。
交叉熵与逐次凸近似算法：提出了一种新的CE和SCA算法，用于优化PRBs分配和功率控制，显著提高了系统能效。
其他有价值的内容研究还详细分析了传统集中式资源分配方案的局限性，并提出了分布式学习框架，以增强数据隐私保护。此外，研究通过仿真验证了所提出算法在不同车辆数量下的性能表现，进一步证明了其在实际应用中的潜力。

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问