分享自:

基于多智能体强化学习的车联网频谱共享

期刊:IEEE Journal on Selected Areas in CommunicationsDOI:10.1109/JSAC.2019.2933962

学术研究报告:基于多智能体强化学习的车载网络频谱共享方案


一、研究团队与发表信息
本研究的核心作者为Le Liang(IEEE会员)、Hao Ye(IEEE学生会员)及Geoffrey Ye Li(IEEE会士),三位均来自美国佐治亚理工学院电气与计算机工程学院。研究成果发表于2019年10月的*IEEE Journal on Selected Areas in Communications*(第37卷第10期),标题为“Spectrum Sharing in Vehicular Networks Based on Multi-Agent Reinforcement Learning”。


二、学术背景与研究目标
科学领域与背景
随着智能交通系统的发展,车联网(V2X,Vehicle-to-Everything)通信面临频谱资源紧张与高动态信道的双重挑战。传统集中式资源分配方法因车辆高速移动导致信道状态信息(CSI,Channel State Information)反馈延迟而失效。为此,本研究提出一种基于多智能体强化学习(MARL,Multi-Agent Reinforcement Learning)的分布式频谱共享方案,旨在解决车辆间(V2V)与车辆-基础设施(V2I)链路间的频谱复用问题。

研究动机
车载网络中,V2I链路需支持高带宽娱乐服务(如视频流),而V2V链路需保障周期性安全消息的高可靠性传输。传统优化方法难以在动态环境中兼顾两者需求。MARL通过分布式学习和协作策略,可适应信道快速变化并优化全局性能。

研究目标
1. 最大化V2I链路的累积容量;
2. 提升V2V链路在时间约束内的有效载荷传输成功率(即可靠性);
3. 开发分布式算法以减少对全局CSI的依赖。


三、研究方法与流程
1. 系统建模与环境设置
- 网络架构:模拟3GPP定义的蜂窝车联网(C-V2X)模式4,V2V链路通过侧链路(PC5接口)共享V2I链路(UU接口)的频谱资源。
- 信道模型:采用WINNER II车联网信道模型,将频段划分为多个正交子带,每个子带的信道增益包含大尺度衰落(路径损耗、阴影)与小尺度衰落(指数分布)。
- 干扰管理:V2V链路复用V2I频谱时需控制发射功率以避免干扰,研究中将功率离散化为4个等级(23 dBm至-100 dBm)。

2. 多智能体强化学习框架
- 智能体定义:每个V2V链路作为一个智能体,其观测空间包括局部信道信息(如信号强度、干扰功率)、剩余载荷大小及剩余时间预算。
- 动作空间:智能体选择子带与发射功率的组合(共4×M种可能)。
- 奖励设计
- V2I奖励:瞬时V2I链路总容量;
- V2V奖励:若载荷未完成传输,奖励为瞬时传输速率;若完成,则奖励固定值β(鼓励快速完成传输)。
- 最终奖励为加权和(λc·V2I奖励 + λd·V2V奖励)。

3. 训练与实现
- 算法:采用指纹深度Q网络(Fingerprint-based DQN)解决非平稳性问题,通过将其他智能体的策略变化轨迹(如训练迭代次数、探索率ε)纳入观测空间以稳定学习。
- 训练阶段:集中式训练3,000个回合,探索率ε从1线性衰减至0.02,使用RMSprop优化器更新网络参数。
- 实现阶段:分布式执行,各V2V智能体基于本地观测自主决策。


四、主要实验结果
1. V2I链路性能
- 在载荷大小(B)为2×1060字节时,MARL方案比随机分配基准提升约35%的累积容量,接近无V2V干扰的理论上限(仅14%差距)。
- 随B增大,所有方案性能下降,但MARL仍保持最优(图3数据支持)。

2. V2V链路可靠性
- MARL在B≤4×1060字节时实现近乎100%的载荷传输成功率,显著优于独立单智能体RL(SARL)和随机基准(图4)。
- 案例研究显示,MARL智能体学会协作策略:高信道质量的V2V链路优先传输以释放资源,而脆弱链路通过轮流传输提升成功率(图6-7)。


五、研究结论与价值
科学价值
1. 首次将MARL应用于车载网络频谱共享,解决了动态环境中分布式协作的难题;
2. 通过奖励设计将复杂目标(容量与可靠性权衡)转化为可学习的优化问题;
3. 指纹D

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com