分享自:

基于多智能体强化学习的车载网络资源分配优化

期刊:IEEE

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


基于多智能体强化学习的车载网络资源分配优化研究

一、作者与发表信息

本研究由Yu Zhang†, Shufei Wang†, Minyu Hua†, Yibin Zhang†, Yu Wang†, Tomoaki Ohtsuki‡, Hikmet Sari†, Guan Gui†合作完成。†标注作者来自中国南京邮电大学(NJUPT)通信与信息工程学院,‡标注作者来自日本庆应义塾大学信息与计算机科学系。论文发表于2024年IEEE第99届车辆技术会议(VTC2024-Spring),DOI编号为10.1109/VTC2024-Spring62846.2024.10683540。


二、学术背景

研究领域:本研究属于智能交通系统中的车联网(V2X)通信领域,聚焦于高移动性环境下的动态频谱资源分配问题。

研究动机
1. 挑战:车辆高速移动导致基站(BS)难以获取全面的信道状态信息(CSI),而道路安全通信要求低延迟、高可靠性,传统资源分配方法(如启发式算法或集中式管理)存在频谱利用率低、干扰严重等问题。
2. 技术背景:现有研究尝试通过强化学习(RL)优化资源分配,但多数方法(如D3QN)未充分考虑环境动态性和历史状态记忆,导致策略收敛慢或性能受限。
3. 目标:提出一种结合Dueling Double Deep-Q Network(D3QN)长短期记忆网络(LSTM)的多智能体强化学习方法(L-D3QN-LS),以同时提升车对基础设施(V2I)链路的容量和车对车(V2V)链路的安全传输成功率。


三、研究流程与方法

1. 系统建模
  • 环境构建:基于曼哈顿网格城市模型,模拟包含P条V2V链路M条V2I链路的通信场景。V2I链路固定分配子频段,V2V链路通过D2D通信(PC5接口)动态共享频谱。
  • 信道模型:依据3GPP TR 36.885标准,定义信道功率增益(含大尺度衰落ϱ和小尺度衰落h)及信干噪比(SINR)公式(见原文式(1)-(4))。
2. 问题公式化
  • 优化目标
    • 最大化V2I链路总容量(式(5))。
    • 保障V2V链路安全数据的成功传输率(式(7)),要求在规定时间内传输指定比特数(bp)。
3. 算法设计(L-D3QN-LS)
  • 核心创新
    • LSTM网络:存储历史动作与环境反馈,增强序列数据建模能力。
    • 多智能体框架:每个V2V链路作为独立智能体,通过协作学习最优频谱与功率分配策略。
    • 改进探索策略:引入低维指纹(fingerprint)和软更新(soft update)机制,稳定训练过程。
  • 关键组件
    • 观察空间:包含信道增益、剩余传输比特(bp)、剩余时间(tp)等7类信息(式(8))。
    • 动作空间:离散功率等级(23/10/5/-100 dBm)与子频段选择。
    • 奖励函数:加权平衡V2I容量(式(10))与V2V传输率(式(9)),最终奖励如式(11)。
4. 实验设置
  • 参数:LSTM隐藏层128维,后续全连接层分别为500/250/120维,使用ReLU激活函数和Adam优化器。
  • 对比基线:D3QN、D3QN-LS、L-D3QN。
  • 训练:3000轮次,采用ϵ-贪婪策略退火机制。
5. 数据分析
  • 性能指标:V2I总容量(Mbps)与V2V传输完成率(%)。
  • 数据处理:输入数据白化归一化,梯度裁剪防止爆炸。

四、主要结果

  1. 训练收敛性(图3):L-D3QN-LS的奖励值随训练快速提升并稳定,显著优于基线方法。
  2. V2I容量提升(图4及表I):
    • 在V2V负载为1×1060字节时,L-D3QN-LS的V2I容量达41.57 Mbps,比D3QN-LS(38.35 Mbps)高8.4%。
    • 高负载下(12×1060字节),仍保持33.14 Mbps,优于其他方法。
  3. V2V传输成功率(图5及表I):
    • 低负载时(≤6×1060字节)成功率接近100%,高负载时(12×1060字节)仍达91.5%,显著高于D3QN(40.75%)。
  4. LSTM的贡献:引入LSTM后,模型在序列决策中表现更优,尤其在动态环境中快速适应信道变化。

五、结论与价值

  1. 科学价值
    • 提出首个结合LSTM与多智能体D3QN的车联网资源分配框架,解决了高移动性环境下的动态优化难题。
    • 验证了历史状态记忆对强化学习策略收敛的重要性。
  2. 应用价值
    • 为5G-V2X提供了低延迟、高可靠性的资源分配方案,可支持自动驾驶、紧急安全通信等场景。
  3. 局限性:当前功率等级为离散值,未来需扩展至连续功率控制。

六、研究亮点

  1. 方法创新:L-D3QN-LS首次将LSTM的时序建模能力与多智能体协作结合,显著提升性能。
  2. 工程意义:实验基于3GPP标准场景,参数设置贴近实际,结果具有直接可移植性。
  3. 跨学科融合:融合了强化学习、无线通信与智能交通三大领域的前沿技术。

七、其他补充

  • 开源潜力:算法未公开代码,但详细流程(Algorithm 1)可供复现。
  • 扩展方向:作者计划研究连续功率控制与更复杂的多车协作场景。

(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com