基于多智能体强化学习的车载网络资源分配优化

分享自：
基于多智能体强化学习的车载网络资源分配优化

交通与运载工程
电子科学与信息系统
期刊:IEEE
本文档属于类型a（单篇原创研究论文），以下是针对该研究的学术报告：
基于多智能体强化学习的车载网络资源分配优化研究一、作者与发表信息本研究由Yu Zhang†, Shufei Wang†, Minyu Hua†, Yibin Zhang†, Yu Wang†, Tomoaki Ohtsuki‡, Hikmet Sari†, Guan Gui†合作完成。†标注作者来自中国南京邮电大学（NJUPT）通信与信息工程学院，‡标注作者来自日本庆应义塾大学信息与计算机科学系。论文发表于2024年IEEE第99届车辆技术会议（VTC2024-Spring），DOI编号为10.1109/VTC2024-Spring62846.2024.10683540。
二、学术背景研究领域：本研究属于智能交通系统中的车联网（V2X）通信领域，聚焦于高移动性环境下的动态频谱资源分配问题。
研究动机：
 1. 挑战：车辆高速移动导致基站（BS）难以获取全面的信道状态信息（CSI），而道路安全通信要求低延迟、高可靠性，传统资源分配方法（如启发式算法或集中式管理）存在频谱利用率低、干扰严重等问题。
 2. 技术背景：现有研究尝试通过强化学习（RL）优化资源分配，但多数方法（如D3QN）未充分考虑环境动态性和历史状态记忆，导致策略收敛慢或性能受限。
 3. 目标：提出一种结合Dueling Double Deep-Q Network（D3QN）与长短期记忆网络（LSTM）的多智能体强化学习方法（L-D3QN-LS），以同时提升车对基础设施（V2I）链路的容量和车对车（V2V）链路的安全传输成功率。
三、研究流程与方法1. 系统建模环境构建：基于曼哈顿网格城市模型，模拟包含P条V2V链路和M条V2I链路的通信场景。V2I链路固定分配子频段，V2V链路通过D2D通信（PC5接口）动态共享频谱。
 
信道模型：依据3GPP TR 36.885标准，定义信道功率增益（含大尺度衰落ϱ和小尺度衰落h）及信干噪比（SINR）公式（见原文式(1)-(4)）。
 
2. 问题公式化优化目标：
 最大化V2I链路总容量（式(5)）。
 
保障V2V链路安全数据的成功传输率（式(7)），要求在规定时间内传输指定比特数（bp）。
 
3. 算法设计（L-D3QN-LS）核心创新：
 LSTM网络：存储历史动作与环境反馈，增强序列数据建模能力。
 
多智能体框架：每个V2V链路作为独立智能体，通过协作学习最优频谱与功率分配策略。
 
改进探索策略：引入低维指纹（fingerprint）和软更新（soft update）机制，稳定训练过程。
 
关键组件：
 观察空间：包含信道增益、剩余传输比特（bp）、剩余时间（tp）等7类信息（式(8)）。
 
动作空间：离散功率等级（23/10/5/-100 dBm）与子频段选择。
 
奖励函数：加权平衡V2I容量（式(10)）与V2V传输率（式(9)），最终奖励如式(11)。
 
4. 实验设置参数：LSTM隐藏层128维，后续全连接层分别为500/250/120维，使用ReLU激活函数和Adam优化器。
 
对比基线：D3QN、D3QN-LS、L-D3QN。
 
训练：3000轮次，采用ϵ-贪婪策略退火机制。
 
5. 数据分析性能指标：V2I总容量（Mbps）与V2V传输完成率（%）。
 
数据处理：输入数据白化归一化，梯度裁剪防止爆炸。
 
四、主要结果训练收敛性（图3）：L-D3QN-LS的奖励值随训练快速提升并稳定，显著优于基线方法。
 
V2I容量提升（图4及表I）：
 在V2V负载为1×1060字节时，L-D3QN-LS的V2I容量达41.57 Mbps，比D3QN-LS（38.35 Mbps）高8.4%。
 
高负载下（12×1060字节），仍保持33.14 Mbps，优于其他方法。
 
V2V传输成功率（图5及表I）：
 低负载时（≤6×1060字节）成功率接近100%，高负载时（12×1060字节）仍达91.5%，显著高于D3QN（40.75%）。
 
LSTM的贡献：引入LSTM后，模型在序列决策中表现更优，尤其在动态环境中快速适应信道变化。
 
五、结论与价值科学价值：
 提出首个结合LSTM与多智能体D3QN的车联网资源分配框架，解决了高移动性环境下的动态优化难题。
 
验证了历史状态记忆对强化学习策略收敛的重要性。
 
应用价值：
 为5G-V2X提供了低延迟、高可靠性的资源分配方案，可支持自动驾驶、紧急安全通信等场景。
 
局限性：当前功率等级为离散值，未来需扩展至连续功率控制。
 
六、研究亮点方法创新：L-D3QN-LS首次将LSTM的时序建模能力与多智能体协作结合，显著提升性能。
 
工程意义：实验基于3GPP标准场景，参数设置贴近实际，结果具有直接可移植性。
 
跨学科融合：融合了强化学习、无线通信与智能交通三大领域的前沿技术。
 
七、其他补充开源潜力：算法未公开代码，但详细流程（Algorithm 1）可供复现。
 
扩展方向：作者计划研究连续功率控制与更复杂的多车协作场景。
 
（报告总字数：约1800字）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问