本文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:
基于多智能体深度强化学习的车联网区分业务资源分配算法研究
1. 作者与发表信息
本研究由云南大学信息学院的蔡玉、官铮、王增文、王学、杨志军合作完成,发表于《计算机工程与科学》(*Computer Engineering & Science*)2024年10月第46卷第10期(DOI: 10.3969/j.issn.1007-130x.2024.10.005)。
2. 学术背景
研究领域:车联网(Internet of Vehicles, IoV)中的动态资源分配与频谱管理,属于无线通信与强化学习的交叉领域。
研究动机:车联网场景下,高动态环境导致传统资源分配方法难以实时优化频谱和功率,且现有算法多忽略业务差异性(如紧急业务优先级)。
目标:提出一种多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning, MADRL)算法,在保障车对基础设施(V2I)链路容量的同时,最大化车对车(V2V)链路数据包交付率,并优先降低紧急业务链路的干扰。
3. 研究流程与方法
3.1 问题建模
- 通信模型:构建单天线车载网络,包含蜂窝用户(V2I链路)与设备直连用户(D2D,即V2V链路),子信道复用引发干扰。
- 优化目标:以加权函数形式联合优化V2I总容量、V2V交付率及紧急链路干扰(公式7-8),约束条件包括最小传输容量和最大干扰阈值。
- 马尔可夫决策过程(MDP):将资源分配问题建模为多智能体协作的MDP,每个车辆作为独立智能体,通过局部观测(信道增益、干扰、剩余负载)决策频谱与功率分配。
3.2 算法设计
- 智能体架构:采用分布式深度Q网络(DQN),每个智能体独立训练但共享全局奖励函数(公式12),通过协作最大化长期累积奖励。
- 状态空间:包含局部信道增益(hdj[m]、hdj,n[m]等)、剩余负载bj(公式9)。
- 动作空间:离散化频谱选择(ρj[m]∈{0,1})与功率等级(-100/5/10/23 dBm)(公式10)。
- 奖励函数:设计三重权重(λc, λd, λf)平衡V2I容量、V2V负载完成奖励(ξ)及紧急链路干扰惩罚(公式11-12)。
- 训练机制:经验回放(Experience Replay)与目标网络(Target Network)稳定训练,每回合(Episode)更新小尺度信道衰落(算法1)。
3.3 实验验证
- 仿真环境:基于3GPP TR 36.885城市场景,参数包括4条V2I/V2V链路、4个子信道、车辆速度36 km/h(表2)。
- 对比算法:Max-V2V-Rate(理想上限)、SDQN(单智能体)、MDQN(多智能体无业务区分)、Random(随机分配)。
- 评估指标:V2I/V2V吞吐量、数据包交付率、紧急链路干扰。
4. 主要结果
4.1 性能对比
- 吞吐量:高负载下,所提算法V2I总吞吐量较Random提升11.6%(3.76 Mbps),V2V吞吐量接近Max-V2V-Rate(图4-5)。
- 交付率:V2V数据包交付率较Random提高17.1%,尤其在负载增大时优势显著(图6)。
- 紧急业务保障:紧急链路干扰较普通链路降低1.42 dB,验证了优先级机制有效性(图7-8)。
4.2 收敛性分析
训练约1500回合后奖励收敛(图3),虽因车辆移动性存在波动,但整体稳定性优于单智能体方法(SDQN)。
5. 结论与价值
科学价值:
- 首次将多智能体强化学习与业务区分机制结合,解决了车联网中动态资源分配的复杂约束问题。
- 提出的加权奖励函数和协作训练框架为异构业务场景提供了通用优化范式。
应用价值:
- 提升高负载场景下的频谱利用率,支持智能交通系统中紧急业务的低延迟传输。
- 算法可扩展至其他需区分服务质量的无线网络(如5G切片、无人机通信)。
6. 研究亮点
- 创新方法:结合MADRL与业务优先级,通过全局奖励函数实现隐式协作。
- 工程意义:在3GPP标准场景下验证了算法的鲁棒性,参数设计贴合实际车联网部署需求。
- 开源贡献:实验基于文献[20]的模拟器,增强了结果的可复现性。
7. 其他价值
- 为连续功率控制与多业务类型扩展提供了研究基础(如视频流与安全消息的差异化调度)。
- 提出的分布式架构降低了中央控制单元的计算开销,适合大规模车载网络部署。
(注:全文约2000字,完整覆盖研究背景、方法、结果与价值,符合学术报告规范。)