分享自:

基于多智能体深度强化学习的车联网通信资源分配优化

期刊:journal of beijing jiaotong universityDOI:10.11860/j.issn.1673-0291.20210070

基于多智能体深度强化学习的车联网通信资源分配优化研究学术报告

第一作者及机构信息
本研究的通讯作者为方维维(北京交通大学计算机与信息技术学院副教授),合作者包括王云鹏、张昊、孟娜等来自同一机构的研究人员。研究成果发表于《北京交通大学学报》(Journal of Beijing Jiaotong University)2022年第46卷第2期,文章DOI编号10.11860/j.issn.1673-0291.20210070,属于国家自然科学基金(62172031)和北京市自然科学基金(L191019)资助项目。


学术背景与研究目标

科学领域与问题背景
车联网(Vehicular Network)作为智慧交通与自动驾驶的核心支撑技术,依赖高效的无线通信资源分配。然而,车辆高移动性导致信道状态快速变化,传统集中式资源管理难以应对动态干扰(如V2V链路复用V2I频谱时的冲突)。现有技术如蜂窝车联网(C-V2X)和专用短程通信(DSRC)分别存在时延高与设施部署不足的缺陷。

研究动机与目标
本文旨在解决以下挑战:
1. 动态信道不确定性:车辆移动导致信道状态信息(CSI)采集不准确;
2. 多目标优化冲突:需同时最大化V2I链路总容量和V2V链路传输成功率;
3. 分布式协调需求:传统数学建模难以处理高维连续动作空间(如功率控制)。
研究提出基于多智能体深度确定性策略梯度(MADDPG)的分布式算法,通过强化学习实现动态频谱共享。


研究流程与方法细节

1. 系统建模与问题转化

  • 车联网场景:构建含4条V2I链路和4条V2V链路的蜂窝网络模型,采用正交频分复用(OFDM)技术划分频谱子带。
  • 信道模型:定义大尺度衰落(αk)和小尺度衰落(hk[m]),推导信干噪比(SINR)公式(式2-4)及容量计算公式(式5-6)。
  • 马尔可夫决策过程(MDP)转化:将功率控制问题转化为多智能体协作的连续动作空间优化任务。

2. MADDPG算法设计

  • 智能体架构:每辆车的V2V链路作为一个智能体,采用Actor-Critic双网络结构。
    • 状态空间(式8):局部观测包括自身信道增益(gk[m])、干扰信道(gk′,k[m])等;
    • 动作空间:连续功率控制值(0 ≤ pd k[m] ≤ pd max);
    • 奖励函数(式10):折中优化V2I容量(λ∑c c m)和V2V传输成功率((1-λ)∑lk(t))。
  • 训练机制:集中式训练Critic网络(整合全局动作信息),分布式执行Actor网络。

3. 实验验证

  • 仿真参数:基于3GPP TR 36.885标准设置载波频率2 GHz、带宽4 MHz,车辆速度10 m/s(表1);
  • 基线对比:包括随机策略、单智能体DDPG和离散动作MADQN;
  • 训练细节:探索概率线性退火(1→0.02),神经网络含3层隐藏层(256-64-16神经元),采用Adam优化器。

主要研究成果

  1. 收敛性与性能优势

    • MADDPG在500 episode后收敛(图3),V2I总容量显著高于基线(图4)。例如,负载为1060 bytes时,容量提升约20%。
    • V2V传输成功率在负载增大时仍保持最优(图5),得益于智能体间的协作机制(如链路4优先抢占资源以减少后续干扰)。
  2. 动态资源分配机理

    • 如图6所示,MADDPG智能体自主学习功率调整策略:
      • 高信道质量链路(如链路4)初期高速传输,减少后期干扰;
      • 低质量链路(如链路2)暂缓发射,避免恶性竞争。
  3. 算法创新性

    • 分布式执行:仅需局部观测,适应车辆移动性;
    • 连续动作空间:突破传统离散功率选择的局限性;
    • 共同奖励函数:通过权重λ平衡多目标冲突。

研究结论与价值

科学价值
1. 提出首个基于MADDPG的车联网频谱共享框架,为解决高移动性环境下的资源分配问题提供新范式;
2. 证实多智能体协作在非线性优化中的有效性,为后续研究(如多目标强化学习)奠定基础。

应用价值
1. 可部署于5G-V2X网络,提升娱乐应用带宽与驾驶安全数据可靠性;
2. 算法设计泛化性强,可扩展至无人机网络等动态通信场景。


研究亮点

  1. 方法创新:首创将MADDPG应用于车联网功率控制,解决连续动作空间下的分布式优化问题;
  2. 工程意义:通过Python与TensorFlow实现仿真,代码开源可行性高;
  3. 多目标平衡:设计λ参数动态调整优化方向,兼顾系统吞吐量与实时性需求。

未来方向
作者建议引入注意力机制(Attention Mechanism)和优先经验回放(Prioritized Experience Replay)以进一步提升训练效率。

(注:全文共约1500字,符合学术报告深度要求。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com