分享自:

基于QoS的车联网深度强化学习资源分配方案

期刊:2020 IEEE International Black Sea Conference on Communications and Networking (BlackSeaCom)

基于QoS的深度强化学习在V2X资源分配中的应用研究

作者及机构
本研究由Fraunhofer IIS(德国埃尔兰根)的Shubhangi Bhadauria和Elke Roth-Mandutz、Altran Technologies(德国沃尔夫斯堡)的Zohaib Shabbir,以及Friedrich Alexander University(FAU,德国埃尔兰根)的Georg Fischer合作完成。论文发表于2020年IEEE国际黑海通信与网络会议(BlackSeaCom)。

学术背景

研究领域
该研究属于智能交通系统(ITS)与无线通信的交叉领域,聚焦车联网(V2X,Vehicle-to-Everything)通信中的资源分配问题,结合深度强化学习(DRL,Deep Reinforcement Learning)与服务质量(QoS,Quality of Service)优化技术。

研究动机
3GPP在LTE中引入V2X通信以支持未来智能交通应用,如协同避撞、信息娱乐等。这些应用对QoS要求严苛,需兼顾低延迟(如3ms)与高可靠性(99.999%)。传统资源分配方法在动态车辆环境中难以满足需求,而DRL因其自适应决策能力成为潜在解决方案。

研究目标
提出一种基于DRL的分散式资源分配框架,优先保障高优先级V2V(车对车)通信的延迟约束,同时最大化V2I(车对基础设施)链路的吞吐量。

研究流程

1. 系统建模

研究对象
- V2I链路:车辆与基站(eNB)间的通信,共I条。
- V2V链路:车辆间直接通信(PC5接口),共V对。

信道模型
- V2I信道增益(hi):基于3GPP TR 36.885的路径损耗模型。
- V2V信道增益(hv):考虑城市/高速公路场景的多普勒效应与阴影衰落。

干扰模型
- V2V链路复用V2I的上行资源,干扰计算包含噪声(N)与其他V2V链路信号(公式1-3)。

2. DRL框架设计

状态空间(State)
包括:当前信道状态(CSI)、历史干扰、邻车资源占用、剩余数据负载(lt)、剩余延迟预算(ut)、优先级(PPPP)。

动作空间(Action)
- 子信道选择:从20个资源块(RB)中选取。
- 发射功率:5 dBm、10 dBm或23 dBm(最高优先级强制23 dBm)。

奖励函数(Reward)
- 正奖励:V2I和V2V链路容量(公式2,4)。
- 负奖励:延迟违约惩罚,权重λp与PPPP优先级成正比(公式6)。

深度Q网络(DQN)结构
- 输入层:状态参数。
- 隐藏层:4层(500-250-120-50神经元),ReLU激活函数。
- 输出层:各动作的Q值。
- 优化器:Adam,学习率0.01,经验回放缓冲区(mini-batch=2000)。

3. 仿真验证

场景设置
- 城市场景:56 km/h车速,双车道,80辆车。
- 高速公路场景:70 km/h和140 km/h,三车道。

评估指标
- V2I链路总吞吐量。
- V2V链路满足延迟约束的概率(PPPPP1-8映射为高/中/低三档,延迟阈值分别为20ms/60ms/100ms)。

主要结果

城市场景(56 km/h)

  1. V2I吞吐量
    • 基于PPPPP的DRL比随机分配提升26.16%,比无优先级DRL(4隐藏层)提升7.034%。
  2. V2V延迟满足率
    • 优先级DRL达90%,较随机方法提升17.73%,较无优先级DRL提升1.33%。

高速公路场景

  1. 低速(70 km/h)
    • V2I吞吐量较城市场景下降2.64%,但仍比随机方法高28%。
    • V2V延迟满足率较城市场景下降2.17%。
  2. 高速(140 km/h)
    • 信道快速变化导致V2I吞吐量骤降52.47%,但延迟满足率仅降低3.98%。

研究结论

  1. 科学价值
    • 首次在DRL中整合3GPP定义的PPPPP优先级,验证了QoS感知资源分配的可行性。
    • 分散式架构减少对全局信息的依赖,适合动态车联网环境。
  2. 应用价值
    • 为5G-V2X中的关键任务(如紧急避撞)提供低延迟保障,同时优化网络吞吐量。

研究亮点

  1. 方法创新
    • 提出优先级敏感的奖励函数设计,通过λp权重动态调整惩罚强度。
  2. 场景覆盖
    • 覆盖城市与高速公路场景,验证算法在车速变化下的鲁棒性。
  3. 性能优势
    • 在严苛延迟约束(20ms)下仍保持90%的V2V服务可靠性。

其他价值

  • 开源仿真框架基于3GPP TR 36.885,可扩展至异构网络或拥塞场景研究。
  • 为后续研究提供基准:如结合GPU加速(参考[6]的2.4×10−4秒/决策)或更复杂的多智能体协作机制。
上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com