作者及机构
本研究由Fraunhofer IIS(德国埃尔兰根)的Shubhangi Bhadauria和Elke Roth-Mandutz、Altran Technologies(德国沃尔夫斯堡)的Zohaib Shabbir,以及Friedrich Alexander University(FAU,德国埃尔兰根)的Georg Fischer合作完成。论文发表于2020年IEEE国际黑海通信与网络会议(BlackSeaCom)。
研究领域
该研究属于智能交通系统(ITS)与无线通信的交叉领域,聚焦车联网(V2X,Vehicle-to-Everything)通信中的资源分配问题,结合深度强化学习(DRL,Deep Reinforcement Learning)与服务质量(QoS,Quality of Service)优化技术。
研究动机
3GPP在LTE中引入V2X通信以支持未来智能交通应用,如协同避撞、信息娱乐等。这些应用对QoS要求严苛,需兼顾低延迟(如3ms)与高可靠性(99.999%)。传统资源分配方法在动态车辆环境中难以满足需求,而DRL因其自适应决策能力成为潜在解决方案。
研究目标
提出一种基于DRL的分散式资源分配框架,优先保障高优先级V2V(车对车)通信的延迟约束,同时最大化V2I(车对基础设施)链路的吞吐量。
研究对象
- V2I链路:车辆与基站(eNB)间的通信,共I条。
- V2V链路:车辆间直接通信(PC5接口),共V对。
信道模型
- V2I信道增益(hi):基于3GPP TR 36.885的路径损耗模型。
- V2V信道增益(hv):考虑城市/高速公路场景的多普勒效应与阴影衰落。
干扰模型
- V2V链路复用V2I的上行资源,干扰计算包含噪声(N)与其他V2V链路信号(公式1-3)。
状态空间(State)
包括:当前信道状态(CSI)、历史干扰、邻车资源占用、剩余数据负载(lt)、剩余延迟预算(ut)、优先级(PPPP)。
动作空间(Action)
- 子信道选择:从20个资源块(RB)中选取。
- 发射功率:5 dBm、10 dBm或23 dBm(最高优先级强制23 dBm)。
奖励函数(Reward)
- 正奖励:V2I和V2V链路容量(公式2,4)。
- 负奖励:延迟违约惩罚,权重λp与PPPP优先级成正比(公式6)。
深度Q网络(DQN)结构
- 输入层:状态参数。
- 隐藏层:4层(500-250-120-50神经元),ReLU激活函数。
- 输出层:各动作的Q值。
- 优化器:Adam,学习率0.01,经验回放缓冲区(mini-batch=2000)。
场景设置
- 城市场景:56 km/h车速,双车道,80辆车。
- 高速公路场景:70 km/h和140 km/h,三车道。
评估指标
- V2I链路总吞吐量。
- V2V链路满足延迟约束的概率(PPPPP1-8映射为高/中/低三档,延迟阈值分别为20ms/60ms/100ms)。