分享自:

基于多智能体强化学习的D2D通信资源分配算法研究

期刊:燕山大学学报DOI:10.3969/j.issn.1007-791x.2025.05.009

学术研究报告:基于多智能体强化学习的D2D通信资源分配算法研究

一、研究作者及发表信息
本研究由李陶深(南宁学院信息工程学院;广西大学计算机与电子信息学院)、漆治军杜利俊(广西大学计算机与电子信息学院)合作完成,发表于《燕山大学学报》(Journal of Yanshan University)2025年9月第49卷第5期,文章编号为1007-791x(2025)05-0461-10。研究得到国家自然科学基金项目(62062008、61762010)资助。

二、学术背景与研究目标
科学领域:本研究属于无线通信网络中的资源分配优化领域,聚焦于蜂窝网络中的设备间通信(Device-to-Device, D2D)技术。
研究背景:随着5G/6G技术发展,D2D通信通过复用蜂窝频谱资源提升系统性能,但同频干扰问题限制了其能效和吞吐量。传统资源分配算法未充分考虑用户移动性及信道动态变化,且依赖集中式控制,导致计算复杂度高、适应性不足。
研究目标:提出一种基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的分布式资源分配算法,结合无线携能通信(Simultaneous Wireless Information and Power Transfer, SWIPT)技术,在满足服务质量(QoS)约束下,最大化D2D链路层的能量效率。

三、研究流程与方法
1. 问题建模
- 系统模型:构建单蜂窝网络场景,包含基站(BS)、蜂窝用户(CUE)和D2D用户对(DUE)。DUE配备SWIPT模块,可复用蜂窝上行链路资源。
- 干扰分析:通过信号干扰加噪声比(SINR)量化服务质量,建立信道增益模型(大尺度衰落与小尺度衰落)。
- 优化问题:将资源分配问题(P1)分解为功率控制与信道分配两个子问题,目标为最大化D2D链路层能量效率(式9a),约束条件包括发射功率范围、SWIPT能量分配比例及最低SINR要求。

  1. 算法设计

    • 多智能体强化学习框架:每个D2D链路作为智能体,其状态空间包括本地信道增益、干扰信息、历史功率及SWIPT系数;动作空间为离散化的功率级别(式18)和能量分配比例(式19)。
    • 双深度Q网络(Double Deep Q-Network, DDQN)
      • 创新点:采用分离的Train-DQN和Target-DQN结构,解决Q值高估问题(式22)。
      • 训练流程:智能体通过ε-greedy策略探索动作,存储经验元组至回放缓冲区,随机采样小批量数据更新网络参数(算法1)。
    • 奖励函数设计:结合D2D能效、蜂窝用户吞吐量及QoS违约惩罚(式21),平衡多目标优化。
  2. 仿真验证

    • 实验设置:使用Python与TensorFlow搭建仿真平台,模拟半径200m的单蜂窝小区,包含10个CUE和20对DUE。
    • 对比算法:与单智能体强化学习(SARL)算法、随机分配算法对比性能。
    • 评估指标:能量效率(bit/J)、吞吐量(bps)、功耗(mW)及收敛性。

四、主要结果与逻辑关联
1. 收敛性验证:算法在250次训练迭代后累计奖励趋于稳定(图6),表明其能适应动态信道环境。
2. 性能对比
- 能效提升:DUE数量为20对时,本文算法能效达327(bit/J),显著高于SARL(177)和随机算法(206)(图7、图9)。
- 功耗优化:相同场景下,本文算法总功耗为369.36 mW,较SARL(635.63 mW)降低41.9%(图8)。
3. 干扰管理:通过分布式信息交换(图2)和SWIPT技术,将干扰转化为可用能量(式6),有效缓解同频干扰。

五、结论与价值
1. 科学价值
- 提出首个结合SWIPT与MARL的D2D资源分配算法,解决了动态信道环境下的分布式优化难题。
- 验证了DDQN在多智能体协作中的有效性,为异构网络资源分配提供新思路。
2. 应用价值
- 适用于高密度D2D场景(如物联网、车联网),提升频谱利用率的同时降低能耗。
- 算法无需全局信道状态信息(CSI),降低了基站信令开销。

六、研究亮点
1. 方法创新:首次将SWIPT技术与MARL结合,通过能量回收机制提升能效。
2. 技术突破:设计分布式DDQN框架,支持智能体在局部信息下学习最优策略。
3. 场景适应性:算法在用户移动性及不完全CSI条件下仍保持鲁棒性。

七、其他价值
研究通过物理仿真(如Amesim与Simulink联合仿真)验证了算法实用性,并指出未来可扩展至多基站异构网络,进一步探索基站切换场景下的快速响应策略。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com