学术研究报告:基于多智能体强化学习的D2D通信资源分配算法研究
一、研究作者及发表信息
本研究由李陶深(南宁学院信息工程学院;广西大学计算机与电子信息学院)、漆治军和杜利俊(广西大学计算机与电子信息学院)合作完成,发表于《燕山大学学报》(Journal of Yanshan University)2025年9月第49卷第5期,文章编号为1007-791x(2025)05-0461-10。研究得到国家自然科学基金项目(62062008、61762010)资助。
二、学术背景与研究目标
科学领域:本研究属于无线通信网络中的资源分配优化领域,聚焦于蜂窝网络中的设备间通信(Device-to-Device, D2D)技术。
研究背景:随着5G/6G技术发展,D2D通信通过复用蜂窝频谱资源提升系统性能,但同频干扰问题限制了其能效和吞吐量。传统资源分配算法未充分考虑用户移动性及信道动态变化,且依赖集中式控制,导致计算复杂度高、适应性不足。
研究目标:提出一种基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的分布式资源分配算法,结合无线携能通信(Simultaneous Wireless Information and Power Transfer, SWIPT)技术,在满足服务质量(QoS)约束下,最大化D2D链路层的能量效率。
三、研究流程与方法
1. 问题建模
- 系统模型:构建单蜂窝网络场景,包含基站(BS)、蜂窝用户(CUE)和D2D用户对(DUE)。DUE配备SWIPT模块,可复用蜂窝上行链路资源。
- 干扰分析:通过信号干扰加噪声比(SINR)量化服务质量,建立信道增益模型(大尺度衰落与小尺度衰落)。
- 优化问题:将资源分配问题(P1)分解为功率控制与信道分配两个子问题,目标为最大化D2D链路层能量效率(式9a),约束条件包括发射功率范围、SWIPT能量分配比例及最低SINR要求。
算法设计
仿真验证
四、主要结果与逻辑关联
1. 收敛性验证:算法在250次训练迭代后累计奖励趋于稳定(图6),表明其能适应动态信道环境。
2. 性能对比:
- 能效提升:DUE数量为20对时,本文算法能效达327(bit/J),显著高于SARL(177)和随机算法(206)(图7、图9)。
- 功耗优化:相同场景下,本文算法总功耗为369.36 mW,较SARL(635.63 mW)降低41.9%(图8)。
3. 干扰管理:通过分布式信息交换(图2)和SWIPT技术,将干扰转化为可用能量(式6),有效缓解同频干扰。
五、结论与价值
1. 科学价值:
- 提出首个结合SWIPT与MARL的D2D资源分配算法,解决了动态信道环境下的分布式优化难题。
- 验证了DDQN在多智能体协作中的有效性,为异构网络资源分配提供新思路。
2. 应用价值:
- 适用于高密度D2D场景(如物联网、车联网),提升频谱利用率的同时降低能耗。
- 算法无需全局信道状态信息(CSI),降低了基站信令开销。
六、研究亮点
1. 方法创新:首次将SWIPT技术与MARL结合,通过能量回收机制提升能效。
2. 技术突破:设计分布式DDQN框架,支持智能体在局部信息下学习最优策略。
3. 场景适应性:算法在用户移动性及不完全CSI条件下仍保持鲁棒性。
七、其他价值
研究通过物理仿真(如Amesim与Simulink联合仿真)验证了算法实用性,并指出未来可扩展至多基站异构网络,进一步探索基站切换场景下的快速响应策略。