本文档属于类型a,即报道了一项原创性研究的学术论文。以下为针对该研究的详细学术报告:
研究作者与发表信息
本研究由林吉昌(中国移动通信集团福建有限公司福州分公司)完成,发表于《长江信息通信》2025年第6期,DOI编号为10.20153/j.issn.2096-9759.2025.06.014。
研究背景与目标
随着5G通信技术的快速发展,如何在复杂的动态网络环境中高效分配无线资源并优化能效成为关键挑战。传统方法(如规则设计或启发式算法)在灵活性和适应性上存在不足。为此,本研究提出了一种基于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的解决方案,旨在通过智能化协同决策实现频谱分配与功率控制的动态优化。核心科学目标包括:
1. 构建基于部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)的多智能体模型,以模拟5G网络的部分观测特性;
2. 引入门控循环单元(Gated Recurrent Unit, GRU)增强模型记忆力,提升对用户行为的预测精度;
3. 通过协作机制最大化网络能效(Energy Efficiency, EE)与通信质量(如信噪比、时延等)。
研究方法与流程
研究分为三个阶段:模型构建、方案设计、实验验证。
1. 模型构建
- POMDP框架设计:
- 状态空间(式1):包含用户位置、信号质量、网络负载等动态参数。
- 动作空间(式2):定义频谱分配和功率控制的决策集合。
- 奖励函数(式3):以系统能效(式6)为核心指标,结合信噪比约束(式7)和干扰惩罚(式10),确保通信质量与能耗平衡。
- 协作机制:通过式(5)实现智能体间状态-动作值函数(Q函数)的共享,避免局部最优导致的资源浪费。
- GRU增强:在标准MADDPG算法中集成GRU结构(图2),利用历史记忆优化策略网络(Actor)和评估网络(Critic)的参数更新。
2. 方案设计
- 频谱与功率联合优化:
- 频谱分配通过约束信噪比(式7)保障用户最低通信需求;
- 功率分配通过式(8)最小化满足信噪比阈值的功耗。
- 动态适应:采用全局-局部观测共享机制(式9),使智能体能实时响应网络变化(如用户接入/离开、信道波动)。
3. 实验验证
- 仿真环境:
- 硬件:Intel Xeon Q3’24 CPU、16GB内存;
- 软件:Python 3.8 + PettingZoo多智能体库;
- 场景:5G NR Release 15标准下的多小区MU-MIMO拓扑。
- 对比算法:包括COMA、AC和随机化算法(Random)。
- 性能指标:平均奖励值、能效、时延、速率等。
主要结果
- 算法收敛性:
- GRU-MADDPG在Actor网络学习率为0.0015时最优(图3a),980回合后平均奖励达1.78,最终稳定于1.9~2.0(图4);
- 标准MADDPG需2300回合才收敛,且波动更大。
- 能效提升:
- 对比COMA、AC和Random算法,GRU-MADDPG的资源分配效率提高15%~20%(图4);
- 福建公司实际部署中(表1),智能体日均调用1770次,支撑3000+用户,Token处理量达145.8万/日。
- 业务性能:
- 福州5G-A示范区(表2)显示,短视频业务在重载场景下时延降低32.53%,上行直播速率提升31.84%;
- 高清视频占比最高提升23.66%。
结论与价值
本研究通过融合POMDP与GRU-MADDPG,为5G网络提供了自适应资源管理的新方法,其科学价值与应用价值体现在:
1. 理论创新:首次将GRU的记忆增强特性引入多智能体强化学习,解决了动态环境中历史信息利用率低的问题;
2. 工程落地:在中国移动福建公司的试点中验证了算法的高效性,为绿色通信与智能化运维提供了技术支撑;
3. 行业参考:方案在复杂场景(如智慧城市、工业物联网)中具广泛适配性。
研究亮点
- 方法新颖性:GRU-MADDPG算法在MARL领域属首创,其收敛速度与稳定性显著优于传统方法;
- 跨学科融合:结合深度学习(GRU)与强化学习(MADDPG),推动AI在通信领域的应用边界;
- 实证全面性:涵盖仿真实验与真实网络部署,数据跨度从微观(用户级KPI)到宏观(系统能效)。
局限性及展望
- 当前实验未覆盖超大规模网络(如10万+用户),未来需进一步测试算法扩展性;
- 实际部署中基站硬件差异可能影响性能,需增强鲁棒性设计。