基于无蜂窝大规模MIMO网络的多智能体强化学习无人机轨迹能量高效优化

分享自：
基于无蜂窝大规模MIMO网络的多智能体强化学习无人机轨迹能量高效优化

期刊:ieee transactions on wireless communicationsDOI:10.1109/twc.2025.3550266
《IEEE Transactions on Wireless Communications》期刊于2025年7月发表了题为《Energy-Efficient Multi-Agent Reinforcement Learning for UAV Trajectory Optimization in Cell-Free Massive MIMO Networks》的研究论文。该研究由来自北京交通大学先进轨道交通自主运行全国重点实验室和电子信息工程学院的Zhilong Liu、Jiayi Zhang、Bo Ai，以及来自东南大学移动通信国家重点实验室和紫金山实验室的Yong Zeng共同完成。论文获得国家自然科学基金、中央高校基本科研业务费和中兴产学研合作基金的支持。本研究聚焦于下一代无线通信网络的前沿领域，旨在解决空间-空中-地面一体化网络（SAGIN）中的关键能效优化问题。
研究背景与目标随着第六代（6G）移动通信系统研究的深入，提供全球无缝覆盖和超高可靠连接的需求日益迫切。空间-空中-地面一体化网络（SAGIN）被认为是实现这一愿景的关键架构，它通过整合卫星网络、空中平台（如无人机，UAV）和地面网络，构建一个立体化、智能协同的通信基础设施。然而，传统地面基站覆盖能力有限，难以有效服务于偏远地区或应急场景。无人机以其高机动性和灵活性，可作为空中接入点（AP），动态增强网络覆盖与容量。特别是将无蜂窝大规模多输入多输出（Cell-Free Massive MIMO, CF mMIMO）架构引入SAGIN，利用大量分布式接入点协同服务用户，能显著提升频谱效率和宏分集增益。
尽管如此，无人机辅助的通信面临一个根本性挑战：有限的机载能量。无人机的能量消耗主要来自维持飞行的推进能耗，这远高于其通信能耗。因此，设计节能高效的无人机轨迹至关重要，需要在提升系统容量（如频谱效率）和降低无人机能耗之间取得最佳平衡。现有研究多集中于地面无蜂窝网络或简化的无人机能耗模型，未能充分考虑无人机实际飞行中速度、加速度对能耗的动态影响，也未系统性地在动态时变环境中，联合优化多无人机轨迹以最大化系统整体能效。
基于此，本研究确立了核心目标：在一个由无人机作为飞行接入点（UAV-AP）的无蜂窝SAGIN（CF SAGIN）中，研究并解决无人机轨迹优化问题，以最大化系统能量效率（Energy Efficiency, EE）。为实现此目标，研究需要：1) 建立包含卫星直连设备干扰的准确上行链路频谱效率模型；2) 采用更贴近固定翼无人机实际的推进能耗模型；3) 设计有效的用户分组策略以确定无人机服务关系；4) 提出能够在动态环境中自适应优化的轨迹规划算法，特别是利用多智能体强化学习来应对复杂的高维非凸优化问题。
研究流程与方法详述本研究遵循一个系统性的工作流程，从系统建模、理论分析到算法设计与验证，主要包含以下步骤：
第一步：系统模型与性能分析建模 研究首先构建了一个三层无蜂窝SAGIN架构模型。地面层包含多个单天线地面用户设备（GUE）。空中层由多个配备多天线阵列的固定翼无人机作为移动接入点（UAV-AP），在固定高度飞行，其水平位置、速度和加速度是待优化的关键变量。空间层考虑低地球轨道（LEO）卫星，其中一个特殊场景是存在一个直接与卫星通信的GUE（卫星直连设备），其发射功率通常高于普通GUE，会对UAV-AP的上行接收产生强干扰。 在信道模型上，考虑了视距（LoS）概率与仰角相关的莱斯衰落信道，并采用最大比（MR）合并策略。研究推导了上行链路数据传输过程中，在存在卫星直连设备干扰下，基于统计信道状态信息（CSI）的频谱效率（SE）的精确闭式表达式。这是后续能效计算和优化问题构建的基础。同时，研究采用了一个适用于固定翼无人机的实际推进功率消耗模型，该模型明确将能耗表述为无人机瞬时速度和加速度的函数，指出在稳态平飞中，能耗主要取决于速度的立方以及与加速度平方成正比的一项。
第二步：地面用户分组策略设计 为了降低多UAV-AP服务场景中的碰撞概率和无效能耗，并确定每个UAV-AP的服务目标集合，研究提出了基于用户密度分布的用户分组方案。研究重点介绍了一种新颖的密度交互GUE分组算法（Density-Interaction GUE Grouping Algorithm, DIUGA）。该算法流程如下：1) 初始化聚类中心：采用类似K-means++的方法，根据距离概率选择初始聚类中心（对应UAV-AP数量）。2) 计算用户密度：为每个GUE计算其一定半径内的邻居GUE数量，作为其局部密度。3) 迭代分配：在每次迭代中，将每个GUE分配到使其“距离-密度比”（即到聚类中心的距离除以其自身密度）最小的那个集群。该算法通过引入密度因素，使分组不仅考虑地理距离，还考虑用户分布的疏密程度，从而生成更均衡、更合理的服务分区。
第三步：能效最大化问题构建与离线优化 基于上述模型，研究将UAV-AP的轨迹、速度、加速度联合优化问题形式化为一个能量效率最大化问题（标记为P1）。目标函数是总频谱效率与总推进能耗的比值。约束条件包括无人机运动学方程（位置、速度、加速度的递推关系）、起点/终点位置约束、最大加速度约束以及速度上下限约束。该问题是一个高度非凸的分式规划问题，难以直接求解。 为此，研究首先采用逐次凸逼近（Successive Convex Approximation, SCA） 策略进行离线优化。具体流程是：1) 引入松弛变量处理速度约束中的非凸项。2) 利用一阶泰勒展开对目标函数中的非凸部分（源于信道大尺度衰落与位置的关系）进行局部凸近似，得到一个在每次迭代中可解的近似凸优化子问题（标记为P3）。3) 迭代求解该子问题，更新无人机的位置、速度、加速度等变量，直至收敛到原问题的一个满足KKT条件的稳定点。SCA方法能够在给定全局信道信息（大尺度衰落）的情况下，为无人机计算出一条理论上能效较高的轨迹，但其属于集中式优化，计算复杂，且难以适应环境的实时动态变化。
第四步：基于多智能体强化学习的在线轨迹优化算法设计 为应对动态环境并实现分布式在线决策，研究提出了一个创新的多智能体强化学习（MARL） 解决方案，称为单评论家-多演员MADDPG算法（Single-Critic-Multi-Actor MADDPG, SCMA-MADDPG）。 * 智能体与环境设置：每个UAV-AP被视为一个独立的智能体。其观察（State） 包括自身位置、加速度、附近其他UAV-AP的位置以及其所服务分组的最近GUE位置。其动作（Action） 定义为在二维水平面上的加速度指令。奖励（Reward） 设计为鼓励高能效并避免碰撞，具体形式为当前时刻的总频谱效率减去归一化的功率消耗项，再减去一个碰撞惩罚项。 * 算法框架创新：研究采用“集中式训练，分散式执行”的框架。关键创新在于共享评论家网络。与标准MADDPG算法中每个智能体拥有独立的评论家网络不同，SCMA-MADDPG算法为所有智能体共用一个中央评论家网络。这个共享评论家接收所有智能体的联合观察和联合动作作为输入，输出对全局状态-动作对的评估值。每个智能体则拥有自己独立的演员网络，根据其局部观察输出动作。 * 工作流程：在训练阶段，智能体与环境交互，将经验（观察、动作、奖励、新观察）存入共享的经验回放池。中央评论家网络通过最小化时序差分误差进行更新。每个智能体的演员网络则根据公式（26）所示的策略梯度进行更新，其中梯度方向由共享评论家网络对其动作的梯度指导。通过共享评论家，算法显著减少了需要训练的参数数量（复杂度从O(m*F)降至O(F)，其中m为智能体数量，F为网络参数规模），降低了计算负担，更适用于计算资源有限的无人机平台，同时保持了协同学习的能力。
第五步：仿真验证与结果分析 研究通过大量仿真实验验证所提方案的有效性。仿真参数设置参考相关文献，在一个1000m×1000m区域内部署6个UAV-AP和30个随机分布的GUE，并设置一个卫星直连设备。对比算法包括传统的SCA方法、深度确定性策略梯度（DDPG）、标准MADDPG以及提出的DIUGA分组算法和SCMA-MADDPG算法。 主要分析流程包括：1) 轨迹可视化：展示了采用DIUGA分组后，UAV-AP在能效最大化目标与仅频谱效率最大化目标下的不同轨迹。能效最大化轨迹倾向于在目标区域上空进行“8”字形盘旋，以在通信质量和能耗间取得平衡；而速率最大化轨迹则倾向于直接飞向用户簇中心。2) 速度分析：对比了两种优化目标下无人机速度的变化，能效最大化轨迹的速度变化更平缓，避免了不必要的加速。3) 算法性能对比：绘制了SCMA-MADDPG、MADDPG和DDPG三种RL算法在训练过程中的平均能效随迭代次数的变化曲线。结果显示，SCMA-MADDPG能稳定收敛并获得优于DDPG的性能，且与需要更多参数的标准MADDPG性能相当，验证了其有效性和高效性。4) 参数影响分析：分析了无人机飞行高度对系统能效和频谱效率的影响，结果表明较低高度（如80m）有利于提升两者性能。5) 可扩展性测试：通过增加UAV-AP和GUE的数量，测试了SCMA-MADDPG算法的可扩展性，结果显示算法在不同规模下均能收敛，表明其具有良好的扩展潜力。
主要研究结果及其逻辑关联研究在各个步骤中取得了一系列相互支撑的结果： 1. 理论推导结果：成功推导出在卫星直连设备干扰下，CF SAGIN上行链路频谱效率的闭式表达式（定理1、定理2及公式15），并结合实际的固定翼无人机功耗模型（公式19），明确了能量效率的数学表征。这是整个优化问题的理论基石，使得后续的优化目标（公式20）得以量化。 2. 分组算法结果：提出的DIUGA算法能够根据GUE的地理位置和分布密度，形成合理的服务分区。仿真图（图3，图4）显示，基于DIUGA的分组使得每个UAV-AP能够明确其服务簇，从而引导其轨迹规划。与另一种基于图论的MUE-GA算法相比，DIUGA考虑密度因素，可能产生更均衡的簇划分，从源头上减少了UAV-AP为服务边缘用户而产生的过量移动能耗。 3. 离线优化结果：SCA方法能够求解出在静态全局信息下的高能效轨迹。图5展示了在能效最大化目标下，无人机速度维持在接近能量最优化速度（约30 m/s）附近，并做平滑调整；而在速率最大化目标下，速度策略不同。这验证了所构建的优化问题及SCA求解方法的有效性，为在线学习算法提供了一个性能基准参考。 4. 在线学习算法核心结果：SCMA-MADDPG算法被证明是成功的。图6的收敛曲线是最直接的证据，表明该算法能通过与环境交互自主学习到高效的协同飞行策略。其最终收敛到的能效水平与标准MADDPG相当，但网络参数大幅减少（得益于共享评论家），这意味着更低的训练复杂度和更适用于机载计算。这是本研究在方法论上的一个关键成果。 5. 综合仿真验证结果：所有仿真结果共同支撑了研究的核心结论。例如，轨迹图证明了优化目标对行为策略的影响；速度图印证了功耗模型中速度与能耗的关系；高度影响分析为实际部署提供了参数指导；可扩展性测试则增强了方案的实际应用潜力。这些结果环环相扣，从模型正确性、算法有效性到方案实用性，构成了一个完整的证据链。
研究结论与价值本研究系统地提出并解决了一个面向未来6G无蜂窝SAGIN的无人机能量效率轨迹优化问题。主要结论如下： * 所提出的三层CF SAGIN架构及相应的性能分析模型，为整合空中和空间资源到无蜂窝网络提供了理论框架。 * 基于密度分布的用户分组算法（DIUGA）能够有效组织用户，为多无人机协同服务奠定基础。 * 在考虑实际无人机功耗模型和外部干扰的条件下，联合优化无人机轨迹、速度和加速度的能效最大化问题是可解的。 * 提出的SCMA-MADDPG算法通过共享评论家网络，在保证与标准MADDPG相当性能的同时，显著降低了模型复杂度和训练参数，更适用于资源受限的无人机平台，展示了多智能体强化学习在动态复杂通信网络优化中的强大适应性和潜力。
该研究的价值体现在： * 科学价值：深化了对无蜂窝架构与SAGIN融合的理解，推进了无人机通信中能效优化的理论边界，特别是在考虑精确功耗模型和多智能体动态交互方面贡献了新的模型和方法。 * 应用价值：为解决无人机应急通信、偏远地区覆盖、物联网数据回传等实际场景中的续航瓶颈问题提供了可行的技术思路。所提算法能够使无人机群在动态环境中自主、协同地规划节能飞行路径，延长任务时间，提升网络服务质量。 * 方法论价值：SCMA-MADDPG算法设计为资源受限的边缘智能体进行协同学习提供了参考范式，可推广至其他需要分布式决策与协作的网络优化问题。
研究亮点与创新点本研究的突出亮点和创新之处在于： 1. 研究视角新颖：将无蜂窝大规模MIMO理念扩展至空天地一体化网络，并聚焦于无人机作为空中接入点的核心角色，研究其能效问题，紧扣6G发展前沿。 2. 模型贴近实际：采用了更精确的、依赖于速度与加速度的固定翼无人机推进能耗模型，避免了过度简化，使优化结果更具实际指导意义。 3. 算法创新性强：提出的SCMA-MADDPG算法巧妙地将共享评论家网络引入多智能体深度强化学习框架，在保持协同学习能力的前提下，大幅降低了算法复杂度和参数需求，这是一个针对实际部署约束（机载算力有限）的务实创新。 4. 问题求解全面：研究采用了“离线与在线相结合”、“凸优化与强化学习相补充”的策略。SCA方法提供了理论基准和离线设计工具，而MARL方法提供了适应动态环境的在线解决方案，两者相辅相成，形成了完整的技术链条。 5. 用户分组策略有特色：DIUGA算法在传统距离聚类基础上引入用户密度因子，使分组更智能，有助于从源头上优化系统能效。
其他有价值内容论文在引言和第二节中对无蜂窝架构在SAGIN中各层（地面、空中、空间）的可能形态、对象、特点和局限性进行了前瞻性讨论和分类（见表I），这对于读者理解无蜂窝概念从地面向立体空间演进的脉络和未来研究方向具有启发意义。此外，论文对相关工作的梳理非常全面，涵盖了无蜂窝MIMO、SAGIN、无人机通信、轨迹优化以及传统优化与强化学习方法等多个方面，为相关领域的研究者提供了宝贵的文献参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问