关于在面向海洋物联网系统的空天地海一体化网络中运用深度强化学习设计无人机三维轨迹的学术研究报告
本报告旨在向学术界介绍一项发表于2025年 IEEE 亚太无线通信研讨会 (IEEE APWCS) 的研究成果。该研究的题目为“UAV 3D Trajectory Design in Space-Air-Sea Integrated Networks for Marine IoT Systems Using Deep Reinforcement Learning”。以下将从多个维度对该研究进行详尽阐述。
一、 研究作者与发表信息
本研究的核心作者包括 Belyneh Abebe Tesfaw、Rong-Terng Juang、Hsin-Piao Lin、Getaneh Berie Tarekegn、Wendenda Nathanael Kabore、Shiann-Shiun Jeng 以及 Trong-An Bui。他们主要来自国立台北科技大学(National Taipei University of Technology)的电气工程与计算机科学系、太空与系统工程研究所,以及国立阳明交通大学(National Yang Ming Chiao Tung University)的电气与计算机工程系。此外,国立东华大学(National Dong Hwa University)的电气工程系亦有研究人员参与。该论文已收录于2025年的IEEE亚太无线通信研讨会论文集,并可在IEEE Xplore数字图书馆中查阅。
二、 学术背景与研究目的
本研究隶属于无线通信网络与人工智能交叉领域,具体聚焦于空天地海一体化网络(Space-Air-Sea Integrated Networks, SASIN)下,服务于海洋物联网(Marine Internet of Things, MIoT)系统的关键技术。
研究背景:随着海洋经济与监测活动的扩展,MIoT系统在导航、安全、环境监测、渔业管理等领域变得日益重要。然而,广阔的海洋环境对通信构成了巨大挑战。传统地面网络覆盖能力有限,而低地球轨道卫星(Low Earth Orbit, LEO)虽能提供广域覆盖和较低延迟,但由于地球曲率以及MIoT设备功率和能力的限制,在海洋区域接收到的LEO卫星信号往往非常微弱,难以维持可靠连接。无人机(Unmanned Aerial Vehicles, UAVs)作为一种灵活的空中平台,可以作为中继节点,桥接LEO卫星与海面MIoT设备之间的通信鸿沟。然而,UAV的高机动性使得为其设计最优飞行轨迹以保障动态海洋环境中的通信服务质量成为一个复杂难题。
研究目标:本研究旨在解决上述挑战,提出一个SASIN框架,并核心研究如何优化UAV的三维飞行轨迹。其具体目标是在保证海面MIoT设备达到满意的平均数据速率的前提下,最大化系统的通信覆盖范围。为此,研究团队提出采用深度强化学习(Deep Reinforcement Learning, DRL)方法,特别是双深度Q网络(Double Deep Q-Network, DDQN)算法,以实现UAV轨迹的自适应、智能化规划。
三、 研究详细工作流程
本研究的工作流程可概括为五个主要步骤:系统建模与问题构建、问题转化、算法设计、仿真实验设置以及性能评估与分析。
1. 系统建模与问题构建 首先,研究者建立了一个完整的SASIN通信系统数学模型。 * 研究场景与对象:场景设定在一个2.0 km × 2.0 km的海洋区域上空。系统包含一个位于550公里轨道的LEO卫星(假设在观测期内覆盖区域固定)、一个或多个UAV作为空中中继,以及20个移动的MIoT设备(默认数量,后续扩展至50个以测试可扩展性)。UAV在三维空间中飞行,其位置动态调整以服务海面设备。 * 通信模型:LEO卫星与UAV之间构成回传链路(Backhaul Link)。UAV与MIoT设备之间采用非正交多址接入(Non-Orthogonal Multiple Access, NOMA)技术进行下行通信,允许多个设备同时共享频段。信道模型主要考虑自由空间路径损耗,并假设海洋环境下以视距链路(Line-of-Sight, LoS)为主。 * 关键参数定义:定义了UAV与MIoT设备之间的关联变量、覆盖约束(基于UAV的覆盖角度)、信噪比(SNR)计算模型以及MIoT设备的数据速率计算公式。 * 优化问题形式化:将UAV移动性策略(UAV Mobility Strategy, UMS)优化问题构建为一个数学优化问题。目标函数是最大化通信覆盖分数与MIoT设备平均数据速率的乘积,这综合反映了覆盖范围和服务质量。约束条件包括:UAV间防碰撞安全距离、MIoT设备的最低数据速率要求、关联状态变量、UAV的初始/最终位置限制、飞行高度限制以及MIoT设备的移动速度限制。
2. 问题转化(转为马尔可夫决策过程) 由于上述优化问题具有动态性和复杂性,传统优化方法(如逐次凸近似)面临计算复杂和难以实时决策的挑战。因此,研究将UAV轨迹规划问题转化为一个马尔可夫决策过程(Markov Decision Process, MDP),以便应用DRL算法。 * 状态空间:在每一时隙t,智能体(UAV)观察的状态包括:UAV自身的3D位置、所有MIoT设备的位置、以及MIoT设备接收到的信号强度。 * 动作空间:UAV可执行11种离散的飞行动作,包括向左、向右、向上、向下、向前、向后以及四个对角线方向(如左上、右上等),外加一个“保持不动”动作。每次执行动作,UAV沿指定方向移动1米。 * 奖励函数:奖励函数是驱动智能体学习的关键。它被设计为直接反映系统目标:当MIoT设备的通信覆盖和平均数据率表现良好时,给予正奖励;当违反任何系统约束(如数据率低于阈值、UAV飞出边界等)时,则施加一个负的惩罚项。这引导UAV学习在满足约束的同时优化覆盖和速率。
3. 算法设计:双深度Q网络(DDQN) 研究提出并详细阐述了用于解决此MDP的DDQN-UMS算法。 * 算法原理:DDQN是深度Q网络(DQN)的改进版本,通过解耦动作选择和目标Q值计算来减少Q值过估计的问题,从而提升学习的稳定性和性能。 * 网络结构与训练机制:算法框架包含一个在线Q网络(用于选择动作)和一个目标Q网络(用于计算目标Q值)。同时,采用经验回放缓冲区来存储过去的转移经验(状态、动作、奖励、下一个状态),并在训练时随机抽样小批量数据,以打破数据间的相关性。 * 新颖的算法实现:研究者设计了特定的训练流程(如算法1所示)。该流程包括环境初始化、基于ε-贪婪策略的动作探索与执行、经验存储、从回放缓冲区采样、计算目标Q值、通过最小化损失函数来更新在线网络参数,以及定期软更新目标网络参数。损失函数采用均方误差形式,用于衡量当前Q值估计与目标Q值之间的差距。 * 软件与工具:研究使用Python 3.12编程语言和TensorFlow 2.12.0深度学习框架实现DDQN算法,并在配备NVIDIA GeForce RTX 3050 GPU的计算机上进行仿真。
4. 仿真实验设置 为了评估所提方法的性能,研究者设置了详细的仿真参数。 * 环境与参数:基于表I列出的参数,在三维仿真环境中运行实验。UAV发射功率为20 dBm,噪声功率谱密度为-174 dBm/Hz。DDQN算法使用一个两层神经网络(每层100个神经元,激活函数为ReLU),使用Adam优化器进行训练。 * 训练过程:共进行1000个训练回合,每个回合包含2000个时间步长。经验回放缓冲区大小为32000,小批量大小为64。折扣因子设为0.95,探索率ε随时间衰减。 * 对比基线:为了证明所提方法的优越性,研究选取了另外两种算法作为性能比较的基线:深度确定性策略梯度(SAC,一种先进的连续动作空间DRL算法)和标准的深度Q网络(DQN)。
5. 性能评估与分析 研究通过多个性能指标和对比实验来验证DDQN-UMS算法的有效性。
四、 主要研究结果
仿真结果从多个角度证实了所提DDQN方法的优越性。
1. 收敛性能分析:图3(a)展示了三种算法(DDQN, SAC, DQN)在训练过程中每回合累计奖励的收敛曲线。结果显示,DDQN的奖励曲线呈现出最快速和最稳定的增长,并最终收敛到最高的奖励水平。SAC的表现次之,而DQN的收敛速度最慢且最终性能最低。这表明DDQN能更有效地学习到优化UAV轨迹的策略,在动态环境中做出更佳的决策。
2. 通信覆盖性能分析:图3(b)比较了三种算法在100次训练迭代中达到的通信覆盖率。DDQN实现了最高且最稳定的覆盖率,最终值接近1.0,意味着几乎所有MIoT设备都能在大多数时间内与UAV保持有效连接。SAC的覆盖率稳定在0.85左右,而DQN的覆盖率最低且波动较大。此结果直接证明了DDQN在实现研究核心目标——最大化通信覆盖方面的卓越能力。
3. 系统可扩展性分析:图3©测试了算法在MIoT设备数量增加(从20个到50个)时的性能。随着设备密度增大,所有算法的覆盖率均有所下降,这是由于网络资源竞争加剧。然而,DDQN在所有测试规模下都保持了最高的覆盖率,显著优于SAC和DQN。这证明了DDQN-UMS方案具有良好的可扩展性和鲁棒性,能够适应更密集的海洋物联网场景。
4. 平均数据率性能分析:图4展示了在500个时间槽内,系统所达到的平均数据率分布。数据显示,采用DDQN方法的系统获得了最高的平均数据率,达到3180 kbps。SAC方法次之,为3009 kbps,而DQN方法最低,为2870 kbps。这一结果与覆盖性能的结论一致,表明DDQN不仅在连接设备数量上占优,还能为已连接的设备提供更高质量的数据传输服务,从而全面优化了系统性能。
逻辑关系:这些结果是层层递进的。首先,收敛性能证明了DDQN算法本身的有效性和学习效率。其次,覆盖性能和平均数据率结果直接验证了算法优化UAV轨迹后,在核心性能指标上达到了预期目标。最后,可扩展性分析则进一步将结论推广到更复杂、更实际的场景中,增强了研究成果的普适性和应用价值。所有这些结果共同支撑了研究的最终结论。
五、 研究结论与价值
本研究成功提出并验证了一个面向海洋物联网系统的空天地海一体化网络框架,并创新性地采用双深度Q网络(DDQN)深度强化学习算法来优化UAV的三维轨迹。
六、 研究亮点
七、 其他有价值内容
论文在引言部分对相关研究(如文献[7]-[11])进行了梳理,指出了现有工作多采用传统优化方法(如逐次凸近似、随机优化)的局限性,从而为本研究引入DRL方法提供了充分的动机。此外,研究明确指出了未来工作可以扩展的方向,例如考虑多UAV协同、更复杂的信道模型以及能量消耗约束等,为后续研究指明了路径。论文最后致谢了台湾国家科学与技术委员会(National Science and Technology Council)的经费支持,表明了该研究获得了官方科研基金的资助。