关于空间-空中-地面一体化网络中信息年龄与卫星切换联合优化的学术研究报告
一、 研究作者、机构与发表信息
本研究由来自吉林大学的Zifan Lang, Guixia Liu, Geng Sun, Jiahui Li,来自南洋理工大学的Geng Sun, Jiacheng Wang, Dusit Niyato,来自南方科技大学的Weijie Yuan,以及来自成均馆大学的Dong In Kim共同完成。该研究论文已获IEEE Transactions on Mobile Computing期刊录用,并于2026年在线发表。
二、 学术背景与研究动机
本研究属于下一代无线通信网络领域,具体聚焦于空间-空中-地面一体化网络(Space-Air-Ground Integrated Network, SAGIN) 中的信息年龄(Age of Information, AoI) 优化与资源管理问题。
研究背景与动机: 尽管地面网络已广泛部署,但在偏远地区提供可靠通信服务以及在紧急情况下维持网络连接仍面临挑战。低地球轨道(Low Earth Orbit, LEO)卫星星座以其全球覆盖能力和较低的传输延迟提供了有前景的解决方案。然而,由于卫星的高速轨道运动,LEO卫星对地面特定区域的覆盖是间歇性的,导致通信窗口有限且频繁发生卫星切换。这种动态性使得为具有不同优先级和数据新鲜度要求的多地面用户提供持续、高效的服务变得极为复杂。信息年龄(AoI)作为一种衡量信息新鲜度的关键指标,在实时监控、灾难响应等时敏应用中至关重要。频繁的卫星切换虽然可能有助于获取更新鲜的数据,但会引入额外的链路建立开销和不稳定性(即“乒乓切换”问题)。因此,如何在动态的SAGIN环境中,联合优化信息年龄(保障数据新鲜度)和卫星切换频率(保障连接稳定性),成为一个亟待解决的核心问题。
研究目标: 为应对上述挑战,本研究旨在设计一种AoI感知的三层SAGIN架构,并开发一种高效的智能算法,以协同最小化系统的平均AoI和卫星切换频率。具体目标包括:1) 利用高空平台(High-Altitude Platform, HAP)作为LEO卫星与地面终端之间的智能中继,构建一个混合自由空间光(Free-Space Optical, FSO)/射频(Radio Frequency, RF)通信的SAGIN系统模型;2) 将该联合优化问题建模为一个具有时间耦合约束的高度动态、非凸的优化问题;3) 提出一种新颖的、基于深度强化学习(Deep Reinforcement Learning, DRL)和生成扩散模型(Diffusion Model, DM)的算法来高效求解此复杂问题。
三、 研究详细工作流程
本研究的工作流程遵循“建模-问题构建-算法设计-仿真验证”的经典研究范式,具体步骤如下:
1. 系统建模与问题构建: * 研究对象与系统模型: 研究构建了一个包含多个LEO卫星、一个HAP和多个地面用户的三层下行链路通信系统。卫星通过FSO链路向HAP发送数据(利用FSO的高容量优势),HAP则通过RF链路将数据转发给地面用户(利用RF的可靠性和覆盖优势)。HAP配备有限容量的缓冲区队列,用于暂存来自卫星的数据包。 * 关键模型建立: * 卫星切换模型: 基于LEO卫星的轨道力学参数(如轨道倾角、半长轴、真近点角等),精确计算卫星随时间变化的位置,从而动态确定HAP可见的卫星集合及切换时机。 * 通信模型: 卫星-HAP的FSO链路采用Gamma-Gamma分布模型来刻画大气湍流引起的信道衰落;HAP-用户的RF链路采用Nakagami-m衰落模型。分别推导了两种链路的信噪比(SNR)和可达数据速率公式。 * HAP队列模型: 定义了HAP的有限容量缓冲区及其数据包到达与服务过程,考虑了缓冲区溢出时的数据包丢弃策略。 * 信息年龄(AoI)模型: 为每个数据包在卫星端、HAP端和用户端分别定义了AoI的演化公式。AoI在数据包生成时重置,随后每个时间槽(time slot)递增,直到被成功接收后更新为传输时延。 * 优化问题形式化: 基于上述模型,研究将目标形式化为一个多目标联合优化问题(P1)。决策变量包括:1) 离散变量:每个时间槽HAP选择连接的卫星(l);2) 连续变量:HAP分配给各个地面用户的发射功率(p)。优化目标为:最小化所有卫星在所有用户处的时间平均AoI(f1),同时最小化整个时间范围内的卫星切换总次数(f2)。该问题受到卫星可见性、HAP总发射功率等约束。 * 问题特性分析: 作者指出,该问题具有非凸性、NP难解性,且两个目标之间存在权衡(Trade-off)(频繁切换可降低AoI但增加切换成本,反之亦然)。这些特性使得传统优化方法(如凸优化、进化算法)难以在动态环境中有效求解。
2. 算法设计与开发: 为解决上述复杂问题,研究提出了一种名为 “DD3QN-AS” 的新型算法。该算法是对标准Dueling Double Deep Q-Network (D3QN) 的增强,核心创新在于集成了三个关键模块: * 动作分解(Action Decomposition): 将混合动作空间(离散卫星选择+连续功率分配)进行解耦。研究发现,功率分配子问题(在给定卫星选择下,最大化用户最小速率)是一个凸优化问题(P2),并给出了证明。因此,算法将功率分配这部分从DRL的动作空间中剥离出来,在每个时间步使用高效的内点法等凸优化求解器独立求解。DRL智能体(HAP)则专注于学习离散的卫星选择策略。这显著降低了DRL的学习维度。 * 状态变换编码器(State Transformer Encoder, STE): 取代传统的多层感知机(MLP),使用Transformer编码器来处理系统的原始状态(包括卫星/用户位置、各层AoI值等)。STE能够更好地捕捉状态序列中的时序依赖关系和不同状态分量间的相互作用,从而提取更丰富、更具表达力的时空特征表示,供后续的Q网络使用。 * 扩散模型潜提示生成模块(DM-based Latent Prompt Generative module, DLPG): 为了提升策略在非平稳环境下的鲁棒性,引入了一个基于生成扩散模型(DM)的模块。该模块以STE编码后的状态和动作为条件,通过一个“去噪”过程,生成一个增强的潜表示(latent prompt)。这个过程可以理解为对状态-动作表示进行“平滑”和“精炼”,减少其对环境瞬时波动的敏感性,从而稳定Q值的估计,加速训练收敛。 * 算法框架整合: DD3QN-AS算法以标准的D3QN(结合了Dueling架构和Double Q-learning,以缓解Q值高估并提高学习稳定性)为骨架。在每个时间步:1) 环境状态st经过STE编码为ht;2) DRL智能体基于ht选择卫星lt;3) 针对选择的卫星和当前信道条件,调用凸优化求解器计算最优功率分配pt;4) 执行动作(lt, pt),获得奖励rt和下一状态st+1;5) 将经验(st, at, rt, st+1)存入经验回放缓冲区;6) 从缓冲区采样批次数据,使用DLPG模块生成增强潜表示,并以此计算TD误差,更新Q网络参数。
3. 仿真实验与性能评估: * 实验设置: 研究构建了仿真环境,包含10颗LEO卫星(轨道高度500-1800公里)、1个HAP(高度20公里)和3-10个随机分布的地面用户。通信参数参考了相关领域文献。训练超参数包括:批大小128,折扣因子0.99,回放缓冲区容量10^5,学习率3e-4等。 * 对比基准: 为全面评估DD3QN-AS的性能,作者将其与多种基线方法进行比较: * 策略性方法: 随机选择(Random)、增强加权贪婪(Enhanced Weighted Greedy, EWG)、轮询(Round Robin, RR)。 * 先进DRL算法: 近端策略优化(PPO)、软演员-评论家(SAC)、截断分位数评论家(TQC)、深度Q网络(DQN)、双重深度Q网络(DDQN)、标准D3QN。 * 评估指标与实验内容: 主要评估指标为时间平均AoI和卫星切换频率。实验内容包括: * 整体性能对比: 比较所有算法在AoI和切换频率上的最终优化结果。 * 收敛性能分析: 绘制各DRL算法在训练过程中的奖励、AoI、切换频率随训练回合(episode)的变化曲线,分析收敛速度和稳定性。 * 算法参数影响: 分析不同学习率、DLPG模块中去噪步数(Denoising Steps)对DD3QN-AS性能的影响。 * 系统参数影响: 比较不同HAP队列调度策略(如先进先出FIFO、最早截止期优先EDF、最晚截止期优先LDF、最短作业优先SJF等)对系统性能的影响;分析地面用户数量变化对性能的影响。 * 消融实验(Ablation Study): 通过移除STE或DLPG模块,验证这两个创新组件各自对算法性能提升的贡献。
四、 主要研究结果
1. 整体性能优势: 仿真结果表明,DD3QN-AS算法在联合优化AoI和切换频率方面显著优于所有基线算法。具体数据表现为:与表现最好的基线算法(DDQN)相比,DD3QN-AS将平均AoI降低了约1.7%,同时将卫星切换频率降低了15%。其性能曲线周围的误差带(95%置信区间)较短,表明算法在不同随机种子下具有优异的稳定性和一致性。图5进一步显示,与启发式方法EWG相比,DD3QN-AS的切换累积曲线增长更为平缓,有效证明了其学到的策略能够显著抑制“乒乓切换”效应。
2. 收敛性能分析结果: * 奖励收敛: DD3QN-AS的收敛速度最快,并且最终达到的稳态奖励值最高,波动最小。标准D3QN收敛速度也较快,但稳态性能明显低于DD3QN-AS。这证明了STE和DLPG模块在提升价值估计准确性和训练稳定性方面的关键作用。 * AoI收敛: 所有算法在AoI指标上均能收敛,但DD3QN-AS能够达到并维持最低的AoI水平。这得益于STE提取的丰富时空特征和DLPG在随机信道条件下增强的表示鲁棒性,共同促成了更精确的传输时机决策。 * 切换频率收敛: DD3QN-AS收敛到一个较低且稳定的切换频率。相比之下,TQC等算法表现出较大的波动性和频繁的切换峰值。这说明了DD3QN-AS能够更好地理解卫星运动模式和信道变化的长期依赖关系,做出更连贯的决策。
3. 参数与设置影响分析结果: * 学习率: 当学习率设置为3×10^-4时,DD3QN-AS取得了最佳的收敛精度和训练稳定性。过大或过小的学习率都会导致性能下降。 * 去噪步数: 增加DLPG模块中的去噪步数(M)通常能提升性能,但当M=4时达到最佳平衡点。超过此值,性能增益趋于饱和甚至略有下降,原因是过度的去噪可能导致潜在表示“过度平滑”,丢失对决策至关重要的细微差别,同时增加计算开销。 * HAP调度策略: 最晚截止期优先(LDF) 策略在AoI最小化和切换稳定性之间取得了最佳权衡。这是因为LDF优先传输在缓冲区中等待时间最长的数据包,有效降低了信息陈旧度,同时其调度决策相对稳定,减少了引发不必要卫星切换的可能。 * 用户数量: 随着地面用户数量增加,平均AoI先上升后趋于恶化,而切换频率先下降后恶化。在用户数为6时出现拐点。这揭示了系统资源(HAP发射功率、带宽、缓冲区容量)的瓶颈效应。用户过多会导致人均资源减少,传输速率下降,缓冲区更易溢出,从而整体性能衰退。
4. 消融实验结果: 消融实验清晰展示了STE和DLPG模块的贡献。仅包含动作分解的D3QN基线收敛慢且波动大。加入STE(D3QN+AS)或DLPG(D3QN+AD)均能加速收敛并提升稳定性。而同时包含两者(即完整的DD3QN-AS)获得了最快的收敛速度和最高的最终奖励,特别是DLPG在稳定Q值估计、加速收敛方面表现突出。这定量验证了算法设计中每个增强模块的有效性。
五、 研究结论与价值
本研究成功提出并验证了一个用于动态SAGIN的AoI与切换联合优化框架。核心结论是:通过引入HAP作为智能中继,并采用混合FSO/RF通信,可以有效桥接LEO卫星的覆盖间隙。然而,要同时优化信息新鲜度和连接稳定性,需要解决一个高度复杂、动态、非凸的优化问题。
为此,本研究提出的 DD3QN-AS算法 提供了一种高效的解决方案。该算法通过动作分解降低了问题复杂度,通过状态变换编码器有效捕捉了系统时空动态,并通过扩散模型潜提示生成模块增强了在随机环境下的决策鲁棒性。仿真结果表明,该算法不仅性能优于现有先进方法,而且具有更快的收敛速度和更好的稳定性。
研究价值: * 科学价值: 1) 为SAGIN中的资源管理和性能优化提供了一个新颖的、基于生成式人工智能增强的深度强化学习框架。2) 首次在SAGIN背景下,将扩散模型用于增强DRL的状态-动作表示学习,为处理通信网络中的不确定性和非平稳性开辟了新思路。3) 对混合离散-连续动作空间、时间耦合约束等复杂问题的处理具有方法论上的借鉴意义。 * 应用价值: 1) 所提出的系统架构和算法可直接应用于需要全球覆盖、高数据新鲜度的场景,如实时地球观测、灾害应急通信、偏远地区物联网监测等。2) 算法能够自适应地平衡数据时效性和网络开销,为未来6G星地融合网络的智能自主运维提供了关键技术参考。
六、 研究亮点
七、 其他有价值内容
论文在“相关工作”部分进行了非常全面的综述,并制作了清晰的对比表格(Table 1),从系统模型、优化目标、决策变量、优化方法等多个维度,将本研究与数十篇前沿文献进行对比,清晰地定位了本工作的创新点和贡献所在,体现了研究的系统性和严谨性。此外,论文对优化问题的非凸性、NP难解性以及目标间权衡关系的分析,为读者理解问题的复杂性提供了清晰的逻辑脉络。