低空经济中的集成传感与通信：一种深度强化学习方法

分享自：
低空经济中的集成传感与通信：一种深度强化学习方法

期刊:IEEE Transactions on Wireless CommunicationsDOI:10.1109/TWC.2025.3583950
该文档属于类型a，即报告了一项单一原创研究的学术论文。
面向低空经济的集成感知与通信：一种深度强化学习方法 学术研究报告一、 研究团队与发表信息
本研究由Xiaowen Ye, Yuyi Mao, Xianghao Yu, Shu Sun, Liqun Fu 和 Jie Xu 等学者共同完成。作者单位包括福州师范大学、澳门科技大学、香港城市大学、上海交通大学、厦门大学以及香港中文大学（深圳）等。该研究成果已于2025年7月4日在线发表于无线通信领域的国际顶级期刊 IEEE Transactions on Wireless Communications（第25卷），论文标题为《Integrated Sensing and Communications for Low-Attitude Economy: A Deep Reinforcement Learning Approach》。
二、 学术背景与研究目标
本研究的科学领域集中在下一代无线网络的关键技术——集成感知与通信（Integrated Sensing and Communications， ISAC），并将其应用于蓬勃发展的低空经济（Low-Altitude Economy， LAE）场景。低空经济涉及无人机（UAV）、电动垂直起降飞行器等各类低空飞行活动，在物流运输、环境监测、智慧农业等领域具有广阔前景。然而，低空空域的规模化、安全化运营面临严峻挑战：需要为授权飞行器提供可靠的通信与导航服务，同时还要对未经授权的目标进行不间断的监视，以防止碰撞等安全事故。
传统的解决方案中，无线通信和雷达感知通常独立设计和部署，导致频谱利用效率低且硬件成本高昂。ISAC技术能够共享频谱和硬件基础设施，同时实现通信与感知功能，为上述挑战提供了潜在的解决方案。现有的ISAC研究主要分为两类范式：第一类是“无人机辅助ISAC服务”，即无人机作为空中基站或中继平台为地面用户服务；第二类是利用地面基站（Ground Base Station， GBS）为飞行器提供ISAC服务。作者指出，第二类范式更贴近面向LAE的ISAC需求，但现有研究存在明显不足：通常假设感知目标是静止的，采用基于瞬时优化的交替优化算法，且未能充分考虑授权无人机具有从起点到终点的完整飞行任务这一长期优化特性。
因此，本研究旨在解决一个实际且复杂的LAE-ISAC联合优化问题：在一个飞行周期内，最大化所有授权无人机的期望通信总速率，同时满足对移动目标的平均感知信噪比（SNR）要求、无人机的飞行任务与防碰撞约束、以及地面基站的最大发射功率限制。 该问题的核心在于联合优化地面基站的波束成形和所有无人机的飞行轨迹。由于目标的移动模型未知，信道状态信息具有时域相关性，且优化目标跨越整个任务周期，这构成了一个具有未知环境动态的顺序决策问题。
三、 研究流程与核心方法
本研究的工作流程可概括为问题建模、算法设计、仿真验证三大阶段，其核心是提出了一种名为 Deep LAE-ISAC（DeepLSC） 的深度强化学习（DRL）方案。
1. 问题建模与转化： 首先，研究者将上述联合优化问题形式化为一个受约束的序贯决策问题。鉴于无人机具有从初始位置到最终位置的完整飞行任务，他们将每个飞行周期视为一个回合（Episode），并将整个问题转化为一种特定的马尔可夫决策过程（Markov Decision Process， MDP） 模型，称为“回合任务”。在此MDP框架中： * 智能体（Agent）： 地面基站（GBS）。 * 状态（State）： 在时隙t，可观测状态s(t) 包括GBS与所有无人机之间的通信信道状态信息（CSI）矩阵 H_c(t)、GBS与目标之间的感知CSI向量 H_s(t)、以及所有无人机的水平位置 U(t)。 * 动作（Action）： 智能体在每个时隙需要做出的决策 a(t)，包括通信预编码矩阵 W_c(t)、感知预编码矩阵 W_s(t)、以及所有无人机的飞行方向角 a_u(t)。 * 奖励（Reward）： 精心设计的奖励函数 r(t+1) 用于评估动作的好坏。它不仅包含通信总速率 R_total(t) 作为正向激励，还引入了惩罚项来处理约束：当发生无人机间或与目标的碰撞时，施加惩罚 -δ1；在每个回合结束时，若整个周期的平均感知SNR未达到预设门限 γ_min，则施加与差额成比例的惩罚 -δ2*(γ_min - 平均SNR)。通过奖励函数的设计，将原始的带约束优化问题转化为一个无约束的MDP问题。
2. 深度强化学习方案（DeepLSC）设计： 由于系统动态（特别是目标移动模型）未知，研究者采用了无模型的深度强化学习方法。考虑到动作空间（波束成形矩阵和飞行方向）是连续的，他们选择 深度确定性策略梯度（Deep Deterministic Policy Gradient， DDPG） 算法作为基础框架，并针对LAE-ISAC的回合任务特性进行了三项关键创新：
创新的动作选择策略——约束噪声探索策略： 为解决飞行任务完成和功率约束，对标准DDPG的探索机制进行了改进。1) 功率约束：对智能体网络输出的临时波束成形决策，引入一个缩放因子 ε，使其总功率恰好等于GBS的最大发射功率 P_max。2) 飞行任务约束：根据无人机当前位置与终点的剩余距离和剩余时间，动态决策其飞行方向。当剩余时间仅够直线飞抵终点时，强制无人机“直线飞行”；否则，仍按添加探索噪声的策略决定方向，以保证任务完成的同时保留优化空间。
创新的经验回放机制——分层经验回放： 标准经验回放机制独立存储和采样每个时隙的经验 (s, a, r, s‘)，无法保证一个完整回合内所有经验被同时用于训练。DeepLSC针对“回合任务”特性，提出了分层经验回放机制。具体做法是：将一个回合内产生的所有T个时隙的经验打包成一个“经验集（Experience Set）”，并整体存入经验缓冲区。在训练时，随机采样的是一个个完整的经验集，从而确保网络能够从完整的任务序列中学习连贯的策略。
创新的经验增强机制——对称经验增强： 为了加速学习收敛，解决在线DRL需要大量试错来收集经验的问题，研究者提出了对称经验增强机制。其核心洞察是：在本文系统中，无人机的索引是人为指定的。如果同步地对所有变量（包括无人机索引、对应的信道CSI、波束成形矩阵和飞行决策）进行排列置换，所得到的新问题与原问题是等价的。基于此，对于一个已获取的经验集，可以通过同步置换所有无人机的索引，生成多个（M! - 1个，M为无人机数量）新的、等效的经验集，从而极大地丰富了训练数据，加速了收敛。他们还引入了动态增强因子 ζ，随着训练进行逐步减少增强数据量，以避免过度拟合。
DeepLSC算法的执行流程如下：在每个时隙，GBS（智能体）观察当前状态s(t)，通过评估-执行者（Eval-Actor） 网络输出临时决策，再经过约束噪声探索策略生成最终的动作a(t)（即波束成形和无人机航向）。环境执行该动作后，转移到新状态s(t+1)并产生奖励r(t+1)。在一个回合结束后，计算所有奖励，形成该回合的经验集存入缓冲区。训练时，从缓冲区采样若干经验集，并利用对称经验增强机制进行数据扩充，形成小批量数据，用于同时更新评估-执行者和评估-评论者（Eval-Critic） 网络的参数。目标-执行者（Target-Actor） 和目标-评论者（Target-Critic） 网络则采用软更新方式同步，以稳定训练。
3. 仿真验证与实验设置： 研究者基于Python仿真平台，使用Keras库构建深度神经网络模型，对DeepLSC方案进行了全面的性能评估。仿真场景设置为：一个配备N=6根天线的GBS，服务M=4架授权无人机，并感知一个随机移动的未授权目标。飞行周期被离散为T=40个时隙。对比的基准方案包括： * DeepLSC-CNE： 使用标准噪声探索策略的DeepLSC。 * DeepLSC-CER： 使用标准经验回放机制的DeepLSC。 * DeepLSC-W： 不使用对称经验增强机制的DeepLSC。 * AC2： 使用约束噪声探索策略，但采用基本演员-评论家算法（单经验训练，无目标网络）。
四、 主要研究结果
仿真结果从多个维度验证了DeepLSC方案的有效性和优越性。
1. 学习曲线与综合性能（图3，表III）： * DeepLSC vs. DeepLSC-CNE：DeepLSC-CNE获得了最高的通信总速率（比DeepLSC高约11.14%），且满足感知SNR要求。但其代价是完全无法完成飞行任务（图4显示无人机滞留在某区域），因为它为了最大化速率而忽略了终点约束。这反证了约束噪声探索策略对于保障LAE中无人机核心任务（如货物送达）的必要性。 * DeepLSC vs. AC2：DeepLSC在通信总速率上大幅领先AC2（超过22.73%），并且只有DeepLSC能稳定满足平均感知SNR要求。这证明了DDPG框架（使用目标网络、随机历史经验回放）相对于基本演员-评论家方法在稳定性和性能上的显著优势。 * DeepLSC vs. DeepLSC-CER：DeepLSC的通信总速率比DeepLSC-CER高出约11.68%。这直接验证了分层经验回放机制的有效性。由于回合任务需要整体学习，将整个回合的经验集联合训练网络比独立使用瞬时经验能学到更优的策略。 * DeepLSC vs. DeepLSC-W：两者在收敛后的最终性能（通信速率、感知SNR、轨迹）上相似。但DeepLSC-W需要多消耗超过130%的回合数才能收敛。这强有力地证明了对称经验增强机制能通过数据扩充，显著加速学习过程，而不会损害最终性能。
2. 对不同无人机数量的鲁棒性（图5，表IV，图6，表V）： 当无人机数量M从2增加到5，甚至增加到20时，所有方案的通信总速率随M增加而提升（支持更多并行传输）。关键在于约束满足情况：DeepLSC-CNE始终无法完成飞行任务；AC2和DeepLSC-CER在某些M值下无法满足感知SNR要求；而DeepLSC和DeepLSC-W在所有设置下都能满足所有约束。并且，随着M增大，DeepLSC相对于DeepLSC-CER和AC2的性能优势（速率增益）进一步扩大。这表明DeepLSC具有良好的可扩展性（Scalability） 和鲁棒性（Robustness）。
3. 对不同飞行周期长度的鲁棒性（图7，表VI）： 当每个回合的时隙数T从40增加到70时，所有方案的通信总速率均单调提高，因为无人机有更多的“自由飞行”时间进行优化。在所有T的设置下，DeepLSC、DeepLSC-CER和DeepLSC-W都能满足所有约束，但DeepLSC的通信速率始终高于DeepLSC-CER（增益>11.68%）。随着T增加，DeepLSC相对于DeepLSC-CER和AC2的速率优势差距进一步拉大，再次证明了其方法在处理长期优化问题上的有效性。
4. 超参数影响分析（表VII）： 研究者系统评估了关键超参数的影响。结果显示，学习率（α_a, α_c）和软更新系数（χ_a, χ_c）需要设置适中，过小会导致学习缓慢、性能不佳，过大会导致训练不稳定、收敛至次优策略。而对称经验增强因子ζ 主要影响收敛速度，对最终性能无影响，这与设计初衷一致。其他参数如初始探索方差σ_init、衰减因子κ、经验缓冲区大小D等也需要合理设置以确保学习效率。
五、 研究结论与价值
本研究成功提出并验证了DeepLSC这一面向低空经济的智能ISAC方案。其主要结论是：通过将LAE-ISAC的长期联合优化问题建模为回合任务MDP，并利用创新的深度强化学习框架（约束噪声探索策略、分层经验回放、对称经验增强），DeepLSC能够在无需预先知道目标移动模型的情况下，自主学习出高效的联合波束成形与轨迹规划策略。该策略不仅能最大化系统通信性能，还能严格保证对移动目标的平均感知质量、无人机的飞行任务完成以及防碰撞安全。
本研究的价值体现在： * 科学价值：为求解具有复杂长期约束、环境动态未知的ISAC资源优化问题提供了一种全新的、基于数据驱动的DRL解决范式。所提出的三项核心机制（约束探索、分层回放、对称增强）对解决其他类似的“回合任务”型通信网络优化问题具有方法论上的借鉴意义。 * 应用价值：为低空经济的安全、高效运营提供了切实可行的技术方案。通过地面基站的智能协同，能够实现对授权无人机群的可靠服务与对空域的持续监视，有助于推动物流配送、城市空中交通（UAM）等LAE应用的落地。
六、 研究亮点
问题新颖且具现实意义：首次系统研究并明确了“面向LAE的ISAC”这一特定范式，关注授权无人机带任务飞行与对移动目标感知的联合优化，问题设定贴合实际应用需求。
方法创新性强：提出的DeepLSC方案不是简单套用现有DRL算法，而是针对问题特性进行了深度定制。三项核心创新机制分别解决了动作约束、回合任务训练和数据效率三个关键挑战，缺一不可。
验证全面充分：通过与多个精心设计的基准方案进行对比，并从收敛性、综合性能、可扩展性（无人机数量）、适应性（任务时长）等多个维度进行了仿真验证，有力地支撑了方案的有效性和优越性。
兼顾性能与约束：方案在追求通信性能最优的同时，通过算法层面的设计（奖励函数和动作选择策略）严格保证了感知性能和飞行任务这两个LAE场景的核心约束，体现了其工程实用性。
七、 其他有价值的内容
论文还简要讨论了DeepLSC的计算复杂度和实际部署考虑。复杂度分析表明，其计算开销随天线数和无人机数线性增长，是可接受的。部署方面，建议分两阶段：在训练阶段，利用基于真实数据建立的仿真环境（如高斯-马尔可夫移动模型、视距信道模型）对智能体进行训练；在部署阶段，直接将训练好的模型用于实时决策。当环境发生重大变化（如无人机数量变动）时，可采用迁移学习（Transfer Learning） 结合在线微调的方式进行快速适配，展现了方案的实用化路径。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问
低空经济中的集成传感与通信：一种深度强化学习方法

面向低空经济的集成感知与通信：一种深度强化学习方法 学术研究报告

面向低空经济的集成感知与通信：一种深度强化学习方法学术研究报告