面向多任务与应急感知的无人机群智感知：一种分层多智能体深度强化学习方法

分享自：
面向多任务与应急感知的无人机群智感知：一种分层多智能体深度强化学习方法

期刊:IEEE Journal on Selected Areas in CommunicationsDOI:10.1109/JSAC.2025.3608770
关于《Multi-Task-Oriented Emergency-Aware UAV Crowdsensing: A Hierarchical Multi-Agent Deep Reinforcement Learning Approach》的学术研究报告
一、 研究作者、机构与发表信息
本研究由陈方、刘驰（IEEE 高级会员）、王浩、齐广鹏、刘忠义和吴大鹏（IEEE Fellow）合作完成。作者单位包括北京理工大学计算机科学与技术学院、香港城市大学、浪潮集团有限公司以及中国民航信息网络股份有限公司。该研究发表于 IEEE 通信领域权威期刊 IEEE Journal on Selected Areas in Communications (JSAC) 第44卷，于2025年9月11日在线发表，并于2026年2月4日发布正式版本。论文的数字对象标识符（DOI）为 10.1109/JSAC.2025.3608770。
二、 学术背景与研究目标
本研究隶属于集成传感与通信（Integrated Sensing and Communication， ISAC）及移动群智感知（Mobile Crowdsensing， MCS）领域，特别是无人机群智感知（UAV Crowdsensing， UCS）这一前沿方向。随着无人机技术的成熟，利用无人机机队进行大规模环境数据（如交通流量、事故现场图像）的持续采集与回传，已成为智慧城市、应急响应等关键应用的核心支撑技术。
然而，现有的无人机群智感知研究多集中于处理单一类型或同质化的任务，而在实际场景中，无人机往往需要同时应对多种具有不同服务质量要求的任务。例如，常规的交通监控（监视任务）对数据新鲜度（Age-of-Information， AoI）的要求相对宽松，而突发的交通事故处理（应急任务）则要求极低的AoI以确保快速响应。这种多任务并存且需求各异的特点，给无人机协同轨迹规划带来了巨大挑战：如何动态分配有限的无人机资源，在满足各类任务特定AoI约束的同时，最小化整体能耗，实现全局性能最优。
传统优化方法（如凸优化、多旅行商问题MTSP求解）难以应对应急任务出现时间与位置的随机性，而现有的多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning， MADRL）方法在处理此类多任务、多目标优化问题时，也常因环境非平稳性、任务优先级差异等问题导致性能不佳或收敛困难。
为此，本研究旨在解决面向多任务的应急感知无人机群智感知问题。其核心目标是：设计一个高效、鲁棒的决策框架，使得一个无人机机队能够协同工作，在能量有限的条件下，同时处理具有不同AoI阈值的监视任务和随机出现的应急任务，最大化系统整体效能。为了量化这一效能，论文创新性地提出了一个名为“有效任务处理指数”（Valid Task Handling Index）的综合性能指标，该指标旨在平衡不同任务的处理效果与系统能耗。
三、 研究详细工作流程与方法
本研究提出了一种名为 DRL-MTUCS 的分层多智能体深度强化学习框架。该框架的核心思想是将复杂的多任务决策问题分解为两个层次：高层目标分配与低层任务执行。整体工作流程如下：
1. 系统建模与问题形式化： 首先，研究将整个场景建模为一个时隙系统。无人机在固定区域内飞行，其能量消耗与飞行速度相关。任务被建模为两类兴趣点（Point of Interest， POI）：固定的监视POI（如电子公交站牌）和随机出现的应急POI（如事故现场）。每个任务都有其特定的AoI阈值，超过该阈值则视为处理失败。研究将优化目标定义为最大化“有效任务处理指数”，该指数是“监视任务有效处理率”与“应急任务有效处理率”两者中的最小值，除以所有无人机的总能量消耗比率。这是一个NP难问题，且由于应急任务的随机性，传统确定性优化方法难以适用。因此，研究将其形式化为一个分层马尔可夫决策过程。
2. DRL-MTUCS框架设计： 该框架包含两个核心模块和两个创新插件： * 高层动态目标分配器：仅在新的应急POI出现时被激活。其观察状态包括应急POI位置、所有无人机的局部观测（如剩余能量、位置、局部AoI热力图）。其动作空间是无人机集合，即决定将新出现的应急任务分配给哪一架无人机。其奖励设计为，被选中无人机从任务分配到其AoI阈值到期期间，所获得的累积低层奖励。这鼓励分配器选择最能高效利用时间窗口完成该应急任务的无人机。 * 低层多无人机任务执行模块：每个无人机都是一个独立的智能体，在每个时隙都需做出决策。其观测空间包括自身状态（位置、能量）、与其他无人机的相对位置、以及感知范围内的监视POI的局部AoI热力图。其目标空间来自高层分配器指定的应急任务特征。其奖励由三部分构成：成功/失败处理应急任务的奖惩、处理监视任务带来的AoI降低收益（归一化）、以及能量耗尽的惩罚。 * 创新插件一：面向无人机的动态加权队列：这是连接高层与低层的通信媒介。当高层分配器将一个应急任务分配给某无人机时，该任务会被插入该无人机的专属队列。队列中的每个任务都有一个优先级，优先级通过一个时序预测器来估算——该预测器是一个神经网络，用于预测在当前无人机策略下，从当前状态到达处理该应急任务所需的目标状态所需的期望时隙数。时隙数越少，优先级越高。每个时隙，无人机从其队列中选择优先级最高的应急任务作为当前执行的“目标”。这确保了无人机能够根据动态情况，在多个并发的应急任务中做出最优选择，而非简单的“先到先服务”。 * 创新插件二：具有自平衡内在奖励的低层执行机制：为了解决无人机容易被高频率、高奖励密度的监视任务吸引而忽略稀疏奖励的应急任务（陷入局部最优）的问题，本研究设计了一种新颖的内在奖励。该奖励引导无人机在趋向“目标”（最高优先级的应急任务）的同时，远离“反目标”（可能造成冗余工作的其他无人机位置）。公式为：r_intr = -(1-ω) * (目标AoI) * (到目标的归一化距离) + ω * (到反目标的归一化距离)。超参数ω用于平衡对应急任务和监视任务的关注。当ω较小时，强调快速响应应急；当ω较大时，鼓励无人机分散工作以覆盖更多监视区域。这种机制使无人机在前往处理应急任务的途中，也能“顺便”高效处理沿途的监视任务，实现二者间的动态权衡。
3. 训练流程与算法实现： 研究采用基于演员-评论家（Actor-Critic）架构的分布式MADRL算法（文中以独立近端策略优化IPPO为例）作为基础学习器。训练过程同时更新高层分配器、低层各无人机策略网络以及时序预测器的参数。 * 高层分配器使用其特有的奖励进行训练。 * 时序预测器通过从无人机轨迹中采集状态对及其实际时间间隔作为标签，进行监督回归训练。 * 低层各无人机的总奖励为环境奖励与自平衡内在奖励之和，并以此更新各自的策略网络和价值网络。 整个框架（DRL-MTUCS）的伪代码清晰描述了在每一个训练周期内，环境交互、队列更新、优先级计算、动作选择、奖励计算和参数更新的完整闭环。
4. 实验设置与验证： 为了验证所提框架的有效性，研究进行了大量实验。 * 数据集与环境：使用了美国旧金山和中国成都的两个真实世界出租车轨迹数据集，从中提取了300个最常访问的点作为固定的监视POI。应急POI的位置随机生成，并以固定间隔∆出现。仿真参数（如无人机最大速度、通信模型、相机模糊参数等）均参考了现实设备（如大疆Matrice 600）和已有研究进行设置。 * 基线方法：选择了六种先进的基线方法进行对比，包括：传统优化方法（多旅行商问题MTSP）、先进的集中式MADRL方法（HAPPO）、专门用于无人机调度的DRL方法（DRL-EMS）、分层DRL方法（AIM, HIDE-PPO）以及随机策略。 * 评估指标：核心评估指标是提出的“有效任务处理指数”（I），同时辅以应急任务有效处理率（I_emer）、监视任务有效处理率（I_surv）和能量消耗比率（η）进行多维度分析。 * 消融实验：通过逐步移除“动态加权队列”和“自平衡内在奖励”两个组件，验证了它们各自的重要性。 * 超参数调优：对队列长度（l_que）和内在奖励权重（ω）进行了调优，确定了最优参数组合（l_que=3， ω在旧金山为0.7，在成都为0.9），并分析了ω对任务权衡的影响。 * 泛化与可视化：在更复杂的场景下测试了模型（如根据交通流量设置不同区域的应急任务AoI阈值），并进行了无人机轨迹可视化，直观展示了无人机如何分区协作、优先处理应急任务并兼顾监视任务。
四、 主要研究结果
实验结果表明，DRL-MTUCS框架在多项指标上显著且稳定地优于所有基线方法。
整体性能卓越：在两个数据集上，DRL-MTUCS在核心指标“有效任务处理指数”（I）上均取得了最高值。例如，在调整最大图像模糊要求（δ_max）的实验中，DRL-MTUCS相比最佳基线（MTSP或AIM），在旧金山和成都数据集上平均提升了88%和81%。这直接证明了该框架在平衡多任务处理效能与能源效率方面的优越性。
高效应急处理能力：在应急任务有效处理率（I_emer）上，DRL-MTUCS同样表现最佳。特别是在应急任务密集（生成间隔∆小）或要求严格（δ_max小）的情况下，其优势更为明显。这归功于动态加权队列机制，它使无人机能够智能排序并协同处理多个并发应急事件。
良好的监视任务维持能力：虽然DRL-MTUCS的主要优势在于应急响应，但其监视任务有效处理率（I_surv）也保持了令人满意的水平，仅略低于某些完全专注于监视任务的基线（如HAPPO）。这体现了自平衡内在奖励机制的成功：无人机在优先处理应急任务的同时，并未完全牺牲对常规监视区域的覆盖。
消融实验验证核心组件：移除动态加权队列后，I值在旧金山和成都数据集上分别下降了22%和11%，且处理并发应急任务的能力显著减弱。移除自平衡内在奖励后，I_emer急剧下降（旧金山降至0.3515，成都降至0.4959），因为无人机策略陷入局部最优，过于偏向处理奖励密集的监视任务而忽略了应急任务。这强有力地证明了两个创新插件对于解决多任务权衡和应急任务随机性挑战是不可或缺的。
适应性与鲁棒性：实验系统地评估了不同因素（无人机数量、监视任务AoI阈值、图像模糊要求、应急任务生成频率）对性能的影响。DRL-MTUCS在各种条件下均表现出稳定的高性能和良好的适应性。例如，随着无人机数量增加，其I值持续提升且能耗下降，显示了良好的可扩展性。在更复杂的泛化场景（四种不同紧急程度的任务）中，DRL-MTUCS依然能以最高I值（1.251）有效工作，而其他基线方法在处理最紧急任务时成为瓶颈。
轨迹可视化佐证：轨迹图直观展示了DRL-MTUCS框架下无人机的智能行为：不同无人机有明确的责任分区；单架无人机能按优先级顺序串行处理多个应急POI；无人机在前往应急点的路径上会选择迂回路线以处理沿途的监视POI，实现了时间窗口内的最优利用。这些可视化结果与定量指标相互印证。
计算效率：在嵌入式设备Jetson Xavier NX上的测试表明，DRL-MTUCS的推理时间开销（约0.014秒）远小于单个决策时隙（20秒），满足实际部署的实时性要求。
五、 研究结论与价值
本研究成功提出并验证了DRL-MTUCS，一个用于多任务导向、应急感知的无人机群智感知问题的分层多智能体深度强化学习框架。该研究的价值体现在：
科学价值：
问题定义与评估创新：明确定义了异构AoI约束下的多任务UCS问题，并提出了“有效任务处理指数”这一新颖的、能反映系统性能瓶颈的综合评估指标。
方法学创新：首创性地将动态加权队列和自平衡内在奖励机制集成到分层MADRL框架中，为解决多智能体协同决策中的动态任务分配、优先级排序以及稀疏/密集奖励权衡等共性难题提供了新的思路和可复用的插件。
理论结合实践：将分层MDP、时序预测、内在激励等理论与实际的UCS场景深度结合，设计了一套完整且高效的训练与执行流程。
应用价值：
为复杂场景下的无人机协同调度提供了高效解决方案：该框架能够直接应用于智慧城市中的交通监控、事故应急响应、大型活动安保等需要同时处理常规巡检和突发事件响应的场景。
提升系统资源利用效率与任务成功率：通过智能的动态任务分配和轨迹规划，在有限的无人机资源和能量约束下，最大化了对高优先级应急任务的响应速度和对常规监视任务的覆盖质量。
具备良好的泛化性与实用性：框架设计兼容任何基于演员-评论家的MADRL算法，在两个差异化的真实城市数据集上均表现优异，并在嵌入式设备上验证了实时可行性，为实际部署奠定了基础。
六、 研究亮点
新颖的问题建模与评估指标：聚焦于具有异构AoI需求的多任务UCS场景，并提出了“有效任务处理指数”来精准衡量系统在多重约束下的整体性能。
创新的分层框架与插件设计： 动态加权队列：通过时序预测器智能计算优先级，实现了对多个并发应急任务的动态、高效分配与排序，解决了传统方法在应对突发、多事件时的不足。
自平衡内在奖励：创造性地引入“目标”与“反目标”概念，通过可调参数ω实现了无人机在应急响应与常规监视之间的自动权衡，有效避免了策略陷入局部最优。
系统且严谨的验证：不仅在标准设置下与多种先进基线进行了全面对比，还通过详尽的消融实验、超参数分析、多因素影响研究、复杂场景泛化测试以及轨迹可视化，全方位、多角度地验证了框架各部分的有效性、鲁棒性和优越性。
理论与实践的紧密结合：研究源于实际应用需求，提出的方法具有明确的物理意义和可解释性，实验基于真实数据集和实际设备参数，结论可靠，落地性强。
七、 其他有价值内容
论文还对相关领域工作进行了全面回顾，涵盖了单/多任务UCS、AoI优化、MADRL及分层DRL（HDRL）等方面的最新进展，清晰定位了本研究的贡献与突破点。此外，论文详细描述了系统模型中通信与传感的具体参数（如OFDMA、LoS/NLoS信道模型、图像模糊模型），使得仿真环境高度逼真，增强了研究结果的可信度。算法伪代码和训练损失函数的详细说明，也为其他研究者复现和改进该工作提供了充分的信息。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问