基于多智能体深度强化学习的大规模异构物联网系统任务卸载

分享自：

基于多智能体深度强化学习的大规模异构物联网系统任务卸载

人工智能

工程学

信息科学

电气科学与工程

计算机科学

期刊:IEEE Transactions on Network Science and EngineeringDOI:10.1109/tnse.2024.3521885

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，是一篇关于动态物联网系统中大规模异构任务卸载的原创性研究论文。以下是详细的学术报告：
作者及发表信息本文由Xiao He、Shanchen Pang、Haiyuan Gui、Kuijie Zhang、Nuanlai Wang（IEEE研究生会员）和Xue Zhai共同完成，作者均来自中国石油大学（华东）计算机科学与技术学院青岛软件学院。研究发表于IEEE Transactions on Network Science and Engineering（2025年3月/4月刊，第12卷第2期），论文标题为《Multi-Agent DRL-Based Large-Scale Heterogeneous Task Offloading for Dynamic IoT Systems》。
学术背景研究领域：本文属于边缘计算（Edge Computing）与物联网（IoT）的交叉领域，聚焦于动态物联网系统中异构计算任务的实时调度与资源分配问题。
研究动机：
 随着5G和物联网技术的发展，终端设备（ED）产生的任务呈现大规模、高异构性特征，需同时调用CPU和GPU资源（即“异构任务”）。传统方法（如移动边缘计算MEC）难以满足以下需求：
 1. 异构资源需求：不同任务对GPU类型有特定要求（如某些模型仅适配特定代际GPU），增加了调度复杂度；
 2. 任务规模波动性：动态物联网环境中，任务数量密集且持续变化，导致队列稳定性差。
研究目标：
 提出一种结合多智能体深度强化学习（Multi-Agent DRL）和Lyapunov优化的实时任务卸载框架，以降低任务平均处理时间（目标19.95%）并提升系统处理能力（目标12.43%）。
研究流程与方法1. 系统建模与问题分解模型架构：设计三层动态物联网系统（任务层、设备层、边缘层），终端设备（ED）通过无线链路连接基站（BS），基站部署异构边缘服务器（含多种GPU节点）。
 
任务队列模型：
 多级异构反馈队列（MHFQ）：将任务按优先级分为三级虚拟队列（低、中、高），分配不同时间片（τves1 < τves2 < τves3），动态迁移未完成任务以避免资源垄断。
 
Lyapunov优化：将多阶段混合整数非线性规划（MINLP）问题分解为单阶段确定性MINLP子问题，降低求解复杂度。
 
2. 算法设计（LRMA）多智能体DRL框架：
 ED智能体：基于局部观测状态（任务属性、队列长度等）决定是否卸载任务；
 
云端智能体：根据全局状态（MES负载、任务类型）分配任务至特定MES和GPU节点。
 
创新技术：
 LSTM预测模块：通过历史任务状态预测未来资源需求，辅助决策；
 
参数重置（Parameter Resetting）：抑制强化学习中的“先验偏差”（Primacy Bias），提升模型泛化能力。
 
3. 实验验证数据集：采用阿里巴巴云集群的1523个GPU节点和26925个异构任务数据；
 
对比基线：
 队列框架：FCFS（先到先服务）、M/M/C（多队列并行）；
 
算法：DVCC（基于DQN）、MA3MCO（多目标DRL）、L-MADDPG（DDPG扩展）。
 
评估指标：任务完成时间、队列波动性、卸载率。
 
主要结果MHFQ框架性能：
相比FCFS和M/M/C，MHFQ降低任务平均处理时间21.1%，减少ED队列等待任务量18.4%；
 
通过时间片轮转机制，解决了长任务资源垄断问题（图8）。
 
LRMA算法优势：
在任务生成率80%时，卸载率接近50%，优于DVCC（<20%）；
 
参数重置技术使任务处理时间减少33%，队列稳定性提升28%（图6-7）。
 
Lyapunov参数优化：
惩罚因子v=20时，系统处理能力与队列稳定性达到最优平衡（图4-5）。
 
结论与价值科学价值：
 1. 提出首个融合MHFQ和Lyapunov优化的异构任务卸载框架，解决了CPU-GPU协同调度中的公平性与实时性矛盾；
 2. 验证了参数重置技术在DRL中的有效性，为复杂动态系统的在线学习提供了新思路。
应用价值：
 1. 可应用于工业物联网（如自动驾驶、智能制造），提升边缘设备的任务吞吐量；
 2. 开源算法框架（GitHub公开）支持进一步扩展研究。
研究亮点方法创新：
 多级反馈队列与异构GPU资源分配的首次结合；
 
基于LSTM和参数重置的多智能体DRL算法（LRMA）。
 
性能突破：实验表明，LRMA在任务密集场景下显著优于现有方法（图9-10）。
 
其他价值论文提供了完整的仿真代码和数据集，便于复现；
 
提出的框架可扩展至其他资源受限的动态系统（如车联网）。
 
（全文约2000字）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问