异构MEC系统中基于多智能体强化学习的大规模协作任务卸载与资源分配

分享自：
异构MEC系统中基于多智能体强化学习的大规模协作任务卸载与资源分配

期刊:IEEE Internet of Things JournalDOI:10.1109/JIOT.2023.3292387
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
大规模异构MEC系统中基于多智能体强化学习的协同任务卸载与资源分配方法研究
一、作者及发表信息
 本研究由Zhen Gao、Lei Yang（通讯作者）和Yu Dai合作完成，三位作者均来自中国东北大学（Northeastern University）的不同学院：Zhen Gao和Lei Yang隶属于计算机科学与工程学院，Yu Dai来自软件学院。研究成果发表于IEEE Internet of Things Journal，2024年1月15日第11卷第2期，文章编号2303。
二、学术背景
 1. 研究领域：本研究属于边缘计算（Multi-access Edge Computing, MEC）与强化学习（Reinforcement Learning, RL）的交叉领域，聚焦于异构MEC系统中的动态任务卸载与资源分配问题。
 2. 研究动机：现有任务卸载方法在小规模MEC系统中表现优异，但随着移动设备（Mobile Devices, MDs）和边缘服务器（Edge Servers, ESs）数量增加，系统复杂度呈指数级增长，导致策略学习困难。此外，ES基础设施受限且任务需求时空分布不均，传统方法难以实现全局优化。
 3. 研究目标：提出一种基于课程时空多智能体Actor-Critic（Curriculum Spatiotemporal Multiagent Actor–Critic, CSTMAAC）的任务卸载方法，以解决大规模异构MEC系统中的多目标优化问题，提升任务完成率和系统总效用。
三、研究流程与方法
 1. 系统建模
 - 研究对象：包含130辆真实出租车轨迹模拟的移动设备（MDs）和10-50个边缘服务器（ESs），ES计算能力为2.5–5.5 Gcycles/s，覆盖1 km×1 km网格区域。
 - 任务模型：任务生成遵循泊松分布，数据大小为300–1500 kbits，CPU需求为900–1100兆周期，任务期限敏感（时间槽为0.1秒）。
 - 问题形式化：将任务卸载与资源分配建模为多目标优化问题，目标是最小化任务执行延迟和能耗（公式14）。
CSTMAAC算法设计
核心模块：
 注意力集中式评论网络（Attention-based Centralized Critic-network）：通过注意力机制整合活跃ES代理的状态与动作，实现全局协同（公式21-23）。
 
进化课程学习（Evolutionary Curriculum Learning）：分阶段增加ES代理数量，通过混合匹配和进化算法解决策略初始化不一致问题（算法1）。
 
延迟访问机制（Delayed Access Mechanism）：利用未来任务队列延迟信息预测资源竞争，提升策略鲁棒性（公式26）。
 
多评论网络与动态权重（Multi-critics & Dynamic Weight）：针对延迟和能耗分别设计评论网络，通过动态权重（公式30）平衡多目标冲突。
 
训练与执行：采用集中训练分散执行（CTDE）框架，中央数据中心训练模型后，将策略部署至各ES代理。
 
实验验证
数据集：基于罗马市158辆出租车的真实GPS轨迹数据，筛选130辆作为MDs。
 
对比基线：包括CMATO（集中式任务卸载）、DIRS（分布式资源分配）、DMACO（去中心化方法）等。
 
评估指标：任务完成率、系统总效用（公式20）、收敛速度等。
 
四、主要结果
 1. 性能提升：CSTMAAC相比基线算法，任务完成率提升13.01%–15.21%，系统总效用提高16.89%–18.32%（图12-15）。
 2. 收敛性：在探索噪声方差σ²=0.25时，算法最快收敛（580-750轮），总效用最高（图8-9）。
 3. 模块贡献：
 - 移除注意力评论网络（noACC）导致效用下降18.18%；
 - 移除延迟访问机制（noDAM）使效用降低16.33%，收敛速度下降40.23%；
 - 动态权重机制（Moo）对多目标平衡至关重要，移除后效用减少34.89%（图10）。
 4. 泛化能力：在50 ESs/130 MDs的新环境中，CSTMAAC仅需250轮训练即可收敛，优于MR-DRO（750轮）和DMRO（1750轮），且效用提升18.79%（图14）。
五、结论与价值
 1. 科学价值：
 - 提出首个结合课程学习与多智能体强化学习的大规模MEC优化框架，解决了可变输入维度与策略协同的难题。
 - 通过延迟访问机制和动态权重，首次将未来竞争信息与多目标冲突纳入MEC策略优化。
 2. 应用价值：适用于智慧城市、车联网等高动态边缘计算场景，为实时任务调度提供可扩展解决方案。
六、研究亮点
 1. 方法创新：
 - 自注意力驱动的种群不变网络：支持任意数量ES代理的输入（图7）。
 - 进化课程学习：通过分阶段扩展代理数量，避免直接克隆导致的策略退化（算法1）。
 2. 工程意义：实验基于真实轨迹数据，验证了算法在复杂城市环境中的实用性。
七、其他价值
 - 开源代码与数据集可为后续研究提供基准（GitHub链接见原文脚注）。
 - 提出的竞标机制（Bid Mechanism）为分布式资源分配提供了新思路（图2）。
（注：实际报告中可补充具体数据图表引用及公式细节，此处因篇幅限制有所简化。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问