这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
大规模异构MEC系统中基于多智能体强化学习的协同任务卸载与资源分配方法研究
一、作者及发表信息
本研究由Zhen Gao、Lei Yang(通讯作者)和Yu Dai合作完成,三位作者均来自中国东北大学(Northeastern University)的不同学院:Zhen Gao和Lei Yang隶属于计算机科学与工程学院,Yu Dai来自软件学院。研究成果发表于IEEE Internet of Things Journal,2024年1月15日第11卷第2期,文章编号2303。
二、学术背景
1. 研究领域:本研究属于边缘计算(Multi-access Edge Computing, MEC)与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于异构MEC系统中的动态任务卸载与资源分配问题。
2. 研究动机:现有任务卸载方法在小规模MEC系统中表现优异,但随着移动设备(Mobile Devices, MDs)和边缘服务器(Edge Servers, ESs)数量增加,系统复杂度呈指数级增长,导致策略学习困难。此外,ES基础设施受限且任务需求时空分布不均,传统方法难以实现全局优化。
3. 研究目标:提出一种基于课程时空多智能体Actor-Critic(Curriculum Spatiotemporal Multiagent Actor–Critic, CSTMAAC)的任务卸载方法,以解决大规模异构MEC系统中的多目标优化问题,提升任务完成率和系统总效用。
三、研究流程与方法
1. 系统建模
- 研究对象:包含130辆真实出租车轨迹模拟的移动设备(MDs)和10-50个边缘服务器(ESs),ES计算能力为2.5–5.5 Gcycles/s,覆盖1 km×1 km网格区域。
- 任务模型:任务生成遵循泊松分布,数据大小为300–1500 kbits,CPU需求为900–1100兆周期,任务期限敏感(时间槽为0.1秒)。
- 问题形式化:将任务卸载与资源分配建模为多目标优化问题,目标是最小化任务执行延迟和能耗(公式14)。
CSTMAAC算法设计
实验验证
四、主要结果
1. 性能提升:CSTMAAC相比基线算法,任务完成率提升13.01%–15.21%,系统总效用提高16.89%–18.32%(图12-15)。
2. 收敛性:在探索噪声方差σ²=0.25时,算法最快收敛(580-750轮),总效用最高(图8-9)。
3. 模块贡献:
- 移除注意力评论网络(noACC)导致效用下降18.18%;
- 移除延迟访问机制(noDAM)使效用降低16.33%,收敛速度下降40.23%;
- 动态权重机制(Moo)对多目标平衡至关重要,移除后效用减少34.89%(图10)。
4. 泛化能力:在50 ESs/130 MDs的新环境中,CSTMAAC仅需250轮训练即可收敛,优于MR-DRO(750轮)和DMRO(1750轮),且效用提升18.79%(图14)。
五、结论与价值
1. 科学价值:
- 提出首个结合课程学习与多智能体强化学习的大规模MEC优化框架,解决了可变输入维度与策略协同的难题。
- 通过延迟访问机制和动态权重,首次将未来竞争信息与多目标冲突纳入MEC策略优化。
2. 应用价值:适用于智慧城市、车联网等高动态边缘计算场景,为实时任务调度提供可扩展解决方案。
六、研究亮点
1. 方法创新:
- 自注意力驱动的种群不变网络:支持任意数量ES代理的输入(图7)。
- 进化课程学习:通过分阶段扩展代理数量,避免直接克隆导致的策略退化(算法1)。
2. 工程意义:实验基于真实轨迹数据,验证了算法在复杂城市环境中的实用性。
七、其他价值
- 开源代码与数据集可为后续研究提供基准(GitHub链接见原文脚注)。
- 提出的竞标机制(Bid Mechanism)为分布式资源分配提供了新思路(图2)。
(注:实际报告中可补充具体数据图表引用及公式细节,此处因篇幅限制有所简化。)