分享自:

异构MEC系统中基于多智能体强化学习的大规模协作任务卸载与资源分配

期刊:IEEE Internet of Things JournalDOI:10.1109/JIOT.2023.3292387

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


大规模异构MEC系统中基于多智能体强化学习的协同任务卸载与资源分配方法研究

一、作者及发表信息
本研究由Zhen Gao、Lei Yang(通讯作者)和Yu Dai合作完成,三位作者均来自中国东北大学(Northeastern University)的不同学院:Zhen Gao和Lei Yang隶属于计算机科学与工程学院,Yu Dai来自软件学院。研究成果发表于IEEE Internet of Things Journal,2024年1月15日第11卷第2期,文章编号2303。

二、学术背景
1. 研究领域:本研究属于边缘计算(Multi-access Edge Computing, MEC)与强化学习(Reinforcement Learning, RL)的交叉领域,聚焦于异构MEC系统中的动态任务卸载与资源分配问题。
2. 研究动机:现有任务卸载方法在小规模MEC系统中表现优异,但随着移动设备(Mobile Devices, MDs)和边缘服务器(Edge Servers, ESs)数量增加,系统复杂度呈指数级增长,导致策略学习困难。此外,ES基础设施受限且任务需求时空分布不均,传统方法难以实现全局优化。
3. 研究目标:提出一种基于课程时空多智能体Actor-Critic(Curriculum Spatiotemporal Multiagent Actor–Critic, CSTMAAC)的任务卸载方法,以解决大规模异构MEC系统中的多目标优化问题,提升任务完成率和系统总效用。

三、研究流程与方法
1. 系统建模
- 研究对象:包含130辆真实出租车轨迹模拟的移动设备(MDs)和10-50个边缘服务器(ESs),ES计算能力为2.5–5.5 Gcycles/s,覆盖1 km×1 km网格区域。
- 任务模型:任务生成遵循泊松分布,数据大小为300–1500 kbits,CPU需求为900–1100兆周期,任务期限敏感(时间槽为0.1秒)。
- 问题形式化:将任务卸载与资源分配建模为多目标优化问题,目标是最小化任务执行延迟和能耗(公式14)。

  1. CSTMAAC算法设计

    • 核心模块
      • 注意力集中式评论网络(Attention-based Centralized Critic-network):通过注意力机制整合活跃ES代理的状态与动作,实现全局协同(公式21-23)。
      • 进化课程学习(Evolutionary Curriculum Learning):分阶段增加ES代理数量,通过混合匹配和进化算法解决策略初始化不一致问题(算法1)。
      • 延迟访问机制(Delayed Access Mechanism):利用未来任务队列延迟信息预测资源竞争,提升策略鲁棒性(公式26)。
      • 多评论网络与动态权重(Multi-critics & Dynamic Weight):针对延迟和能耗分别设计评论网络,通过动态权重(公式30)平衡多目标冲突。
    • 训练与执行:采用集中训练分散执行(CTDE)框架,中央数据中心训练模型后,将策略部署至各ES代理。
  2. 实验验证

    • 数据集:基于罗马市158辆出租车的真实GPS轨迹数据,筛选130辆作为MDs。
    • 对比基线:包括CMATO(集中式任务卸载)、DIRS(分布式资源分配)、DMACO(去中心化方法)等。
    • 评估指标:任务完成率、系统总效用(公式20)、收敛速度等。

四、主要结果
1. 性能提升:CSTMAAC相比基线算法,任务完成率提升13.01%–15.21%,系统总效用提高16.89%–18.32%(图12-15)。
2. 收敛性:在探索噪声方差σ²=0.25时,算法最快收敛(580-750轮),总效用最高(图8-9)。
3. 模块贡献
- 移除注意力评论网络(noACC)导致效用下降18.18%;
- 移除延迟访问机制(noDAM)使效用降低16.33%,收敛速度下降40.23%;
- 动态权重机制(Moo)对多目标平衡至关重要,移除后效用减少34.89%(图10)。
4. 泛化能力:在50 ESs/130 MDs的新环境中,CSTMAAC仅需250轮训练即可收敛,优于MR-DRO(750轮)和DMRO(1750轮),且效用提升18.79%(图14)。

五、结论与价值
1. 科学价值
- 提出首个结合课程学习与多智能体强化学习的大规模MEC优化框架,解决了可变输入维度与策略协同的难题。
- 通过延迟访问机制和动态权重,首次将未来竞争信息与多目标冲突纳入MEC策略优化。
2. 应用价值:适用于智慧城市、车联网等高动态边缘计算场景,为实时任务调度提供可扩展解决方案。

六、研究亮点
1. 方法创新
- 自注意力驱动的种群不变网络:支持任意数量ES代理的输入(图7)。
- 进化课程学习:通过分阶段扩展代理数量,避免直接克隆导致的策略退化(算法1)。
2. 工程意义:实验基于真实轨迹数据,验证了算法在复杂城市环境中的实用性。

七、其他价值
- 开源代码与数据集可为后续研究提供基准(GitHub链接见原文脚注)。
- 提出的竞标机制(Bid Mechanism)为分布式资源分配提供了新思路(图2)。


(注:实际报告中可补充具体数据图表引用及公式细节,此处因篇幅限制有所简化。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com