分享自:

基于深度强化学习的云边协同DNN推理

期刊:computer engineeringDOI:10.19678/j.issn.1000-3428.0063579

基于深度强化学习的云边协同DNN推理研究学术报告

一、研究团队与发表信息
本研究由湖南师范大学信息科学与工程学院的刘先锋、梁赛、李强、张锦合作完成,发表于《Computer Engineering》2022年第48卷第11期。

二、学术背景与研究目标
科学领域:该研究属于边缘计算(Edge Computing)与人工智能交叉领域,聚焦深度神经网络(DNN, Deep Neural Network)推理的优化问题。
研究背景:随着边缘设备数量和数据量的爆炸式增长,DNN在计算机视觉、自然语言处理等场景中广泛应用,但其计算密集性导致资源受限的边缘设备难以高效运行。现有云边协同方案存在静态划分策略的局限性,无法适应动态网络环境(如传输速率波动、边缘设备异构性、云服务器负载变化)。
研究目标:提出一种基于深度强化学习(DRL, Deep Reinforcement Learning)的自适应算法(DPTO),动态优化DNN推理的计算划分与任务卸载,以最小化推理时延。

三、研究流程与方法
1. 问题建模与框架设计
- 系统框架:构建包含时间预估模型、动态决策模块(DPTO)、分布式推理执行的三层架构。
- 时间预估模型:通过分析DNN各层计算特征(如卷积层FLOPs、全连接层参数),建立边缘设备与云服务器的执行时延预测模型(式1-5)。
- 马尔可夫决策过程(MDP)建模:将动态环境下的划分与卸载问题转化为状态(网络速率、设备资源等)、动作(划分点选择、设备分配)、奖励(时延负值)的强化学习问题。

  1. 算法开发(DPTO)

    • 核心创新:采用深度Q网络(DQN)替代传统Q-learning的二维Q表,解决状态-动作空间爆炸问题。
    • 双网络结构:Main网络实时更新策略,Target网络定期同步参数,结合经验回放(Experience Replay)降低数据相关性。
    • 自适应策略:通过ε-greedy策略平衡探索与利用,动态选择最优划分点(如VGG19的卷积层与全连接层划分)和边缘设备分配。
  2. 实验验证

    • 实验平台:阿里云服务器模拟云端,Intel Mini PC与树莓派3B+模拟异构边缘设备,测试模型包括VGG19、AlexNet、YOLOv2。
    • 对比算法:纯云计算(EC)、纯边缘计算(EM)、离线静态划分(OF)、经典Q-learning(QL)及轮询(RR)。
    • 评估指标:在不同网络速率、设备性能、云负载下测量推理时延,任务规模涵盖1-100张图片。

四、主要结果与逻辑关联
1. 动态划分优化效果
- 在网络速率波动下,DPTO比EC降低时延23.45%-60.32%,比EM降低31.86%-62.77%(图8)。
- 关键发现:传输速率高时倾向于云端执行,速率低时动态划分计算负载,验证了自适应策略的有效性。

  1. 异构设备适应性

    • 在低性能边缘设备(Intel 900MHz)上,DPTO时延比OF降低6.22%-10.29%(图9),表明其能根据设备算力调整划分点。
  2. 任务卸载性能

    • 多任务场景下,DPTO比QL降低时延3.99%,比RR降低29.18%(图11),凸显其在负载均衡与资源竞争缓解上的优势。

五、研究结论与价值
1. 科学价值:首次将DRL引入云边协同DNN推理的动态优化,解决了传统静态划分策略的适应性缺陷。
2. 应用价值:在异构动态环境中平均降低28.83%的推理时延,为智能物联网(AIoT)、实时视觉分析等场景提供高效解决方案。
3. 方法论贡献:提出的DQN双网络架构与经验回放机制,为复杂环境下的组合优化问题提供了通用框架。

六、研究亮点
- 动态性:首次综合考量网络速率、设备资源、云负载的多维动态变化。
- 算法创新:DPTO算法通过DRL实现无需先验知识的自适应决策。
- 实验全面性:覆盖3类DNN模型、4种任务规模及多设备异构场景。

七、其他价值
- 可扩展性:框架支持边缘集群容错与安全增强的后续研究(如文中提到的宕机与恶意攻击防护)。
- 开源实践:实验代码基于PyTorch实现,具备可复现性。

(注:专业术语如FLOPs=Floating Point Operations Per Second,ε-greedy策略等均保留英文原名以符合学术规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com