基于深度强化学习的云边协同DNN推理研究学术报告
一、研究团队与发表信息
本研究由湖南师范大学信息科学与工程学院的刘先锋、梁赛、李强、张锦合作完成,发表于《Computer Engineering》2022年第48卷第11期。
二、学术背景与研究目标
科学领域:该研究属于边缘计算(Edge Computing)与人工智能交叉领域,聚焦深度神经网络(DNN, Deep Neural Network)推理的优化问题。
研究背景:随着边缘设备数量和数据量的爆炸式增长,DNN在计算机视觉、自然语言处理等场景中广泛应用,但其计算密集性导致资源受限的边缘设备难以高效运行。现有云边协同方案存在静态划分策略的局限性,无法适应动态网络环境(如传输速率波动、边缘设备异构性、云服务器负载变化)。
研究目标:提出一种基于深度强化学习(DRL, Deep Reinforcement Learning)的自适应算法(DPTO),动态优化DNN推理的计算划分与任务卸载,以最小化推理时延。
三、研究流程与方法
1. 问题建模与框架设计
- 系统框架:构建包含时间预估模型、动态决策模块(DPTO)、分布式推理执行的三层架构。
- 时间预估模型:通过分析DNN各层计算特征(如卷积层FLOPs、全连接层参数),建立边缘设备与云服务器的执行时延预测模型(式1-5)。
- 马尔可夫决策过程(MDP)建模:将动态环境下的划分与卸载问题转化为状态(网络速率、设备资源等)、动作(划分点选择、设备分配)、奖励(时延负值)的强化学习问题。
算法开发(DPTO)
实验验证
四、主要结果与逻辑关联
1. 动态划分优化效果
- 在网络速率波动下,DPTO比EC降低时延23.45%-60.32%,比EM降低31.86%-62.77%(图8)。
- 关键发现:传输速率高时倾向于云端执行,速率低时动态划分计算负载,验证了自适应策略的有效性。
异构设备适应性
任务卸载性能
五、研究结论与价值
1. 科学价值:首次将DRL引入云边协同DNN推理的动态优化,解决了传统静态划分策略的适应性缺陷。
2. 应用价值:在异构动态环境中平均降低28.83%的推理时延,为智能物联网(AIoT)、实时视觉分析等场景提供高效解决方案。
3. 方法论贡献:提出的DQN双网络架构与经验回放机制,为复杂环境下的组合优化问题提供了通用框架。
六、研究亮点
- 动态性:首次综合考量网络速率、设备资源、云负载的多维动态变化。
- 算法创新:DPTO算法通过DRL实现无需先验知识的自适应决策。
- 实验全面性:覆盖3类DNN模型、4种任务规模及多设备异构场景。
七、其他价值
- 可扩展性:框架支持边缘集群容错与安全增强的后续研究(如文中提到的宕机与恶意攻击防护)。
- 开源实践:实验代码基于PyTorch实现,具备可复现性。
(注:专业术语如FLOPs=Floating Point Operations Per Second,ε-greedy策略等均保留英文原名以符合学术规范。)