基于深度强化学习的云边协同DNN推理

分享自：
基于深度强化学习的云边协同DNN推理

期刊:computer engineeringDOI:10.19678/j.issn.1000-3428.0063579
基于深度强化学习的云边协同DNN推理研究学术报告
一、研究团队与发表信息
 本研究由湖南师范大学信息科学与工程学院的刘先锋、梁赛、李强、张锦合作完成，发表于《Computer Engineering》2022年第48卷第11期。
二、学术背景与研究目标
 科学领域：该研究属于边缘计算（Edge Computing）与人工智能交叉领域，聚焦深度神经网络（DNN, Deep Neural Network）推理的优化问题。
 研究背景：随着边缘设备数量和数据量的爆炸式增长，DNN在计算机视觉、自然语言处理等场景中广泛应用，但其计算密集性导致资源受限的边缘设备难以高效运行。现有云边协同方案存在静态划分策略的局限性，无法适应动态网络环境（如传输速率波动、边缘设备异构性、云服务器负载变化）。
 研究目标：提出一种基于深度强化学习（DRL, Deep Reinforcement Learning）的自适应算法（DPTO），动态优化DNN推理的计算划分与任务卸载，以最小化推理时延。
三、研究流程与方法
 1. 问题建模与框架设计
 - 系统框架：构建包含时间预估模型、动态决策模块（DPTO）、分布式推理执行的三层架构。
 - 时间预估模型：通过分析DNN各层计算特征（如卷积层FLOPs、全连接层参数），建立边缘设备与云服务器的执行时延预测模型（式1-5）。
 - 马尔可夫决策过程（MDP）建模：将动态环境下的划分与卸载问题转化为状态（网络速率、设备资源等）、动作（划分点选择、设备分配）、奖励（时延负值）的强化学习问题。
算法开发（DPTO）
核心创新：采用深度Q网络（DQN）替代传统Q-learning的二维Q表，解决状态-动作空间爆炸问题。
 
双网络结构：Main网络实时更新策略，Target网络定期同步参数，结合经验回放（Experience Replay）降低数据相关性。
 
自适应策略：通过ε-greedy策略平衡探索与利用，动态选择最优划分点（如VGG19的卷积层与全连接层划分）和边缘设备分配。
 
实验验证
实验平台：阿里云服务器模拟云端，Intel Mini PC与树莓派3B+模拟异构边缘设备，测试模型包括VGG19、AlexNet、YOLOv2。
 
对比算法：纯云计算（EC）、纯边缘计算（EM）、离线静态划分（OF）、经典Q-learning（QL）及轮询（RR）。
 
评估指标：在不同网络速率、设备性能、云负载下测量推理时延，任务规模涵盖1-100张图片。
 
四、主要结果与逻辑关联
 1. 动态划分优化效果
 - 在网络速率波动下，DPTO比EC降低时延23.45%-60.32%，比EM降低31.86%-62.77%（图8）。
 - 关键发现：传输速率高时倾向于云端执行，速率低时动态划分计算负载，验证了自适应策略的有效性。
异构设备适应性
在低性能边缘设备（Intel 900MHz）上，DPTO时延比OF降低6.22%-10.29%（图9），表明其能根据设备算力调整划分点。
 
任务卸载性能
多任务场景下，DPTO比QL降低时延3.99%，比RR降低29.18%（图11），凸显其在负载均衡与资源竞争缓解上的优势。
 
五、研究结论与价值
 1. 科学价值：首次将DRL引入云边协同DNN推理的动态优化，解决了传统静态划分策略的适应性缺陷。
 2. 应用价值：在异构动态环境中平均降低28.83%的推理时延，为智能物联网（AIoT）、实时视觉分析等场景提供高效解决方案。
 3. 方法论贡献：提出的DQN双网络架构与经验回放机制，为复杂环境下的组合优化问题提供了通用框架。
六、研究亮点
 - 动态性：首次综合考量网络速率、设备资源、云负载的多维动态变化。
 - 算法创新：DPTO算法通过DRL实现无需先验知识的自适应决策。
 - 实验全面性：覆盖3类DNN模型、4种任务规模及多设备异构场景。
七、其他价值
 - 可扩展性：框架支持边缘集群容错与安全增强的后续研究（如文中提到的宕机与恶意攻击防护）。
 - 开源实践：实验代码基于PyTorch实现，具备可复现性。
（注：专业术语如FLOPs=Floating Point Operations Per Second，ε-greedy策略等均保留英文原名以符合学术规范。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问