作者与机构
本研究的核心团队来自中山大学数据科学与计算机学院,主要作者包括En Li、Liekang Zeng、Zhi Zhou(IEEE会员)和Xu Chen(IEEE会员)。该研究成果以《Edge AI: On-Demand Accelerating Deep Neural Network Inference via Edge Computing》为题,于2019年10月发表在《IEEE Transactions on Wireless Communications》期刊上。研究部分成果曾提前在2018年ACM SIGCOMM MeComm研讨会上展示。
在5G时代人工智能应用蓬勃发展的背景下,深度神经网络(Deep Neural Networks, DNNs)已成为支撑智能移动应用的核心技术。然而移动设备有限的计算资源难以满足DNN计算密集型任务的需求。传统云辅助的DNN推理存在广域网络延迟显著的问题,导致实时性差和用户体验下降。
针对这些挑战,研究团队提出了Edgent框架——一种通过”设备-边缘协同”实现DNN协作推理的创新解决方案。其核心科学问题在于:如何在预定义的延迟要求下,通过DNN分区(partitioning)和DNN尺寸调整(right-sizing)的联合优化,最大化推理准确率。这与传统仅关注计算卸载或模型压缩的方法形成鲜明对比。
Edgent框架包含三个关键阶段: 1. 离线配置阶段:根据网络环境静态/动态特性生成不同配置方案 2. 在线调优阶段:实时测量带宽并联合优化分区点和退出点 3. 协同推理阶段:按计划分割执行DNN层
DNN分区技术:自适应地将DNN计算划分到设备和边缘服务器。通过分析AlexNet各层的执行延迟和输出数据量(图3),研究发现不同层的延迟和数据量存在显著异质性,为智能分区提供理论基础。
DNN尺寸调整:通过提前退出机制加速推理。研究通过BranchyNet框架训练包含多个退出点的分支型AlexNet(图4),其中最短分支(退出点1)仅含12层,最长分支(退出点5)含22层,形成精度-延迟权衡的灵活选择空间。
对于静态网络环境: - 建立回归模型预测层级延迟(表I) - 设计算法1通过穷举搜索最优分区点 - 精度优先策略:在满足延迟约束下选择最深退出点
对于动态网络环境: - 基于历史带宽轨迹构建状态配置映射(算法2) - 采用变化点检测算法(算法3)实时响应带宽波动 - 奖励函数设计:同时考虑精度和吞吐量(公式1)
硬件平台: - 边缘服务器:配备四核3.40GHz Intel处理器和8GB内存的台式PC - 移动设备:树莓派3(四核1.2GHz ARM处理器,1GB内存)
实验设置: 1. 静态环境:使用wondershaper工具控制带宽(50kbps-1.5Mbps) 2. 动态环境:采用比利时4G/LTE带宽日志数据集模拟波动 3. 测试模型:基于CIFAR-10数据集训练的五退出点分支型AlexNet 4. 性能指标:端到端延迟、推理准确率、系统吞吐量
带宽影响(固定延迟要求1s):
延迟要求影响(固定带宽500kbps):
基于公交场景带宽波动的案例研究(图10)显示:
配置器对比实验(图11):
科学价值: 1. 首次将DNN分区与尺寸调整技术系统整合,扩展了边缘计算优化维度 2. 提出的回归预测模型和变化点检测算法为动态环境下的资源分配提供新方法 3. 通过设备-边缘协同架构,实现理论延迟降低94.7%(从2.317s降至0.123s)
应用价值: 1. 使AlexNet在树莓派上实现实时推理(<200ms) 2. 为智能安防、工业机器人等任务关键型应用提供可行的边缘AI解决方案 3. 框架兼容现有模型压缩技术,具有部署灵活性
需求导向的优化范式:突破传统单纯追求低延迟或高精度的局限,首创基于预定义延迟约束的精度最大化方法。
环境自适应架构:通过静态/动态双配置器设计,同时适应LAN光纤环境(静态)和5G车联网(动态)等异构场景。
联合优化方法论:实验证明单独使用分区或尺寸调整均无法满足严苛时序要求(图9),必须通过二者的协同优化才能突破性能瓶颈。
该研究由国家自然科学基金(U1711265、61972432等)、广东省引进创新科研团队计划(2017ZT07X355)等多项基金支持,其成果为边缘智能(Edge Intelligence)的发展奠定了重要基础。