本文档属于类型b(综述类论文),以下为针对《面向边缘智能的协同推理综述》的学术报告:
作者及机构
本文由王睿(北京科技大学计算机与通信工程学院/顺德研究生院)、齐建鹏、陈亮、杨龙(均来自北京科技大学计算机与通信工程学院)合作完成,发表于《Journal of Computer Research and Development》2023年第60卷第2期。
主题
论文系统梳理了边缘智能(Edge Intelligence, EI)中协同推理(Collaborative Inference)的技术发展现状,重点围绕动态场景下的资源协同优化问题,从智能化方法与架构设计两大维度展开分析。
作者指出,传统云计算面临高延迟、带宽受限、隐私安全等问题,而边缘计算通过将计算下沉至用户侧缓解了这些矛盾。然而,边缘设备资源性能普遍较低,需通过协同推理实现高效智能任务处理。支持证据包括:
- 数据增长需求:引用Gartner和IDC数据,指出2022年75%的企业数据产生于边缘侧,2025年边缘设备互联数据量将达79.4 ZB。
- 技术瓶颈:云计算在实时性、能耗、维护成本上的缺陷(文献[3-7]),促使边缘计算成为解决“人工智能最后一公里”问题的关键(文献[18-22])。
作者将协同推理技术划分为智能化方法与架构设计两类:
- 智能化方法:
- 模型切割(Model Partition):分为横切(按层划分)、纵切(按通道划分)和混切(混合划分),例如DeepThings(纵切)、Neurosurgeon(横切)等。文献[45-57]对比了不同切割方式的适用场景,指出动态场景下需结合资源状态实时调整切割策略。
- 模型压缩(Model Compression):包括剪枝(结构化/非结构化)、量化(二值/三值/线性)及软硬件协同优化(如硬件感知的神经架构搜索HNAS)。文献[68-70]表明,量化技术可降低模型位宽,但需权衡精度损失与计算效率。
- 模型选择与早期退出(Early Exit):通过分支结构(如BranchyNet)或轻量化模型(如知识蒸馏)实现动态推理终止。文献[102-106]提出基于熵或时延约束的退出点决策算法。
动态场景(如网络拓扑变化、资源性能波动)要求协同推理具备鲁棒性。作者提出:
- 资源感知技术:如Edgent[54]通过实时带宽监测调整切割点;AOFL[51]采用周期性节点状态收集优化部署。
- 弹性架构设计:星状拓扑(中心协调)灵活性优于网状拓扑,但需解决调度开销问题(表1对比)。文献[107]开发的Easie仿真平台支持动态场景验证。
作者提出五个关键领域:
1. 模型切割并行化:设计无数据依赖的切割模型(如计算复用技术)。
2. 轻量化技术自动化:结合NAS(Neural Architecture Search)实现硬件适配的压缩。
3. 多用户协同优化:探索通用模型切片共享(文献[63])。
4. 动态阈值调整:早期退出中基于实时状态的决策机制。
5. 存内计算(Processing in Memory):减少内存墙对稀疏模型的影响(文献[97])。
(注:全文引用文献均来自原文档标注,术语翻译如“边缘智能(Edge Intelligence)”首次出现时保留英文对照。)