分享自:

一种支持片上学习的28纳米亚毫米级脉冲递归神经网络处理器

期刊:ieee international solid-state circuits conference

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


研究作者与机构

本研究由Charlotte FrenkelGiacomo Indiveri合作完成,两人均来自瑞士苏黎世大学(University of Zurich)和苏黎世联邦理工学院(ETH Zurich)。研究发表于2022年IEEE国际固态电路会议(ISSCC 2022),具体收录于会议第29届“新兴应用中的机器学习芯片”专题(Session 29: ML Chips for Emerging Applications),论文编号为29.4。

学术背景

研究领域与动机
该研究属于神经形态计算(neuromorphic computing)边缘人工智能(edge AI)的交叉领域。当前,部署在现实世界中的自主推理设备(如手势识别、语音处理、机器人导航等)面临数据分布动态变化的挑战(如用户、环境或任务需求差异),传统静态神经网络难以适应。虽然已有研究实现了针对静态数据(如图像)的片上学习(on-chip learning),但长期时间依赖(long-term temporal dependencies)的在线学习仍受限于内存和功耗约束。

目标
研究团队提出Reckon,一款基于脉冲循环神经网络(spiking recurrent neural network, RNN)的处理器,旨在解决以下问题:
1. 支持秒级时间尺度的在线学习,同时保持毫秒级时间分辨率;
2. 在亚毫瓦功耗(<150µW)和亚平方毫米面积(<1mm²)的约束下实现端到端片上训练;
3. 通过任务无关(task-agnostic)设计,适配多种应用(如手势识别、关键词检测、导航等)。

研究流程与方法

1. 核心算法设计

研究采用神经形态方法(neuromorphic approach),结合以下创新:
- 前向资格迹(feed-forward eligibility traces, ETs):生物启发的局部时空近似算法,替代传统随时间反向传播(backpropagation through time, BPTT),减少内存需求(图29.4.1左)。
- 稀疏性利用:通过输入数据和权重更新的稀疏性(sparsity),降低计算开销。
- 地址事件表示(address-event representation, AE):兼容脉冲视网膜和耳蜗传感器,实现任务无关处理。

2. 硬件架构实现

Reckon的架构(图29.4.2)包括:
- 输入层:8位4相位握手AE解码器,处理异步脉冲传感器输入。
- 隐藏层:256个泄漏积分发放神经元(leaky integrate-and-fire, LIF),支持全连接输入和循环连接,权重存储于两块64KB SRAM。
- 输出层:16个泄漏积分器(leaky integrator, LI),无脉冲机制,支持回归和分类任务。
- 权重更新电路:基于改进的e-prop算法(图29.4.3),通过随机8位权重更新和局部计算(ETs、学习信号LS、直通估计器STE)实现高效训练(图29.4.4)。

3. 实验验证

研究通过三个基准测试验证性能(图29.4.5-29.4.6):
1. 手势识别:使用IBM DVS脉冲视网膜数据集,10类手势分类准确率达87.3%,支持延迟-精度权衡。
2. 关键词检测:基于Spiking Heidelberg Digits数据集,1:1目标词与干扰词场景下准确率90.7%。
3. 导航任务:合成数据模拟啮齿动物行为学习,二进制决策准确率96.4%,适用于延迟奖励强化学习。

主要结果

  1. 能效与面积优化:在28nm FDSOI CMOS工艺下,核心面积0.45mm²,功耗低至46µW(学习)/20µW(推理),峰值能效5.3pJ/突触操作(synaptic operation, SOP)(图29.4.5)。
  2. 时间尺度突破:支持数千时间步长的学习,内存开销仅为纯推理设计的0.8%(图29.4.3)。
  3. 任务通用性:同一硬件可适配不同传感器和任务(图29.4.6),优于现有仅支持单帧/单时间步学习的芯片。

结论与价值

科学价值
- 首次实现秒级时间尺度的片上学习,填补了长期时间依赖学习的硬件空白。
- 提出LIF神经元模型改进(通过调整泄漏时间常数),在不增加计算复杂度的情况下匹配ALIF神经元性能(图29.4.3)。

应用价值
- 为自主边缘设备(如认知机器人、可穿戴设备)提供实时自适应能力。
- 开源设计(GitHub公开)促进神经形态芯片社区发展。

研究亮点

  1. 算法-硬件协同创新:e-prop算法的硬件友好化改进,结合稀疏性与事件驱动计算。
  2. 多任务兼容性:通过脉冲编码和通用架构设计,支持跨模态传感器融合。
  3. 能效突破:0.5V电压下加速比达98倍,适用于资源受限场景。

其他价值

  • 研究获欧盟和瑞士国家科学基金会(SNSF)资助,芯片由意法半导体(ST)流片,体现产学研合作模式。
  • 对比实验(图29.4.6)显示Reckon在能效、任务灵活性和时间尺度上显著优于同类工作(如[1-5])。

(报告总字数约1500字,涵盖研究全貌及技术细节)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com