一种支持片上学习的28纳米亚毫米级脉冲递归神经网络处理器

分享自：

一种支持片上学习的28纳米亚毫米级脉冲递归神经网络处理器

电子科学与信息系统

人工智能

半导体科学与信息器件

信息科学

计算机科学

期刊:ieee international solid-state circuits conference

【点击此处】阅读全文、收藏及针对性提问

这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
研究作者与机构本研究由Charlotte Frenkel和Giacomo Indiveri合作完成，两人均来自瑞士苏黎世大学（University of Zurich）和苏黎世联邦理工学院（ETH Zurich）。研究发表于2022年IEEE国际固态电路会议（ISSCC 2022），具体收录于会议第29届“新兴应用中的机器学习芯片”专题（Session 29: ML Chips for Emerging Applications），论文编号为29.4。
学术背景研究领域与动机
 该研究属于神经形态计算（neuromorphic computing）与边缘人工智能（edge AI）的交叉领域。当前，部署在现实世界中的自主推理设备（如手势识别、语音处理、机器人导航等）面临数据分布动态变化的挑战（如用户、环境或任务需求差异），传统静态神经网络难以适应。虽然已有研究实现了针对静态数据（如图像）的片上学习（on-chip learning），但长期时间依赖（long-term temporal dependencies）的在线学习仍受限于内存和功耗约束。
目标
 研究团队提出Reckon，一款基于脉冲循环神经网络（spiking recurrent neural network, RNN）的处理器，旨在解决以下问题：
 1. 支持秒级时间尺度的在线学习，同时保持毫秒级时间分辨率；
 2. 在亚毫瓦功耗（<150µW）和亚平方毫米面积（<1mm²）的约束下实现端到端片上训练；
 3. 通过任务无关（task-agnostic）设计，适配多种应用（如手势识别、关键词检测、导航等）。
研究流程与方法1. 核心算法设计研究采用神经形态方法（neuromorphic approach），结合以下创新：
 - 前向资格迹（feed-forward eligibility traces, ETs）：生物启发的局部时空近似算法，替代传统随时间反向传播（backpropagation through time, BPTT），减少内存需求（图29.4.1左）。
 - 稀疏性利用：通过输入数据和权重更新的稀疏性（sparsity），降低计算开销。
 - 地址事件表示（address-event representation, AE）：兼容脉冲视网膜和耳蜗传感器，实现任务无关处理。
2. 硬件架构实现Reckon的架构（图29.4.2）包括：
 - 输入层：8位4相位握手AE解码器，处理异步脉冲传感器输入。
 - 隐藏层：256个泄漏积分发放神经元（leaky integrate-and-fire, LIF），支持全连接输入和循环连接，权重存储于两块64KB SRAM。
 - 输出层：16个泄漏积分器（leaky integrator, LI），无脉冲机制，支持回归和分类任务。
 - 权重更新电路：基于改进的e-prop算法（图29.4.3），通过随机8位权重更新和局部计算（ETs、学习信号LS、直通估计器STE）实现高效训练（图29.4.4）。
3. 实验验证研究通过三个基准测试验证性能（图29.4.5-29.4.6）：
 1. 手势识别：使用IBM DVS脉冲视网膜数据集，10类手势分类准确率达87.3%，支持延迟-精度权衡。
 2. 关键词检测：基于Spiking Heidelberg Digits数据集，1:1目标词与干扰词场景下准确率90.7%。
 3. 导航任务：合成数据模拟啮齿动物行为学习，二进制决策准确率96.4%，适用于延迟奖励强化学习。
主要结果能效与面积优化：在28nm FDSOI CMOS工艺下，核心面积0.45mm²，功耗低至46µW（学习）/20µW（推理），峰值能效5.3pJ/突触操作（synaptic operation, SOP）（图29.4.5）。
 
时间尺度突破：支持数千时间步长的学习，内存开销仅为纯推理设计的0.8%（图29.4.3）。
 
任务通用性：同一硬件可适配不同传感器和任务（图29.4.6），优于现有仅支持单帧/单时间步学习的芯片。
 
结论与价值科学价值：
 - 首次实现秒级时间尺度的片上学习，填补了长期时间依赖学习的硬件空白。
 - 提出LIF神经元模型改进（通过调整泄漏时间常数），在不增加计算复杂度的情况下匹配ALIF神经元性能（图29.4.3）。
应用价值：
 - 为自主边缘设备（如认知机器人、可穿戴设备）提供实时自适应能力。
 - 开源设计（GitHub公开）促进神经形态芯片社区发展。
研究亮点算法-硬件协同创新：e-prop算法的硬件友好化改进，结合稀疏性与事件驱动计算。
 
多任务兼容性：通过脉冲编码和通用架构设计，支持跨模态传感器融合。
 
能效突破：0.5V电压下加速比达98倍，适用于资源受限场景。
 
其他价值研究获欧盟和瑞士国家科学基金会（SNSF）资助，芯片由意法半导体（ST）流片，体现产学研合作模式。
 
对比实验（图29.4.6）显示Reckon在能效、任务灵活性和时间尺度上显著优于同类工作（如[1-5]）。
 
（报告总字数约1500字，涵盖研究全貌及技术细节）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问