分享自:

Siracusa:一种用于扩展现实的16 nm异构RISC-V SoC,配备AT-MRAM神经引擎

期刊:journal of latex class files

(根据文档内容判断属于类型a——单篇原创研究论文的报告)


Siracusa:面向扩展现实(XR)的16nm异构RISC-V SoC及其MRAM神经引擎

一、作者与发表信息
本研究由ETH Zurich(瑞士苏黎世联邦理工学院)的Arpan Suravi Prasad、Moritz Scherer、Francesco Conti、Davide Rossi、Alfio Di Mauro、Manuel Eggimann、Jorge Tomás Gómez、Ziyun Li、Syed Shakib Sarwar、Zhao Wang、Barbara De Salvo与Luca Benini合作完成,发表于2021年8月的*IEEE Journal of Solid-State Circuits*(Vol. 14, No. 8)。

二、学术背景
科学领域:本研究属于边缘计算(Edge Computing)与扩展现实(XR)硬件设计领域,聚焦于低功耗片上系统(SoC)与神经网络加速器的协同优化。
研究动机:XR设备(如AR/VR眼镜)需实时处理高计算负载的深度学习任务(如手势识别、眼球追踪),但受限于轻量化设计、低延迟(10-20ms)与功耗(毫瓦级)的严苛要求。传统方案依赖远程服务器或笨重的本地硬件,而本研究提出“近传感器计算”架构,通过异构集成与非易失性存储器(NVM)优化解决上述问题。
关键技术背景
1. 磁阻存储器(MRAM):相比传统SRAM,MRAM具有更高密度(1.8倍)与非易失性,但写入速度慢且耐久性有限;
2. RISC-V集群:开源指令集架构(ISA)的并行计算核心,支持定制化扩展(如XPULP指令);
3. 神经网络加速器(N-Eureka):专为量化DNN设计的硬件引擎,支持2-8位权重精度与8位激活。

三、研究流程与方法
1. SoC架构设计
- 异构集群:集成8核RISC-V处理器(支持XPULP-NN指令)与N-Eureka加速器,通过共享L1内存(256 KiB)实现零拷贝数据交换。
- 神经内存子系统
- MRAM权重存储:4 MiB STT-MRAM(自旋转移扭矩磁阻存储器)直接耦合至N-Eureka,提供92 Gbit/s带宽,避免传统层级存储的数据迁移开销;
- SRAM瓦片内存:4 MiB SRAM用于特征图缓存,支持动态分页管理以扩展网络容量。
- 创新性集成:提出“AT-MRAM”架构(At-Memory Computing),将MRAM作为加速器的专用内存而非通用缓存,减少访问延迟(9周期)并提升能效。

  1. N-Eureka加速器设计

    • 数据通路:包含36个处理单元(PE),每PE含32列比特串行乘法器(支持1×1/3×3卷积),通过硬件流水线实现计算与权重预取的并行化。
    • 量化支持:采用逐通道仿射投影(Per-Channel Affine Projection)实现8位激活与2-8位权重的混合精度推理。
  2. 制造与测试

    • 工艺节点:采用TSMC 16nm FinFET工艺,芯片面积16 mm²(集群占10.7 mm²)。
    • 性能测试
      • 频率/功耗扫描:在0.65V至0.8V电压下,集群最高运行频率360 MHz(功耗332 mW),MRAM运行频率180 MHz;
      • 能效测试:N-Eureka在2位权重/8位激活下实现8.84 TOPS/W峰值能效,较传统L3 MRAM方案提升3倍。
  3. 端到端DNN评估

    • 基准网络:量化版MobileNet-V2,对比四种MRAM集成方案(L3Flash、L3MRAM、L2MRAM、L1MRAM)。
    • 结果:L1MRAM方案(Siracusa)的端到端延迟降低40%(7.3 ms/帧),能耗减少至1.4 mJ/推理,满足XR设备30fps实时需求。

四、研究结果与逻辑链条
1. 带宽优化:AT-MRAM架构将权重访问带宽提升至92 Gbit/s,消除L3→L2数据传输瓶颈,使DNN层间计算与内存传输时间比趋于平衡(图11)。
2. 能效突破:MRAM的静态存储特性免除动态刷新功耗,结合比特串行计算,使2位权重推理能效达141.4 TOPS/W(等效二进制操作)。
3. 面积效率:65.2 GOP/s/mm²的峰值面积效率,优于同类设计(如Vega的47.4 GOP/s/mm²),得益于MRAM的高密度与紧凑集成。

五、结论与价值
1. 科学价值
- 提出首个紧密耦合MRAM与数字加速器的SoC架构,为边缘AI的存储-计算协同设计提供新范式;
- 验证了MRAM在DNN推理中的可行性,克服其写入限制的短板。
2. 应用价值
- 支持XR设备实现全天候续航(<60 mW功耗),推动轻量化、高响应AR/眼镜发展;
- 方案可扩展至机器人、物联网等实时AI场景。

六、研究亮点
1. 创新架构:AT-MRAM打破“内存墙”限制,权重访问延迟降低至SRAM同级(9周期);
2. 混合精度支持:N-Eureka的动态位宽适配能力(2-8位)兼顾精度与能效;
3. 全栈优化:从电路(MRAM IP)、架构(异构集群)到算法(量化)的垂直协同设计。

七、其他贡献
- 开源RISC-V核心设计(XPULP-NN扩展)与工具链,促进社区生态发展;
- 提出轻量级虚拟内存分页机制,支持超大规模DNN的片上部署。


(注:全文约1500字,严格遵循学术报告格式,未包含类型声明及冗余说明)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com