分享自:

基于级联ReRAM交叉架构的Transformer神经网络加速器

期刊:ACM Trans. Des. Autom. Electron. Syst.DOI:10.1145/3701034

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


ReCAT:一种面向Transformer神经网络加速的级联ReRAM交叉架构

作者及机构
本研究的核心团队来自华中科技大学(Huazhong University of Science and Technology, Wuhan, China),包括Jiahong Xu、Haikun Liu(通讯作者)、Xiaoyang Peng、Zhuohui Duan、Xiaofei Liao和Hai Jin。研究成果发表于《ACM Transactions on Design Automation of Electronic Systems》2024年12月刊(Vol. 30, No. 1, Article 10)。


学术背景

研究领域与动机
随着Transformer神经网络在自然语言处理(NLP)和计算机视觉(CV)任务中的广泛应用,其计算密集型特性(如矩阵-矩阵乘法,MatMul)对传统冯·诺依曼架构的存储墙(Memory-wall)和功耗墙(Power-wall)问题提出了严峻挑战。基于阻变存储器(ReRAM)的内存计算(Processing-in-Memory, PIM)架构因其模拟域原位矩阵-向量乘法(MVM)的高效性成为潜在解决方案。然而,现有ReRAM-PIM加速器在Transformer任务中面临三大挑战:
1. 高延迟的ReRAM写入:Transformer的自注意力机制(Self-attention)需动态存储中间结果(如查询Q、键K、值V矩阵),而传统架构需通过模拟-数字转换(ADC)和数字-模拟转换(DAC)写入交叉阵列,导致流水线停滞。
2. ADC资源利用率低:ADC与交叉阵列紧耦合,中间结果写入时ADC闲置。
3. 有符号操作数处理困难:级联交叉阵列需高效处理负值运算。

研究目标
提出ReCAT(ReRAM-based Cascaded Crossbar Architecture for Transformers),通过级联交叉阵列和ADC虚拟化技术,隐藏ReRAM写入延迟,提升ADC利用率,并设计有符号操作数映射方案,实现Transformer的高效加速。


研究流程与方法

1. 级联交叉阵列设计
- 核心组件
- XB-T(Transimpedance Amplifier Crossbar):通过跨阻放大器(TIA)将模拟电流输出直接转换为电压,写入缓冲阵列(XB-B),避免ADC/DAC转换。
- XB-B(Buffer Crossbar):存储中间结果(如K、V矩阵),支持后续MVM运算。
- 工作流程
1. 权重矩阵(Wq、Wk、Wv)预映射至XB-A(常规阵列)和XB-T。
2. 输入向量同时输入XB-A和XB-T,生成Q、K、V矩阵。
3. K、V通过TIA直接写入XB-B,Q通过ADC转换为数字信号。
4. 后续计算(如Q·K^T)在XB-B中完成,结果经ADC输出。

2. 有符号操作数处理
- 偏移二进制编码(Offset Binary):将输入和权重矩阵编码为无符号形式,存储于XB-T。
- 校准电路:通过外围电路(如ALU)减去预计算的偏移项(如∑w_k·b和∑(v_i+b)·b),还原真实结果。

3. ADC虚拟化方案
- 动态共享ADC:将16个ADC解耦为转换器组(CG),通过时分复用(TDM)为多个交叉阵列提供服务。
- 映射结构:每组4个位线(BL)通过多路复用器连接至ADC,支持跨阵列资源共享。

4. 实验验证
- 仿真平台:基于MhSim模拟器(32nm工艺),集成NeuroSim模型模拟ReRAM非理想特性(如写变异、读噪声)。
- 基准模型:BERT、RoBERTa、ViT等6种Transformer,任务涵盖问答(SQuAD)和图像分类(ImageNet-1k)。
- 对比方案:GPU(NVIDIA V100)、ReBERT、ReTransformer。


主要结果

  1. 性能提升

    • 相比GPU、ReBERT和ReTransformer,ReCAT平均加速分别达207.3×、2.11×和3.06×。
    • 关键突破:级联设计将中间结果写入延迟(25ns/列)与MVM运算重叠,ADC虚拟化使利用率提升至100%。
  2. 能效优化

    • 总能耗较ReBERT和ReTransformer降低24.51%和31.47%。
    • 能耗瓶颈:XB-B的写入操作因截断低阶比特(减少ADC资源占用)导致额外能耗。
  3. 精度影响

    • 与GPU相比,推理精度下降1.15%(如BERT任务从84.6%降至75.77%),主要源于模拟计算误差和低阶比特截断。

结论与价值

科学价值
1. 提出首个针对Transformer的ReRAM-PIM级联架构,解决了中间结果存储和ADC资源争用的核心问题。
2. 偏移二进制编码和校准电路为模拟域有符号运算提供了新思路。

应用价值
1. 为大规模Transformer部署提供低延迟、高能效的硬件支持,尤其适合边缘计算场景。
2. ADC虚拟化方案可扩展至其他存内计算架构(如基于STT-MRAM的加速器)。


研究亮点

  1. 创新架构:级联交叉阵列通过TIA直接映射中间结果,省去90%以上的ADC/DAC转换。
  2. 算法-硬件协同:偏移二进制编码与外围电路设计实现高效有符号运算。
  3. 资源利用率突破:ADC虚拟化首次实现跨阵列动态分配,解决稀缺资源瓶颈。

局限性
- 精度损失需通过误差补偿算法进一步优化。
- 级联设计增加芯片面积(XB-B占APU面积的35%)。


其他价值

  • 开源仿真框架MhSim为后续研究提供工具支持。
  • 实验覆盖多样Transformer模型,验证方案的普适性。

(全文约2400字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com