这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
ReCAT:一种面向Transformer神经网络加速的级联ReRAM交叉架构
作者及机构
本研究的核心团队来自华中科技大学(Huazhong University of Science and Technology, Wuhan, China),包括Jiahong Xu、Haikun Liu(通讯作者)、Xiaoyang Peng、Zhuohui Duan、Xiaofei Liao和Hai Jin。研究成果发表于《ACM Transactions on Design Automation of Electronic Systems》2024年12月刊(Vol. 30, No. 1, Article 10)。
研究领域与动机
随着Transformer神经网络在自然语言处理(NLP)和计算机视觉(CV)任务中的广泛应用,其计算密集型特性(如矩阵-矩阵乘法,MatMul)对传统冯·诺依曼架构的存储墙(Memory-wall)和功耗墙(Power-wall)问题提出了严峻挑战。基于阻变存储器(ReRAM)的内存计算(Processing-in-Memory, PIM)架构因其模拟域原位矩阵-向量乘法(MVM)的高效性成为潜在解决方案。然而,现有ReRAM-PIM加速器在Transformer任务中面临三大挑战:
1. 高延迟的ReRAM写入:Transformer的自注意力机制(Self-attention)需动态存储中间结果(如查询Q、键K、值V矩阵),而传统架构需通过模拟-数字转换(ADC)和数字-模拟转换(DAC)写入交叉阵列,导致流水线停滞。
2. ADC资源利用率低:ADC与交叉阵列紧耦合,中间结果写入时ADC闲置。
3. 有符号操作数处理困难:级联交叉阵列需高效处理负值运算。
研究目标
提出ReCAT(ReRAM-based Cascaded Crossbar Architecture for Transformers),通过级联交叉阵列和ADC虚拟化技术,隐藏ReRAM写入延迟,提升ADC利用率,并设计有符号操作数映射方案,实现Transformer的高效加速。
1. 级联交叉阵列设计
- 核心组件:
- XB-T(Transimpedance Amplifier Crossbar):通过跨阻放大器(TIA)将模拟电流输出直接转换为电压,写入缓冲阵列(XB-B),避免ADC/DAC转换。
- XB-B(Buffer Crossbar):存储中间结果(如K、V矩阵),支持后续MVM运算。
- 工作流程:
1. 权重矩阵(Wq、Wk、Wv)预映射至XB-A(常规阵列)和XB-T。
2. 输入向量同时输入XB-A和XB-T,生成Q、K、V矩阵。
3. K、V通过TIA直接写入XB-B,Q通过ADC转换为数字信号。
4. 后续计算(如Q·K^T)在XB-B中完成,结果经ADC输出。
2. 有符号操作数处理
- 偏移二进制编码(Offset Binary):将输入和权重矩阵编码为无符号形式,存储于XB-T。
- 校准电路:通过外围电路(如ALU)减去预计算的偏移项(如∑w_k·b和∑(v_i+b)·b),还原真实结果。
3. ADC虚拟化方案
- 动态共享ADC:将16个ADC解耦为转换器组(CG),通过时分复用(TDM)为多个交叉阵列提供服务。
- 映射结构:每组4个位线(BL)通过多路复用器连接至ADC,支持跨阵列资源共享。
4. 实验验证
- 仿真平台:基于MhSim模拟器(32nm工艺),集成NeuroSim模型模拟ReRAM非理想特性(如写变异、读噪声)。
- 基准模型:BERT、RoBERTa、ViT等6种Transformer,任务涵盖问答(SQuAD)和图像分类(ImageNet-1k)。
- 对比方案:GPU(NVIDIA V100)、ReBERT、ReTransformer。
性能提升:
能效优化:
精度影响:
科学价值:
1. 提出首个针对Transformer的ReRAM-PIM级联架构,解决了中间结果存储和ADC资源争用的核心问题。
2. 偏移二进制编码和校准电路为模拟域有符号运算提供了新思路。
应用价值:
1. 为大规模Transformer部署提供低延迟、高能效的硬件支持,尤其适合边缘计算场景。
2. ADC虚拟化方案可扩展至其他存内计算架构(如基于STT-MRAM的加速器)。
局限性:
- 精度损失需通过误差补偿算法进一步优化。
- 级联设计增加芯片面积(XB-B占APU面积的35%)。
(全文约2400字)