这篇文档属于类型a,是一篇关于新型ReRAM(电阻式随机存取存储器)架构的原创性研究论文。以下为详细的学术报告:
ReGNN:一种基于ReRAM的异构架构用于通用图神经网络加速
作者及机构
该研究由华中科技大学国家大数据技术与系统国家工程研究中心、服务计算技术与系统教育部重点实验室、集群与网格计算湖北省重点实验室的Cong Liu、Haikun Liu、Hai Jin、Xiaofei Liao、Yu Zhang、Zhuohui Duan、Jiahong Xu和Huize Li共同完成,发表于2022年7月的第59届ACM/IEEE设计自动化会议(DAC ‘22)。
学术背景
图神经网络(Graph Neural Networks, GNNs)兼具图数据处理和神经网络计算的双重特征,但传统图加速器和神经网络加速器均无法同时满足这两类需求。现有基于CMOS的加速器(如FPGA和ASIC)难以应对大规模GNN的内存与计算资源需求,而ReRAM(电阻式随机存取存储器)因其存内计算(Processing-in-Memory, PIM)的高并行性展现出潜力。然而,ReRAM阵列通常仅支持矩阵-向量乘法(Matrix-Vector Multiplication, MVM)操作,难以高效处理GNN聚合阶段中的非MVM操作(如最大值聚合)。因此,本研究提出了一种名为ReGNN的异构PIM架构,旨在通过结合模拟PIM(APIM)和数字PIM(DPIM)模块,解决上述瓶颈问题。
研究流程与方法
1. 架构设计
- 异构模块划分:ReGNN由APIM模块(用于加速MVM操作)和DPIM模块(用于非MVM聚合操作)组成。APIM通过ReRAM交叉阵列实现模拟域的高效MVM计算,而DPIM基于NOR逻辑操作支持灵活的非MVM运算(如最大值、求和)。
- 子引擎优化:针对图中顶点度数(degree)的幂律分布特性,设计了三种聚合子引擎:
- 低度数顶点引擎(LDPIM):通过行级并行处理多顶点低维特征向量,算法复杂度为O(N)(N为顶点度数)。
- 高度数顶点最大值引擎(HDPIM):采用列级并行比较,复杂度为O(MK)(M为顶点数,K为特征维度)。
- 高度数顶点求和/均值引擎(APIM):将聚合操作转换为MVM,利用8×8小型APIM阵列处理稀疏邻接矩阵块。
- 顶点调度器:根据顶点度数和特征维度动态分配任务至不同子引擎,优化负载均衡。
实验验证
数据分析
主要结果
1. 性能提升
- ReGNN在GCN和GraphSAGE-Pool模型上分别实现最高228倍和8.4倍的加速(相较于GPU和ReGraphX)。例如,在PubMed数据集上,GCN的推理速度提升达196倍。
- 调度器使低度数顶点的聚合延迟降低15倍,尤其对高维特征(如Citeseer的3703维)效果显著。
能效优化
资源利用率
结论与价值
1. 科学价值
- 首次提出结合APIM与DPIM的异构PIM架构,解决了GNN中MVM与非MVM操作的协同加速问题。
- 提出的度数感知调度器和子引擎划分策略,为不规则图数据的负载均衡提供了通用优化框架。
研究亮点
1. 方法创新
- 在DPIM中实现基于NOR逻辑的最大值聚合算法(见图4),仅需6个NOR周期完成单比特比较。
- 提出“子图流水线”机制,重叠聚合与组合阶段的数据传输与计算。
性能突破
跨领域意义
其他价值
- 开源了仿真工具链的修改部分,支持后续研究对ReRAM-PIM的建模优化。
- 讨论了耐久性管理策略(如动态列地址轮换),为ReRAM的长期可靠性研究提供参考。
此研究通过硬件-算法协同设计,推动了图神经网络加速器的实用化进程,并为存算一体芯片的异构化发展提供了重要案例。