分享自:

基于ReRAM的通用图神经网络异构架构REGN

期刊:Proceedings of the 59th ACM/IEEE Design Automation Conference (DAC '22)DOI:10.1145/3489517.3530479

这篇文档属于类型a,是一篇关于新型ReRAM(电阻式随机存取存储器)架构的原创性研究论文。以下为详细的学术报告:


ReGNN:一种基于ReRAM的异构架构用于通用图神经网络加速

作者及机构
该研究由华中科技大学国家大数据技术与系统国家工程研究中心、服务计算技术与系统教育部重点实验室、集群与网格计算湖北省重点实验室的Cong Liu、Haikun Liu、Hai Jin、Xiaofei Liao、Yu Zhang、Zhuohui Duan、Jiahong Xu和Huize Li共同完成,发表于2022年7月的第59届ACM/IEEE设计自动化会议(DAC ‘22)。


学术背景
图神经网络(Graph Neural Networks, GNNs)兼具图数据处理和神经网络计算的双重特征,但传统图加速器和神经网络加速器均无法同时满足这两类需求。现有基于CMOS的加速器(如FPGA和ASIC)难以应对大规模GNN的内存与计算资源需求,而ReRAM(电阻式随机存取存储器)因其存内计算(Processing-in-Memory, PIM)的高并行性展现出潜力。然而,ReRAM阵列通常仅支持矩阵-向量乘法(Matrix-Vector Multiplication, MVM)操作,难以高效处理GNN聚合阶段中的非MVM操作(如最大值聚合)。因此,本研究提出了一种名为ReGNN的异构PIM架构,旨在通过结合模拟PIM(APIM)和数字PIM(DPIM)模块,解决上述瓶颈问题。


研究流程与方法
1. 架构设计
- 异构模块划分:ReGNN由APIM模块(用于加速MVM操作)和DPIM模块(用于非MVM聚合操作)组成。APIM通过ReRAM交叉阵列实现模拟域的高效MVM计算,而DPIM基于NOR逻辑操作支持灵活的非MVM运算(如最大值、求和)。
- 子引擎优化:针对图中顶点度数(degree)的幂律分布特性,设计了三种聚合子引擎:
- 低度数顶点引擎(LDPIM):通过行级并行处理多顶点低维特征向量,算法复杂度为O(N)(N为顶点度数)。
- 高度数顶点最大值引擎(HDPIM):采用列级并行比较,复杂度为O(MK)(M为顶点数,K为特征维度)。
- 高度数顶点求和/均值引擎(APIM):将聚合操作转换为MVM,利用8×8小型APIM阵列处理稀疏邻接矩阵块。
- 顶点调度器:根据顶点度数和特征维度动态分配任务至不同子引擎,优化负载均衡。

  1. 实验验证

    • 数据集与模型:选用PubMed、Cora、Citeseer和Reddit四个真实图数据集,测试GCN(图卷积网络)和GraphSAGE-Pool(带最大值聚合的变体)两种GNN模型。
    • 对比基准:与NVIDIA Tesla P100 GPU及现有ReRAM加速器ReGraphX对比,通过集成Neurosim和Zsim进行周期级仿真。
    • 参数配置:APIM采用128×128和8×8交叉阵列,支持4位多级存储(MLC);DPIM采用1024×1024阵列,单级存储(SLC),读写延迟为1 ns。
  2. 数据分析

    • 性能指标包括加速比和能耗比,均以GPU为基线归一化。
    • 通过执行时间分解和调度器效率分析,验证各模块的贡献。

主要结果
1. 性能提升
- ReGNN在GCN和GraphSAGE-Pool模型上分别实现最高228倍和8.4倍的加速(相较于GPU和ReGraphX)。例如,在PubMed数据集上,GCN的推理速度提升达196倍。
- 调度器使低度数顶点的聚合延迟降低15倍,尤其对高维特征(如Citeseer的3703维)效果显著。

  1. 能效优化

    • 能耗降低达305.2倍(对比GPU)和10.5倍(对比ReGraphX),主要归因于DPIM对非MVM操作的高效处理及APIM的阵列级并行性。
  2. 资源利用率

    • 小型APIM阵列(8×8)将稀疏邻接矩阵的映射效率提升40%,而DPIM的NOR逻辑操作复用率高达76列,通过动态地址切换实现13.5倍的耐久性提升。

结论与价值
1. 科学价值
- 首次提出结合APIM与DPIM的异构PIM架构,解决了GNN中MVM与非MVM操作的协同加速问题。
- 提出的度数感知调度器和子引擎划分策略,为不规则图数据的负载均衡提供了通用优化框架。

  1. 应用价值
    • 在推荐系统、社交网络分析等需处理大规模图的场景中,ReGNN可显著降低推理延迟与能耗。
    • 为存内计算架构设计提供了新思路,例如通过数字-模拟混合计算扩展ReRAM的应用场景。

研究亮点
1. 方法创新
- 在DPIM中实现基于NOR逻辑的最大值聚合算法(见图4),仅需6个NOR周期完成单比特比较。
- 提出“子图流水线”机制,重叠聚合与组合阶段的数据传输与计算。

  1. 性能突破

    • 在Reddit数据集(1200万边)上,ReGNN的能效比GPU高3个数量级,验证了其对超大规模图的扩展性。
  2. 跨领域意义

    • 所提架构可适配其他需混合计算模式的任务(如图嵌入、时空预测),为边缘智能设备提供低功耗解决方案。

其他价值
- 开源了仿真工具链的修改部分,支持后续研究对ReRAM-PIM的建模优化。
- 讨论了耐久性管理策略(如动态列地址轮换),为ReRAM的长期可靠性研究提供参考。


此研究通过硬件-算法协同设计,推动了图神经网络加速器的实用化进程,并为存算一体芯片的异构化发展提供了重要案例。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com