基于ReRAM的通用图神经网络异构架构REGN

分享自：
基于ReRAM的通用图神经网络异构架构REGN

人工智能
半导体科学与信息器件
期刊:Proceedings of the 59th ACM/IEEE Design Automation Conference (DAC '22)DOI:10.1145/3489517.3530479
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，是一篇关于新型ReRAM（电阻式随机存取存储器）架构的原创性研究论文。以下为详细的学术报告：
ReGNN：一种基于ReRAM的异构架构用于通用图神经网络加速
作者及机构
 该研究由华中科技大学国家大数据技术与系统国家工程研究中心、服务计算技术与系统教育部重点实验室、集群与网格计算湖北省重点实验室的Cong Liu、Haikun Liu、Hai Jin、Xiaofei Liao、Yu Zhang、Zhuohui Duan、Jiahong Xu和Huize Li共同完成，发表于2022年7月的第59届ACM/IEEE设计自动化会议（DAC ‘22）。
学术背景
 图神经网络（Graph Neural Networks, GNNs）兼具图数据处理和神经网络计算的双重特征，但传统图加速器和神经网络加速器均无法同时满足这两类需求。现有基于CMOS的加速器（如FPGA和ASIC）难以应对大规模GNN的内存与计算资源需求，而ReRAM（电阻式随机存取存储器）因其存内计算（Processing-in-Memory, PIM）的高并行性展现出潜力。然而，ReRAM阵列通常仅支持矩阵-向量乘法（Matrix-Vector Multiplication, MVM）操作，难以高效处理GNN聚合阶段中的非MVM操作（如最大值聚合）。因此，本研究提出了一种名为ReGNN的异构PIM架构，旨在通过结合模拟PIM（APIM）和数字PIM（DPIM）模块，解决上述瓶颈问题。
研究流程与方法
 1. 架构设计
 - 异构模块划分：ReGNN由APIM模块（用于加速MVM操作）和DPIM模块（用于非MVM聚合操作）组成。APIM通过ReRAM交叉阵列实现模拟域的高效MVM计算，而DPIM基于NOR逻辑操作支持灵活的非MVM运算（如最大值、求和）。
 - 子引擎优化：针对图中顶点度数（degree）的幂律分布特性，设计了三种聚合子引擎：
 - 低度数顶点引擎（LDPIM）：通过行级并行处理多顶点低维特征向量，算法复杂度为O(N)（N为顶点度数）。
 - 高度数顶点最大值引擎（HDPIM）：采用列级并行比较，复杂度为O(MK)（M为顶点数，K为特征维度）。
 - 高度数顶点求和/均值引擎（APIM）：将聚合操作转换为MVM，利用8×8小型APIM阵列处理稀疏邻接矩阵块。
 - 顶点调度器：根据顶点度数和特征维度动态分配任务至不同子引擎，优化负载均衡。
实验验证
数据集与模型：选用PubMed、Cora、Citeseer和Reddit四个真实图数据集，测试GCN（图卷积网络）和GraphSAGE-Pool（带最大值聚合的变体）两种GNN模型。
 
对比基准：与NVIDIA Tesla P100 GPU及现有ReRAM加速器ReGraphX对比，通过集成Neurosim和Zsim进行周期级仿真。
 
参数配置：APIM采用128×128和8×8交叉阵列，支持4位多级存储（MLC）；DPIM采用1024×1024阵列，单级存储（SLC），读写延迟为1 ns。
数据分析
性能指标包括加速比和能耗比，均以GPU为基线归一化。
 
通过执行时间分解和调度器效率分析，验证各模块的贡献。
主要结果
 1. 性能提升
 - ReGNN在GCN和GraphSAGE-Pool模型上分别实现最高228倍和8.4倍的加速（相较于GPU和ReGraphX）。例如，在PubMed数据集上，GCN的推理速度提升达196倍。
 - 调度器使低度数顶点的聚合延迟降低15倍，尤其对高维特征（如Citeseer的3703维）效果显著。
能效优化
能耗降低达305.2倍（对比GPU）和10.5倍（对比ReGraphX），主要归因于DPIM对非MVM操作的高效处理及APIM的阵列级并行性。
资源利用率
小型APIM阵列（8×8）将稀疏邻接矩阵的映射效率提升40%，而DPIM的NOR逻辑操作复用率高达76列，通过动态地址切换实现13.5倍的耐久性提升。
结论与价值
 1. 科学价值
 - 首次提出结合APIM与DPIM的异构PIM架构，解决了GNN中MVM与非MVM操作的协同加速问题。
 - 提出的度数感知调度器和子引擎划分策略，为不规则图数据的负载均衡提供了通用优化框架。
应用价值
 在推荐系统、社交网络分析等需处理大规模图的场景中，ReGNN可显著降低推理延迟与能耗。
 
为存内计算架构设计提供了新思路，例如通过数字-模拟混合计算扩展ReRAM的应用场景。
研究亮点
 1. 方法创新
 - 在DPIM中实现基于NOR逻辑的最大值聚合算法（见图4），仅需6个NOR周期完成单比特比较。
 - 提出“子图流水线”机制，重叠聚合与组合阶段的数据传输与计算。
性能突破
在Reddit数据集（1200万边）上，ReGNN的能效比GPU高3个数量级，验证了其对超大规模图的扩展性。
跨领域意义
所提架构可适配其他需混合计算模式的任务（如图嵌入、时空预测），为边缘智能设备提供低功耗解决方案。
其他价值
 - 开源了仿真工具链的修改部分，支持后续研究对ReRAM-PIM的建模优化。
 - 讨论了耐久性管理策略（如动态列地址轮换），为ReRAM的长期可靠性研究提供参考。
此研究通过硬件-算法协同设计，推动了图神经网络加速器的实用化进程，并为存算一体芯片的异构化发展提供了重要案例。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问