香港科技大学Kunming Shao、Zhipeng Liao等团队在预印本平台arXiv发表的论文《DIRC-RAG: Accelerating Edge RAG with Robust High-Density and High-Loading-Bandwidth Digital In-ReRAM Computation》提出了一种面向边缘设备的创新检索增强生成(Retrieval-Augmented Generation, RAG)加速架构。该研究针对当前边缘设备部署RAG技术面临的存储密度、能耗和延迟等核心挑战,通过数字阻变存储器内计算(Digital In-ReRAM Computation, DIRC)技术实现了突破性优化。
RAG技术通过将外部知识检索与大型语言模型(LLM)结合,显著提升了模型在特定领域的性能。但在边缘设备部署时面临三大挑战:(1)大规模文档嵌入(document embeddings)的存储需求;(2)检索过程中的高能耗;(3)实时查询的高延迟要求。现有存储器内计算(Computing-in-Memory, CIM)方案在存储密度(如SRAM-CIM)或计算精度(如ReRAM-CIM)方面存在固有缺陷。本研究旨在开发兼具高密度存储与高精度计算的混合架构,实现边缘RAG的高效能效比。
研究团队创新性地提出DIRC单元结构,包含三个关键组件: - 8×8多级ReRAM子阵列:提供高密度非易失性存储(存储密度达5.18MB/mm²@40nm工艺) - 差分传感电路:采用锁存预充电机制,通过比较读位线(readBL)与参考位线(refBL)的放电速率实现可靠读取 - 1bit SRAM单元:缓存读取结果,支持数字乘加运算(MAC)
这种混合设计在TSMC 40nm工艺下实现单周期数据加载,能耗较传统DRAM方案降低两个数量级。
针对RAG的检索特性,研究团队突破传统权重静态(Weight-Stationary)数据流的限制,创新性提出: - 文档嵌入永久存储在ReRAM中,查询嵌入通过输入寄存器广播 - 单个DIRC列支持128维int8文档嵌入的并行计算 - 通过折叠映射技术可扩展至1024维大向量处理 实验显示该方案使4MB文档库的检索延迟降至5.6μs/query,SRAM缓冲区需求<1KB。
针对ReRAM器件变异问题,团队开发了两项关键技术: - 位级空间误差映射:通过1000次蒙特卡洛后仿真,建立8×8 ReRAM子阵列的LSB误差空间分布图(如图5a所示),发现靠近VSS电源轨的单元误差率降低40% - 动态位重映射算法:将MSB(bits 4-7)存储在误差最低位置,LSB(bits 0-3)按误差梯度分布,使检索精度提升24.6% - 错误检测电路:实时校验读取数据的位和(σd)与预存查找表(LUT)的偏差,错误时触发重传感,将瞬态干扰导致的误差降低72%
在TSMC 40nm工艺下的测试结果显示: - 单个DIRC宏(128×128单元)面积0.34mm²,存储容量2MB - 工作频率250MHz@0.8V,能效比达1176TOPS/W - 全系统(16核心)面积6.18mm²,总存储4MB,存储密度5.178MB/mm²
基于BEIR框架在多个标准数据集测试: - int8量化下精度与FP32相当(如Scifact数据集P@3仅下降0.22%) - int4量化虽精度略有下降(NFcorpus数据集P@5降低9.9%),但存储需求减少75%
与NVIDIA RTX3090相比: - 延迟降低7840倍(2.77μs vs 21.7ms) - 能耗降低188,000倍(0.46μJ vs 86.8mJ)
作者指出两个待改进方向: 1. 存储容量限制:4MB存储对超大规模文档库仍需通过Chiplet技术扩展 2. 量化精度权衡:int4在部分数据集(如TREC-COVID)精度下降较明显(P@1降低15.6%)
这项研究为边缘AI计算开辟了新路径,其核心DIRC架构已申请多项专利。团队透露正在与工业界合作开发基于该技术的定制化AI芯片,预计可应用于智能穿戴设备、医疗诊断终端等低功耗场景。