基于忆阻器的Mamba语言网络电路实现与电路优化算法

分享自：
基于忆阻器的Mamba语言网络电路实现与电路优化算法

期刊:IEEE Transactions on Circuits and Systems—I: Regular PapersDOI:10.1109/TCSI.2025.3584247
本文介绍了一项发表于IEEE Transactions on Circuits and Systems—I: Regular Papers期刊，2026年1月第73卷第1期的原创性研究。该研究由Junming Zhang、Zheyuan Sheng、Huajun Sun、Chuanbo Zhu、Liangyu Chen、Zhenyu Hu和Xiangshui Miao共同完成，作者分别来自Huazhong University of Science and Technology、University of Southern California、Politecnico di Milano及Boston University等机构。研究提出并实现了首个基于忆阻器（Memristor）的Mamba语言网络全电路设计，并创新性地提出了一种适用于电路级推理的存内计算并行感知算法。
一、 研究背景 本研究属于人工智能硬件加速与神经形态计算领域，具体聚焦于新兴的Mamba语言模型架构的硬件实现。近年来，以Transformer为代表的语言网络在自然语言处理等领域取得了巨大成功，但其自注意力机制的计算复杂度与输入序列长度呈二次方增长，在处理长序列时面临计算和内存的巨大开销。作为Transformer的潜在替代者，Mamba网络基于选择性状态空间模型（Selective State Space Models， SSM），结合硬件感知并行算法，显著降低了计算复杂度，在多种任务上展现出优越性能。然而，Mamba网络的硬件实现面临两大挑战：其一，由于其复杂的计算和数据存储需求，尚未有全电路实现方案被提出；其二，针对电路推理的、优化的硬件感知并行算法仍待开发。同时，传统冯·诺依曼架构中的“内存墙”问题（频繁的数据搬运导致高功耗和延迟）在硬件实现中依然存在。
忆阻器作为一种具有非易失性、纳米尺度、低功耗特性的新型器件，其交叉阵列能够天然地实现存内计算（Computing-In-Memory， CIM），即直接在存储单元中完成矩阵乘加运算，从而有效缓解“内存墙”问题，为神经网络的硬件加速提供了极具潜力的解决方案。此前，忆阻器已被成功应用于多种神经网络（如卷积神经网络CNN、长短时记忆网络LSTM）的电路实现，甚至已有针对Transformer自注意力电路的探索，但针对Mamba网络的完整忆阻器电路实现以及与之匹配的存内计算优化算法仍属空白。因此，本研究旨在填补这一空白，通过设计完整的忆阻器电路和创新的算法，实现Mamba网络的高效、低功耗硬件推理。
二、 研究流程与方法 本研究的工作流程可概括为四个主要阶段：Mamba网络原理分析、全电路系统设计、算法优化与电路实现、仿真验证与性能分析。
第一阶段：网络原理分析与建模。 研究团队首先深入分析了Mamba语言网络的基本架构，如图1和图2所示。其核心模块包括：RMS归一化层、SiLU激活函数、深度可分离一维卷积（Depthwise Separable 1D Convolution）以及选择性状态空间模型（Selective SSM）。选择性SSM是Mamba的关键，其离散化公式为：h(t) = a ⊙ h(t-1) + b ⊙ x(t)；y(t) = c h(t) + d ⊙ x(t)。其中，h(t)是隐藏状态，x(t)和y(t)是输入输出向量，a, b, c, d, Δ是依赖于输入的动态参数。此外，研究采用了基于AIST（AgInSbTe）材料的电压阈值忆阻器模型（公式10），其状态变量变化受微分方程控制，具有明确的开关阈值电压，适用于模拟电路中的精确控制。
第二阶段：基于忆阻器的完整Mamba语言网络电路设计。 这是本研究的核心贡献之一。如图3所示，整个电路系统被划分为三个主要部分，按计算顺序执行（1→2→3）。电路设计包含以下关键模块： 1. 多种忆阻器交叉阵列： 针对网络中不同的矩阵运算需求，设计了两种主要阵列。一是标准的1晶体管1忆阻器（1T1M）交叉阵列（图4a），用于实现一般的矩阵向量乘法（如投影操作）。二是深度可分离一维卷积忆阻器交叉阵列（图4b），其独特结构使得每列输出仅依赖于特定的输入通道，从而高效实现深度可分离卷积操作，避免了传统矩阵乘法中不必要的计算。 2. 存内计算隐式隐藏状态电路（CIM Implicit Latent State Circuit）： 这是实现选择性SSM核心递归计算的关键模块（图5）。该电路利用多级电容器（C1, C2）来临时存储和传递模拟信号形式的隐藏状态h(t)。通过精心设计的时钟控制信号（cl0, cl1，见图6），电路在半个周期内将前一时刻的状态h(t-1)从C2转移到C1并进行计算，在下一个半周期内将新计算出的h(t)存回C2，实现了隐藏状态的“计算-存储-转移”一体化，完全在模拟域内进行，无需额外的模数/数模转换（ADC/DAC）和中间结果的外部存储。 3. 功能电路： 为支持网络中的非线性运算，设计了多个功能电路（图7）。包括：a) SiLU激活电路：通过运算放大器、乘法器和除法器实现x·σ(x)，其中的指数函数e^x采用泰勒展开（1 + x + x²/2）进行近似，在参数范围内误差可控（最大7.03%）。b) RMS归一化电路：计算输入信号的均方根值并进行缩放。c) 乘-加-加电路：用于计算选择性SSM的输出y(t) = c h(t) + d ⊙ x(t)。d) 残差电路：用于实现网络中的残差连接。 4. 整体架构集成： 将上述所有模块按照Mamba网络的数据流图连接。输入词嵌入（Embedding）被编码为模拟电压信号，依次流经第一部分（预处理与投影）、第二部分（选择性SSM核心计算，包含上述隐式状态电路和功能电路）和第三部分（后处理与投影），最终生成输出词嵌入的模拟信号。
第三阶段：存内计算并行感知算法及其电路实现。 这是本研究的另一核心创新。原始的Mamba算法包含并行扫描（Parallel Scan）和硬件感知（Hardware Awareness）两部分（图8，图9），旨在解决递归计算的并行化和减少内存访问。然而，该算法仍需频繁访问SRAM来读写隐藏状态。本研究提出了一种全新的存内计算并行感知算法（CIM Parallel-Aware Algorithm），并将其完整电路化（图10，图11）。 该算法的核心思想是：利用忆阻器阵列在电路中直接计算动态参数（a, b, c），并通过电路连线直接传递参数，消除了参数存取开销；同时，利用前述的隐式隐藏状态电路，在计算的同时就地存储和转移隐藏状态，无需为后续计算重复访问内存。如图10所示，该算法能在一个周期内并行计算出多个时间步的隐藏状态（如h1, h2, h3）。其电路实现（图11）由多个隐式状态电路模块和一个时钟模块构成，通过特定的时钟信号（clf, clb，见图12）控制开关，实现了隐藏状态的自主转移和多个输出的并行生成，将算法的高并行性和硬件感知特性与忆阻器存内计算架构深度融合。
第四阶段：实验仿真与性能分析。 为验证所提电路和算法的正确性与有效性，研究团队设计了一个基础的句子生成任务：“I love machine learning very much end”。网络参数设置为：输入/输出维度d=2，内部扩展维度di=8，状态维度ds=2。 1. 软件训练与权重映射： 首先在PyTorch中训练一个基本的Mamba语言网络来完成该任务。训练完成后，将得到的网络权重（经适当调整以适应模拟信号范围）映射到忆阻器交叉阵列的导值上。 2. 电路仿真： 使用PSpice软件对设计的完整电路进行瞬态仿真。将代表单词的二维嵌入向量（如表III所示，单位为mV）作为电压输入序列施加到电路。 3. 结果验证： 电路输出为模拟电压信号，代表预测的下一个单词的嵌入向量。通过Python程序计算电路输出向量与所有候选单词嵌入向量（表II）之间的余弦相似度，选择相似度最高的单词作为预测结果。 4. 性能评估： 对电路进行了多方面的性能分析，包括：计算精度（与标准数字结果的对比）、信号保持率（分析电容值对存储信号衰减的影响）、抗噪声能力（在输入信号中添加15%白噪声测试稳定性）、功耗估算（对各模块及系统总功耗进行分析）以及面积开销估算。此外，还将Mamba与Transformer、传统循环神经网络（RNN）在计算复杂度和推理速度上进行了理论对比，并与其它忆阻器神经网络电路工作进行了比较（表VI）。
三、 主要结果 1. 功能正确性验证： 电路仿真成功生成了目标句子“I love machine learning very much end”。如图15所示，电路能够按顺序接收输入词嵌入（如“I”），并正确输出预测的下一个词的嵌入（如“love”），该输出再作为下一时间步的输入，循环直至生成结束符“end”。图16展示了隐藏状态在电容器C1和C2之间成功转移和更新的过程。图17和图18分别验证了SiLU电路和RMS归一化电路的输入输出关系符合理论公式。 2. 算法有效性验证： 存内计算并行感知算法电路成功实现了高并行输出。如图19所示，在第一个输入周期（输入“I”）后，电路同时输出了“love”、“machine”、“learning”三个词的嵌入。第二个周期输入“learning”后，电路又同时输出了“very”、“much”、“end”。这证明了该算法电路能够将顺序输入转换为并行输出，大幅提升推理效率。图20进一步展示了算法电路中隐藏状态（如ht3到ht0）的自主转移过程，验证了其硬件感知特性。 3. 计算精度分析： 如图21所示，电路模拟计算输出的向量与软件标准数字结果之间的平均精度达到95.98%。考虑到模拟计算的固有误差、指数函数近似等因素，该精度被认为是可以接受的。研究还分析了忆阻器多值量化（如9-bit量化）对精度的影响（图22），发现9-bit量化后平均精度仍保持86.58%，而16-bit量化则接近未量化精度。 4. 稳定性与抗噪性： 如图23所示，通过选择合适容值的电容（如7.7 nF），信号在28μs内的保持率可达99.6%，有效保证了计算准确性。如图24所示，即使在输入嵌入信号上添加15%强度的白噪声，电路仍能保持稳定，输出结果噪声干扰很小（波动在±5mV内）。图25显示，隐式隐藏状态电路本身具有一定的滤波效果，能衰减输入噪声。 5. 功耗与面积评估： 如表V所示，为生成一个词元（token），整个系统的估算功耗约为585.32 mW，属于较低水平。基于0.18μm工艺对主要模块进行面积估算，总电路面积约为3044.83 μm²，其中主要开销来自七个忆阻器交叉阵列。 6. 优势对比： 如图26和表VI所示，研究从理论和实验角度对比了所提方案的优越性。与Transformer相比，Mamba本身具有线性计算复杂度，对于长度为n的序列，Transformer需要O(n²)次运算，而Mamba仅需O(n)次。与传统的RNN相比，本研究实现的并行感知算法电路能将推理时间从线性（n个周期）大幅缩短（如本例中从6个周期减少到2个周期）。与其他忆阻器神经网络电路工作相比，本研究首次完整实现了Mamba网络，并创新性地提出了与之配套的存内计算优化算法。
四、 研究结论 本研究成功提出了首个基于忆阻器的Mamba语言网络全电路实现方案，并创新性地设计了一种存内计算并行感知算法及其电路实现。该方案通过设计多种忆阻器阵列、隐式隐藏状态电路和关键功能电路，使整个网络能够以全模拟信号的方式处理输入序列并生成输出序列，避免了大量冗余的模数/数模转换和中间数据存储。所提出的算法将Mamba原有的并行扫描和硬件感知优势与忆阻器存内计算架构深度融合，在电路层面实现了隐藏状态的自主转移和计算结果的并行输出。通过一个基本的句子生成任务和PSpice仿真，验证了电路功能和算法的正确性。性能分析表明，该电路在计算精度、稳定性、抗噪性、功耗和面积方面均表现出良好潜力，证明了其作为大规模时序电路集成基础模块的可行性，为未来在低功耗、高速嵌入式设备中部署Mamba语言网络推理提供了重要的硬件实现路径。
五、 研究亮点 1. 首创性： 这是首篇报道基于忆阻器的Mamba语言网络完整电路实现的学术论文，填补了该领域的空白。 2. 算法-硬件协同创新： 不仅实现了电路，更重要的是提出并实现了一种全新的存内计算并行感知算法。该算法并非简单地将软件算法映射到硬件，而是根据忆阻器存内计算和模拟电路的特性进行了深度优化和重新设计，实现了真正的“算法-硬件协同设计”。 3. 关键电路模块创新： 设计的隐式隐藏状态电路巧妙利用多级电容器和时钟控制，在模拟域内实现了选择性SSM核心递归状态的计算、存储和转移一体化，是解决序列模型硬件实现中状态管理难题的优雅方案。 4. 系统性验证： 研究不仅进行了功能仿真，还系统性地评估了电路的精度、鲁棒性、功耗和面积，并与相关工作进行对比，论证充分，为后续研究和实际应用提供了有价值的参考。 5. 前瞻性： 研究为下一代高效能、低功耗的序列建模硬件加速器指明了方向，展示了将先进算法（如Mamba）与新兴硬件（如忆阻器）结合，共同突破“内存墙”和计算瓶颈的巨大潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问