本研究于2025年12月发表在《nature machine intelligence》期刊上,题为“actor–critic networks with analogue memristors mimicking reward-based learning”。主要作者包括来自苏黎世联邦理工学院(ETH Zurich)集成系统实验室的Kevin Portner和Till Zellweger(共同一作)、Mathieu Luisier和Alexandros Emboras,来自洛桑联邦理工学院(EPFL)生命科学学院、计算机与通信科学学院的Flavio Martinelli和Wulfram Gerstner,以及来自IBM苏黎世欧洲研究院(IBM Research Europe—Zurich)的Laura Bégon-Lours、Valeria Bragaglia、Daniel Jubin等多位研究人员。
学术背景: 本研究属于神经形态计算、硬件人工智能和强化学习(Reinforcement Learning, RL)的交叉领域。其核心科学问题是如何在专用硬件上,特别是忆阻器(Memristor)上,实现高效、生物启发的在线学习。 研究背景基于以下几点:首先,人类大脑在适应新情境、处理大量数据和从经验中泛化方面效率极高,其连接调整由学习规则(learning rules)控制。其中,三因素学习规则(Three-factor learning rules),如奖励调控的脉冲时序依赖可塑性(reward-modulated spike-timing-dependent plasticity, R-STDP),不仅响应输入统计特性,还能整合奖励、惩罚或新奇性等全局调节信号,与强化学习密切相关。强化学习是一种通过与环境的交互来最大化累积奖励的机器学习方法,在复杂游戏中表现出色,但传统的软件实现,特别是依赖误差反向传播(backpropagation)的深度强化学习,存在计算需求大、功耗高以及生物学合理性不足的问题。 其次,忆阻器作为新兴的非易失性存储器,因其模拟、可调的突触权重特性以及通过交叉阵列(crossbar array)实现内存内矩阵-向量乘法的能力,在构建能效高、生物启发的计算硬件方面极具吸引力。然而,以往的忆阻器实现大多仅部分借鉴了大脑的架构和功能,或者仅限于在算法中使用忆阻器执行特定任务(如存储权重),而将计算量大的操作(如权重更新计算)留给软件,未能充分利用内存内计算(in-memory computing)的优势,数据移动带来的能耗和延迟问题依然存在。此外,虽然已有少数基于忆阻器的三因素学习实现,但大多局限于单个器件,且缺乏在运行时完全在内存中进行在线训练(online training)的方案。 因此,本研究旨在提出并验证一个全新的框架:在模拟忆阻器上实现完整的、生物启发的强化学习。具体目标是利用演员-评论家时序差分(actor-critic temporal difference, TD)算法,使忆阻器不仅仅是静态的突触权重,更能作为多用途元件,直接在线训练、在硬件中计算与TD误差相关的权重更新、并决定智能体在环境中的行动,从而在导航任务中实现完全在内存中的在线学习,消除数据移动。
详细工作流程: 本研究的工作流程可以概括为以下几个关键环节,整合了硬件制备、特性表征、算法设计、模拟仿真和实验验证。
1. 生物启发的演员-评论家TD学习算法设计: 本研究采用演员-评论家(actor-critic)网络架构,该架构被认为与大脑中奖励学习的基础结构相似。网络包含两部分: * 评论家(Critic):评估当前状态(位置)的价值V(s),表示该状态接近奖励的程度。评论家权重记为w。 * 演员(Actor):学习并输出在不同状态下选择各个动作的概率。演员权重记为θ。 算法的核心是时序差分(TD)误差,它类似于大脑中的多巴胺奖励预测误差信号。TD误差的计算公式为:δt = r(st) + γ × V(st+1) - V(st),其中r是即时奖励,γ是折扣因子。权重更新遵循一个三因素学习规则:Δθij = α × δt × hact(i, j) 和 Δwj = α × δt × hcri(j),其中α是学习率,h是赫布(Hebbian)项,代表突触前后神经元的局部活动相关性。
2. 模拟忆阻器作为人工突触: 本研究使用的关键硬件是模拟价态变化存储器(analogue valence change memory, VCM)忆阻器,其材料堆栈为W/TiN/CMO/HfO2/TiN。CMO(导电金属氧化物)层作为氧空位库,与HfO2层结合提供了比单层HfO2更优的模拟开关特性。器件采用与CMOS和后端工艺兼容的技术制造,活性区域面积为600×600 nm²。 * 表征实验:对制备的忆阻器进行了一系列电学特性表征。包括直流(DC)电阻-电压(R-V)扫描,以展示其可重现的、渐变的电阻开关行为。更重要的是,使用相同的脉冲序列对器件进行持续的电导调制测试,测量了多次完整的增强(potentiation,对应于电导增加)和抑制(depression,对应于电导减少)循环,证明了器件能够稳定、可控地达到多个非易失性电导状态,这对应于演员和评论家网络中的权重值。此外,通过计算测量数据与其平均值的偏差,量化了器件更新过程中的噪声水平。
3. 内存内学习循环(In-memory Learning Loop)的创新实现: 这是本研究的核心创新点。以往的工作通常在软件中计算复杂的权重更新值,然后通过简单的脉冲施加到忆阻器上。本研究提出了一种新的机制,使权重更新值的计算也在内存中,通过忆阻器自身完成。以评论家权重更新为例(单热点编码,one-hot encoding): * (i)内存内权重更新计算:构建一个包含三个元件的小型网络:一个代表固定值(如1)的电阻(或固定电导的忆阻器)Wfixed,以及两个分别存储当前状态值V(st)和下一状态值V(st+1)的忆阻器Wt和Wt+1。通过向这三个元件施加精心设计的电压(U1=α×r(st), U2=α×γ, U3=-α),测量该网络的总输出电流Itot。这个Itot就直接等于根据TD误差公式计算出的期望权重更新值δwdes。这意味着,用于存储权重的忆阻器,同时也被用于计算这些权重的更新值,实现了“计算在内存中”。 * (ii)脉冲更新计算:将计算出的δwdes(一个模拟电流值)转换为需要施加的脉冲数量δp。这个转换步骤在当前的实验设置中由软件完成,但理论上可以在芯片上实现。 * iii)硬件更新:将δp个电压脉冲(增强或抑制脉冲)施加到目标忆阻器(Wt)上,实际改变其电导(权重)。 * (iv)误差校正:在更新过程中,存在两种误差:ε1,源于器件增强/抑制曲线的非线性(假设线性更新导致的偏差);ε2,源于器件的更新噪声。关键在于,由于下一次迭代的权重更新计算(步骤i)会直接读取当前已包含误差的权重值(Wt和Wt+1),因此这些误差会自动被纳入新的期望更新计算中。这种反馈机制使算法能够自动补偿上一次更新引入的误差,实现了误差校正能力。 研究人员通过实验验证了内存内权重更新计算的准确性:测量值与理论期望值高度吻合,误差低于3%。并通过模拟实验证明了误差校正机制能有效降低学习过程中权重的变异性。
4. 基于忆阻器的离散空间学习验证(T型迷宫任务): 为了在真实硬件上验证框架,研究选择了一个简化的导航任务:T型迷宫。迷宫被离散化为9个状态,奖励位于其中一个角落。网络由9个位置细胞(对应9个状态)、2个动作神经元和1个评论家神经元组成,共27个突触权重(18个演员权重θ,9个评论家权重w)。 * 实验设置:由于实验设备的限制,每次运行只能同时操作和训练两个物理忆阻器。因此,在每次实验中,选择两个评论家权重(如w0和w1)由真实的硬件忆阻器实现,并进行在线训练和内存内更新计算。其余权重(其他7个评论家权重和所有18个演员权重)的行为通过软件模拟(in-software-emulated memristors)来仿真,这些模拟基于前述对27个不同忆阻器测量得到的增强/抑制曲线、噪声和非线性特性。 * 实验过程:智能体在迷宫中运行多个回合(episode)。在每个时间步,根据当前状态(位置)、演员网络计算的动作概率选择行动,与环境交互获得新状态和奖励,然后计算TD误差,并执行上述内存内学习循环来更新权重。研究人员测量了在整个训练过程中(超过200个回合)由硬件实现的评论家权重的演变,并记录了每个回合到达奖励所需的步数。
5. 基于软件模拟忆阻器的连续空间学习扩展(莫里斯水迷宫任务): 为了展示框架应对更复杂问题和扩展到大规模忆阻器阵列的潜力,研究进行了全软件模拟实验。任务是基于莫里斯水迷宫的二维连续空间导航。智能体被随机放置在圆形水池中,需要找到一个隐藏的平台(奖励)。 * 网络设置:环境通过121个高斯径向基函数(Radial Basis Functions, RBF)编码为位置细胞活动。网络包含121个评论家权重和968个(121×8)演员权重,全部使用软件模拟的忆阻器实现。模拟忆阻器的特性(噪声、非线性)基于前述27个物理器件的测量数据。 * 模拟过程:智能体进行数千回合的训练。研究人员观察了学习曲线(找到奖励所需步数随回合数的变化),并在训练后分析了学习到的策略图(policy map,显示在每个位置最可能采取的动作方向)和价值图(value map,显示每个位置的估计价值)。
主要结果: 1. 模拟忆阻器的优异特性表征结果: 实验数据证实,所制备的HfO2-CMO双层忆阻器表现出可重复的、渐进的电阻开关特性。在脉冲操作下,能够实现可控的、逐渐的电导变化,展现出多级稳定的非易失性状态,且循环耐久性良好(达到10^8次编程周期),完全满足作为模拟突触权重进行在线调整的要求。更新噪声的量化结果为后续模拟和分析提供了关键参数。
2. 内存内学习循环的关键验证结果: 实验成功演示了内存内权重更新计算。测量得到的期望权重更新值δwdes,meas与通过软件理论计算的值δwdes,exp高度一致,误差在3%以内,证明了该硬件计算方案的准确性和可行性。模拟实验进一步表明,与不进行误差反馈的情况相比,本研究的误差校正机制显著降低了学习过程中权重值的标准偏差(变异性更小),说明误差被有效补偿而非累积。
3. T型迷宫任务的硬件学习结果: * 权重学习:由硬件忆阻器实现的评论家权重,其随时间(回合数)演变的测量曲线与理想软件仿真(无器件非理想特性)的平均趋势基本一致。权重值随着训练逐渐收敛,接近奖励的状态其权重值更高。对于在训练中始终较小的权重(如远离奖励的状态对应的权重),由于器件非线性在低电导区更明显,初期偏差略大,但得益于误差校正,后续逐渐得到修正。 * 性能学习:智能体找到奖励所需的步数随着训练回合的增加而显著减少,并最终收敛到接近最优路径(6步)的水平。即使在学会正确路径后,由于动作选择中的随机性(软最大函数的温度参数),步数仍有微小波动,这体现了对探索-利用困境(exploration-exploitation dilemma)的处理。 * 最终一致性:训练结束后,由硬件忆阻器学习到的最终权重值,全部落在了由软件模拟忆阻器运行得到的权重统计分布(均值和标准差)范围内,表明硬件学习效果与考虑了器件非理想特性的模拟高度吻合。 * 更新精度分析:在整个硬件学习实验中,内存内权重更新计算引入的误差始终很小(绝对误差<0.04)。更重要的是,这个计算误差小于或等于从器件增强/抑制曲线中提取出的固有更新噪声。这说明,在本方案中,忆阻器编程过程本身的准确性是足够高的,突显了在线学习的可行性。
4. 莫里斯水迷宫任务的模拟学习结果: * 学习性能:尽管模拟忆阻器存在更新噪声和非线性,智能体仍然成功地学习了导航任务。找到奖励所需的步数随着训练回合增加而波动下降,最终均值收敛到接近软件理想情况下的最优值(约6.5步)。这证明了本框架对硬件非理想特性的鲁棒性。 * 学习到的策略与价值:训练后得到的策略图显示,从迷宫中任意起始位置出发,智能体学到的动作都倾向于指向奖励所在的平台区域。越靠近奖励,选择正确方向的概率越高。对应的价值图也显示,越靠近平台,状态价值越高。这些结果与生物学观察和计算神经科学模型的预期一致,验证了框架在复杂连续任务中的有效性。 * 噪声影响:模拟实验还表明,如果使用所有器件中噪声最小的参数,学习收敛速度可以大幅加快。这指出了未来通过优化忆阻器技术(如降低更新噪声、改善线性度)来提升系统性能的方向。
研究结论与价值: 本研究成功地在模拟忆阻器硬件上实现了一个完整的、生物启发的演员-评论家时序差分强化学习框架。该框架的核心价值在于:首次将在线权重训练、内存内权重更新计算和动作决策这些关键操作全部整合到忆阻器硬件中执行,最大限度地减少了对外部软件的依赖和数据移动。 科学价值:1)为神经形态计算提供了一条新路径:将局部、生物合理的三因素学习规则与忆阻器硬件深度结合,实现了真正意义上的“内存内在线学习”。2)提出并验证了创新的“内存内权重更新计算”和“误差校正反馈循环”机制,为解决忆阻器非理想特性(非线性、噪声)对学习的影响提供了有效方案。3)通过从简单的离散任务到复杂的连续任务的演示,证明了该框架的可扩展性和处理现实世界问题的潜力。 应用价值:1)为开发超低功耗、实时响应的专用人工智能芯片奠定了基础,尤其适用于资源受限的嵌入式环境,如自主机器人、无人机和物联网设备的实时导航与控制。2)展示了忆阻器在构建更接近大脑工作方式的“类脑”计算引擎方面的巨大潜力,推动了神经形态硬件从简单的模式识别向具备自适应学习能力的方向发展。
研究亮点: 1. 全内存内在线学习:与以往仅部分使用忆阻器的工作不同,本研究首次实现了强化学习算法中所有核心操作(存储、计算更新、执行更新、决策)均在忆阻器内存中完成,是迈向完全内存内神经形态计算引擎的关键一步。 2. 多功能的忆阻器角色:忆阻器在本框架中扮演了多重角色:它们既是可在线训练的非易失性突触权重,又是计算权重更新的“计算单元”,还是决定网络输出的“执行单元”。这种多功能集成极大地提升了硬件的利用效率和能效。 3. 创新的误差校正机制:通过将包含器件非理想特性(非线性、噪声)的当前权重直接反馈到下一次权重更新计算中,自然地实现了对更新误差的在线补偿,增强了学习系统的鲁棒性和可靠性。 4. 从器件到系统的完整验证:研究涵盖了从底层忆阻器器件制备与表征,到核心算法与硬件计算方案的创新设计,再到离散和连续导航任务的实验与模拟验证,形成了一个完整、闭环的研究体系,说服力强。 5. 高度的生物启发性:框架采用的演员-评论家架构、TD误差作为全局调制信号、以及局部三因素学习规则,都与当前神经科学中关于奖励学习与多巴胺信号的理论模型高度一致,促进了计算科学与神经科学的交叉融合。
其他有价值内容: 研究还包含了详细的能量消耗和延迟估算分析。通过将所提框架与传统的基于GPU的软件实现、以及其他混合式(部分操作在软件)的忆阻器实现进行对比,结果表明,在最优情况下,本框架在忆阻器上执行操作的能量消耗可比标准忆阻器RL实现低20倍,比GPU实现低39倍,突显了其在能效方面的巨大优势。同时,研究讨论了将框架扩展到深度网络的可能性,例如与使用局部学习规则(如CLAPP)预训练的基础模型结合,以处理更复杂的感知输入(如图像)。此外,补充材料中对不同强化学习算法(PPO, R-STDP)在相同任务上的对比也表明,本研究所用的TD学习算法在性能和硬件友好性上具有优势。