海马体奖励预测编码:一项追踪数周学习过程中神经表征动态演变的研究报告
2025年11月24日,一项题为《海马体中的奖励预测编码》的研究在线发表于《自然》期刊。这项研究由来自加拿大麦吉尔大学道格拉斯医院研究中心和综合神经科学项目的 Mohammad Yaghoubi 和 Mark P. Brandon 作为通讯作者领导,团队成员还包括哈佛大学脑科学中心、工程与应用科学学院以及肯普纳自然与人工智能研究所的研究人员。
一、 研究背景与目标
这项研究隶属于系统神经科学和计算神经科学的交叉领域,核心在于探究大脑如何通过学习来预测未来奖励,这是动物生存和决策的基石。海马体长期以来被认为是一个“认知地图”,负责编码空间位置和环境的特征。然而,越来越多的证据表明,海马体神经元不仅编码空间信息,还对奖励相关事件敏感,并可能参与预测性编码。尽管有研究描述了学习奖励位置前后海马体表征的变化,但这些动态变化是如何随着数天、数周乃至数月的长期经验积累而逐渐形成和演变的,一直是一个悬而未决的问题。
因此,本研究旨在解决一个关键知识缺口:海马体中的奖励表征是如何随着动物在数周内学习一项复杂的基于奖励的任务而动态演变的?研究者提出假说认为,在学习过程中,海马体表征(特别是奖励表征)会发生重组,以支持对奖励的预测。他们试图通过追踪小鼠在执行奖励任务数周期间海马体CA1区神经元的活动,来检验这一假说,揭示其编码动态,并探究其背后的计算原理。
二、 研究流程与方法
本研究设计精妙,结合了前沿的活体神经成像技术、复杂的行为学范式和计算建模,工作流程可概括为以下几个主要环节:
动物模型与手术准备: 研究使用7只雄性C57BL/6小鼠。通过立体定位手术,向小鼠背侧海马体CA1区注射携带钙离子指示剂GCaMP6f的病毒载体,使其在神经元中表达。数周后,植入梯度折射率镜头,最终安装微型单光子荧光显微镜基座,为长期活体钙成像做准备。
行为任务与训练: 小鼠在一个自动化的触摸屏箱中进行训练,执行一项“延迟非匹配位置”任务。这项任务认知要求高:首先,一个样本刺激随机出现在屏幕左侧或右侧;小鼠触碰后,进入一个延迟期;延迟结束后,小鼠需跑到箱体后部启动选择阶段,此时屏幕上出现两个方块,小鼠必须选择与先前样本位置不同的那个方块才能获得液体奖励。为了分离经验积累和任务熟练度的影响,研究者在小鼠表现提升后,会逐步增加延迟时间(从2秒到4秒、6秒),使任务持续具有挑战性,从而确保相关神经环路在整个记录期间保持活跃。小鼠每天进行一个训练/测试 session,整个学习过程持续数周。
长期钙成像数据采集: 在数周的学习期内,研究者使用头戴式微型单光子显微镜,对自由活动小鼠的背侧海马体CA1区进行钙成像。他们平均在每个 session 记录到 504 ± 101 个神经元的活动。行为视频与神经信号同步采集并打上时间戳,用于后续对齐分析。
数据处理与分析流程:
计算建模: 为了解释观察到的神经动态,研究者构建了一个基于时间差分学习(Temporal Difference Learning, TDRL)的模型。该模型将从小鼠做出选择到获得奖励的路径抽象为一维状态空间。模型包含一组以高斯函数模拟的“位置细胞”,其活动传递给一个“评论家”网络用于估计状态价值并计算TD误差(即奖励预测误差)。学习的目标是最大化未来奖励,在此过程中,TD误差信号会驱动位置细胞活动峰值的位置发生更新。
三、 主要研究结果
本研究在群体水平和单细胞水平均获得了相互印证的、揭示海马体奖励预测编码动态的系列结果:
奖励编码随经验减少: 随着训练 session 的增加(经验积累),海马体CA1区神经元群体编码奖励的信息含量显著下降。同时,被鉴定为“奖励细胞”的神经元比例也从约8.5%逐渐减少。线性模型分析表明,这种下降主要与训练天数(经验)相关,而与小鼠在特定延迟下的即时任务表现关联较弱。这意味着,即使小鼠已经很擅长任务,只要持续经历,海马体对奖励本身的直接表征就会减弱。
奖励前线索编码随学习增加: 与奖励编码的动态相反,编码奖励前事件(屏幕选择时刻和奖励趋近期)的神经信息表现出增加的趋势。无论是群体互信息还是“屏幕细胞”、“奖励趋近细胞”的比例,都随着 session 天数和任务表现的提升而显著增加。这揭示了海马体表征重心从结果向预测结果的线索转移。
单细胞活动的“后向迁移”: 对跨 session 追踪的单个神经元分析发现了最具启示性的现象。相当一部分最初被鉴定为“奖励细胞”的神经元,其活动峰值时间会随着学习进程逐渐向奖励出现之前移动。例如,一个神经元在第一周可能在奖励出现时最活跃,到了第三周,其活跃峰值可能提前到小鼠跑向奖励端口的途中。通过统计检验,研究者发现21%的追踪奖励细胞表现出这种“后向迁移”,比例显著高于随机水平。其中,60%的后迁奖励细胞在后期 session 中甚至被重新分类为“奖励趋近细胞”或“屏幕细胞”。这直接证明了经验驱动了神经活动的时间重组,使其能够提前预测奖励。
TD误差模型复现实验结果: 研究者提出的时间差分学习模型成功地复现了上述核心发现。在模拟学习中,模型中的“位置细胞”活动峰值最初集中在奖励状态,随着TD误差信号从奖励位置向任务起点反向传播,这些细胞的峰值也系统地发生“后向迁移”。同时,模型早期在奖励位置出现细胞的过度表征,随后该表征逐渐减弱,这与实验中观察到的奖励细胞比例下降及早期奖励位置过度表征的现象一致。模型进一步指出,只有当对未来状态价值的预测被充分考虑时(即TD误差计算中的折扣因子γ足够大),这种后向迁移才会发生,强调了预测性计算的关键作用。
四、 结论与意义
本研究的核心结论是:海马体的空间认知地图并非静态,而是具有高度的动态性和预测性。随着动物在数周内积累经验,海马体表征会发生系统的重组——其编码重心从直接表征奖励本身,逐渐向后迁移至那些能够预测奖励的线索和事件上。这种“后向迁移”的动态与强化学习中奖励预测误差(RPE)信号的传播高度相似,且可以通过时间差分学习模型进行解释。
这项研究的科学价值重大:首先,它将海马体的功能从传统的空间记忆和情景记忆框架,扩展到了基于经验的未来事件预测领域,为“海马体作为预测地图”的理论提供了强有力的实验证据。其次,它首次在单细胞水平上揭示了这种预测性编码在长达数周时间尺度上的渐进式形成过程,连接了短期学习动态和长期记忆巩固。最后,它建立了海马体神经动力学与经典的强化学习计算原理(TD学习)之间的直接联系,暗示海马体可能与中脑多巴胺系统等脑区构成一个更大的环路,共同支持基于奖励预测的学习。
五、 研究亮点
六、 其他有价值内容
研究还包含了详细的方法学验证,例如通过模拟细胞追踪错误来证明“后向迁移”结果的稳健性;分析了不同奖励幅度对“奖励趋近细胞”活动的调制;并在补充数据中展示了海马体神经元同时编码任务多个方面(如空间位置)的证据,表明奖励预测编码是与其它信息表征并存的。这些内容进一步丰富了研究的深度和可靠性。这项研究为我们理解大脑如何通过动态重组内部模型来预测和优化未来结果,提供了里程碑式的见解。