本研究由高自强 (Zilong Gao) 和 王汉卿 (Hanqing Wang) 作为共同第一作者,陈露 (Chen Lu)、刘铁占 (Tiezhan Lu)、Sean Froudist-Walsh、陈明 (Ming Chen) 等研究人员共同参与。通讯作者为王晓京 (Xiao-jing Wang)(纽约大学)、胡霁 (Ji Hu)(上海科技大学)和孙文智 (Wenzhi Sun)(北京脑科学与类脑研究中心、首都医科大学)。合作机构包括北京大学、北京脑科学与类脑研究中心(中国)、纽约大学(美国)、上海科技大学和上海市精神卫生中心等。该研究成果于2021年12月1日发表于《科学进展》(Science Advances) 期刊,论文标题为“The neural basis of delayed gratification”。
学术背景与目的 该研究属于神经科学领域,具体聚焦于决策神经机制,特别是“延迟满足”(delayed gratification)这一核心认知过程。延迟满足是指个体为了获得未来更大的回报,而主动选择放弃眼前较小但即时可得的回报的能力。这种行为对生存、繁衍乃至社会功能至关重要,其失调与成瘾、肥胖等多种精神障碍密切相关。尽管心理学和神经影像学研究已经揭示了延迟满足与大脑特定区域(如前额叶皮层)的活动相关,并且多巴胺系统被推测参与其中,但对于在延迟满足过程中,神经元群体(特别是多巴胺能神经元)是如何动态编码信息并直接调控决策行为的,尚缺乏来自细胞水平上的直接因果性证据。因此,本研究旨在利用小鼠模型,结合先进的光学记录、操控技术以及计算建模,阐明延迟满足行为背后精确的神经编码机制,并回答一个核心问题:在等待过程中,中脑多巴胺能神经元的活动模式是什么?这种活动如何实时影响等待决策?
详细研究流程 本研究流程严谨,可概括为以下几个核心步骤:
1. 行为任务开发与训练 研究首先设计并训练小鼠完成一个“等待-水奖励”的延迟满足任务。实验在一个特制的穿梭箱中进行,分为等待区和奖励区。在预训练阶段,小鼠学会从等待区跑到奖励区舔舐水口,无论等待时间长短,每次获得固定量(10微升)的水。经过一周训练,小鼠学会了缩短等待和奔跑时间以最大化奖励率。随后进入关键的延迟满足范式训练:奖励水量不再是固定的,而是与小鼠在等待区停留的时间呈二次函数关系增长(例如,等待2-4秒得2微升,6-8秒得18微升)。小鼠需要学会为了更大的水奖励而忍受更长的等待时间。研究对7只小鼠进行了为期3周的训练,通过行为数据分析(如等待时长分布、奖励率)来确认小鼠成功习得了延迟满足策略。
2. 神经活动记录 为探究腹侧被盖区 (Ventral Tegmental Area, VTA) 多巴胺能神经元在等待期间的活动,研究采用了光纤光度记录法(fiber photometry)。在DAT-IRES-Cre转基因小鼠的VTA区注射了表达钙指示蛋白GCaMP6m的病毒,并通过植入的光纤记录神经元钙信号。钙信号变化反映了神经元的活动水平。研究人员在小鼠执行延迟满足任务时,长期(长达一个月)记录了VTA多巴胺能神经群体的动态活动。此外,为了在单细胞水平验证钙信号所代表的电活动模式,研究还进行了在体单细胞电生理记录。在5只小鼠的VTA区植入电极,记录了17个推测为多巴胺能神经元的单细胞放电活动,并将其放电模式与光纤记录的群体钙信号进行关联分析。
3. 光遗传学因果操控 为了建立神经活动与行为之间的因果联系,研究进行了双向光遗传学操控实验。在另两组小鼠的VTA多巴胺能神经元中分别表达光激活通道(ChR2)或光抑制通道(eNpHR3.0)。当小鼠在执行延迟满足任务并处于等待期时,在随机20%的试次中给予激光刺激(激活或抑制)。通过比较激光开启试次与激光关闭试次(包括前一天的行为基线以及刺激后的试次)中小鼠的等待时长分布,来检验操控VTA多巴胺能神经元活动是否以及如何即时地改变等待决策。
4. 强化学习计算建模 为了解释实验观察到的神经活动模式和行为结果,并区分不同的行为策略假设,研究团队开发了两种基于强化学习(Reinforcement Learning, RL) 的计算模型。第一种是“事前决策”模型,假设小鼠在进入等待区前就设定了一个目标等待时间。第二种是“持续审议”模型,假设小鼠在等待的每一刻都在实时权衡“继续等待”与“离开去获取当前可得奖励”这两个选项的价值。研究者使用SARSA算法对“持续审议”模型进行了具体实现。该模型能够模拟小鼠的学习过程、生成等待时长的分布,并计算出在等待过程中“等待”和“离开”这两个动作的实时价值函数。
5. 数据分析与关联 除了常规的统计检验(如弗里德曼检验、方差分析、线性混合模型等)用于比较行为数据和神经活动差异外,研究还进行了多层次的数据关联分析:将电生理记录的放电率通过卷积算法预测为钙信号,与实际记录的钙信号进行比对;将计算模型中推导出的“等待价值”函数曲线与实际记录的VTA多巴胺能神经元的钙信号斜坡进行相关性分析;分析等待期间瞬时多巴胺信号波动与紧接着下一时刻等待概率之间的预测关系;根据整个等待期内钙信号的整体高低,将试次分为“高斜坡”和“低斜坡”组,比较其行为差异。
主要研究结果 1. 行为结果: 小鼠能够成功学会延迟满足任务。在延迟满足范式训练后,小鼠的平均等待时间显著增加,而奔跑时间保持不变,奖励率稳步提升,表明它们学会了为了更大奖励而延长等待。
2. 神经记录结果: 光纤记录显示,在延迟满足任务中,一旦小鼠进入等待区,VTA多巴胺能神经元的钙信号便开始持续地斜坡式上升,直至小鼠离开等待区时达到峰值。这种斜坡活动模式随着训练逐渐形成并稳定。单细胞电生理记录证实,这种群体钙信号的斜坡上升是由单个多巴胺能神经元的高频簇状放电所驱动。重要的是,斜坡的斜率在不同奖励结果的试次间是相似的,但等待结束时(离开前0.5秒)的钙信号强度与最终获得的奖励体积正相关。
3. 光遗传学结果: 因果操控实验得到了明确结果。在等待期间光遗传激活VTA多巴胺能神经元,会导致小鼠的等待时间显著延长;相反,光遗传抑制这些神经元则会缩短等待时间。这种效应仅发生在激光刺激的当前试次,对紧随其后的试次没有影响,且不影响奔跑时长。对照组(表达荧光蛋白mCherry的小鼠)则无此效应。这直接证明了VTA多巴胺能神经元的活跃度在等待期间实时调控着“继续等待”的决策。
4. 计算模型结果: 两种RL模型都能较好地模拟小鼠等待时长的行为分布。然而,通过将模型变量与实验数据精细对比,发现“持续审议”模型与实验结果吻合度更高。该模型中推导出的“等待价值”函数曲线,与实际记录的VTA多巴胺信号斜坡高度相关(皮尔逊相关系数r=0.99)。相比之下,“等待价值”与“离开价值”或“奖励预测误差”的关联模式则不符合实验观察。在模型中模拟光遗传操控(即人为增加或减少模型中的“等待价值”),能够完美复现实验中观察到的、仅影响当前试次等待时长的效果。
5. 神经信号预测行为: 进一步的关联分析发现,瞬时的多巴胺信号波动能够预测紧接着下一时刻的行为。具体而言,在某个1秒时间窗内较高的多巴胺信号,预示着小鼠在下一个1秒时间窗内选择继续等待的概率更高。这种预测关系具有“马尔可夫性”,即更早的多巴胺信号对后续非相邻时刻的等待决策没有预测能力。这从数据上支持了“持续审议”是一个实时、逐刻的决策过程。
结论与价值 本研究得出核心结论:在延迟满足的等待过程中,VTA多巴胺能神经元的活动以持续斜坡式上升的模式,编码了“继续等待”这一动作的实时价值。这种神经信号并非简单地反映时间流逝、奖励预测误差或“离开”的价值,而是直接参与了每一刻的“等待 vs. 离开”的权衡计算。因此,延迟满足并非一个简单的、事前设定好计时器的过程,而是一个涉及实时审议的主动决策过程。多巴胺系统通过动态表征等待的价值,支撑着个体抵抗即时诱惑、追求长远更大利益的能力。
这项研究的科学价值重大:首先,它首次在细胞分辨率上揭示了延迟满足行为中多巴胺能神经元的动态编码规律,并提供了直接的因果性证据,将抽象的“自我控制”概念与具体的神经活动模式联系起来。其次,它挑战了将多巴胺信号单纯等同于“奖励预测误差”的传统观点,展示了在目标导向的、需要持续努力的决策任务中,多巴胺信号可以编码动作的“成本”或“价值”(此处为时间成本)。最后,研究提出的“持续审议”框架和对应的RL模型,为理解其他需要权衡即时与长远利益的复杂决策(如成瘾、冲动行为)提供了新的理论工具和实验范式。
研究亮点 1. 范式创新:成功开发了适用于小鼠的、可量化分析的延迟满足行为范式,将复杂的人类认知行为在动物模型上实现。 2. 技术整合:娴熟地整合了转基因动物、光纤光度记录、在体电生理、双向光遗传学操控等多种前沿技术,从观察到操控,形成了完整的证据链。 3. 因果确证:通过光遗传学手段,不仅观察到神经活动与行为的相关性,更直接证明了改变VTA多巴胺能神经元活动能够双向、即时地调控等待决策,确立了因果关系。 4. 计算与实验深度融合:利用强化学习模型不仅解释行为,更重要的是用于区分不同的神经编码假设(如价值 vs. 时间 vs. RPE),并将模型变量与真实的神经信号进行定量比对,使结论更具说服力。 5. 机制深入:研究不仅回答了“是否参与”,更深入揭示了“如何参与”(斜坡编码实时价值)以及决策的动态特性(实时审议、马尔可夫过程),对神经编码机制的理解达到了新的深度。
其他有价值内容 研究还进行了一系列严谨的对照实验,如“随机位置偏好测试”,排除了光遗传刺激本身具有奖赏或厌恶效应从而导致行为改变的次要解释,确保了行为变化直接源于对决策过程中多巴胺信号的操控。此外,对电生理数据与钙信号数据的卷积预测分析,加强了不同记录技术所得结果的一致性。这些细节体现了研究的严谨性和可靠性。