作者及机构
本文由瑞士洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne)脑与心智研究所的Nicolas Frémaux和Wulfram Gerstner合作完成,发表于2016年1月的《Frontiers in Neural Circuits》期刊(DOI: 10.3389/fncir.2015.00085)。
这篇综述文章聚焦于神经调质(neuromodulators)对时序依赖性突触可塑性(Spike-Timing-Dependent Plasticity, STDP)的调控作用,并提出了三因素学习规则(three-factor learning rules)的理论框架。传统Hebbian学习理论强调突触前和突触后神经元的协同激活,但忽视了神经调质(如多巴胺、乙酰胆碱、去甲肾上腺素等)在调节突触可塑性中的关键作用。这些神经调质传递关于新颖性(novelty)或奖赏(reward)的信息,不仅对经典条件反射中的动作学习至关重要,还能帮助神经系统决定何时针对感觉输入流形成新记忆。
神经调质(如多巴胺、乙酰胆碱、去甲肾上腺素等)不仅改变神经元的兴奋性,还能通过多种机制影响突触可塑性和记忆形成:
- 多巴胺:与奖赏信号密切相关,编码“实际奖赏与预期奖赏的差异”(Schultz et al., 1997)。实验显示,多巴胺能神经元的相位活动在奖赏预测和传递中起核心作用。
- 乙酰胆碱:在感觉皮层重塑和海马体可塑性中必不可少(Gu, 2002)。例如,听觉皮层中乙酰胆碱的释放可促进感觉图谱的重构(Kilgard & Merzenich, 1998)。
- 去甲肾上腺素:与注意力和唤醒相关,通过调节突触标记(synaptic tagging)促进记忆巩固(Sara, 2009)。
支持证据:
- 在纹状体中,多巴胺通过D1/D5和D2受体调控STDP的诱导(Pawlak & Kerr, 2008; Shen et al., 2008)。
- 乙酰胆碱通过激活毒蕈碱受体改变STDP窗口,将长时程增强(LTP)转化为长时程抑制(LTD)(Couey et al., 2007)。
实验通过控制突触前/后神经元放电时序与神经调质浓度的组合,揭示了以下现象:
- 多巴胺的“门控”效应:在皮质-纹状体突触中,多巴胺受体被阻断时,STDP无法诱导(Pawlak & Kerr, 2008)。
- 时间敏感性:海马神经元培养实验中,多巴胺的加入不仅增强LTP,还放宽了突触前/后放电的时间窗口要求(Zhang et al., 2009)。
- 神经调质的协同作用:在视觉皮层中,β-肾上腺素能受体激动剂诱导双向LTP,而M1-毒蕈碱受体激动剂诱导双向LTD(Seol et al., 2007)。
关键问题:
- 神经调质信号是否需要与STDP配对精确同步?
- 神经调质浓度低于基线时是否会逆转突触可塑性的方向?
传统Hebbian学习规则仅依赖突触前和突触后活动(双因素),而三因素规则引入神经调质作为第三因素,形式化为:
[ \dot{w} = f(M, \text{pre}, \text{post}) ]
其中,( M )为神经调质信号,( \text{pre} )和( \text{post} )分别代表突触前和突触后活动。
R-STDP(奖赏调控的STDP):
TD-STDP(时序差分学习模型):
R-max(基于策略梯度的模型):
功能对比:
- R-STDP适用于慢速学习(需数千次试验),而TD-STDP可快速收敛(Frémaux et al., 2013)。
- 多巴胺信号可能同时传递奖赏和新颖性信息,支持混合编码机制(图1G)。
资格迹是三因素学习规则的核心,其功能类似于突触标记(synaptic tagging)机制:
- 时间尺度差异:资格迹的衰减时间为数百毫秒(Frémaux et al., 2013),而突触标记可持续数小时(Frey & Morris, 1997)。
- 分子机制:两者可能共享部分信号通路(如CaMKII、PKMζ),但资格迹需要更快的动力学(Lisman et al., 2011)。
这篇综述不仅总结了神经调质与STDP交互的前沿进展,还为理解学习与记忆的生物学基础提供了新的理论视角。