神经功能连接重建:基于行为强化的生成性放电预测模型学术报告
一、作者与发表信息
本研究由Shenghui Wu(香港科技大学电子与计算机工程系)领衔,联合Zhiwei Song、Xiang Zhang等来自香港科技大学、帝国理工学院、佛罗里达大学等11家机构的学者共同完成,发表于Nature Computational Science(2025年10月29日在线发表,DOI: 10.1038/s43588-025-00915-5)。
二、学术背景
科学领域:本研究属于计算神经科学与神经工程交叉领域,聚焦神经假体(neural prostheses)开发,旨在通过人工智能重建受损神经通路的功能连接。
研究动机:阿尔茨海默病、脊髓损伤等神经系统疾病会导致神经传导通路中断,传统方法依赖下游神经活动的监督学习(supervised learning, SL),但患者的下游信号常无法获取。因此,团队提出一种无需下游记录的强化学习(reinforcement learning, RL)框架,直接通过行为反馈优化放电模式。
核心目标:开发一种基于强化学习的点过程模型(RLPP),将上游神经活动转化为能诱发目标行为的放电序列,模拟健康个体的神经编码特性,为神经假体提供生物仿生刺激方案。
三、研究流程与方法
1. 实验设计与数据采集
- 研究对象:6只雄性Sprague-Dawley大鼠,植入微电极阵列记录内侧前额叶皮层(medial prefrontal cortex, MPFC)和初级运动皮层(primary motor cortex, M1)的神经活动。
- 行为任务:大鼠通过音频线索(1.5 kHz或10 kHz)选择按压高/低杠杆以获取奖励,任务成功率为75%以上,采集约200次成功试验数据。
- 信号处理:神经信号经离线排序(Offline Sorter软件),以10 ms时间窗离散化,筛选与任务相关性最高的M1神经元(通过互信息分析)。
2. 模型构建
- 输入预处理:采用霍克斯过程(Hawkes process)将MPFC放电历史转化为指数衰减的输入矩阵,捕获时序依赖关系(衰减时间常数τ=1.5 s)。
- 神经网络架构:双层全连接人工神经网络(ANN),输入层接收MPFC活动,输出层生成M1神经元的放电概率,通过伯努利过程模拟放电。
- 强化学习框架:
- 环境反馈:模型生成的放电经解码器(ANN结构)转化为行为(休息、按压高/低杠杆),与真实行为匹配则给予奖励。
- 策略优化:采用策略梯度算法,通过累积折扣回报(discounted return)更新模型参数,最大化行为成功率。
- 创新设计:引入内部奖励(inner reward)鼓励探索罕见行为模式,避免局部最优。
3. 对比方法
- 监督学习基线(SLPP):相同网络结构,但通过最大化M1记录放电的似然函数训练。
4. 数据分析
- 行为评估:时间窗成功率(time-bin success rate)和试验成功率(trial success rate)。
- 信息论分析:计算放电序列与行为间的互信息(mutual information, MI),量化模型捕捉行为相关信息的能力。
- 模式可视化:t-SNE降维展示放电模式的聚类特性。
四、主要结果
1. 放电调制的生物仿生性
- RLPP生成的放电在运动调制(movement modulation)上与健康M1记录高度相似(图2a),且部分神经元展现出更强的任务区分性(图2d)。例如,RLPP预测的某些神经元在杠杆按压时出现实验记录中未观察到的正向调制(图2b)。
- SLPP预测结果则因受限于下游记录,调制范围显著缩小(图2d-iii)。
2. 行为成功率提升
- RLPP的时间窗成功率平均比SLPP高11.4%,试验成功率高27.8%(图3c-d),证明RL框架能更有效探索行为优化的放电模式。
3. 解码器普适性
- RLPP在非特异性解码器(如手动设计的四神经元解码器)下仍保持高成功率(图4a),且通过迁移学习(transfer learning)可快速适配新解码器,训练迭代次数减少50%以上(图4e)。
4. 信息编码优势
- RLPP生成的放电包含更多行为相关信息(图5a),且与上游MPFC活动的互信息显著高于SLPP(图5d),表明其突破了传统SL的“信息上限”。
五、结论与价值
科学价值:
1. 理论突破:首次提出仅依赖行为反馈的RL框架,绕过了下游记录依赖,为神经通路损伤患者提供了新干预思路。
2. 方法创新:RLPP模型通过多神经元点过程建模,实现了生物仿生放电的在线生成与自适应优化。
应用价值:
- 临床潜力:可作为“硅皮质回路”植入神经假体,通过电刺激恢复跨区域通信(如运动功能重建)。
- 技术扩展性:框架可推广至记忆、感觉等其他神经通路(补充图6)。
六、研究亮点
- 行为驱动的无监督学习:RLPP仅需行为奖励信号,无需健康下游记录,解决了临床数据缺失难题。
- 生物仿生性与适应性:生成的放电既保留自然神经编码特性,又通过RL探索更优行为解决方案。
- 解码器无关性:模型在不同解码器设置下均表现稳健,降低了对患者特异性映射的依赖。
七、其他价值
- 长期康复潜力:RLPP诱导的刺激可能通过赫布可塑性(Hebbian plasticity)促进神经通路重塑,超越短期功能恢复。
- 开源贡献:代码与数据公开于GitHub(DOI: 10.5281/zenodo.17221566),推动领域复现与拓展。
(全文约2400字)