关于“混合神经-认知模型揭示记忆如何塑造人类奖赏学习”研究的学术报告
本报告旨在向中文科研界同行介绍一项发表于《Nature Human Behaviour》期刊的重要研究。该研究由Maria K. Eckstein(第一作者,所属机构:Google DeepMind, London, UK)、Christopher Summerfield(University of Oxford)、Nathaniel D. Daw(Princeton University)及Kevin J. Miller(通讯作者,所属机构:Google DeepMind & University College London)共同完成,并于2025年在线发表(接收日期:2025年9月19日,在线发表日期:xx xx xxxx,DOI: 10.1038/s41562-025-02324-0)。以下将对该研究的背景、方法、结果、结论及亮点进行详细阐述。
一、 研究背景与目标
本研究隶属于认知科学与计算神经科学的交叉领域,核心关注点是人类在奖赏引导学习任务中的计算机制。长期以来,心理学与神经科学面临一个核心挑战:理解过去的经验如何转化并塑造未来的行为。在此领域,强化学习模型,特别是基于增量更新的Q-学习算法,已成为主导性的计算框架。这类模型假设个体仅依靠少数几个内部变量(如Q值)来简洁地总结过去的行动与奖赏历史,并通过简单的增量更新规则(如Delta规则)来驱动后续选择。此类模型虽然成功解释了大量基础与复杂的学习现象,并为跨物种的神经相关研究提供了计算基础,但实证研究也积累了许多与之不符的观察结果。例如,过去的单个事件可能对行为产生不成比例的影响;行为常常对奖赏的全局统计特性(如范围、选项分组)敏感;先前被认为与Q值直接相关的神经信号表现出显著的多样性。这些发现共同表明,人类用于做出奖赏决策的记忆表征可能超越了简单的增量学习统计摘要,可能依赖于更丰富、更灵活的内部记忆机制。然而,一个能够连贯地解释这种学习算法的计算模型仍然缺乏。
本研究旨在通过一种创新的混合建模方法,系统性地检验并挑战经典RL模型的假设,以期发现能够更准确、更全面地描述人类奖赏学习行为的计算架构。具体目标包括:1)评估经典增量更新RL模型在预测大规模人类行为数据上的充分性;2)探索是否需要更灵活、更丰富的记忆表征来解释行为;3)构建一个既具有高预测准确性,又保持算法可解释性的新型计算模型。
二、 研究流程与方法
本研究采用了一种结合大规模行为数据采集、系统性模型比较与混合神经-认知建模的方法论。整体工作流程可分为以下几个关键步骤:
1. 大规模人类行为数据采集: 研究团队通过在线平台(Prolific)招募了880名参与者(最终符合纳入标准的为862名),收集了一个超大规模的行为数据集。参与者完成了一项经典的“四臂非稳态老虎机”任务。在该任务中,屏幕上呈现四个选项,参与者每 trial 选择其一,并获得一个由高斯随机游走生成的、随时间漂移的、带有噪声的奖赏点数(1-100点)。每个任务区块包含150个 trials,每位参与者完成了多个区块,最终数据集包含4,134个有效任务区块,总计617,871个有效 trials。这种程序化生成不同奖赏时间表的方法,确保了数据集的丰富性和变异性,为训练复杂的神经网络模型提供了必要的数据基础。行为分析表明,参与者总体上成功地学习了任务,其获得的奖赏显著高于随机水平。
2. 模型架构设计与比较策略: 研究采用了从“极度约束”到“极度灵活”的模型谱系进行比较,并创新性地引入了“混合神经-认知模型”作为中间桥梁。 * 基准模型: * 最佳RL模型: 通过对众多RL模型变体(包括基础Q学习、遗忘机制、坚持/切换机制、可变学习率等)进行系统比较和拟合,确定了一个具有6个自由参数的最佳传统RL模型。该模型包含一个基于线性Delta规则更新Q值的“奖赏模块”和一个基于上一动作进行坚持/切换的“动作模块”,两者输出相加后通过Softmax函数选择动作。 * 通用RNN模型: 作为一个高度灵活的表达性上限,研究使用了一个标准的循环神经网络。RNN可以学习使用高维内部状态来表征过去,能够捕捉复杂的时间依赖关系和学习机制。 * 混合模型(核心创新): 研究团队设计了一系列模型,逐步放宽最佳RL模型的约束,并用人工神经网络替代其硬编码的计算组件,从而在可解释性和表达性之间架起桥梁。 * RL-ANN模型: 保持与最佳RL完全相同的认知架构(分离的奖赏和动作模块),但将两个模块中的线性更新方程替换为灵活的多层感知机。这使得模型可以学习任何形式的更新规则,从而测试是否存在某种非线性更新函数能显著改善拟合。 * Context-ANN模型: 在RL-ANN的基础上,为每个模块增加了“上下文”输入。奖赏模块除了接收所选动作的奖赏和值,还能接收所有动作上一 trial 的Q值向量;动作模块除了接收上一动作,还能接收所有动作上一 trial 的坚持值向量。这使得模型可以根据所有可用选项的上下文信息来调整学习规则。 * Memory-ANN模型(最终获胜模型): 在Context-ANN的基础上进行了关键改进。它用每个模块前一时刻的隐藏层状态(s®_t 和 s(a)_t)替代了作为上下文输入的Q值或坚持值向量。这实质上将模型变成了两个独立的RNN(一个处理奖赏,一个处理动作),明确地将“深度”记忆变量(隐藏状态)与“浅层”选择变量(Q值、坚持值)分离开来。记忆变量可以编码丰富的过去历史,并调制选择变量的计算,但本身不直接驱动选择。
3. 模型训练与评估: 所有模型都采用“系统识别”或“行为克隆”的目标进行训练,即学习模仿人类的选择行为,而非最大化任务奖赏。数据集被严格划分为训练集(80%参与者)、验证集(10%)和测试集(10%)。模型在训练集上通过最小化交叉熵损失(负对数似然)来优化参数,在验证集上选择最佳超参数(如隐藏单元数),最终在未见过的测试集参与者上评估预测性能(以正确预测选择的比例衡量)。这种交叉验证确保了模型比较的公平性,并防止了过拟合。
4. 模型分析与解释: 对于拟合的模型,尤其是Memory-ANN,研究进行了深入的分析以理解其内部工作机制: * 函数探测: 通过向训练好的网络模块输入一系列探针值,观察其输出,从而可视化学习到的更新规则(如奖赏到Q值的映射函数)。 * 状态分析: 对记忆模块的隐藏状态进行主成分分析,探究各主成分如何编码过去的历史信息(例如,通过回归分析查看各主成分对过去不同时间点奖赏的敏感性)。 * 行为验证: 使用训练好的模型在人类经历的相同任务时间表上“开环”生成合成行为数据,然后计算一系列行为指标(如对递增奖赏的偏好、动作序列的重复与循环模式、序列可压缩性、历史回归权重等),并与真实人类行为进行定性比较,检验模型能否复现那些经典RL模型无法捕捉的复杂行为模式。
三、 主要研究结果
经典RL模型的不足: 在测试集上,最佳RL模型仅能正确预测60.6%的人类选择,而高度灵活的通用RNN模型(Vanilla RNN)的预测准确率达到68.3%,两者存在显著差距。这表明经典RL模型未能捕捉到人类行为中相当一部分系统性的方差。
混合模型的渐进式改进:
Memory-ANN工作机制的解读:
定性行为模式的复现: Memory-ANN是唯一能够复现人类一系列复杂行为模式的模型,这些模式是经典RL模型所无法解释的,包括:a) 对近期奖赏呈递增趋势的选项的偏好(而非仅基于历史平均值);b) 更长的连续相同动作序列(“多次重复”)和系统性的探索循环(“循环响应”);c) 更高的动作序列可压缩性,表明选择之间存在更多结构化关系;d) 非单调的、浅层的历史依赖模式。这些结果表明,人类在看似简单的任务中使用了结构化的、依赖于丰富记忆的算法。
四、 研究结论与意义
本研究得出结论:基于Q学习、仅依赖增量更新决策变量的经典强化学习模型家族,不足以充分解释人类在奖赏引导学习中的行为。取而代之的是一个名为Memory-ANN的混合模型,该模型包含直接驱动选择的决策变量和一套独立的、潜在的记忆变量。这些记忆变量在多个时间尺度上追踪奖赏和选择的复杂历史,并调制(而非直接参与)决策变量的更新。该模型在定量上达到了与通用神经网络相媲美的预测精度,同时在算法层面上保持了高度的可解释性。
科学价值: 1. 理论革新: 研究挑战了认知神经科学中关于奖赏学习记忆基础的长期假设,提出了一个更符合人类复杂性的计算架构,将记忆从单一的价值总结扩展为多时间尺度、多维度的历史表征系统。 2. 方法创新: 研究展示了一种强大的“混合神经-认知建模”方法。该方法通过将假设驱动的架构搜索(基于经典认知模型)与数据驱动的函数逼近(基于人工神经网络)相结合,能够系统性地比较和发现最具解释力和预测力的模型。这为解决科学中的“理论发现”难题提供了新范式。 3. 整合与统一: Memory-ANN成功地将多个先前分散报告的行为现象(如对递增奖赏的偏好、多试次行为模式、多时间尺度学习等)统一在一个单一、连贯的计算框架内,避免了为每个新现象创建特设模型的窘境。
应用价值: 该方法论可广泛应用于认知科学及其他领域,用于在复杂数据集中发现兼具高预测精度和可解释性的模型。对于理解人类决策、设计更人性化的人工智能、以及诊断与学习记忆相关的精神障碍(如成瘾、强迫症)具有潜在意义。
五、 研究亮点
六、 其他有价值的方面
研究也指出了当前工作的局限性,例如主要关注群体水平的平均机制,对个体差异的建模较为有限。作者建议未来可以通过RNN框架对个体差异进行显式建模,以进一步区分模型捕获的是个体间差异还是个体内学习动态。此外,研究的所有分析代码和模型均有望促进该领域的可重复性研究和进一步探索。