本文献发表于*Trends in Neurosciences*期刊2024年12月第47卷第12期,是一篇由Nir Moneta、Shany Grossman与Nicolas W. Schuck共同撰写并署名为*的开放获取综述文章。作者来自德国汉堡大学心理学研究所、柏林夏里特医学院爱因斯坦神经科学中心以及马克斯·普朗克UCL计算精神病学与老龄化研究中心。文章的主题是对眶额皮层和腹内侧前额叶皮层在决策中功能角色的重新审视与整合,特别是它们如何超越简单的“价值”信号,形成一个整合任务状态、价值及其他变量的复杂表征空间。这篇综述旨在弥合神经科学中关于OFC/vmPFC功能的价值中心论与任务状态/认知地图论之间的分歧,并借助深度强化学习模型的计算视角来统一理解这些复杂表征的涌现。
主要观点一:OFC/vmPFC编码的是一个多变量的复杂表征空间,而非单一的价值通货。 文章首先挑战了将OFC/vmPFC视为“价值通货”或通用价值标尺的传统观点。早期研究,如Padoa-Schioppa和Assad在猴子中的单神经元记录,发现OFC神经元编码选项的主观经济价值,且似乎独立于感觉特征或运动输出,这支持了价值通货假说。然而,大量后续证据表明,该脑区的活动具有高度的情境依赖性。例如,价值信号会根据当前情境中的选项范围进行归一化处理,猴子OFC神经元和人类fMRI中的vmPFC信号都表现出这种范围适应性。更重要的是,价值并非孤立存在,它与任务情境(context)紧密交织。作者重点引用了Moneta等人2023年的一项fMRI研究作为关键证据。在该研究中,参与者学习颜色和运动方向的价值,并在不同任务情境(有时根据颜色决策,有时根据方向决策)下进行选择。结果发现,在vmPFC中,不仅能够解码出与决策相关的“预期价值”,还能从同一批对价值有反应的体素中解码出当前的任务情境(是颜色任务还是方向任务)。这两类信号的强度在个体内部呈正相关,并且它们之间的关联强度预测了行为表现:当情境信号与价值信号的关联较弱时,无关情境对决策行为的干扰(反应时上的不一致效应)就更强。这证明vmPFC并非仅传递一个抽象价值,而是同时、整合地表征了价值与决定该价值意义的任务状态。
主要观点二:任务状态(Task State)是理解OFC/vmPFC功能的核心概念,它与强化学习框架下的认知地图密切相关。 文章提出,要理解上述情境效应,需要引入来自强化学习的“任务状态”概念。任务状态是预测未来结果所需的所有可观测和不可观测信息的集合。它构成了一个认知地图,指明了环境状态之间的转换关系。从这个视角看,OFC/vmPFC的作用是整合刺激、背景和结果信息,以推断出当前潜在的(可能是部分可观测的)任务状态,从而检索出情境敏感的正确价值。多项研究支持这一观点。例如,Schuck等人2016年的fMRI研究表明,人类内侧OFC能够表征部分可观测的任务状态。在啮齿类动物中,OFC损伤会影响与潜在状态相关的多巴胺奖励预测误差信号。此外,OFC还参与对任务结构、规则甚至无奖励情况下的刺激-刺激关联(类似于潜在学习)的表征,这表明它可能作为一个更广义的、指导决策的认知地图。因此,OFC/vmPFC的功能可以被重新定义为:形成一个动态的表征空间,在此空间中,选择选项可以根据目标、历史等信息,被灵活地映射到不同的预期价值上。状态表征支持有效的泛化和在复杂时间结构环境中的规划。
主要观点三:OFC/vmPFC中的复杂表征通过混合选择性(Mixed Selectivity)的神经元群体编码实现,这与深度强化学习模型晚期层的表征特性相似。 神经生理学证据显示,OFC/vmPFC的单个神经元通常表现出混合选择性,即同时对多种变量(如价值、概率、刺激特征、空间位置、任务状态)或其非线性组合进行编码。例如,有研究显示猴子OFC神经元混合编码果汁奖励的概率和风味。虽然信息在单神经元水平是混合的,但在群体活动水平,不同变量(如价值和风味)可能位于近乎正交的神经子空间中,这使得下游神经元可以相对独立地读取这些信息。这种高维、混合的表征形式,与为优化奖励而训练的深度强化学习模型中,晚期隐藏层的活动特性惊人地相似。文章指出,深度RL模型(如深度Q网络)通过训练,能够从高维感官输入中自动提取出对任务解决有用的抽象表征。对这些模型晚期层活动的分析表明,它们不仅编码与奖励直接相关的价值,也形成了对任务状态、抽象特征(如游戏中的球拍位置)乃至人类定义的概念(如国际象棋中的“将军”)的表征。这些表征同样具有混合选择性,并且是在最大化奖励的单一目标函数驱动下自发涌现的。这提供了一个计算框架来理解大脑:一个纯粹以价值最大化为目标的系统,其内部表征会自然而然地演变为一个融合了价值与预测性状态信息的复杂空间,而不是一个单一维度的价值线。深度RL模型因此可以作为研究OFC/vmPFC功能的有用抽象模型,它展示了价值最大化计算如何必然引向丰富的状态表征。
主要观点四:OFC/vmPFC的功能需要与长时记忆系统和更灵活的学习机制互动,以支持跨任务的适应性行为。 文章进一步指出,标准的深度RL模型和大多数实验室任务关注的是“从零开始”的孤立学习,而生物智能的关键在于能够灵活运用已有知识进行快速适应和跨任务学习。这就要求OFC/vmPFC具备与长时记忆系统交互、以及进行元学习和基于模型规划的能力。首先,海马体与OFC/vmPFC之间存在密切的相互作用。海马体在长时记忆和情境记忆中的作用至关重要。研究表明,海马体的离线回放与OFC中的状态表征相关联,这可能是一种利用任务模型(离线)更新OFC价值或状态表征的机制。这种交互对于在新情境中进行推断和快速泛化至关重要。其次,文章提到了“元强化学习”的进展,即通过慢速的权重变化使循环网络具备快速的活动动态学习能力,这能模拟加速学习多个相关任务的过程。近期证据表明,OFC内的可塑性对于这种元学习过程是必需的。最后,基于模型的RL通过分别学习状态转移模型和价值函数,可以实现更灵活的在线规划。虽然许多深度RL模型是免模型的,但大脑可能通过海马体等区域存储转移知识,并通过回放等机制影响OFC。因此,一个完整的OFC/vmPFC功能图景必须包含其对已确立价值知识的“重新实例化”能力(例如,在看到食物时自动激活其价值,无需重新学习),以及通过与海马体等系统的协作,实现基于过去经验的推理和面向未来任务的规划。
主要观点五:对OFC/vmPFC功能的未来研究应超越线性的价值信号,关注其多维表征、学习动态及与记忆系统的交互。 在结论与未来展望部分,文章总结了核心论点,并提出了若干重要的未决问题。作者主张,应该将OFC/vmPFC视为一个整合价值与任务状态、服务于复杂环境中决策的集成中心。其表征的丰富性体现在单个神经元的混合选择性,以及群体水平上可分离的多维编码。深度RL模型为此提供了一个有益的计算类比,但两者间的直接定量对应关系仍有待建立。文章强调,未来研究需要关注以下几个方向:1. 表征特性:需要更精确地探究OFC/vmPFC中非价值信号和任务无关信息的编码机制及其功能意义,这可能与神经网络的权重初始化、激活函数等计算特性有关。2. 学习动态:OFC/vmPFC在决策中的作用是否在学习的不同阶段(如早期探索 vs. 后期熟练)有所变化?其表征学习在试次内和跨任务间的动态过程需要被细致刻画。3. 价值概念的拓展:或许应该将价值重新概念化为一种追踪与当前任务目标“距离”的多维信号,这有助于整合目标、信心甚至非价值驱动的决策过程。4. 系统交互:海马体与OFC/vmPFC在离线回放和在线任务期间如何具体交互以指导决策,是理解灵活性和跨任务学习的关键。5. 计算模型验证:需要更深入的研究来检验深度RL模型的哪些特定架构、层和训练动态最能匹配OFC/vmPFC的观测数据。
论文的意义与价值 这篇综述具有重要的理论整合与方向指引价值。它成功地将神经科学中关于前额叶决策功能的两大主流理论线索——价值编码理论与认知地图/状态表征理论——在一个统一的框架下进行了梳理和融合。通过系统回顾来自人类、非人灵长类和啮齿类的多层面证据,并引入前沿的深度强化学习计算模型作为解释性框架,文章有力地论证了OFC/vmPFC的核心功能远非提供简单的价值读数,而是构建一个用于结果预测的、融合了可观测与不可观测信息的复杂内部模型。这不仅澄清了领域内长期存在的争论,也为未来的实验设计和理论建模提供了清晰的路线图。文章倡导从“价值通货”向“多维表征空间”的范式转变,鼓励研究者采用更复杂的分析工具(如多变量解码、神经动力学分析)和计算模型(如循环网络、元学习架构)来揭示这些脑区支持高级认知的深层原理。对于计算神经科学、认知神经科学以及人工智能领域的研究者而言,这篇综述都提供了深刻的见解和丰富的启发。