经济决策的神经回路框架：从价值构建模块到多任务处理中的组合性

分享自：
经济决策的神经回路框架：从价值构建模块到多任务处理中的组合性

信息科学
神经科学与心理学
期刊:NeuronDOI:10.1016/j.neuron.2025.12.010
【点击此处】阅读全文、收藏及针对性提问
这项研究由纽约大学的Aldo Battista、圣路易斯华盛顿大学的Camillo Padoa-Schioppa以及纽约大学的Xiao-Jing Wang共同完成，于2026年3月4日发表在*Neuron*期刊上。
研究的学术背景 该研究属于计算与系统神经科学交叉领域，旨在揭示大脑进行经济决策的神经环路机制。经济决策，即基于主观偏好对不同选项进行估值并做出选择，是人类与动物行为的基石。过去二十年的神经科学研究，特别是对非人灵长类动物眶额皮层（Orbitofrontal Cortex， OFC）的单神经元记录，已经识别出几类关键神经元：对单个选项价值进行编码的“选项价值”（offer value）神经元、对最终被选选项价值进行编码的“被选价值”（chosen value）神经元，以及指示所选选项身份的“选择”（choice）神经元。这些发现表明大脑通过一个共同的“主观价值”标尺来简化多维度的复杂决策。
然而，从神经元集群活动到具体行为之间的因果机制仍不清晰。几个核心的“如何实现”（How）问题悬而未决：1）神经环路如何利用本质上为加法的突触输入，实现计算期望价值所必需的非线性乘法运算（如数量与概率相乘）？2）定义经济无差异点的学习到的相对主观偏好，其物理基础（存储位置）在哪里？3）这些价值表征如何被组织，使得单个神经环路能够灵活应对多种不同的决策任务（即多任务处理）？以往的计算模型要么假设过于严格（如神经元角色严格分离），与实验观察不符；要么过于抽象（如使用缺乏明确生物对应物的门控循环单元GRU），难以提供具体的、可检验的环路机制假说。
因此，本研究的目标是建立一个生物学上合理的计算模型，以提供一个统一且机制明确的框架，来解释经济决策中从价值计算、比较到泛化和多任务处理的全过程。
详细的研究流程 本研究主要采用计算建模方法，核心是训练一个生物合理的循环神经网络（Recurrent Neural Network， RNN）来完成一系列经济决策任务，并通过分析网络的内在结构、动态和性能来逆向推导其实现的神经计算原理。
第一项流程：模型构建与任务设计。 研究人员构建了一个“朴素”的连续时间RNN，包含256个神经元，其中80%为兴奋性，20%为抑制性，严格遵守戴尔定律（Dale‘s Law），即神经元的所有输出突触均为同一类型（兴奋或抑制）。这赋予了模型基本的生物可信度。网络接收多种输入：注视信号、各个选项的“商品”类型、数量、概率以及指示当前任务的规则线索。网络产生两个输出：一个用于动作选择的“策略”（actor）和一个用于预测未来期望回报的“价值函数”（critic）。研究者设计了五个复杂程度不同的经济决策任务：1）标准任务：在两个不同商品间基于数量进行选择；2）风险任务：与标准任务类似，但每个选项的回报是概率性的；3）捆绑任务：在包含两种商品的组合包之间选择；4）三元任务：在三种商品间选择；5）顺序任务：两个选项先后呈现，需要工作记忆来维持第一个选项的价值以便与第二个比较。
第二项流程：网络训练。 研究者没有使用监督学习，而是采用了近端策略优化（Proximal Policy Optimization， PPO）强化学习算法来训练网络。这种方法模拟了动物通过试错和奖励反馈进行学习的过程，更具生物合理性。他们训练了20个独立初始化的网络，使其同时学习所有五个任务，以确保观察到的机制具有鲁棒性而非偶然。网络训练的目标是达到高行为性能：在测试集中，超过99%的试次能保持注视而不中断，并在其中超过90%的试次中能选择价值更高的选项。
第三项流程：行为与神经数据分析。 在训练完成后，研究者对网络进行了多层次、多维度的分析，这是研究的核心。分析流程包括： * 行为策略分析：使用逻辑回归分析网络的选择数据，推断其内在的相对价值、风险态度等参数，并与训练时设定的真实值比较，以验证网络是否学会了基于价值的决策策略。 * 单神经元特性分析：仿照神经生理学实验，计算每个神经元的活动与关键决策变量（如各选项价值、被选价值、选择身份等）的线性相关性。分析其编码比例、时间动态、编码稳定性（TSI）以及编码特异性（是范畴性编码还是混合编码）。 * 群体动力学分析：利用主成分分析（PCA）等方法，将高维的神经网络活动投影到低维状态空间，观察决策过程中群体状态的几何演化。计算表征维度（参与度比率， Participation Ratio）以量化信息组织的效率。 * 环路机制剖析：这是揭示“如何实现”的关键步骤。 * 价值计算机制：通过“损伤”实验（将循环权重置零），分离前馈通路与循环回路的功能。分析损伤后网络的前馈活动如何编码价值信息，并检验其是否实现了数量与概率的近似乘法运算。通过分析输入权重与行为推断价值的相关性，探究主观偏好存储在何处。 * 价值比较机制：分析完整的循环网络连接矩阵。研究者开发了一个“多对一”的功能抽象流程，将神经元根据其功能选择性（如“选项C价值”、“选择E”等）分类为不同的功能池，然后计算池间的平均连接强度，从而得到一个简化的、可解释的环路图。他们还进行了针对性的功能“消融”实验，沉默特定功能类型的神经元群，观察对决策准确性的影响。 * 多任务与组合性分析：分析网络在处理不同任务时，其神经活动子空间的重叠程度（通过主角度分析），以判断是否存在共享的神经资源。通过聚类方法，识别对特定任务方差贡献大的“专门化”神经元模块。进行“零样本泛化”测试：训练只做单一任务的网络，然后直接测试其在其他任务上的表现，以检验技能的模块化和可组合性。设计课程学习实验，研究已有技能（模式，schema）是否加速新任务的学习。 * 泛化能力测试：为了直接验证价值计算是否为乘法运算，研究者用一组特殊的“正交”刺激集训练网络（数量与概率不同时变化），然后测试网络能否将学到的规则泛化到全新的、从未见过的数量-概率组合上。
主要研究结果 1. 网络学会了稳健的基于价值的决策策略。 逻辑回归分析表明，所有20个网络都收敛到了相同的价值比较策略。行为推断出的商品相对价值与训练时设定的真实值高度吻合。网络还表现出个体化的风险态度和顺序偏好，这与生物个体的变异性相似。决策一致性随任务复杂度增加而下降，模拟了动物实验中的观察。
2. 单神经元层面再现了OFC的关键编码特性。 网络中涌现出了功能上与灵长类OFC神经元高度相似的细胞类型：选项价值神经元、被选价值神经元和选择神经元。这些神经元的编码具有动态序列：在选项呈现期，编码选项价值的神经元比例先达到峰值，随后是被选价值神经元，最后是选择神经元。兴奋性和抑制性神经元都表现出选择性和正负调谐，其中抑制性神经元选择性比例更高。存在一部分高度“专家化”的神经元进行范畴性编码，而大部分任务调制神经元表现出混合选择性。
3. 群体活动揭示了低维、高效的几何解决方案。 神经群体活动的维度很低（二元选择任务约2维，三元任务约3维）。在状态空间中，不同选择的神经活动轨迹形成分离的簇，而簇内的位置则由被选价值梯度化组织。这种“按选择分离、按价值梯度化”的几何结构在所有网络和任务中普遍存在，PC1轴编码被选价值，PC2轴编码选择身份，显示了一种鲁棒的、收敛的计算解决方案。
4. 价值计算主要通过前馈通路实现，并支持泛化。 * 近似乘法与偏好存储：损伤循环连接后，网络失去决策能力，但其前馈通路的活动显示，对选项价值的解释力显著优于简单的数量与概率相加模型，表明网络学会了近似乘法运算。输入权重分析显示，从商品数量输入到网络的连接强度，与从行为数据中推断出的该商品相对价值呈强线性相关。这证明学习到的主观偏好物理上存储于输入突触的效能中。 * 优化表征：前馈通路的活动在低维空间中并非直接表征单个选项价值，而是旋转到“价值和”与“价值差”的轴上。通过构建简化模型，研究者证明这源于网络学习到了一种特定的输入连接模式：同时存在专门处理单一选项的神经元和接收双侧输入的混合选择性神经元。 * 泛化能力：在正交训练集上训练的网络，能够成功泛化到全新的刺激组合上，其行为参数保持稳定，低维几何结构也得以保持。这为“网络学会了乘法运算规则”提供了最强有力的证据。
5. 价值比较由循环回路中的特定抑制性竞争（CRI）机制实现。 * 胜者全取动态：策略（actor）输出在反应期之前就表现出早期承诺，即对应最终选择的输出单元活动逐渐超越其他选项。 * 竞争性循环抑制（Competitive Recurrent Inhibition， CRI）机制：对平均功能连接矩阵的分析揭示了一个核心环路机制：选择特异性的兴奋性神经元驱动同选择的抑制性神经元，后者则特异性地强烈抑制代表竞争选择的兴奋性神经元。例如，“选择C”的抑制性神经元会强力抑制“选择E”的兴奋性神经元。这种交叉抑制直接实现了胜者全取（Winner-Take-All， WTA）竞争。 * 负调谐神经元的功能重要性：CRI机制也解释了负调谐神经元的产生（抑制性输入可翻转反应模式）。功能消融实验证明，沉默这些负调谐神经元会显著损害所有任务的决策准确性，表明它们对于增强选项间对比度、实现稳健比较至关重要。
6. 多任务处理通过组合性神经表征实现。 * 共享与专用模块：对规则线索期的活动进行子空间分析发现，标准、风险、捆绑和三元任务共享高度重叠的神经表征子空间，而顺序任务则占据一个近乎正交的独特子空间，反映了其独特的工作记忆需求。 * 模块化组织：通过聚类神经元的任务方差，识别出三类模块：一个在所有任务中都活跃的“共享”模块、一个专门为三元任务服务的模块，以及一个几乎专用于顺序任务的模块。针对性损伤这些模块分别导致了全局性、特定于三元任务或特定于顺序任务的性能缺陷。 * 技能的模块化与加速学习：“零样本泛化”测试显示，从复杂任务（如三元任务）训练出的网络，可以无缝执行简单任务（如标准任务），反之则不行，证明了技能的可组合性。课程学习实验表明，预先在简单任务（标准、风险）上训练，能显著加速后续复杂任务（三元、捆绑、顺序）的学习，表明可重用的计算“模式”已经形成。
研究结论与价值 本研究提出了一个关于经济决策的神经环路框架。其核心结论是：经济决策通过一个两阶段架构实现。第一阶段，价值计算主要发生在前馈输入层，输入突触的权重存储了主观偏好，并通过非线性激活函数近似实现了奖励特征的乘法整合，这一定位支持对新颖选项的泛化。第二阶段，价值比较在循环神经网络内部完成，通过一个结构化的“竞争性循环抑制”环路机制实现胜者全取动态，其中兴奋性和抑制性神经元共同参与并形成异质性的调谐以增强决策稳健性。此外，该架构通过组合性原理支持多任务处理，即共享一个核心计算核心，同时灵活调用专门化的神经模块来应对特定任务需求。
这项研究的科学价值在于，它超越了描述相关性的层面，为经济决策的经典神经生理学发现（如OFC神经元编码）提供了具体的、机制性的、可检验的电路级解释。它将价值计算、比较、泛化和多任务等看似独立的功能，统一到一个自洽的计算框架中。模型所提出的具体机制（如CRI环路、偏好存储在输入权重中、组合性表征）为未来的实验研究（例如，使用光遗传学特异性操纵特定类型的抑制性神经元）提供了清晰的预测和方向。在应用层面，这种受生物学启发的神经网络架构和训练方法，为构建更灵活、更高效的类脑决策人工智能模型提供了新思路。同时，该模型为研究决策偏差（如风险偏好）的神经基础以及相关神经精神疾病（如成瘾、冲动控制障碍）提供了可操控的计算平台。
研究亮点 1. 机制性突破：首次在生物合理约束的模型中，具体阐明了经济决策中乘法计算和主观偏好存储的物理实现机制，以及价值比较的详细环路机制（CRI）。 2. 统一性框架：成功地将价值计算的泛化能力与多任务处理的组合性纳入同一模型，提供了一个从基础构件到复杂功能的统一理论。 3. 高度的生物一致性：模型不仅再现了OFC单神经元的关键编码特性（类别、动态、混合选择性），还再现了群体低维动力学和生物个体行为变异性，增强了其解释力。 4. 方法论创新：结合强化学习训练生物约束RNN，并通过系统的“损伤-分析”流程（功能消融、连接简化、泛化测试等）逆向工程其计算原理，为计算神经科学提供了成熟的研究范式。 5. 强大的预测能力：模型产生了大量关于神经元调谐、环路连接、模块化组织以及行为后果的可检验预测，能直接指导未来的实验设计。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问