本研究发表于2024年6月的 nature neuroscience 期刊(第27卷,第1199-1210页),题为“dimensionality reduction beyond neural subspaces with slice tensor component analysis”。主要作者包括 Arthur Pellegrino (法国高等师范学院认知科学系、认知与计算神经科学实验室;英国爱丁堡大学信息学院自适应与神经计算研究所)、Heike Stein (法国高等师范学院) 以及 N. Alex Cayco-Gajic (法国高等师范学院)。其中,Arthur Pellegrino 和 Heike Stein 为共同第一作者。
学术背景与研究目的 该研究属于计算神经科学和神经数据分析领域。传统上,神经科学家常常使用主成分分析(Principal Component Analysis, PCA)等降维方法来分析大规模神经元群体记录数据,这些方法基于神经元之间的协变模式,认为神经活动被限制在一个固定的、低维的“神经子空间”内。然而,这种经典观点可能忽略了神经数据中存在的其他重要结构,例如高度刻板的神经序列(neural sequences)或随时间/试次缓慢演化的潜在空间。研究者认为,神经数据中与任务相关的变异性不仅体现在神经元之间,还可能同时跨越试次(trials)或时间(time)发生协同波动,从而定义了不同的“协变性类别”(covariability classes),这些类别可能共存于同一个数据集中。为了从混合的神经数据中分离这些不同的协变性类别,研究者开发了一种新的无监督降维方法——切片张量成分分析(slice tensor component analysis, sliceTCA)。
本研究的主要目的是:1) 提出一个扩展的理论框架,将经典的固定低维神经子空间观点推广到包含更高维结构的多个协变性类别;2) 开发 sliceTCA 这一新方法,以解混神经数据张量中不同的协变性类别;3) 通过在多个真实神经数据集上的应用,展示 sliceTCA 相较于传统方法(如 PCA、张量成分分析 TCA)能够以更少的成分捕获更多任务相关的结构;4) 提供一个标准化的分析流程(包括模型选择、优化和可视化),并开发易于应用的 Python 库。
详细研究流程 本研究并非一项涉及样本采集和湿实验的原始神经科学研究,而是一项专注于开发新数据分析方法并应用于现有公开数据集的计算方法学研究。其工作流程主要包括理论框架构建、算法开发、模拟数据验证、在多个真实神经数据集上的应用验证,以及几何解释的提供。
1. 理论框架与算法开发 研究者首先正式定义了三种协变性类别:(a) 神经协变性:跨神经元的固定激活模式,其时间进程在试次间自由变化(对应传统 PCA 所捕获的类型);(b) 试次协变性:具有神经元特异性时间进程的刻板模式,其整体幅度在试次间协同变化(可捕获神经序列);© 时间协变性:具有刻板时间轮廓的模式,但其神经编码权重在试次间变化(可捕获由学习、适应或表征漂移引起的变化)。
基于此,研究者提出了 sliceTCA 方法。神经活动数据通常被排列成神经元 (N) × 时间 (T) × 试次 (K) 的三阶张量。SliceTCA 的核心思想是使用“切片秩”(slice rank)来近似这个数据张量。一个切片秩-1 的张量被定义为一个向量(“载荷向量”)和一个矩阵(“切片”)的外积。根据对张量进行“切片”的方式不同,可以对应三种协变性类别:神经元切片成分(载荷向量为神经元权重,切片为时间×试次矩阵)、时间切片成分(载荷向量为时间权重,切片为神经元×试次矩阵)和试次切片成分(载荷向量为试次权重,切片为神经元×时间矩阵)。SliceTCA 模型同时拟合这三种类型的成分,其总成分数由三元组 (R_neuron, R_trial, R_time) 决定。相比之下,PCA(在特定展开矩阵上)只捕获单一类别,而 TCA(或称 CP 分解)则要求每个成分同时是三种载荷向量的外积,即位于三个类别的交集,约束更强、灵活性更低。
研究者为 sliceTCA 开发了完整的分析流程,包括:数据预处理(如时间扭曲、修剪以形成张量)、基于交叉验证的模型选择(确定各切片类型的最佳成分数量)、分层模型优化(以解决算法固有的两种不变性类,从而得到唯一解),以及可视化和进一步分析的方案。所有这些功能均已实现为一个 Python 库。
2. 模拟数据验证 为了直观展示混合协变性的概念以及 sliceTCA 的解混能力,研究者构建了两个玩具模型。 * 前馈感知学习模型:模拟感觉皮层在 Go/No-Go 任务中的活动。模型包含两个输入源:一是随试次发生可塑性变化的刺激锁定感觉输入(产生时间协变性),二是具有静态神经权重但强度在试次间波动的自上而下调制输入(产生神经协变性)。结果显示,PCA 和 TCA 需要更多成分来近似混合活动,而 sliceTCA 能完美分解出两个真实的成分。 * 循环神经网络模型:用于生成高维的条件特异性神经序列,同时整合低维的条件无关输入。该模型旨在展示试次协变性(捕获序列)和神经协变性(捕获输入)的混合。SliceTCA 成功地将活动分解为对应序列的少数试次切片成分和对应输入的少数神经切片成分。研究还系统检验了 sliceTCA 对不同来源(观测噪声、输入噪声、内在动力学噪声)和水平的噪声的鲁棒性。
3. 在真实神经数据集上的应用 研究者在三个公开的大规模神经数据集上验证了 sliceTCA 的有效性和优势。 * 数据集1:灵长类运动皮层(M1/PMd)在伸手任务中的记录:目标是解码手部运动速度。研究发现,传统的在试次拼接矩阵(神经元展开)上使用非负矩阵分解(NMF)的方法(即只考虑神经协变性)会降低解码性能,而在试次展开矩阵上使用 NMF(即只考虑试次协变性)则能显著改善单试次解码,表明该数据集中的行为相关信息主要由试次协变性(神经序列)编码。进一步,sliceTCA 被用于拟合混合模型(12个试次切片成分 + 1个时间切片成分)。结果显示,试次切片成分编码了直接控制运动学的序列,而那个单独的时间切片成分则表现出在运动开始前约100毫秒达到峰值的活动轮廓,其神经权重编码了即将到来的运动的方向和曲率,表明它可能包含了运动准备信号。这一发现说明,行为相关信息分布在不同的切片类型中,需要通过 sliceTCA 解混才能全面揭示。 * 数据集2:小鼠运动任务中皮层与小脑的同时成像数据:应用完整的 sliceTCA 分析流程,模型选择了3个试次切片成分和3个神经切片成分。试次切片成分捕获了任务特异性变量(如左右转向、正确/错误试次),而神经切片成分则揭示了区域特异性模式(如小脑与皮层活动的差异)。与在单一展开矩阵上应用 PCA 或因子分析相比,sliceTCA 因解混了协变性类别,其成分的切片显示出更高维的结构(例如单个神经元或试次的时序信息更清晰)。通过 sliceTCA 去噪后的神经表征,其任务相关的神经流形(neural manifold)更清晰,行为不同试次间的轨迹分离度更高。 * 数据集3:国际脑实验室(IBL)的多区域神经像素记录:数据来自小鼠执行知觉决策任务时的六个脑区。SliceTCA 模型选择了包含2个试次切片、3个神经切片和3个时间切片成分的混合模型。不同切片类型特异性地关联于不同脑区和行为变量:试次切片成分主要关联于中脑和丘脑,其载荷与行为表现(正确/错误)和反应时相关;神经切片成分分别特异性地对应海马、齿状回和视觉皮层群体,并编码了对比度依赖响应、奖赏后抑制等区域特异性任务特征;时间切片成分则将任务时间划分为三个时期(早期、晚期、奖赏期),其神经权重在试次间缓慢变化,贡献了所有记录区域中最大比例的重建方差。这表明该数据集由时间协变性主导,但如果不使用 sliceTCA 进行解混,这些区域特异性和行为相关信息就会被掩盖。
主要研究结果 1. 理论结果:提出了神经群体活动的“混合协变性”框架,将经典的固定低维子空间观点扩展为涵盖神经、试次和时间三种协变性类别。这三种类别分别对应神经状态空间中潜在轨迹的不同几何约束。 2. 方法学结果:成功开发了 sliceTCA 算法及其标准化分析流程。数学上刻画了其不变性类,并提出了分层优化方案以获得唯一解。Python 库的实现确保了方法的可及性和可重复性。 3. 模拟验证结果:在包含已知真实成分的玩具模型上,sliceTCA 能够准确解混不同协变性类别的成分,且在存在噪声时表现稳健,验证了其核心算法的有效性。 4. 应用验证结果:在三个不同的真实数据集中一致表明: * 任务相关信息分布于不同协变性类别:例如在运动皮层数据中,运动执行由试次协变性编码,而运动准备信息则由时间协变性编码。 * SliceTCA 具有更高的效率和表征能力:与 PCA 或 TCA 相比,sliceTCA 能用更少的成分捕获相同或更多的任务相关结构。 * 对于多区域记录至关重要:不同脑区可能偏好不同的协变性类别(如皮层区域更显神经协变性,某些皮下区域更显试次协变性),sliceTCA 能在一个统一框架内解混这些区域特异性表征。 * 具有去噪和提升可解释性的作用:通过无监督地解混协变性,sliceTCA 能够去除行为无关的变异性,使任务相关的神经流形更加清晰,提高了解码性能和表征的可解释性。
结论与意义 本研究得出核心结论:神经群体活动很可能同时包含多种混合的协变性类别,它们共同编码行为相关信息。仅依赖单一协变性类别(如经典 PCA 视图)或施加过强对称约束(如 TCA)的降维方法,可能会遗漏数据中重要的高维结构。SliceTCA 作为一种新的无监督降维方法,通过解混神经、试次和时间协变性,能够更全面、更高效地揭示神经数据中复杂的行为相关潜在结构。
其科学价值在于:扩展了我们对神经表征的理解,从固定的低维子空间扩展到更丰富、更高维的潜在变量类别;提供了一个新的强大分析工具,适用于分析日益复杂的大规模、多区域、试次结构化的神经记录数据;建立了神经计算与数据结构之间的桥梁,通过几何解释阐明了不同协变性类别对应的潜在轨迹在神经状态空间中的形态,有助于从计算角度理解不同神经动态模式的功能意义。
研究亮点 1. 概念创新:提出了“混合协变性”这一新颖的理论框架,对经典神经降维观点进行了重要补充和扩展。 2. 方法创新:首创了基于切片秩的 sliceTCA 张量分解方法,首次实现了对神经数据中三种协变性类别的同步解混。 3. 系统性验证:不仅进行了模拟验证,还在三个具有代表性的、来自不同物种、脑区和行为任务的真实数据集上进行了全面验证,强有力地支撑了其方法的普适性和优势。 4. 实用性强:提供了包括模型选择、优化到可视化在内的完整、标准化分析流程,并开源了软件库,极大促进了该方法的可应用性和可重复性。 5. 解释深刻:不仅展示了方法“好用”,还通过几何视角深刻解释了不同协变性类别对应的神经表征形态,提升了理论深度。
其他有价值内容 研究者还讨论了 sliceTCA 的局限性及未来方向,例如:数据需要预处理为等长试次张量,这涉及时间扭曲或修剪,隐含了对潜在变量时间结构的假设;对于混合了多种时间结构(如缩放和固定)或缺乏系统试次结构的数据集可能不适用;与 TCA 相比,sliceTCA 表达性更强但每个成分参数更多,二者存在权衡;未来可探索将 sliceTCA 与 TCA 结合,或扩展到更高阶张量(如包含天数、个体等维度)。这些讨论为方法的后续发展和应用提供了清晰的指引。