关于神经群体与网络模型降维尺度特性的研究报告
本研究由来自卡内基梅隆大学、匹兹堡大学、哥伦比亚大学、阿尔伯特·爱因斯坦医学院等多个机构的 Ryan C. Williamson, Benjamin R. Cowley, Ashok Litwin-Kumar, Brent Doiron, Adam Kohn, Matthew A. Smith, Byron M. Yu 等研究人员共同完成,并于2016年12月7日发表在 PLOS Computational Biology 期刊上。
一、 学术背景
本研究属于计算神经科学与系统神经科学的交叉领域。随着多电极记录技术的发展,研究者能够同时记录数十到数百个神经元的群体活动。为了理解这些高维神经活动如何产生大脑功能,降维方法(dimensionality reduction)被广泛应用,以揭示神经群体活动的多维结构。因子分析(Factor Analysis, FA)是其中一种线性降维方法,它能将神经元放电计数的变异性分解为“共享成分”(shared component,即神经元间共同波动的潜在因素)和“独立成分”(independent component,即每个神经元独立的泊松样放电变异性)。从这些分析中,可以提取两个关键指标:共享维度(shared dimensionality, D_shared,衡量共享活动波动模式的复杂性)和共享方差百分比(percent shared variance,衡量共享成分在总放电变异性中的比重)。
然而,当前实验技术通常只能记录数十个神经元和有限数量的试次(trials)。一个核心的未解问题是:基于有限数据得到的降维结果,在多大程度上能够推广到更大的神经元网络?这些结果又如何与潜在的神经网络连接结构相关联?本研究旨在通过结合对非人灵长类动物视觉皮层的在体(in vivo)记录和具有不同连接结构的尖峰网络模型(spiking network models)的分析,来填补这些知识空白。具体目标包括:1)探究共享维度和共享方差百分比如何随记录神经元数量和试次数量的增加而变化(尺度特性);2)比较不同网络结构(聚类与非聚类连接)对这些尺度特性的影响;3)评估当前实验规模(数十个神经元,数百个试次)下识别的群体活动模式是否能够代表更大网络的特征。
二、 研究流程详述
本研究包含三个主要部分:对在体记录数据的分析、对两种平衡尖峰网络模型的分析,以及对两者结果的比较。整体工作流程遵循“数据获取 -> 降维分析 -> 指标计算与尺度测试 -> 模式稳定性评估 -> 模型与实验对比”的逻辑。
1. 研究对象与数据来源: * 在体神经记录: 研究对象为两只麻醉状态下的猕猴的初级视觉皮层(V1)。使用犹他阵列(Utah array)植入V1,记录神经元在呈现均匀灰色屏幕时的自发性活动(spontaneous activity)。经过筛选(信噪比>1.5,平均发放率>1 spike/s),最终从三个阵列分别随机选取了80个单元(包括单单元和多单元)进行分析。将神经活动划分为1秒的时间窗,每个时间窗视为一个“试次”,试次数即记录时长(秒)。这提供了真实的神经群体活动数据,但受限于记录规模(最多约100个神经元,数百至上千试次)。 * 尖峰网络模型: 研究构建了两种基于兴奋-抑制平衡(balance of excitation and inhibition)的递归尖峰网络模型,均包含4000个兴奋性神经元和1000个抑制性神经元。 * 聚类网络(Clustered Network): 将4000个兴奋性神经元分为50个簇(cluster),每簇80个神经元。簇内神经元间的连接概率(0.4854)远高于簇间连接概率(0.1942),同时簇内连接的突触权重也更高。这种结构能产生类似在体记录中观察到的缓慢发放率波动。 * 非聚类网络(Non-clustered Network): 兴奋性神经元之间具有均匀的同质性连接概率(0.2),没有聚类结构。这是经典的平衡网络模型。 两种模型都能模拟皮层神经元观察到的尖峰时间变异性。模拟活动同样被分割成1秒的“试次”。模型的关键优势在于可以无限采样神经元和试次,从而研究超出实验可达范围的尺度特性。
2. 数据处理与分析方法: * 核心方法 - 因子分析(FA): 对每个数据集(在体记录或模型模拟的尖峰计数矩阵),应用FA来分解其协方差矩阵。FA通过期望最大化(EM)算法估计模型参数(均值向量μ、载荷矩阵L、独立方差矩阵Ψ)。共享协方差由LL^T给出,其秩(rank)反映了共享潜在因子的数量。研究采用交叉验证的数据似然度最大化来确定潜在因子的数量(m),但为了获得更稳健的维度估计,将共享维度(D_shared)定义为能够解释95%共享方差的特征向量(模式)数量。共享方差百分比则按神经元计算其共享方差占总方差(共享方差+独立方差)的比例,再对所有神经元取平均。 * 尺度特性分析: * 改变神经元数量: 固定试次数(在体记录用1200试次;模型在扩展分析中用10000试次),从数据集中逐步增加随机选取的神经元数量(如10, 20, 40…),对每个子集进行FA,计算D_shared和共享方差百分比,观察其变化趋势。 * 改变试次数量: 固定神经元数量(在体记录用80个;模型用80个),从数据集中逐步增加使用的试次数,重复FA和指标计算。 * 模式(Modes)分析: 除了整体指标,还分析了共享协方差矩阵的特征向量(即“模式”),这些模式描述了神经元群体活动的特征性协同波动方式。研究特别关注: * 模式结构: 通过热图可视化模式向量,观察其是否反映聚类等网络结构。 * 模式稳定性: 通过计算主角度(principal angles),比较从不同神经元子集(如20、40、60个神经元)识别出的主导模式与从更大集合(如80或500个神经元)识别出的模式之间的相似性。角度越小,模式越稳定。 * 模式贡献度: 分析每个模式解释的共享方差百分比,以及每个模式贡献的共享方差百分比(即该模式在总共享方差中的权重)。 * 聚类网络中的采样策略影响: 在聚类网络中,还特别设计了实验,研究采样神经元的分布(即所代表的簇的数量)如何影响D_shared和共享方差百分比。例如,从单个簇中采样50个神经元,与从50个不同簇中各采1个神经元进行对比。 * 统计与验证: 对在体记录,分析基于三个独立阵列的数据。对网络模型,分析基于从5个不重叠的神经元集和5个不重叠的试次集组合(共25组)重复进行,结果以均值±标准误报告。研究还进行了补充分析,验证了时间窗大小(200ms, 500ms, 1000ms)和试次采样方式(连续、间隔)对主要趋势的影响不大,确保了结果的稳健性。
三、 主要研究结果
1. 在体记录数据的尺度特性与模式稳定性: * 尺度特性: 随着分析中神经元数量或试次数量的增加,共享维度(D_shared)持续增加,而共享方差百分比则保持相对稳定。这表明,在当前实验可及的神经元和试次范围内,增加数据量能够揭示出更多的共享波动模式,但这些新增的模式对总体共享方差的贡献相对较小,群体活动主要由少数主导模式所支配。 * 模式分析: 对80个神经元、1200个试次的分析显示,最主导的模式(解释超过60%的共享方差)其向量元素大多符号相同,意味着许多神经元同步增减其活动,这与之前研究中观察到的“全局波动”一致。此外,还存在其他解释相当一部分共享方差的更复杂模式。更重要的是,当从20个神经元逐步增加到80个神经元时,前几个最主导的模式(通过主角度测量)保持高度稳定,且每个模式贡献的共享方差百分比也基本不变。这证明,即使仅记录数十个神经元,也能可靠地识别出更大网络中存在的、占主导地位的共享活动模式。
2. 网络模型的尺度特性: * 在实验尺度内(≤80神经元,≤1200试次): * 聚类网络: D_shared随神经元和试次增加而增加并趋于饱和;共享方差百分比随神经元增加而增加并饱和在约90%的高水平。这表明聚类网络的共享结构非常显著,且用相对有限的样本就能较好地刻画。 * 非聚类网络: 在此尺度下,D_shared和共享方差百分比始终为零。FA无法检测到任何显著的共享结构,因为其共享方差相对于独立噪声非常微弱。 * 与在体记录对比: 聚类网络展示了与在体记录相似的趋势——D_shared增长而共享方差百分比稳定。尽管未调整模型参数以精确匹配实验数值,但这种趋势的相似性提示在体神经群体的共享活动结构可能更类似于具有聚类特性的网络。 * 在超实验尺度外(最多500神经元,20000试次): * 聚类网络: D_shared在约100个神经元时达到饱和(约20维),共享方差百分比保持在高位稳定。这表明其共享结构维度有限,且容易被采样到。 * 非聚类网络: 当试次足够多(>5000)时,开始能检测到非零的D_shared和共享方差百分比(约20%)。D_shared随神经元数量持续增长,但共享方差百分比保持低位稳定。这意味着非聚类网络存在大量微弱的共享维度,需要海量数据才能揭示,且每个维度解释的方差很小。 * 采样策略的影响(仅聚类网络): D_shared随采样神经元所代表的簇的数量增加而增加,并在覆盖足够多簇时达到饱和值。然而,共享方差百分比即使所有神经元来自同一个簇(极高局部相关性)或来自不同簇(广泛采样),也保持稳定。这表明共享方差百分比更多地反映了网络固有的相关性强度,而D_shared则受采样广度影响。
3. 网络模型的模式分析: * 模式结构: 在聚类网络中,主导模式清晰地反映了其底层结构:同一簇内的神经元在模式向量中具有相似的值(同增同减)。模式按簇的平均发放率排序,发放率高的簇更倾向于出现在主导模式中。在非聚类网络中,模式向量则没有显示出明显的聚类模式。 * 模式稳定性与贡献转移: 在聚类网络中,增加神经元数量时,主导模式保持高度稳定(主角度接近零),且各模式贡献的共享方差百分比变化很小。在非聚类网络中,增加神经元时,先前识别出的主导模式会发生较大变化(主角度较大),并且随着新维度的出现,原有主导模式解释的方差比例显著下降(贡献发生了转移)。这解释了为何在非聚类网络中D_shared增长而共享方差百分比不变:新增的维度分走了原有维度的方差贡献。
四、 研究结论与意义
本研究系统地探究了降维方法(特别是因子分析)应用于神经群体活动时,其输出结果(共享维度和共享方差百分比)如何随数据量(神经元数和试次数)缩放,以及这些结果如何反映底层网络的连接结构。
主要结论如下: 1. 有限采样足以识别主导模式: 对于在体记录和具有聚类结构的网络模型,记录数十个神经元和数百个试次,已足以识别并稳定地估计出神经群体中最主导的共享活动模式。这些模式能够推广到更大规模的网络中。这为在当前实验技术限制下使用降维方法提供了信心。 2. 尺度特性揭示网络结构差异: 聚类网络与非聚类网络在尺度特性上表现出根本性差异。聚类网络表现出高共享方差百分比和较早饱和的有限维度,而非聚类网络表现出低共享方差百分比和随数据量持续增长的维度。这种差异可作为区分不同网络连接结构的“指纹”。 3. 在体活动与聚类网络更一致: 在体V1自发性活动观察到的尺度特性(D_shared增长,共享方差百分比稳定)与聚类网络模型更为一致,提示视觉皮层中可能存在类似的功能聚类或模块化结构,支持了具有聚类连接的平衡网络作为皮层活动模型的有效性。 4. 超越成对统计的多维比较: 本研究展示了如何利用群体水平的降维指标(D_shared, 共享方差百分比, 模式稳定性)来定量比较计算模型与生物神经网络,这比传统的单神经元或成对相关性统计提供了更丰富、更具鉴别力的信息。
科学价值与应用意义: * 指导实验解释: 明确了在有限采样下,降维分析所能揭示和不能揭示的网络特性。帮助研究者理解其基于小规模记录得出的结论的普遍性和局限性。 * 连接活动与结构: 建立了群体活动统计特性(由降维方法揭示)与潜在网络连接结构(如聚类 vs. 非聚类)之间的桥梁,为通过活动推断结构提供了新思路。 * 验证与启发模型: 结果表明简单的均匀连接平衡网络不足以完全解释在体数据的多维度特性,强调了在模型中引入如聚类等结构的重要性。同时,研究也指出了当前模型(无论是聚类还是非聚类)与在体数据之间仍存在差异(例如,在体数据中最主导的全局协同模式在模型中未出现),这为下一代网络模型的开发指明了方向。
五、 研究亮点
六、 其他有价值内容
研究还简要讨论了将分析从自发性活动扩展到诱发活动(evoked activity)的可能性,指出刺激呈现通常会降低共享方差,这可能影响尺度特性。此外,作者展望了未来随着大规模记录技术和跨会话神经元追踪技术的发展,本研究建立的框架可用于分析更大规模的在体数据,并可能直接与逐渐浮现的突触连接图谱相关联,从而更直接地验证活动模式与结构之间的关系。