人类听觉皮层中的时间整合主要依赖于绝对时间
人类听觉皮层时间整合机制:以绝对时间为主导的神经计算方式
近年来,声音结构处理特别是在语音和音乐理解过程中的大脑时间整合机制,引发了神经科学领域的广泛关注。声音信号,如语音中的音素(phoneme)、音节(syllable)和词(word)等结构,具有高度可变的持续时间,且在复杂语音感知和加工过程中,时间整合的窗口(integration window)——即大脑在多长的时间跨度内对声音做整合处理——对于理解神经计算模型尤为关键。本报道系统介绍了一项由 Sam V. Norman-Haignere、Menoua Keshishian 等人团队于 2025 年 11 月发表于 Nature Neuroscience 的最新原创研究,题为《Temporal integration in human auditory cortex is predominantly yoked to absolute time》,该研究深入探究了人类听觉皮层是依据绝对时间还是声音结构进行信息整合,对现有神经和认知模型提出了重要挑战与新见解。
一、研究背景与科学问题
1. 时间整合窗口的核心意义
在自然音频(如语音、音乐)认知与分解过程中,大脑存在以一定“时间窗口”处理信息的特点,即只有在特定时间范围内的声音信号才能影响神经反应,超出该时间窗则影响甚微。以往研究表明,这一时间窗在听觉层级系统(auditory hierarchy)中自下而上逐步延长,成为语音、音乐等高级认知的基础。
2. 时间依托(Time-yoked)vs 结构依托(Structure-yoked)整合假说
学界长期存在两种截然不同的理论模型:
- 听觉神经科学模型多假设整合窗口与绝对时间绑定(time-yoked),即无论音素、词等结构多长,大脑总在固定时间范围处理信息,如以 100ms 为单位。
- 认知与心理语言学模型常假设信息整合依赖抽象结构(structure-yoked),如以音素、词作为运算单元,无论时间长度如何变动都以结构为界定。
这两种假设直接影响如何理解神经计算机制、设计模型和解释实验现象,但究竟哪种整合方式主导人类听觉皮层尚未获得直接证据。
3. 相关技术与方法学挑战
以往区分两类整合模型的方法受多重技术限制:如临床脑电(EEG)时间分辨率高但空间分辨率低,fMRI 空间精细但反应较慢,难以精准测量整合窗口。此外,经典的受体场模型(如 STRF,spectrotemporal receptive field)隐含时间依托假设,且不易处理皮层非线性运算及复杂高阶声音结构。针对这些问题,团队开发了一种创新性的“时序上下文不变性(Temporal Context Invariance,TCI)”实验范式,并借助临床脑内电极,首次直接、精确地量化听觉皮层的时间整合窗口。
二、研究团队与论文来源
本研究由 Sam V. Norman-Haignere(主通讯作者)、Menoua Keshishian(共同通讯作者)等人合作完成,作者团队分布于 University of Rochester Medical Center、Columbia University、NYU Langone Medical Center 等多家国际神经科学与工程中心。论文发表于 2025 年 11 月的 *Nature Neuroscience*,DOI: 10.1038/s41593-025-02060-8。
三、研究设计与实验流程
1. 实验整体结构
a) 时序上下文不变性(TCI)范式的创立与设计
TCI 培根方法(paradigm)以“片段呈现”方式,设计将语音信号分割为不同长度的片段(如 37ms, 111ms, 333ms, 1000ms, 3000ms),并采用均匀时间压缩与拉伸(stretch/compress),确保所有音素、词等结构时间发生同步改变。
每个片段在两种不同“上下文”中分别呈现:一种是自然语音序列中的原上下文,另一种随机调配上下文。通过比较同一片段在不同上下文中的脑反应,一旦整合窗口小于片段长度,则部分时刻神经响应完全一致,反之更长时间窗则始终被不同上下文影响。由此,通过“交上下文相关性”(cross-context correlation,具体为不同上下文的神经响应时间序列相关性)量化整合窗口。
b) 病人脑内电极记录实验
研究纳入 15 名因难治性癫痫接受临床脑内电极植入手术的患者,病变区在听觉皮层相关区域。采集高密度皮层脑电(ECoG)、提取 70–140Hz 校正 gamma 波,以获得高时间与空间分辨的数据。共获得 132 个电极的有效音频响应数据。
c) 控制性计算模型实验
- 构建线性 STRF(时空受体场)模型,模拟典型“时间依托”整合情况。
- 构建以音素标签为单位的结构依托模型,并在不同语速条件下(压缩、拉伸)按比例调整窗口长度。
- 采用 DeepSpeech2 深度人工神经网络(Deep Artificial Neural Network, DANN),训练于原始语音识别任务,通过不同模型层次的输出响应系统性比较整合机制。
d) 数据处理与分析方法
- 采用蒙特利尔强制对齐器(Montreal Forced Aligner)划分音素边界,度量音素持续时间的分布与可变性(变异指数高达4倍以上)。
- 利用贝叶斯线性混合效应模型(Bayesian Linear Mixed-Effects Model)数据统计处理,计算结构依托指数(Structure-yoking index)、不同区域窗口长度随距离与结构变化的变化趋势。
2. 研究细节与实验流程描述
实验主要分为以下几步:
- 音素持续时间测量:分析流行语音库(LibriSpeech)中所有 39 个音素的持续时长分布,发现音素持续时间跨讲者与语境可变范围高达4倍以上(结构持续时间变异性极高)。
- TCI 脑电实验流程:每一名参与者聆听经过均匀压缩拉伸处理的语音片段,实验分别在压缩(语速加快)、拉伸(语速减慢)、自然语速三种条件下测量大脑响应;每个语速下片段时长设置五个梯度,片段顺序随机排列,确保足够低的条件相关性。
- 计算模型对比分析:针对不同模型(STRF/音素整合/深度神经网络),分析在压缩/拉伸条件下,神经响应时间窗是否发生改变,特别关注复杂非线性系统(如 DANN 模型)不同层次输出的时间整合特征。
- 结构依托指数和统计分析:主采用结构依托指数(结构依托响应的窗口长度变化与语速比例变化之比),如指数为 0 则为纯时间依托,1 为纯结构依托。
四、研究主要结果
1. 音素结构持续时间高度可变,支持结构依托假说的必要性
首先,数据明确证明语音结构本身持续时间极度可变,不同音素可达4倍差异。若皮层对这些结构进行结构依托整合,则不同语速下整合窗口也应发生成比例变化。
2. 控制性计算模型分析
- STRF(时间依托模型)在语音压缩和拉伸条件下,交上下文相关性曲线几乎完全一致,窗口长度不变,确认其时间绑定特性。
- 音素整合模型在语音拉伸时窗口明显变长、压缩时变短,结构依托指数接近1,验证结构依托模型理论。
- DANN(DeepSpeech2)模型呈现有趣现象:随模型层级提升,出现从时间依托到结构依托的过渡,上层对结构变化高度敏感,结构依托指数逐层升高,训练与未训练模型对比则仅训练可实现结构依托机制。这说明复杂非线性网络能够自发模拟音频结构依赖的特性,但经大数据训练才能实现。
3. 人脑皮层脑电实验证据:整合窗口主要绑定绝对时间
- 在真实患者脑内电极记录中,无论是初级听觉皮层(如 Heschl’s gyrus)还是高阶区域(如 Superior Temporal Gyrus,STG),拉伸与压缩语音条件下整合窗口长度差异极小,仅为0.06个八度(远低于语音结构时长变动 1.58 八度),结构依托指数中位数仅为 0.04,支持时间绑定主导机制。
- 听觉皮层随皮层层级上升,整合窗口显著增长,但均保持时间依托特性,不随结构变动行为同步变化。
- 不同电极间整合窗口长度有显著可靠性,但结构依托指数几乎无可靠相关性,这表明时间绑定机制在个体及区域层面高度稳定,结构依托现象仅为微弱边缘效应。
- 对自然语速快慢语音(非均匀压缩/拉伸)实验验证,也得出几乎完全一致的时间绑定窗口,表明结果并非人造条件下的特例。
4. 时序响应重缩实验:证实经典时序重缩方法无法鉴别真正的整合机制
作者尤其指出以往所谓“神经响应时间重缩”方法(timecourse rescaling)——即通过拉伸或压缩神经反应序列并与原始状态进行相关性检验——往往误导为结构依托。经 DANN 模型和脑电数据验证,该方法无法有效区分整合窗口本身在变动还是仅受刺激本身时间缩放影响。真正能够区分时间/结构依托整合机制的,正是 TCI 方法中的片段上下文相关性指标。
五、重要讨论与科学意义
1. 挑战认知与神经模型分界,厘清高阶计算机制
长期以来,听觉神经科学多采用绝对时间依托模型解释信号处理,而心理语言学、认知科学则假设高阶区域实现按结构(音素、词、句)分段处理。该研究以强实验证据驳斥在听觉皮层(包括高阶 STG 区域)内存在显著结构依托机制的观点,证明整合窗口主导机制仍为绝对时间绑定,结构依赖计算主要在更高层级皮层或前额叶(如 Superior Temporal Sulcus、Frontal Cortex)等区实现。
2. 对神经计算模型和语言模型的启示
本研究结果提示,设计神经计算模型(如 STRF、深度学习网络)时,整合窗口应以绝对时间为主变量。语言模型和语音识别系统需要考虑结构处理与时间绑定之间的平衡,尤其是在高频变速语音环境下,信息量分析与整合窗口依时间变化而不是结构变化。此外,高阶认知区可能通过更长时间窗口、跨结构事件边界实现复杂结构依托计算,未来研究方向会聚焦此领域。
3. 方法学创新与技术意义
TCI 方法结合深层片段化上下文实验设计,创新实现对复杂非线性系统、噪声信号环境下时间窗口直接估算,填补了以往方法学难以分辨时间/结构依托机制的空白。尤其对深度人工神经网络、自适应语音识别系统、脑机接口工具有重要启发。
六、研究亮点及应用前景
- 提出了创新性时序上下文不变性实验范式,显著提高整合窗口测量精度,应用于高时间空间分辨率的临床脑内电极数据。
- 第一次在皮层层级通过真实生理数据验证了绝对时间是整合窗口的主要决定因素,为神经及认知模型设计提供实证依据。
- 证实复杂深度神经网络可自发学习结构依托机制,提示人脑更高层区可能实现复杂事件边界(如词、句)绑定计算。
- 揭示并修正以往“神经响应时间重缩”方法的局限,为未来相关实验设计提供关键经验参考。
七、结论与展望
本研究通过创新性实验设计和多层次模型对比,从多个维度系统证实人类听觉皮层的信息整合窗口以绝对时间为主导,不显著依赖于声音结构在不同语速下的时间变动。这一发现不仅修正了学界长期悬而未决的问题,也深刻影响未来神经科学、语音识别、人工智能等域的模型设计与计算理解。在语音、音乐等自然声音结构处理中,听觉皮层作为高效信息分解中枢,其窗口机制对于生理特性与应用系统设计均有指导意义。
未来研究可扩展至更高层级皮层或前额叶区,探究是否存在更复杂的结构依托机制,完善声音从低阶到高阶分层的神经计算逻辑,并促进高准确度脑机接口、智能语音识别等应用领域的技术创新。