分享自:

NMED-T:一个专注于节奏的自然音乐皮层与行为反应数据集

期刊:18th International Society for Music Information Retrieval Conference

关于NMED-T数据集的学术研究报告

本研究由Steven Losorelli、Duc T. Nguyen、Jacek P. Dmochowski和Blair Kaneshiro合作完成,作者单位分别来自美国斯坦福大学语言与信息研究中心、斯坦福大学音乐声学计算机研究中心以及纽约城市学院生物医学工程系。该研究以论文形式《NMED-T: A Tempo-Focused Dataset of Cortical and Behavioral Responses to Naturalistic Music》发表于2017年10月在中国苏州举行的第18届国际音乐信息检索会议(ISMIR)的会议录中。

一、 学术背景 本研究主要隶属于音乐信息检索(Music Information Retrieval, MIR)与认知神经科学的交叉领域。理解人类对音乐的感知是MIR许多研究主题的基础。尽管MIR领域对脑响应研究的兴趣日益增长,但获取高质量、易于使用的脑电数据仍然是一个主要障碍。现有的一些公开脑电数据集(如DEAP、OpenMIIR等)在刺激材料(如使用简短的、非自然主义的音乐片段)或研究焦点上存在局限。因此,研究社区亟需一个经过精心策划、包含对完整、真实世界音乐作品反应的、可直接用于分析的开放式数据集。

在此背景下,本研究团队旨在创建一个专注于节奏(Tempo)感知的自然主义音乐脑电数据集。其核心目标是:1)提供一个包含高密度脑电图(EEG)和同步行为反应(如打拍子)的公开数据集,以促进MIR与神经科学领域的可重复研究;2)通过使用完整的、商业发行的音乐作品作为刺激材料,增强研究的生态效度;3)聚焦于节奏处理这一核心音乐认知过程,为探索音乐节拍感知的神经基础提供资源。该数据集被命名为“自然主义音乐EEG数据集——节奏版”(Naturalistic Music EEG Dataset—Tempo, NMED-T)。

二、 详细研究流程 本研究包含刺激材料选择与准备、参与者招募、实验数据收集、数据预处理以及初步分析等多个完整流程,样本量为20名参与者。

1. 刺激材料选择与准备: 研究团队选取了10首完整的商业音乐作品作为刺激材料。选曲标准包括:包含电子制作的稳定节拍、均为二拍子、涵盖多种音乐流派和节奏(BPM范围从56到150)、长度在4分30秒至5分钟之间、且大部分含有人声(主要为英语)。选曲过程结合了公开的Matlab代码进行客观节奏测算,并由四位训练有素的音乐家进行主观感知验证,以确保节奏标注的准确性。为后续研究,团队提供了每首歌曲在亚马逊的数字标识号(ASIN)。为适应实验,团队对音频进行了处理:将完整歌曲转换为单声道,并在第二音频通道嵌入时间同步点击信号(仅发送给EEG放大器,参与者听不到),用于后续EEG数据的时间戳精准对齐。此外,为行为实验(打拍子任务)从每首歌曲中截取了35秒的片段(从1:00到1:34),并添加了淡入淡出效果。

2. 参与者: 共招募了20名右利手参与者,年龄在18-29岁之间(平均23岁,6名女性)。所有参与者均报告听力正常、英语流利、无认知或决策障碍。对音乐训练背景未设限制,其中17人报告接受过正式音乐训练(平均训练年限8.4年)。参与者平均每周聆听音乐14.5小时。

3. 实验规范与数据收集: 实验获得斯坦福大学机构审查委员会批准,所有参与者均签署知情同意书。实验分为两个主要部分,始终按顺序进行:先进行EEG记录部分,随后进行行为(打拍子)测试部分。 * EEG实验: 参与者被告知实验目的是研究人类对音乐的处理,并被要求专注聆听歌曲,同时尽量避免任何形式的身体运动(包括跟随节拍点头或打拍子)。10首完整歌曲以随机顺序呈现。每首歌曲播放结束后,参与者需要立即在1-9的量表上对该歌曲的熟悉度和喜爱度进行评分。EEG记录被分成两个连续的区块进行,以减轻参与者疲劳并便于中途检查电极阻抗。脑电数据使用Electrical Geodesics, Inc. (EGI) 的GES300系统记录,采用128号高密度电极帽,以1000 Hz采样率、24位精度进行采集,参考电极为顶点(Vertex)。刺激通过磁屏蔽扬声器在73-78分贝的响度水平下呈现。 * 行为实验(打拍子): 在EEG记录结束后,参与者移除电极帽,进行打拍子任务。他们聆听35秒的歌曲片段,并被要求“按照你所感知到的歌曲稳定节拍进行敲击”。如果参与者对一首歌曲存在多个可能的速度感到困惑,则被指示按照当下瞬间的最佳感知节拍进行敲击。片段呈现顺序随机。敲击反应使用一款名为Tap-it的iOS应用程序收集,该程序在播放音频的同时记录触摸屏上的敲击时间戳。

4. 数据预处理: 所有预处理和分析均使用Matlab完成。 * EEG预处理: 流程包括多个步骤:首先对每个电极的数据进行零相位滤波(高通0.3 Hz、陷波59-61 Hz、低通50 Hz),然后将时间分辨率下采样至125 Hz。接着,利用嵌入音频的点击信号校正刺激开始时间,并根据试验标签对数据进行分段(Epoching)。随后进行坏电极剔除、直流校正。通过独立成分分析(Independent Components Analysis, ICA)结合EEGLAB工具箱中的runica函数,去除眼动和心电伪迹。之后,识别并替换幅度超过4个标准差的瞬态伪迹,重构坏电极通道(用NaN填充,后续插值),将数据参考方式转换为平均参考,并使用空间邻域平均值插补所有缺失值。最后,将数据重新分割为单试次。预处理完成后,将所有参与者的数据按歌曲进行聚合,形成每首歌125(电极)× T(时间点,因歌曲长度而异)× 20(参与者)的三维数据矩阵。 * 敲击响应预处理: 从Tap-it应用程序中提取敲击时间戳(以秒为单位)。为了分析,将连续的敲击间隔(Inter-tap Interval)转换为瞬时速度(Hz),映射到间隔的中点,然后线性插值到一个统一的时间网格上(时间分辨率为2 Hz),以便于跨试次和参与者的比较。

5. 数据分析方法(示例性分析): 论文提供了示例性分析代码,以展示数据集的基本特性,主要围绕节奏感知的神经与行为关联展开。 * EEG响应分析(稳态诱发电位,SS-EP): 为了研究大脑对音乐节拍的锁相响应,研究采用了频率标记(Frequency-tagging)和稳态诱发电位(Steady-State Evoked Potentials, SS-EP)的分析方法。该方法的原理是,以特定频率呈现的刺激会诱发大脑在同一频率上的响应。分析针对每首歌曲聚合后的EEG数据(取歌曲开始后15秒起的4分钟数据),应用了两种空间滤波技术以提升信噪比并减少维度:1) 全电极平均(Mean across Electrodes);2) 主成分分析(Principal Component Analysis, PCA)的第一主成分(PC1)。通过计算滤波后时间序列的幅度谱,观察其在与音乐节拍层级相关的频率(如基本节拍频率及其谐波)上是否出现峰值。 * 行为评分分析: 对参与者提供的熟悉度和喜爱度评分进行简单的描述性统计和可视化。 * 敲击响应分析: 对预处理后的敲击数据进行分析。可视化包括:1) 每个参与者随时间变化的瞬时敲击速度曲线(灰色)及所有参与者的中位数曲线(黑色);2) 每个参与者在整个分析时段内敲击速度中位数的分布直方图。图中同时标记了基于计算节奏的参考频率线(0.5倍、1倍、2倍节奏频率),用于评估参与者敲击的一致性及其与计算节奏的关系。

三、 主要研究结果 1. EEG响应分析结果: 分析显示,即使对于复杂的自然主义音乐,SS-EP方法也能有效揭示大脑对节拍频率的响应。当使用简单的全电极平均空间滤波器时,低频EEG频谱中偶尔会在与节拍相关的频率处出现峰值(例如歌曲5)。然而,使用PCA第一主成分(PC1)作为空间滤波器时,效果更为显著和稳健。PC1频谱在多个歌曲中,在与音乐节拍直接相关的频率处诱发了更明显的谱峰,同时抑制了在刺激振幅包络频谱中观察到的许多其他无关谱峰(见图1对比)。PC1空间滤波器的地形图显示,其对头皮不同区域的电极赋予了正负不同的权重,这种空间模式可能有助于解释为何该滤波器能更有效地提取与节拍频率相关的神经活动。值得注意的是,许多歌曲的PC1频谱在5-10 Hz范围内显示出显著的峰值,这与之前使用简单节奏刺激的研究发现部分一致,提示可能存在与节奏处理相关的特定频段神经振荡。

2. 行为评分结果: 参与者对歌曲的熟悉度总体较低(评分普遍偏低),这表明选曲成功避免了因歌曲过度流行而可能带来的个人偏好或自传体记忆关联对脑响应的混淆效应。相比之下,喜爱度评分普遍较高,且在不同参与者间变异更大,反映了个人音乐偏好的差异性。

3. 敲击响应结果: 敲击数据分析揭示了参与者节奏感知的一致性与变异性。总体而言,大多数参与者在大多数歌曲中倾向于按照研究团队事先计算出的基本节奏频率(1倍频)进行敲击。然而,也存在不一致的情况,特别是在节奏最慢的歌曲(如歌曲1和歌曲2)中。这些歌曲的敲击速度直方图显示出近乎双峰的分布:一部分参与者敲击在计算节奏频率附近,另一部分则敲击在大约两倍于计算节奏的频率附近。后者的敲击频率更接近人类偏好的节奏区域(文献中提出的约2 Hz的自然共振频率)。此外,个别参与者的敲击速度在时间上也存在波动,这反映了节奏感知和运动同步的动态过程,也凸显了为复杂音乐定义“真实节奏”的挑战性。

四、 研究结论与价值 本研究成功创建并发布了NMED-T数据集,这是一个包含20名参与者对10首完整自然主义音乐作品的高密度EEG记录、同步行为敲击数据、歌曲评分及基本人口统计学信息的开放式资源。数据集以处理好的格式(.mat)和原始格式提供,并附有示例分析代码。

其科学价值在于:1) 促进跨学科研究:为MIR和神经科学社区提供了一个高质量、可直接用于分析的数据集,降低了相关研究的入门门槛,促进了关于音乐处理(尤其是节奏感知)神经机制的可重复研究。2) 生态效度:使用完整的、商业化的音乐作品作为刺激,使得研究结果更贴近真实的音乐聆听体验。3) 方法学验证:示例分析证实了SS-EP方法在复杂自然音乐刺激下的有效性,扩展了该范式的应用范围。4) 揭示感知复杂性:敲击数据中表现出的个体差异和速度倍频现象,为理解节奏感知的主观性和人类内在偏好提供了实证数据。

应用价值包括:该数据集可用于开发基于脑信号的音乐信息检索算法(如节奏估计、情感识别)、研究个体差异(如从个体EEG预测其节奏感知或偏好)、以及作为基准测试集用于比较不同的神经信号处理或机器学习模型。

五、 研究亮点 1. 数据集的独特性与完整性:NMED-T是首个专注于节奏、同时提供完整歌曲EEG响应、行为敲击数据、主观评分及人口统计信息的公开数据集之一。其刺激材料具有高度的生态效度和节奏多样性。 2. 严谨的数据处理与共享:研究提供了从原始数据到完全预处理数据的完整流水线,并公开了原始数据,允许其他研究者使用自己的预处理流程,增强了研究的透明度和可重复性。 3. 交叉验证的发现:研究同时采集了神经(EEG)和行为(敲击)数据,使得能够从两个层面关联考察节奏感知,例如,通过EEG的SS-EP响应验证神经层面的节拍锁相,同时通过敲击数据观察行为层面的同步表现及其变异性。 4. 对MIR与神经科学桥梁的贡献:该研究直接响应了领域内对更多跨学科合作和公开数据资源的呼吁,通过提供一个精心设计的“即用型”数据集,实质性地推动了音乐认知的跨学科计算研究。

六、 其他有价值的内容 论文还坦诚讨论了研究的局限性:1) EEG实验总是先于敲击实验,导致参与者在敲击时对音乐更熟悉,这可能影响对节奏同步建立时间过程的研究。2) 敲击数据的变异性可能源于参与者群体(非全部为训练有素的音乐家)、任务指导语,或是此类行为反应本身的固有特性。3) 研究未专门设计任务来区分参与者对歌曲“快慢”的整体判断与具体的速度倍频选择。这些局限性为未来研究指明了方向。

NMED-T数据集为探索自然音乐环境下的大脑与行为反应提供了一个宝贵的资源,预期将在音乐信息检索、认知神经科学及计算音乐学等领域激发广泛的研究。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com