基于注意力引导的图结构学习网络用于基于EEG的听觉注意力检测

注意引导的图结构学习网络在基于EEG的听觉注意检测中的应用

基于注意力引导的图结构学习网络

学术背景

“鸡尾酒会效应”描述了人类大脑在多说话者环境中选择性集中注意力于一个说话者而忽略其他人的能力。然而,对于听力受损者来说,这种情况构成了一个重大挑战。尽管现代听觉假体如助听器和人工耳蜗在减噪方面有效,但它们往往无法区分听者所要关注的信号。听觉注意检测(Auditory Attention Detection,AAD)任务解决此问题的潜力在于,它直接从大脑中提取与注意力相关的信息。神经科学研究表明,非侵入性的神经记录技术,如脑电图(Electroencephalography,EEG),在解码听觉注意方面具有巨大潜力。为了解决EEG信号的解码问题,研究人员开发了各种方法来解释EEG信号,并由此确定注意力,调整助听器性能。

论文来源与作者信息

这篇名为《Attention-guided graph structure learning network for EEG-enabled auditory attention detection》的论文由Xianzhang Zeng、Siqi Cai及Longhan Xie撰写,分别隶属于中国广东广州的南方科技大学和新加坡新加坡的国立大学电气与计算机工程系。该论文发表在2024年的Journal of Neural Engineering期刊,详细解码了如何利用EEG信号进行听觉注意检测。

研究详细流程

工作流程

该研究提出了一种新颖的注意引导图结构学习网络(AGSLEnet),它利用EEG信号之间的潜在关系来改进AAD性能。对于这个网络,研究分为数个步骤进行了详尽的分析和实验。

  1. 多渠道EEG记录和预处理: EEG信号首先参考所有通道的平均响应。然后进行1-32Hz的带通滤波,并将过滤后的EEG信号下采样到128Hz。此外,通过EEGLAB工具箱进行独立成分分析(Independent component analysis,ICA)来减小伪影影响。经过这些处理后,得到一系列EEG切片称为决策窗口(Decision Windows)。

  2. 时序特征提取: 在时序特征提取模块中,采用了一维卷积层和指数线性单位(Exponential Linear Unit,ELU)激活函数,并结合批量规范化(Batch Normalization,BN)层来聚合每个EEG通道的时序信息。

  3. 注意引导的图表示: 研究中构建了一个基于注意力机制的图表征。具体来说,使用线性投影将特征图转化为查询向量和键向量,并计算两者的点积来获得注意力权重矩阵,随后用该矩阵动态生成EEG信号的邻接矩阵,捕捉耐用的关联信息。

  4. 图卷积: 通过光谱滤波器计算从规范化拉普拉斯矩阵(Normalized Laplacian Matrix)得出的图卷积操作,用于从EEG图中捕捉全局信息。图卷积使得该网络能够在图域中扩展卷积操作,通过傅里叶变换实现信号处理。

  5. 端到端的AAD分类器: 最后,AGSLEnet是一个从多渠道EEG信号输入到二元注意力判断的端到端系统。在此步骤中,经过时序平均池化(Temporal Average Pooling)和扁平化(Flattening)处理的特征图通过一个全连接层(Fully Connected Layer),采用softmax激活函数进行最终的二值分类判断。

研究对象与实验

为了评估AGSLEnet的有效性,论文在两个公开的AAD数据集上进行了广泛的实验。这两个数据集分别是KUL数据集和DTU数据集。每个数据集中的参与者听取并专注于特定演讲者的声音时,采集了他们的多通道EEG信号。

  1. KUL数据集: 包括16名正常听力个体的EEG数据,他们被指示在双说话者场景中选择性关注一个说话者的数据。64通道EEG信号在声学和电磁屏蔽室中记录,采样率为8192 Hz。

  2. DTU数据集: 来自18名正常听力参与者,记录了他们在仿真混响和无反射环境中的EEG信号。EEG信号使用BioSemi主动系统以512 Hz的采样率记录。

主要研究结果

  1. 注意力引导的图结构学习网络(AGSLEnet)的有效性: 在KUL和DTU两个数据集上均表现出较佳的AAD性能。AGSLEnet通过构建基于注意力的动态图表征,成功捕捉到了EEG信号间的潜在关系,其AAD准确率显著高于其它竞争模型。

  2. 低延迟下的AAD性能: 在0.1秒到2秒的决策窗口长度范围内,AGSLEnet表现出了出色的AAD准确率。例如,在0.1秒的低延迟情景中,精度达到了88.1%;在1秒的决策窗口中,精度为93.6%。

  3. 比较研究: 将AGSLEnet与其他模型(如CNN、RGC等)进行对比分析,结果显示在所有决策窗口长度方面AGSLEnet均表现出色。例如,相比其他模型,AGSLEnet在1秒的决策窗口下精度增加了3.5%至9.5%不等。

结论和意义

该研究通过提出一种基于注意引导图结构学习的AGSLEnet框架,为通过EEG信号进行听觉注意检测提供了新的科学思路和实践可能。AGSLEnet不仅在AAD准确率方面优于传统方法,而且还展示了从EEG信号动态构建图结构的有效性。这个新的神经解码技术有望推动神经引导的可听设备的发展,并为人们在实际环境中的应用提供了新的工具和方法。

研究亮点

  1. 创新方法: 使用注意力机制动态生成EEG信号的图结构,从而优化注意力解码性能。
  2. 广泛实验: 通过KUL和DTU两个公开数据集的广泛实验,验证了模型的有效性和泛化能力。
  3. 低延迟应用: 在各种低延迟场景中均表现出色,为实时神经引导设备应用奠定基础。
  4. 跨学科意义: 提供了新的研究思路,帮助深入了解大脑功能连接和听觉注意机制。

值得关注的附加信息

未来的研究可以继续探讨AGSLEnet在更加现实的实际数据集中的应用,特别是包括多个环境下的实际数据采样。通过扩展研究范围,不仅能够验证理论研究结果,还能提升模型在具体应用中的表现。同时,自监督学习(SSL)技术在EEG分析中的应用也值得期待。

通过实现AGSLEnet框架,该研究在听觉注意检测、低延迟场景应用、EEG信号解码和大脑功能研究方面具备广泛的学术和应用前景。