基于频谱和空间特征融合的重叠语音检测

分享自：
基于频谱和空间特征融合的重叠语音检测

人工智能
声学
物理学
信息科学
计算机科学
期刊:InterspeechDOI:10.21437/Interspeech.2021-21384189
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性研究。以下是基于文档内容的学术报告：
作者与发表信息本研究的作者包括Weiguang Chen（湖南大学）、Van Tung Pham（南洋理工大学）、Eng Siong Chng（南洋理工大学）和Xionghu Zhong（湖南大学）。研究于2021年8月30日至9月3日在Interspeech 2021会议上发表，会议地点为捷克布尔诺。论文的DOI为10.21437/Interspeech.2021-2138。
学术背景本研究的主要科学领域为语音信号处理，特别是重叠语音检测（Overlapped Speech Detection, OSD）。在真实对话中，多个说话者可能会同时发声，形成重叠语音，这会对语音处理任务（如说话人定位、说话人分离、说话人识别和自动语音识别）造成显著性能下降。现有的OSD方法主要依赖于从单麦克风信号中提取的频谱特征（Spectral Features），但在远场场景中，由于混响和噪声的影响，检测效果往往不佳。因此，本研究提出了一种基于麦克风阵列的新方法，通过融合多通道信号的空间特征（Spatial Features）和频谱特征，以提高重叠语音检测的准确性。
研究流程研究主要包括以下几个步骤：
 1. 特征提取
 - 频谱特征：从短时傅里叶变换（Short-Time Fourier Transform, STFT）域中提取80维的log-mel滤波器组特征。
 - 空间特征：提出两类空间特征。第一类是基于相位变换的广义互相关函数（Generalized Cross-Correlation with Phase Transform, GCC-PHAT），计算所有麦克风对的互相关系数。第二类是基于方向统计（Directional Statistics）的特征，通过将方向统计投影到球形位置网格上，构建空间特征。
 2. 特征融合
 使用门控多模态单元（Gated Multimodal Unit, GMU）将空间特征和频谱特征融合。GMU通过sigmoid门神经元为不同类型的特征分配不同的重要性，从而生成融合后的嵌入序列。
 3. 模型训练与检测
 融合后的特征输入到双向长短期记忆网络（Bidirectional Long Short-Term Memory, BLSTM）中进行重叠语音检测。BLSTM模型包括两个堆叠的BLSTM层、两个前馈层和一个具有sigmoid激活函数的分类层，输出为帧级别的重叠语音概率序列。
 4. 实验评估
 研究在AMI和CHiME-6两个公开数据集上进行了实验评估。AMI数据集包含100小时的会议录音，CHiME-6数据集则更为嘈杂和具有挑战性。实验结果表明，所提出的特征融合方法在重叠语音检测任务中优于仅使用频谱特征的方法，特别是在AMI数据集上，平均精度（Average Precision, AP）提高了约16%。
主要结果特征分析
 通过t-SNE（t-Distributed Stochastic Neighbor Embedding）可视化分析发现，基于方向统计的空间特征比log-mel和GCC-PHAT特征更具区分性，能够更好地分离重叠语音和单一语音段。
 
性能比较
 在AMI数据集上，融合方向统计和频谱特征的方法在开发集和测试集上的AP分别为80.66%和74.75%，显著高于其他方法。在CHiME-6数据集上，由于噪声影响，所有方法的性能均有所下降，但融合方法仍表现出一定的优势。
 
模型比较
 研究还比较了BLSTM和时序卷积网络（Temporal Convolutional Network, TCN）模型的性能。结果表明，TCN模型在所有特征类型上均优于BLSTM模型，但融合方法在AMI数据集上仍表现最佳。
结论本研究提出了一种基于空间和频谱特征融合的重叠语音检测方法，通过引入方向统计和GCC-PHAT两类空间特征，并结合GMU进行特征融合，显著提高了重叠语音检测的准确性。实验结果表明，所提出的方法在AMI和CHiME-6数据集上均优于现有方法，特别是在远场和嘈杂环境下的检测性能得到了显著提升。该方法在语音处理领域具有重要的科学价值和实际应用意义，可为说话人分离、语音识别等任务提供更可靠的基础。
研究亮点特征创新：提出了基于方向统计的空间特征，相较于传统的GCC-PHAT特征，具有更强的鲁棒性和区分性。
 
融合方法：首次将GMU应用于空间和频谱特征的融合，能够动态分配特征的重要性，提升检测性能。
 
广泛验证：在AMI和CHiME-6两个具有挑战性的数据集上进行了全面实验验证，证明了方法的有效性和通用性。
 
其他有价值的内容研究还详细讨论了不同特征在重叠语音检测中的区分性，并通过t-SNE可视化展示了特征的可分性，为后续研究提供了重要参考。此外，研究还比较了BLSTM和TCN模型的性能，为模型选择提供了实验依据。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问