这篇论文题为“Anti-Aliasing Speech DOA Estimation Under Spatial Aliasing Conditions”,发表在《IEEE/ACM Transactions on Audio, Speech, and Language Processing》的2024年第32卷,由Dong-Jiang Zhang、Wei-Tao Zhang、Yu-Ying Ma和Zhen-Zhen Huang完成,其通信作者为Wei-Tao Zhang(email: zhwt-work@foxmail.com)。主要研究机构为中国西安市的西安电子科技大学。本研究重点解决宽带信号波达方向(DOA)估计中因空间混叠问题导致的不确定性,并提出了一系列基于新理论的智能化抗混叠DOA估计算法。以下是针对该研究的详细学术报告。
在现代信号处理和传感器阵列领域,波达方向(DOA)估计是一项关键性技术,已广泛应用于多源声场分离、语音增强、人机交互、雷达、声呐以及智能音频设备(如智能音箱)等领域。然而,由于语音信号的频率范围宽广且能量主要集中于低频区,在宽带DOA估计中常常难以满足均匀线性阵列(ULA)“半波长条件”。这导致高频段出现空间混叠,尤其是在强弱信号共存的情况下,强信号的混叠分量往往掩盖了弱信号,引发了定位失败的问题。
为解决此技术难题,研究进一步讨论了宽带信号的空间混叠问题,并基于Cauchy-Schwarz不等式提出了一种理论方法,用以确定时间平均能量密度谱的无混叠下界。研究还基于此理论设计了三种新的宽带DOA估计方案。这些方案通过结合传统波束形成方法(CBF)、Capon算法和新提出的二次约束波束形成(QCB)算法,提升了混叠抑制能力及弱信号检测概率,解决了当前主流方法分辨率受限的问题。
研究首先详细分析了宽带信号在空间采样过程中产生混叠的机制。为此,作者构建了一个宽带空间混叠模型,将混叠分量精确描述为发生在不同频带、方向上的信号叠加效应。基于此模型,研究探讨了阵列信号在子频带中的混叠过程,证明了只要子频带中心频率高于临界频率(由空间奈奎斯特准则定义),就一定存在混叠。
作者提出了一个利用Cauchy-Schwarz不等式推导出的数学定理,用来估计无混叠频谱的下界。通过定义时间平均能量密度谱并结合子频带频谱结构间的相似性,提出了一种替代频谱估计的新方法,其核心是用频谱的下界替代直接频谱估计以实现混叠抑制。
基于上述理论,研究开发了三种新算法: - ACS-CBF:通过对传统波束形成(CBF)算法加入混叠成分抑制模块后,生成抗混叠频谱,抑制混叠分量。 - ACS-Capon:将Capon算法结合抗混叠抑制模块,进一步提升频谱分辨率。 - QCB:发展了一个新的二次约束波束形成(Quadratically Constrained Beamforming, QCB)方法,将无混叠频谱下界引入波束设计过程,用于进一步优化输出功率。
未来,该研究计划将所构建的无混叠理论和方法推广至非均匀阵列(如共素数阵列、嵌套阵列)以及其它几何结构(如圆阵、矩阵)。此外,还将探索这些方法在目标跟踪、目标语音提取、海洋声定位和无人机声学监测等场景中的扩展应用。