由北京工业大学信息学部的张宇、杨淇善和贾懋珅(通讯作者)合作完成的研究论文《利用DBSCAN和概率密度估计的欠定盲源分离混合矩阵估计》(Mixing Matrix Estimation Using DBSCAN and Probability Density Estimation for Underdetermined Blind Source Separation)于2023年4月发表于学术期刊《信号处理》(Journal of Signal Processing,2023年第39卷第4期,第708-718页)。该研究致力于解决信号处理领域中“欠定盲源分离”(Underdetermined Blind Source Separation)这一经典难题中的关键技术——混合矩阵估计,旨在提升其估计精度与鲁棒性,特别是在声源数量未知及噪声环境下的性能。
研究的学术背景: 盲源分离(BSS)是在声源信号、阵列结构等先验知识未知的情况下,仅从观测到的混合信号中恢复出各个独立源信号的技术。它广泛应用于自动语音识别、虚拟现实、医学信号分析等领域。根据观测信号(麦克风)数量M与声源数量L的关系,BSS可分为超定(M > L)、确定(M = L)和欠定(M < L)三种情况。欠定情况最为复杂且更具实际意义(如麦克风少于说话人),是研究的难点。传统的独立成分分析(ICA)方法在欠定情况下效果不佳。因此,基于信号稀疏特性的稀疏成分分析(SCA)方法成为主流。SCA通常分为两步:首先估计混合矩阵,然后基于估计的混合矩阵恢复源信号。其中,混合矩阵估计的精度直接决定了最终信号分离的质量,是整个流程的关键瓶颈。
先前的研究通常采用两步法:先检测出由单一源信号主导的“单声源时频点”,再对这些点进行聚类,聚类中心的方向即构成混合矩阵的列向量。常用的聚类算法如K-means,但其需要预先指定聚类个数(即声源数),且对初始值和离群点敏感,在数据分布不均时性能下降。虽然已有研究引入DBSCAN(Density-Based Spatial Clustering of Applications with Noise,带噪声的基于密度的空间聚类)算法来自动确定声源数量,并结合霍夫变换(Hough Transform)修正聚类中心,但在声源数量增多或噪声较强时,信号的稀疏性减弱,数据点分布更为分散,导致现有方法的估计精度仍有待提高。基于此背景,本研究旨在提出一种新的混合矩阵估计算法,以克服上述限制,实现在未知声源个数及非理想数据分布条件下的高精度、鲁棒性估计。
详细的工作流程: 本研究提出的算法是一个完整且系统的流程,包含四个核心步骤:信号预处理与单声源点检测、基于DBSCAN的聚类、基于概率密度估计(Probability Density Estimation)的聚类中心精确估计,以及最终的源信号恢复。整个流程以两路混合信号(M=2)分离多个声源(L>2)为典型场景展开。
第一步:混合信号建模与单声源时频点检测。 研究首先建立线性瞬时混合模型:x(t) = A s(t),其中x(t)为观测混合信号,s(t)为未知源信号,A为待估计的混合矩阵。考虑到语音信号在频域的稀疏性(即某个时频点主要由一个声源贡献),研究将时域信号通过短时傅里叶变换(STFT)转换到时频域,得到x(n,k) = A s(n,k)。算法的目标是找到那些满足“单声源主导”假设的时频点(n, k)。
检测单声源点的核心是向量转换准则。研究选取任意两路混合信号的时频系数xi(n,k)和xj(n,k),利用一个特定的二阶转换矩阵P(P = [[j, 1], [1, j]])对其进行线性变换,得到x‘i(n,k)和x’j(n,k)。理论分析表明,对于一个理想的单声源点,其变换后系数的实部与虚部满足一个严格的等式关系。鉴于实际中存在噪声和干扰,研究采用了一个近似判定准则:设定一个接近于0的阈值δ,如果变换后系数实部与虚部的平方差比值与1的绝对差值小于δ,则该点被判定为单声源时频点。
为了增强后续聚类的效果并减少计算量,在进行单声源检测前,研究还引入了一个预滤波步骤,即根据公式re[xm(n,k)] < λ * max{ re[xm(n,k)] }滤除能量过低的时频点,其中λ是一个(0,1)区间内的参数。通过单声源点检测,混合信号中原本较为混杂的数据点被筛选出来,这些点理论上应沿着混合矩阵各列向量方向在空间中呈线性聚集,这为后续聚类奠定了坚实基础。文中通过仿真实验(使用NTT语料库的4个语音源,随机生成2x4的混合矩阵)直观展示了检测前后散点图的变化:未经处理的混合信号时频点分布散乱,而检测出的单声源点清晰地聚集在四条直线上,验证了该步骤对增强数据聚类特性的有效性。
第二步:特征归一化与基于DBSCAN的聚类。 获得单声源时频点集合后,需要将它们按所属的源信号进行归类。首先,为了方便在单位超球面上进行聚类,研究以第一通道信号为参考,对每个单声源点的实部向量进行归一化处理,得到一个m维的归一化信号矢量f(n,k)。其计算公式为:fm(n,k) = sign{ re[x1(n,k)] * re[xm(n,k)] } * ||re[xm(n,k)]||2 / sqrt( sum( ||re[xm(n,k)]||2^2 ) )。经过此操作,属于同一源的点将聚集在单位超球面上的一个紧致区域。
接下来,采用DBSCAN算法对所有这些归一化矢量f(n,k)进行聚类。DBSCAN是一种基于密度的聚类算法,其优势在于无需预先指定类别数量,并且能有效识别噪声点(即无法归入任何密集区域的离散点)。其工作原理是:对于每个数据点,检查以其为中心、半径为γ的邻域内点的数量。如果数量超过预设阈值MinPts,则该点被视为“核心对象”。然后,通过“密度可达”和“密度相连”的关系,将所有从核心对象出发能够连接起来的点划分为一个簇(类别)。本研究将此算法应用于归一化的单声源点矢量,算法的输出直接给出了估计的声源个数L‘(即聚类簇的数量)以及每个簇所包含的时频点集合γ_l (l=1,…, L‘)。这解决了传统方法需要预先知道声源数量的难题。
第三步:基于概率密度估计的聚类中心精确估计。 DBSCAN成功将数据分成了若干类别,但确定每个类别的“代表”——即聚类中心——对于混合矩阵估计至关重要。简单地求取每个簇内点的均值作为中心,容易受到簇内点分布不均匀或存在边缘点的影响。为此,本研究创新性地引入了概率密度估计(特别是核密度估计,Kernel Density Estimation, KDE)来精确寻找每个簇的“密度峰值点”作为聚类中心。
具体操作针对每个估计出的类别l和信号的每个维度m独立进行:以第l个类别所有点在m维度上的坐标值{ re[fm(n,k)] | (n,k) ∈ γ_l }作为观测样本,利用高斯核函数进行核密度估计,得到该维度上坐标值的概率密度函数ĝ (h)。核密度估计公式为:ĝ (h) = (1/(e*d)) * Σ K((h - re[fm(n,k)])/d),其中d为带宽参数,e为类别l中的点数,K(·)为高斯核函数。使得这个估计出的概率密度函数ĝ (h)取得最大值的h值,就被确定为该类别的聚类中心在第m维度上的坐标值â _ml。即:â _ml = arg max_h (ĝ (h))。对所有的类别l(l=1至L‘)和所有的维度m(m=1至M)重复此过程,即可得到完整的估计混合矩阵Â = (â ml){M×L‘}。
这种方法的最大优势在于其鲁棒性。即使某一类别的数据点在某个维度上分布较广、不够集中(在声源多或噪声大时常见),概率密度函数的峰值位置仍然能稳定地指示出数据最密集的区域,即最可能的聚类中心,从而获得更准确的估计。文中通过仿真图展示了这一过程:对于DBSCAN分出的四个类别,分别绘制其第一维和第二维坐标值的概率密度曲线,可以清晰地看到曲线存在明显的峰值,峰值对应的坐标值即为估计出的聚类中心坐标。最终估计出的混合矩阵与预先设定的真实矩阵非常接近。
第四步:基于压缩感知的源信号恢复。 在获得高精度的混合矩阵估计值Â后,研究的最后一步是实现源信号的恢复。对于欠定系统(M < L),混合矩阵A非方阵,不可直接求逆。研究采用了基于压缩感知(Compressed Sensing, CS)框架的正交匹配追踪(Orthogonal Matching Pursuit, OMP)算法来求解这一逆问题。 具体流程是:将时域混合信号模型x(t)=A s(t)转换到频域,并将所有频点的系数重新排列,构建一个大型的欠定线性方程组:y = Φ u。其中,y是由所有观测信号频域系数串联成的长向量,u是待求的所有源信号频域系数串联成的长向量,观测矩阵Φ是一个由估计的混合矩阵Â 按块对角结构构成的大矩阵。恢复问题转化为在约束y = Φ u下,最小化u的ℓ1范数(‖u‖1),以利用源信号在频域的稀疏性。OMP算法通过迭代选择Φ中与当前残差最相关的列(原子),逐步逼近最优解u。最终,对恢复出的频域系数u进行逆傅里叶变换,即可得到分离后的时域源信号。
主要研究结果: 研究通过一系列仿真实验对提出的算法进行了全面评估,并与两种主流参考方法进行了对比:参考方法一(“DBSCAN”)仅使用DBSCAN聚类后求均值作为中心;参考方法二(“DBSCAN+HF”)结合DBSCAN和霍夫变换(Hough Transform)来估计中心。
混合矩阵估计精度测评: 使用归一化均方误差(NMSE)和相位偏差(δθ)作为评价指标。在无噪声情况下,测试了多种麦克风-声源组合(如2路混音分离3源、3路分离4源、2路分离4源、4路分离5源)。结果表明,在所有组合下,本文所提方法(DBSCAN+概率密度估计)的NMSE值均最低,相位偏差也最小。特别值得注意的是,随着声源数量增加(复杂度提高),本文方法的优势更加明显。例如在“4路分离5源”这一最具挑战性的情况下,本文方法依然保持较低的误差,而对比方法的性能下降显著。这验证了概率密度估计方法对于处理数据分布分散情况的有效性。
在不同信噪比(15 dB, 20 dB, 25 dB)的噪声环境下,对“2路分离3源”和“2路分离4源”两种场景进行了测试。结果显示,在不同噪声水平下,本文方法的NMSE和相位偏差始终低于两种对比方法。即使在较高噪声(15 dB)和较多声源(2路分离4源)的困难条件下,本文方法仍能保持相对稳定和精确的估计,证明了其良好的抗噪鲁棒性。
信号分离性能测评: 为了评估整个盲源分离系统的最终效果,研究使用语音感知质量评估(PESQ)分数来衡量分离出的语音信号的质量。在无噪声和20 dB信噪比条件下,对三种不同组合进行了测试。结果表明,采用本文提出的混合矩阵估计方法,并结合OMP源信号恢复,得到的分离语音的PESQ分数在所有测试条件下均为最高,显著优于两种对比方法。这直接证明了高精度的混合矩阵估计对于提升最终分离质量的至关重要性。实验还观察到,在相同声源数下,麦克风数量越多(提供更多信息),分离质量越好。
研究的结论与价值: 本研究成功提出并验证了一种新颖的、基于DBSCAN和概率密度估计的欠定盲源分离混合矩阵估计算法。其核心结论是:该方法能够在不预先知道声源个数的前提下,自动、准确、鲁棒地估计出混合矩阵,特别是在声源数量较多或存在噪声的复杂场景下,其性能优于传统方法。将所提算法与压缩感知技术结合,可以实现高质量的欠定盲源分离。
本研究的科学价值在于:第一,创新性地将概率密度估计引入到混合矩阵估计的聚类中心确定环节,提供了一种对数据分布不敏感、更稳定精确的中心估计方案,解决了现有方法在数据点分散时性能下降的痛点。第二,构建了一个完整的、无需声源数量先验的自动化处理流程(单声源检测 -> DBSCAN自动聚类 -> 概率密度估计定中心),提升了欠定盲源分离系统的实用性和自动化程度。其应用价值显著,为现实环境中麦克风数量有限、声源数量未知且存在噪声的语音分离问题(如会议室多人对话分离、嘈杂环境下的语音提取等)提供了更有效的解决方案。
研究的亮点: 1. 方法新颖性: 首次将概率密度估计(核密度估计)与DBSCAN聚类相结合,用于解决欠定盲源分离中的混合矩阵估计问题。这种结合巧妙地利用概率密度峰值定位替代简单的几何中心计算或直线拟合(霍夫变换),提高了估计的精度和鲁棒性。 2. 流程的完备性与自动化: 提出的算法流程完整,从单声源点检测到最终混合矩阵输出,无需人工干预设定声源个数,实现了真正的“盲”估计。 3. 解决关键难题: 有效应对了“声源数量未知”和“数据分布不均导致聚类中心难确定”这两个实际应用中的关键挑战。 4. 实验验证充分: 通过无噪声、多种噪声水平、多种麦克风-声源组合的广泛实验,并使用NMSE、相位偏差、PESQ等多维度指标,全面且有力地验证了所提方法的优越性能。 5. 实用性强: 整个方案基于成熟的信号处理与机器学习算法构建,可复现性强,为实际工程应用提供了有价值的参考。