基于压缩感知和音频指纹降维的固定音频检索方法

分享自：
基于压缩感知和音频指纹降维的固定音频检索方法

期刊:计算机系统应用
本文介绍的是赵文兵、贾懋珅、王琪等学者于2020年在《计算机系统应用》（第29卷第8期）发表的一项原创性研究成果，题为《基于压缩感知和音频指纹的固定音频检索方法》。该研究隶属于音频信息检索领域，具体聚焦于固定音频检索技术，旨在解决传统方法中存在的样本音频特征库数据量大、检索速度慢的瓶颈问题。
一、 作者、机构及发表信息
本研究由来自北京工业大学信息学部的赵文兵、贾懋珅和王琪三位学者共同完成。通讯作者为贾懋珅。研究成果以题为《基于压缩感知和音频指纹的固定音频检索方法》的论文形式，于2020年发表在《计算机系统应用》（Computer Systems & Applications）期刊的第29卷第8期，论文编号CN 1003-3254/7577。
二、 研究背景与目的
在数字化信息时代，音频内容的海量增长使得如何从数据库中快速、准确地检索到目标音频成为一个重要且迫切的研究课题。音频检索主要分为基于内容的检索和基于特征相似度匹配的固定音频检索两大类。基于内容的检索技术复杂，多用于人机交互；而固定音频检索技术因其不依赖于语义理解，仅通过比对音频特征来判断相似性，在音乐搜索、版权保护和广告监测等领域应用广泛。
然而，现有的固定音频检索方法在性能上仍有不足。一方面，在构建检索系统前，需要对样本库音频进行特征提取和矢量量化等预处理，这些操作耗时且直接影响检索准确度。另一方面，样本音频特征数据库的存储量是制约检索速率的关键因素之一。尽管音频指纹技术因其数据量小、抗噪性高、提取相对简单等优点受到青睐，但现有方法（如经典的Philips算法、基于人工智能或子指纹计数的方法等）在应对信号速度变化、算法复杂度或检索速率方面仍存在局限。近年来，基于压缩感知梅尔倒谱（CS-MFCC）和子指纹掩码（SM）的检索算法显示出良好效果，但如何进一步高效地压缩特征数据、提升检索效率，仍是值得探索的方向。
鉴于此，本研究旨在提出一种新颖的固定音频检索方法。其核心目标是：在确保较高检索准确率的前提下，通过技术手段显著减小样本音频特征数据库的存储量，从而有效提高音频检索的整体速度。为实现这一目标，研究将压缩感知理论与音频指纹技术相结合，并创新性地引入离散基尼系数用于指纹降维。
三、 研究流程详述
本研究的工作流程清晰分为两大阶段：训练（特征库构建）阶段和检索（识别）阶段。
第一阶段：训练阶段——构建压缩降维的音频特征库
此阶段旨在处理样本音频库，生成一个数据量小、特征有效的检索特征库。具体包含四个核心步骤：
声音预处理：为了更高效地进行后续压缩，首先对原始样本音频信号进行预处理。这包括带通滤波（去除无关频段噪声）、预加重（提升高频分量）、分帧（利用音频短时平稳性，将长信号切分为短帧）、加窗（减少频谱泄漏）以及静音帧判别（剔除不含有效信息的帧）。此步骤为后续处理准备了标准化的音频数据段。
音频信号的压缩处理：这是本研究的第一个关键创新点。针对音频数据量大的问题，研究没有直接提取特征，而是先进行压缩感知处理。首先，研究通过实验验证了音频信号在频域（采用离散余弦变换，DCT）具有稀疏特性，即大部分能量集中在少数频率系数中。基于此，对预处理后的每帧音频信号进行稀疏化处理：保留其在DCT域中能量最大的q个系数，其余置零，得到一个“类q-稀疏”信号。随后，利用一个专门设计的行阶梯观测矩阵对该稀疏信号进行压缩投影。该观测矩阵（如当压缩比n/h=3时）能将相邻的几个采样点合并为一个观测值，在压缩数据量的同时保持了音频的短时平稳性。最终，每帧n维的音频信号被压缩为h维（h）的观测序列信号，显著减少了数据量。
稀疏音频指纹特征提取：对压缩后的观测序列信号进行二次分帧，然后采用具有较高鲁棒性的Philips音频指纹模型来提取特征。具体过程为：对每帧信号进行离散傅里叶变换，将频谱划分为多个等对数间隔的非重叠子带，计算每个子带的能量。通过比较相邻帧间相同子带能量的差分，并根据差分值的正负生成二进制比特（1或0），从而形成每帧的音频子指纹。若划分了M个子带，则每帧生成一个(M-1)维的二进制指纹向量。
音频指纹降维：这是本研究的第二个关键创新点。为进一步压缩指纹数据量，研究提出了一种基于离散基尼系数的指纹降维方法。该方法的核心思想是评估指纹各维度（即二进制向量的每一位）的“区分性”。具体步骤为：首先，将样本库中所有音频的指纹数据分组（如每50帧一组），针对指纹的每一维，计算其在不同音频组间分布的累积数据占比，绘制出该维度的“离散洛伦兹曲线”。然后，基于该曲线计算该维度的离散基尼系数。基尼系数越大，表明不同音频在该维度上的取值差异越大，即该维度的区分性越好、信息越重要；反之，则区分性差。最后，通过统计所有维度的离散基尼系数，保留系数较大（区分性好）的维度，舍弃系数较小（区分性差）的维度，从而实现对音频指纹的进一步降维。例如，原始指纹为32维，经过分析舍弃其中离散基尼系数最小的4维，得到28维的降维指纹。最终，由所有样本音频的降维指纹共同构成用于检索的“音频特征库”。
第二阶段：检索阶段——对待检音频进行匹配
此阶段利用与训练阶段完全相同的算法流程来处理待检音频：即相同的预处理、相同的压缩感知参数（相同的观测矩阵和压缩比）、相同的指纹提取与降维方法（基于相同的离散基尼系数分析保留相同的维度）。得到待检音频的降维指纹特征后，将其与训练阶段构建的样本音频特征库中的指纹进行逐一比对。
匹配相似度采用比特误码率（Bit Error Rate, BER） 作为判据。BER计算的是待检指纹与样本指纹在对应维度上不一致的比特数占总比较比特数的比例。设置一个BER阈值，若计算出的BER值小于该阈值，则判定待检音频与该样本音频高度相似；否则判定为不相似。通过这种方式，得出最终的检索结论。
四、 主要结果与分析
研究通过一系列实验验证了所提方法的有效性，并对关键参数的影响进行了分析。
音频指纹降维可行性分析：研究选取了语音和歌曲两类数据，计算了其音频指纹各维度的离散基尼系数。结果发现，无论测试数据量是250段还是500段，指纹在第2、14、15、25等维度的离散基尼系数始终相对较低。这表明这些维度包含的信息在不同音频间区分度较差，理论上可以去除，从而证实了基于离散基尼系数进行指纹降维是可行且有依据的。
样本压缩比与指纹降维对检索性能的影响：
压缩比选择实验：在不降维的情况下，测试了不同样本压缩比（n/h）对检索查全率和查准率的影响。结果显示，压缩比为2和3时，检索性能（查全率>99%，查准率>97%）接近无压缩（压缩比为1）时的优异水平（接近100%）。当压缩比增至4和5时，性能明显下降。考虑到压缩效率与性能的平衡，研究确定最优样本压缩比为3。
指纹降维选择实验：在不压缩的情况下，测试了不同指纹维数（通过舍弃不同数量的低基尼系数维度获得）对性能的影响。结果显示，指纹从32维降至28维时，仍能保持很高的查全率和查准率（100%和98.5%）；降至26维时性能开始有所下降；降至18维时下降明显。因此，确定最优指纹降维目标为28维。
联合优化实验：综合应用压缩（比=3）和降维（至28维）策略。实验表明，该组合方案在查全率（98.7%）和查准率（97.8%）上仅比最优单因素实验有微小牺牲，但同时实现了数据压缩和特征降维的双重效益，在保证高检索准确率的前提下，最大程度地减小了特征库的存储量。
不同信噪比下的算法性能对比：为了全面评估算法的鲁棒性和优越性，研究在添加了不同强度高斯白噪声（信噪比从40dB到10dB）的测试集上，将本文方法与同期两种性能较好的算法——基于压缩感知梅尔倒谱的检索算法（CS-MFCC）和基于子指纹掩码的音频指纹检索算法（SM）进行了对比。实验数据清晰地表明：
检索性能：在相同信噪比条件下，本文方法的查全率和查准率始终高于或等于CS-MFCC和SM算法。尤其在清洁音频和较高信噪比（40dB, 30dB）环境下，优势更为明显。
鲁棒性：随着信噪比降低，三种算法的性能均有所下降，但下降趋势不同。在信噪比高于20dB时，本文算法与SM算法的鲁棒性相当，均优于CS-MFCC算法。当信噪比低于20dB的恶劣环境时，SM算法的鲁棒性略优于本文算法，CS-MFCC算法则下降最快。总体而言，本文方法在检索性能和鲁棒性之间取得了良好的平衡，综合表现最佳。
五、 结论与价值
本研究成功地提出并验证了一种基于压缩感知和音频指纹降维的固定音频检索新方法。该方法通过将压缩感知技术应用于音频信号前端处理，大幅减少了待处理的数据量；继而通过创新的离散基尼系数分析法对音频指纹进行精准降维，进一步压缩了特征表示。实验结论表明，在选取样本压缩比为3、指纹降至28维的参数组合下，该方法能够在保持较高检索准确率（查全率98.7%，查准率97.8%）的同时，显著降低样本音频特征数据库的存储需求。这不仅直接提升了检索时的匹配速度，也降低了系统对存储资源的占用。
其科学价值在于：为固定音频检索领域提供了一种融合信号压缩（压缩感知）和特征选择（基于信息论的离散基尼系数）的新颖框架，拓宽了音频特征优化设计的思路。应用价值显著：该方法流程相对清晰，匹配算法简单高效，特别适用于需要处理海量音频数据、对检索实时性要求较高的实际场景，如在线音乐识别、广播广告监测、版权侵权排查等。
六、 研究亮点
双重压缩策略：创新性地将“信号层压缩”（压缩感知）与“特征层压缩”（指纹降维）相结合，从两个层面系统性地解决特征库数据量大的问题，构思巧妙。
引入离散基尼系数进行指纹降维：首次将衡量分布不平等程度的基尼系数概念创造性地应用于评估音频指纹各维度的区分性，并据此进行特征选择，方法具有理论依据和新颖性。
参数优化与性能平衡：通过详实的实验，系统分析了压缩比和降维程度对检索性能的影响，找到了最优的参数组合，使方法在压缩率、检索准确率和鲁棒性之间达到了最佳平衡。
综合性能优越：通过与先进算法（CS-MFCC, SM）在多种噪声环境下的对比实验，充分证明了本方法在综合检索性能上的优势，具有较强的实用性和竞争力。
七、 其他
研究使用了爱荷华大学音乐乐器样本库（Iowa-MIS）的数据来验证音频信号的频域稀疏性，为引入压缩感知提供了前提支撑。整个研究流程设计严谨，从理论分析、算法设计到实验验证，环环相扣，结论可靠。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问