类型a:学术研究报告
由Zhaopin Su、Mengke Li、Guofu Zhang、Qinfang Wu、Miqing Li、Weiming Zhang和Xin Yao共同完成的研究论文《Robust Audio Copy-Move Forgery Detection Using Constant Q Spectral Sketches and GA-SVM》发表在2023年9月/10月的《IEEE Transactions on Dependable and Secure Computing》期刊上。该研究团队来自合肥工业大学计算机与信息工程学院、安徽省智能互联系统实验室、知识工程与大数据教育部重点实验室、安徽省工业安全与应急技术重点实验室,以及英国伯明翰大学、中国科学技术大学和南方科技大学等机构。
这项研究属于音频取证(audio forensics)领域,具体针对音频复制-移动篡改检测(copy-move forgery detection, CMFD)这一挑战性问题。随着数字录音作为法律证据的重要性日益增加,验证录音是否被篡改成为迫切需求。现有方法大多需要理想化的预分割和人工阈值选择,特别是在高频词检测时容易产生严重误导。本研究旨在开发一种鲁棒的检测方法,避免这些限制并提高检测效率。
研究流程包含三个主要步骤:首先,通过平均对数平方幅度恒定Q变换(constant Q transform, CQT)提取恒定Q频谱草图(constant Q spectral sketches, CQSS)特征;其次,设计定制遗传算法(genetic algorithm, GA)结合支持向量机(support vector machine, SVM)自动优化CQSS特征子集;最后,评估所提出的CQSS-GA-SVM方法在真实世界英语和汉语语料库上的性能。
在特征提取阶段,研究人员对时域信号x(n)依次进行:1) 预加重滤波(pre-emphasis filtering)以放大高频;2) 使用可变长度汉明窗(Hamming window)进行CQT计算;3) 计算功率谱(power spectrum);4) 取对数分离高低频分量;5) 计算各频率bin(频段)所有帧的平均值作为最终CQSS特征。统计分析显示,相比传统CQCC特征,CQSS能更敏感地捕捉音频篡改的细微变化。
特征选择阶段采用定制GA算法,主要创新点包括:1) 固定基因数量k’的编码方案;2) 专为保持k’设计的均匀交叉(uniform crossover)和交换变异(swap mutation)操作;3) 以SVM分类准确率作为适应度函数。该算法在每次迭代中:1) 解码个体获得特征子集;2) 用训练集训练SVM;3) 在测试集上评估性能;4) 通过选择、交叉和变异产生新种群;5) 环境选择保留优秀个体。最终同时获得最优特征子集和分类模型。
实验验证部分使用LibriSpeech英语和ChinSpeech汉语数据集,各包含2800条10秒录音。测试内容包括:1) 不同特征数量k’(398/299/199/159/100)的比较;2) 抗反取证攻击(MP3压缩、高斯噪声、重采样、低通滤波)能力;3) 不同复制片段时长(0.1-0.4秒)的适应性;4) 训练集规模影响;5) 篡改定位性能。结果表明,CQSS-299在各项测试中表现最优,平均检测准确率达97.2%,显著优于PS-PCC、DFT-PCC等现有方法。特别是在60秒长录音中,能准确定位10秒的篡改片段,而对比方法PS-FS-DTW完全失效。
研究结论表明,CQSS-GA-SVM方法具有三大价值:1) 科学价值:首次将CQSS特征与嵌入式特征选择相结合,为音频取证提供新思路;2) 技术价值:解决现有方法依赖预分割和人工阈值的关键局限;3) 应用价值:可批量处理录音并精确定位篡改,提升司法取证效率。计算复杂度分析显示,虽然训练过程需要15分钟至2小时(取决于k’),但检测1000条录音仅需0.17秒,具有实际应用可行性。
该研究的突出创新点包括:1) 提出对音频篡改敏感的CQSS特征;2) 开发保证固定特征数量的定制GA算法;3) 实现端到端的自动检测与定位系统。实验证实该方法对后期处理攻击、不同篡改时长、多种语言等复杂场景均具有鲁棒性。未来可进一步研究更精确的定位算法,以及CQSS特征在其他音频篡改类型中的应用。