关于《采用对抗样本生成的语音匿名化》研究的学术报告
本研究由杭州电子科技大学通信工程学院的闫铎文、简志华与蔡逸共同完成,论文《采用对抗样本生成的语音匿名化》发表于《声学学报》(acta acustica),网络首发时间为2025年12月26日。
一、 研究的学术背景
本研究的核心科学领域是语音信号处理中的隐私保护,具体聚焦于语音匿名化技术。随着社交媒体与语音交互技术的普及,海量语音数据在互联网上流通,这些数据中蕴含的说话人身份、年龄、性别乃至健康状况等个人隐私信息面临着被恶意攻击者提取和滥用的风险。在诸多隐私信息中,说话人身份信息尤为关键,因其能够作为标识将其他敏感信息与特定个体关联,从而导致诈骗等严重犯罪行为。因此,如何有效保护语音中的说话人身份信息,成为一项重要的研究课题。
语音匿名化技术旨在解决这一矛盾:它需要将原始语音转换为匿名化语音,在有效隐藏原说话人身份信息的同时,尽可能保留语音中的语言内容、韵律等信息,以确保匿名化后的语音在语音识别(Automatic Speech Recognition, ASR)、情感识别等下游任务中依然具有可用性。然而,现有的语音匿名化方法在鲁棒性与可用性方面存在显著挑战。一方面,许多方法(如直接修改音调、频谱包络)对语音的修改较为表层,或在修改说话人特征(如X-vector)时未能彻底消除与原说话人的关联,导致在面对掌握匿名化系统先验知识的强大攻击者(如“半知情攻击”)时,匿名化鲁棒性不足,身份信息仍有泄露风险。另一方面,一些旨在提升鲁棒性的方法(如使用生成对抗网络或聚类中心随机化),由于在特征提取过程中说话人信息与内容、韵律信息难以完全解耦,对说话人特征的较大修改往往会破坏语音中的有用信息,从而损害下游任务的可用性。针对这些核心问题,本研究旨在提出一种新的语音匿名化方法,以期在显著提升匿名化鲁棒性(特别是在最强的半知情攻击场景下)的同时,最大限度地保护匿名化语音在下游任务中的可用性。
二、 研究的详细工作流程
本研究提出了一种名为“采用对抗样本生成的说话人身份匿名化”(Adversarial Sample Generation for Speaker Anonymization, ASG-SA)的方法。其整体系统框架包含三个主要模块:特征提取模块、匿名化模块和语音合成模块。整个研究流程严谨,包含了数据准备、模型构建、对抗样本生成、实验评估等多个环节。
1. 特征提取模块:
此模块负责从原始语音中提取用于后续匿名化和重新合成的各种特征。研究使用了来自2024语音隐私挑战赛(Voice-Privacy-Challenge-2024, VPC2024)的公开数据集,包括用于开发和测试的LibriSpeech-dev-clean、LibriSpeech-test-clean、IEMOCAP数据集,以及用于模型训练和攻击者模型微调的LibriSpeech-train-clean-360数据集。这些数据集总计包含数百位说话人、数百小时的语音数据,确保了实验的广泛性和可靠性。具体的特征提取包括:
- 音素序列:采用一个具有连接时序分类(Connectionist Temporal Classification, CTC)和注意力机制混合架构的自动语音识别(ASR)模型提取,该模型在LibriTTS数据集上进行了预训练。
- 基音频率(F0):使用Praat语音分析工具箱提取。
- 说话人特征:采用自适应全局风格令牌(Adapted Global Style Tokens, AGST)模型提取全局风格令牌(Global Style Tokens, GST)向量。GST向量被选作代表说话人身份的核心特征。
2. 匿名化模块(核心创新):
这是ASG-SA方法的核心,其目标是通过迭代生成对抗样本,对提取出的GST说话人特征进行“最小化但高效”的修改。该模块包含一个精心设计的ResNet说话人分类器、一套复合损失函数以及一个基于自适应矩估计(Adam)的对抗样本生成器。
- ResNet说话人分类器:这是一个深度残差网络,集成了初始卷积层、4个残差块、一个自注意力模块和5个全连接层。其作用是将输入的GST向量映射为一个概率分布,预测其属于各个已知说话人类别的概率。该分类器在包含921位说话人的训练集上进行了专门训练,以确保其分类准确性。残差结构保证了深层特征的有效提取,而自注意力机制则增强了特征的全局表示能力。
- 损失函数设计:为引导对抗样本的生成,研究者定义了两种损失函数。
- 目标损失函数(L_tgt):计算ResNet分类器输出的预测概率分布
p与一个随机生成的“匿名化目标概率分布s”之间的交叉熵(Cross-Entropy)损失。目标分布s通过随机选择一个伪说话人并赋予其高概率(同时加入随机因子增加多样性),而将其余概率均匀分配给其他说话人的方式生成。此损失函数的目标是驱使修改后的特征被分类器识别为另一个(伪)说话人,从而实现身份隐藏。 - 距离损失函数(L_dist):计算生成的对抗样本
g_adv与原始GST向量g之间的L1距离和L0距离的加权和。L1距离约束了扰动添加的总量,L0距离约束了被修改的特征元素的数量。此损失函数的目标是限制对抗性扰动的幅度和稀疏性,确保只对GST向量中影响说话人分类最关键的部分进行最小程度的修改,从而保护其他有用信息。 - 总损失函数
L_total是上述两者的线性组合,通过超参数平衡匿名化目标与特征保留目标。
- 目标损失函数(L_tgt):计算ResNet分类器输出的预测概率分布
- Adam对抗样本生成器(关键算法):这是一个迭代优化过程(详见论文算法1)。流程如下:
- 初始化:将原始GST向量
g作为初始对抗样本g_adv。 - 迭代循环:
a. 将当前g_adv输入ResNet分类器,得到概率分布p。
b. 根据p、目标分布s和原始g计算总损失L_total。
c. 使用Adam优化器计算L_total关于g_adv中各元素的梯度。Adam利用梯度的一阶矩和二阶矩估计,能自适应地调整各维度的更新步长,使优化过程更高效、稳定。
d. 根据修正后的梯度信息计算一个对抗性扰动Δg_adv,并将其加到当前的g_adv上,得到更新后的对抗样本。 - 终止条件:当总损失函数的梯度范数小于预设的微小常数γ时,迭代停止。此时得到的最终对抗样本
g_final_adv即为匿名化后的说话人特征。这个过程确保了在梯度收敛时,对抗样本已经达到了既显著改变分类结果(高L_tgt),又对原始特征改动最小(低L_dist)的平衡状态。
- 初始化:将原始GST向量
3. 语音合成模块:
将匿名化模块输出的最终对抗样本g_final_adv,连同之前提取的音素序列和基音频率(F0),一起输入到FastSpeech2声学模型中,生成匿名化语音的梅尔语谱图。最后,使用HiFi-GAN声码器将梅尔语谱图还原为时域的匿名化语音波形。FastSpeech2和HiFi-GAN均在LibriTTS数据集上进行了预训练,以确保高质量的语音合成。
4. 实验评估流程:
为全面评估ASG-SA系统的性能,研究严格遵循VPC2024的评估方案,设置了系统的对比实验和消融实验。
- 评估指标与场景:
- 匿名化鲁棒性:以说话人识别的等错误率(Equal Error Rate, EER)来衡量。EER越低,说明攻击者越容易识别说话人,匿名化效果越差;EER越高,则匿名化鲁棒性越好。测试了四种攻击场景:未保护、不知情、略微知情和最强的半知情攻击。在半知情场景中,攻击者使用大量匿名化语音微调过的ASV模型(ASV_anon)和匿名化注册语音,拥有最多的先验知识。
- 下游任务可用性:以语音识别的词错误率(Word Error Rate, WER)和情感识别的未加权平均召回率(Unweighted Average Recall, UAR)来衡量。WER越低,UAR越高,说明匿名化语音的可用性越好。
- 对比系统:选择了VPC2024的多个基线系统进行对比,包括B1、B3、B6以及当时的最先进(State-of-the-Art, SOTA)系统S1,这些系统在架构上与ASG-SA具有可比性。
- 消融实验:为验证ASG-SA系统中各个关键组件的有效性,设计了三种消融实验:(1) 用随机森林(RandomForest)分类器替代ResNet分类器(Variant with RF);(2) 用均方误差(Mean Squared Error, MSE)和L2损失替代交叉熵和L1损失(Variant with MSE);(3) 用基本迭代法(Basic Iterative Method, BIM)替代Adam优化器生成对抗样本(Variant with BIM)。
三、 研究的主要结果
实验数据有力地支持了ASG-SA方法的优越性,具体体现在匿名化鲁棒性和下游任务可用性两个维度上。
1. 匿名化鲁棒性结果:
在半知情攻击场景(最强攻击)下,ASG-SA系统取得了卓越的匿名化效果。其整体EER均值达到26.30%。与基线系统对比:显著优于B1基线(7.64%);与性能较好的B3(26.28%)、B6(22.10%)基线相比表现更优或相当;与当时的SOTA系统S1(26.66%)相比,性能处于同一水平,甚至在部分子测试集(如test-f, 28.79% vs 28.47%)上略有优势。这表明ASG-SA方法能够有效应对掌握大量先验知识的强大攻击者,极大地提高了身份信息泄露的难度。
进一步分析四种攻击场景下的EER:在“未保护”场景下,EER均值仅为5.66%,说明原始语音极易被识别。经过ASG-SA匿名化后,在“不知情”和“略微知情”攻击下,EER分别飙升至46.89% 和45.71%,匿名化效果极其显著。即使在最严苛的“半知情”攻击下,EER仍能保持在26.30% 的高位。这系列数据清晰地证明,ASG-SA系统在不同强度的攻击下均能提供有效的身份保护,鲁棒性全面且强劲。
2. 下游任务可用性结果:
在保护可用性方面,ASG-SA同样表现出色。
- 语音识别(WER):ASG-SA系统的WER均值为4.25%。虽然略高于鲁棒性很差的B1系统(2.91%),但在所有匿名化鲁棒性强的对比系统中(B3: 4.33%, B6: 9.39%, S1: 4.22%),其WER是最低或接近最低的。特别是相比B6系统,WER降低了超过5个百分点,这意味着ASG-SA在实现强匿名化的同时,更好地保留了语音内容信息。
- 情感识别(UAR):ASG-SA系统的UAR均值为40.18%。高于B3(37.83%)、B6(36.26%)和S1(37.84%)系统,在所有高鲁棒性系统中排名第一。这表明ASG-SA匿名化语音在情感识别任务上具有更好的可用性。
3. 消融实验结果:
消融实验的数据从反面印证了ASG-SA设计选择的正确性和必要性。
- 在半知情攻击的EER上,三个消融系统(Variant with RF: 20.26%, Variant with MSE: 16.50%, Variant with BIM: 20.51%)均显著低于完整的ASG-SA系统(26.30%)。这说明ResNet分类器更强的特征提取与分类能力、交叉熵与L1损失函数组合对匿名化目标的精确引导、以及Adam优化器高效稳定的对抗样本生成过程,三者对于达成高鲁棒性都至关重要。
- 在下游任务可用性上,消融系统的WER普遍更高(Variant with RF: 4.87%, Variant with MSE: 4.87%, Variant with BIM: 4.49% vs ASG-SA: 4.25%),UAR普遍更低或相当。这进一步表明,ASG-SA的完整设计在追求高鲁棒性的过程中,对可用性的损害控制得最好。
4. 特征空间可视化结果:
通过t-SNE技术对匿名化前后说话人特征分布进行可视化。结果显示,ASG-SA系统生成的匿名化特征(方块)与其对应的原始特征(同色圆圈)在空间中的距离,比B1、B3、B6和S1系统更近。这直观地证明ASG-SA方法确实实现了“最小化修改”。匿名化特征没有聚集到某个特定区域,而是保持了相对分散和原始的空间结构,这从几何角度解释了其为何能在强力修改分类结果(高EER)的同时,仍能较好地保留用于其他任务的语音信息(低WER, 高UAR)。
四、 研究的结论与价值
本研究的核心结论是:提出的ASG-SA语音匿名化方法,通过利用Adam迭代生成对抗样本修改说话人特征,成功地在一个统一的框架内,实现了匿名化鲁棒性与下游任务可用性的高效平衡。该方法能够有效抵御包括半知情攻击在内的多种强度攻击,显著隐藏说话人身份;同时,由于其对抗性扰动被限制在最小必要范围内,最大程度地保全了语音的语言内容和韵律信息,使得匿名化语音在语音识别和情感识别等实际应用中依然可用。
其科学价值在于:为语音隐私保护领域提供了一种新颖且有效的技术思路。它将对抗样本生成这一常用于攻击机器学习模型的概念,创造性地应用于隐私保护场景,通过“以攻为守”的策略,实现了对身份特征的精准、可控修改。该方法揭示了在特征层面进行“最小足够扰动”以实现特定目标(如改变分类)同时保留其他属性的可行性。
其应用价值显著:随着《通用数据保护条例》(GDPR)等数据隐私法规的出台和用户隐私意识的增强,如何在利用语音数据驱动人工智能应用(如智能助理、情感计算、医疗诊断)的同时保护用户隐私,已成为产业界亟待解决的现实问题。ASG-SA方法为解决这一矛盾提供了具有潜力的技术方案,有助于推动隐私保护前提下语音数据的合法、合规共享与利用。
五、 研究的亮点
- 创新性方法:首次将对抗样本生成技术系统性地应用于语音匿名化任务,通过迭代优化对抗性扰动来实现说话人身份的隐藏,方法具有原创性。
- 双目标优化:通过精心设计的复合损失函数(交叉熵目标损失 + L1/L0距离损失),明确且巧妙地同时优化“改变说话人分类”和“最小化特征修改”这两个看似矛盾的目标,理论框架清晰。
- 卓越的性能平衡:在最具挑战性的半知情攻击场景下,达到了与当时SOTA系统相当的匿名化鲁棒性(~26% EER),同时在语音识别和情感识别任务上取得了优于或堪比其他高鲁棒性系统的可用性指标,实现了鲁棒性与可用性的“双赢”。
- 严谨的验证体系:严格遵循国际公认的VPC2024挑战赛评估标准,使用其官方数据集、模型和基线进行对比,并设计了系统的消融实验,实验结果可信度高,对比分析透彻。
- 深入的可解释性分析:不仅提供了数值指标,还通过t-SNE特征空间可视化,直观展示了方法“最小化修改”的特性,增强了结果的可理解性和说服力。
六、 其他有价值内容
论文还对语音匿名化领域的相关研究工作进行了系统的梳理,将现有方法分为“无需提取说话人身份特征”和“基于说话人身份特征”两大类,并指出了各类方法的优缺点,这为读者理解该研究工作的定位和贡献提供了清晰的学术背景。此外,论文详细阐述了四种攻击场景(未保护、不知情、略微知情、半知情)的定义和区别,这对于正确理解和评估语音匿名化技术的鲁棒性至关重要。