分享自:

基于聚类引导的无监督领域自适应深度说话人嵌入方法

期刊:journal of latex class files

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


作者及机构
本研究由Haiquan Mao(中国科学院声学研究所/中国科学院大学)、Feng Hong(IEEE会员,香港理工大学深圳研究院/中国科学院声学研究所)和Man-Wai Mak(IEEE高级会员,香港理工大学电子与信息工程系)共同完成,发表于《Journal of LaTeX Class Files》2023年3月的预印本(arXiv:2303.15944v1)。

学术背景
研究领域为说话人验证(speaker verification),核心问题是无监督域适应(Unsupervised Domain Adaptation, UDA)。传统深度说话人嵌入模型依赖大量标注数据,但跨领域(如从英语数据集VoxCeleb2迁移到中文数据集CN-Celeb1)时性能显著下降。现有方法如对比自监督学习(Contrastive Self-Supervised Learning, CSL)受限于批次大小和缺乏说话人身份信息,而基于聚类的方法因伪标签噪声(pseudo-label noise)和聚类数不确定性问题效果有限。本研究旨在提出一种聚类引导的UDA框架,通过改进聚类质量和联合训练策略提升目标域性能。

研究流程
1. 预训练阶段
- 数据:源域为VoxCeleb2(5,994说话人,百万条语音),目标域为CN-Celeb1(797训练说话人,未使用标签)。
- 方法:联合优化源域的说话人分类损失(lsc,采用AAM-Softmax损失)和目标域的对比损失(lct,基于余弦相似度)。网络架构为ECAPA-TDNN(通道数1,024,嵌入维度192),输入为80维Mel谱图,分段增强以模拟信道变化。

  1. 聚类优化阶段

    • 关键创新:提出对比中心损失(Contrastive Center Loss, lcc),通过K-means生成伪中心后,拉近嵌入与所属中心距离,同时推远其他中心。公式为:
      $$l{cc} = -\frac{1}{n}\sum{i=1}^n \log \frac{s(ei, c{yi})}{\sum{k=1}^K s(e_i, c_k)}$$
      其中$s(\cdot)$为余弦相似度,$K$为聚类数(默认800)。
    • 动态更新:每5个epoch重新聚类,联合损失(ljoint = lsc + αlct + βlcc)微调网络,提升嵌入空间的聚类友好性。
  2. 联合训练阶段

    • 数据合并:将VoxCeleb2的真标签与CN-Celeb1的伪标签结合,总类别数扩展至6,794(5,994 + 800)。
    • 监督训练:训练新网络fθ,通过交叉熵损失优化,降低伪标签噪声比例的影响。

主要结果
1. 聚类质量提升
- 对比中心损失使聚类纯度(purity)从0.658(仅lct)提升至0.829,标准化互信息(NMI)从0.804增至0.898。内部指标Calinski-Harabasz指数(CH)和轮廓系数(SS)分别提高至137.544和0.185(表II)。
- 图2显示,微调过程中等错误率(EER)从10.30%降至9.48%,验证了lcc对性能和聚类能力的双重提升。

  1. 领域适应性能
    • 在CN-Celeb1测试集(200说话人,348万对 trial)上,EER达8.10%(表III),较基线(VoxCeleb2监督训练,EER=13.40%)提升39.6%,且接近使用真标签联合训练的“理论上限”(EER=8.05%)。
    • 聚类数敏感性实验表明,即使K偏离真实说话人数(K=400/1600),性能仍优于基线(EER=8.38%/8.99%),证明方法鲁棒性。

结论与价值
1. 科学价值
- 提出首个结合对比中心损失和聚类引导的UDA框架,解决了伪标签噪声和聚类数不确定性的关键挑战。
- 通过联合优化分类损失与对比损失,实现了跨领域说话人嵌入的判别性和聚类友好性的平衡。

  1. 应用价值
    • 为低资源语言(如中文)的说话人验证提供实用方案,无需目标域标注数据即可接近全监督性能。
    • 方法可扩展至其他语音任务(如语音分离)或跨模态域适应场景。

研究亮点
1. 对比中心损失:首次将中心对比思想引入说话人聚类,通过动态更新中心提升嵌入空间可分性。
2. 两阶段训练策略:分离聚类优化与监督训练,有效抑制伪标签噪声传播。
3. 性能突破:在CN-Celeb1上创UDA领域新纪录(EER=8.10%),代码已开源。

其他发现
- 数据增强(加噪、混响)和分段截取策略对CSL效果至关重要,避免了GPU内存限制下的批次大小不足问题。
- 余弦相似度在K-means和损失计算中均优于欧氏距离,与AAM-Softmax的边际优化目标一致。


(注:报告共约1,500字,完整覆盖研究全流程与创新点,符合学术报告规范。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com