分享自:

可替换内部语言模型和残差softmax的端到端自适应ASR模型

期刊:IEEE

本文档属于类型a(单篇原创研究论文),以下是针对该研究的学术报告:


剑桥大学团队提出端到端ASR领域自适应新方法:可替换内部语言模型与残差Softmax

一、作者与发表信息

本研究由Keqi DengPhilip C. Woodland(剑桥大学工程系)合作完成,发表于2023年IEEE国际声学、语音与信号处理会议(ICASSP 2023)。预印本发布于arXiv:2302.08579。

二、学术背景

研究领域:端到端(E2E)自动语音识别(ASR, Automatic Speech Recognition)的领域自适应(Domain Adaptation)。
科学问题:传统E2E ASR模型在训练数据与测试数据领域不匹配时性能显著下降(如从朗读语音LibriSpeech迁移至电话对话Switchboard)。现有方法依赖外部语言模型(LM, Language Model)或重新训练,存在计算成本高、内部LM估计不准确等问题。
研究目标:提出无需外部LM或重新训练的领域自适应方法,通过可替换内部语言模型(RILM, Replaceable Internal LM)残差Softmax(R-Softmax, Residual Softmax),直接调整模型内部组件以适应目标领域。

三、研究方法与流程

  1. 模型架构设计

    • RILM方法:改造Transformer解码器结构,分离内部LM与声学编码器的依赖。
      • 保留最后M层的交叉注意力模块,移除前N层的交叉注意力,使前N层仅作为纯语言模型(如图1a-b)。
      • 通过高速公路连接(Highway Connection)将内部LM输出与注意力模块输出加权融合(公式1:logits = logits_a + β·logits_l)。
    • R-Softmax方法:针对CTC(Connectionist Temporal Classification)模型,通过调整目标域与源域的token频率比(公式2),动态修正输出概率分布,保留[blank]标签的原始概率(公式4-5)。
  2. 实验设置

    • 数据集
      • 训练集:LibriSpeech(960小时朗读语音)。
      • 测试集:
      • 域内:LibriSpeech的test-clean/test-other。
      • 跨域:Switchboard(电话对话)、AESRC2020(带口音英语)。
    • 基线模型
      • Conformer编码器+Transformer解码器(12层编码器,6层解码器)。
      • 强化基线:Wav2Vec2.0预训练编码器替换Conformer。
    • 训练细节
      • 固定内部LM(基于LibriSpeech文本预训练),目标域LM微调5轮。
      • 对比方法:浅融合(Shallow Fusion)和密度比(Density Ratio)。
  3. 数据分析流程

    • 通过词错误率(WER, Word Error Rate)评估性能。
    • 消融实验验证RILM与R-Softmax的独立贡献。

四、主要结果

  1. 域内性能(表1):

    • RILM方法在LibriSpeech上保持或优于基线(Conformer模型test-other WER从6.8%降至6.5%)。
    • Wav2Vec2.0编码器下,RILM显著缓解过拟合(test-clean WER从3.6%降至2.2%)。
  2. 跨域性能(表2-3):

    • AESRC2020:RILM+R-Softmax使Conformer模型WER绝对降低1.0%(dev集14.3%→13.4%)。
    • Switchboard:Wav2Vec2.0模型结合RILM实现17.8% WER(eval2000集),较基线提升0.5%。
    • 消融实验显示RILM与R-Softmax各自贡献约0.5% WER降低。
  3. 对比现有方法(表4):

    • RILM+R-Softmax与依赖外部LM的浅融合、密度比性能相当,但无需额外LM参数。

五、结论与价值

  1. 科学价值

    • 首次实现E2E ASR内部LM的直接替换,突破传统解码流程的复杂性限制。
    • 提出R-Softmax,为CTC模型提供无训练推断阶段领域自适应方案。
  2. 应用价值

    • 适用于医疗、客服等低资源领域场景,仅需目标域文本即可调整模型。
    • 兼容多种架构(CTC、Encoder-Decoder、混合模型)。

六、研究亮点

  1. 方法创新性

    • RILM通过结构解耦实现内部LM“即插即用”。
    • R-Softmax利用频率比动态调整输出分布,保留[blank]标签稳定性。
  2. 性能优势

    • 跨域任务WER提升最高达2.6%(Switchboard),且不牺牲域内性能。

七、其他发现

  • 计算效率:RILM省去外部LM推理开销,解码速度与基线相当。
  • 通用性:Wav2Vec2.0预训练编码器进一步降低领域差异影响。

此研究为E2E ASR的轻量化领域自适应提供了新范式,未来可探索多领域联合优化及低资源语言扩展。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com