可替换内部语言模型和残差softmax的端到端自适应ASR模型

分享自：
可替换内部语言模型和残差softmax的端到端自适应ASR模型

声学
信息科学
期刊:IEEE
本文档属于类型a（单篇原创研究论文），以下是针对该研究的学术报告：
剑桥大学团队提出端到端ASR领域自适应新方法：可替换内部语言模型与残差Softmax一、作者与发表信息本研究由Keqi Deng和Philip C. Woodland（剑桥大学工程系）合作完成，发表于2023年IEEE国际声学、语音与信号处理会议（ICASSP 2023）。预印本发布于arXiv:2302.08579。
二、学术背景研究领域：端到端（E2E）自动语音识别（ASR, Automatic Speech Recognition）的领域自适应（Domain Adaptation）。
 科学问题：传统E2E ASR模型在训练数据与测试数据领域不匹配时性能显著下降（如从朗读语音LibriSpeech迁移至电话对话Switchboard）。现有方法依赖外部语言模型（LM, Language Model）或重新训练，存在计算成本高、内部LM估计不准确等问题。
 研究目标：提出无需外部LM或重新训练的领域自适应方法，通过可替换内部语言模型（RILM, Replaceable Internal LM）和残差Softmax（R-Softmax, Residual Softmax），直接调整模型内部组件以适应目标领域。
三、研究方法与流程模型架构设计
RILM方法：改造Transformer解码器结构，分离内部LM与声学编码器的依赖。
 保留最后M层的交叉注意力模块，移除前N层的交叉注意力，使前N层仅作为纯语言模型（如图1a-b）。
 
通过高速公路连接（Highway Connection）将内部LM输出与注意力模块输出加权融合（公式1：logits = logits_a + β·logits_l）。
 
R-Softmax方法：针对CTC（Connectionist Temporal Classification）模型，通过调整目标域与源域的token频率比（公式2），动态修正输出概率分布，保留[blank]标签的原始概率（公式4-5）。
 
实验设置
数据集：
 训练集：LibriSpeech（960小时朗读语音）。
 
测试集：
 
域内：LibriSpeech的test-clean/test-other。
 
跨域：Switchboard（电话对话）、AESRC2020（带口音英语）。
 
基线模型：
 Conformer编码器+Transformer解码器（12层编码器，6层解码器）。
 
强化基线：Wav2Vec2.0预训练编码器替换Conformer。
 
训练细节：
 固定内部LM（基于LibriSpeech文本预训练），目标域LM微调5轮。
 
对比方法：浅融合（Shallow Fusion）和密度比（Density Ratio）。
 
数据分析流程
通过词错误率（WER, Word Error Rate）评估性能。
 
消融实验验证RILM与R-Softmax的独立贡献。
 
四、主要结果域内性能（表1）：
RILM方法在LibriSpeech上保持或优于基线（Conformer模型test-other WER从6.8%降至6.5%）。
 
Wav2Vec2.0编码器下，RILM显著缓解过拟合（test-clean WER从3.6%降至2.2%）。
 
跨域性能（表2-3）：
AESRC2020：RILM+R-Softmax使Conformer模型WER绝对降低1.0%（dev集14.3%→13.4%）。
 
Switchboard：Wav2Vec2.0模型结合RILM实现17.8% WER（eval2000集），较基线提升0.5%。
 
消融实验显示RILM与R-Softmax各自贡献约0.5% WER降低。
 
对比现有方法（表4）：
RILM+R-Softmax与依赖外部LM的浅融合、密度比性能相当，但无需额外LM参数。
 
五、结论与价值科学价值：
首次实现E2E ASR内部LM的直接替换，突破传统解码流程的复杂性限制。
 
提出R-Softmax，为CTC模型提供无训练推断阶段领域自适应方案。
 
应用价值：
适用于医疗、客服等低资源领域场景，仅需目标域文本即可调整模型。
 
兼容多种架构（CTC、Encoder-Decoder、混合模型）。
 
六、研究亮点方法创新性：
RILM通过结构解耦实现内部LM“即插即用”。
 
R-Softmax利用频率比动态调整输出分布，保留[blank]标签稳定性。
 
性能优势：
跨域任务WER提升最高达2.6%（Switchboard），且不牺牲域内性能。
 
七、其他发现计算效率：RILM省去外部LM推理开销，解码速度与基线相当。
 
通用性：Wav2Vec2.0预训练编码器进一步降低领域差异影响。
 
此研究为E2E ASR的轻量化领域自适应提供了新范式，未来可探索多领域联合优化及低资源语言扩展。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问