基于多任务学习和知识蒸馏的多模态蒙古语端到端语音翻译

学术研究报告：基于多任务学习和知识蒸馏的多模态蒙古语端到端语音翻译

一、作者信息与发表情况
本研究的主要作者为臧日成、高光来和飞龙。他们均来自内蒙古大学，隶属机构包括内蒙古大学计算机学院（软件学院）、内蒙古大学蒙古文智能信息处理技术国家地方联合工程研究中心以及内蒙古自治区多语种人工智能技术重点实验室。
该研究成果以题为“基于多任务学习和知识蒸馏的多模态蒙古语端到端的语音翻译”的学术论文形式发表。该论文刊登于中文期刊《计算机工程与科学》（Computer Engineering & Science）第47卷第12期，于2025年12月正式出版。

二、研究背景与目标
本研究属于自然语言处理与语音技术交叉领域，具体聚焦于端到端语音翻译（End-to-End Speech Translation）这一前沿方向。端到端语音翻译旨在将源语言语音直接转换为目标语言文本或语音，相较于传统的级联式系统（串联自动语音识别、机器翻译和语音合成模块），具有模型结构紧凑、延迟低、错误累积少的优势，近年来在多个领域取得了显著进展。
然而，在资源稀缺的语种，特别是蒙古语的语音翻译任务上，性能表现仍有待提升。核心挑战在于：其一，高质量的蒙汉双语语音翻译平行数据集极度稀缺，严重制约了深度学习模型的训练；其二，语音信号与文本之间存在着显著的“模态差异”，即它们在数据分布和特征表示上存在巨大鸿沟，使得直接应用成熟文本翻译模型变得困难。
鉴于此，本研究旨在解决蒙古语端到端语音翻译面临的上述难题。其核心目标包括：1）构建一个大规模、高质量的蒙汉语音翻译数据集，为后续研究提供数据基础；2）设计并实现一个能够有效缩小语音-文本模态差异、并充分利用有限数据的端到端语音翻译模型；3）最终实现从蒙古语语音到汉语语音（Speech-to-Speech）的完整多模态翻译流程。研究旨在通过引入联合学习（多任务学习）、知识蒸馏和模态对齐等先进技术，显著提升蒙古语语音翻译的准确性和鲁棒性。

三、详细研究流程
本研究的工作流程系统性地涵盖了数据构建、模型设计、实验验证与分析等多个环节。

3.1 数据集的构建与处理（第一项核心工作）
研究首先着手解决数据稀缺问题，其构建流程包含四个关键步骤：

数据集本体构建：研究团队收集了约10，000条蒙汉语对应的视频数据对，总时长约100小时。为确保数据的多样性和质量，每条蒙汉语句对均由6人参与录制（蒙古语3人，汉语3人），形成包含3条蒙古语视频和3条对应汉语视频的数据单元。
数据集扩充：为了进一步增加训练数据量，研究利用已有的蒙古语语音合成数据集进行扩充。具体方法是通过一个部署好的机器翻译模型，将该数据集中的蒙古语文本翻译为汉语文本，从而人工构造出约80小时的“伪”平行语音翻译数据（语音-翻译文本对）。这使得总训练数据得到显著扩充。
数据清洗：为保证数据质量，研究采用蒙古语和中文的语音识别模型对原始录制的音频进行自动识别。通过对比识别结果与原始文本，丢弃识别率较低的音频片段，筛选出高质量的语音数据用于训练。
蒙古文文本处理：针对蒙古文构词复杂（通过后缀派生）可能导致的数据稀疏问题，研究将传统蒙古文转写为拉丁文，并执行后缀分割，得到拉丁词素序列作为模型的文本输入，以缓解词汇表膨胀和未登录词问题。
最终，处理后的数据集被划分为160小时的训练集、10小时的验证集和10小时的测试集。同时，与语音数据对应的平行文本数据也被单独整理出来，用于模型的多任务学习训练。

3.2 模型架构与方法论（第二、三、四项核心工作）
本研究提出了一种创新的多模态端到端语音翻译模型框架，其核心由以下几个关键技术模块构成：

联合学习（多任务学习）框架：这是模型的基础架构。研究设计了一个共享参数的模型，同时进行语音翻译（输入为蒙古语语音，输出为汉语文本）和机器翻译（输入为蒙古语文本，输出为汉语文本）两个任务。具体而言，模型包含一个语音编码器、一个文本编码器和一个共享的解码器。其中，文本编码器的全部6层Transformer结构与语音编码器的前6层共享参数。这种设计强制模型在编码器底层学习语音和文本之间的共性表示，从而促进从数据相对丰富的机器翻译任务向数据稀缺的语音翻译任务进行知识迁移。模型初始化时，使用在外部蒙汉文本数据上预训练好的机器翻译模型参数来初始化共享模块（文本编码器和共享的解码器），为模型提供一个良好的起点。
交叉注意力正则化：为直接应对并缩小语音与文本的模态差异，研究提出采用交叉注意力正则化方法。其原理是，对于同一个语义内容，分别通过语音编码器和文本编码器得到两个长度不同的特征序列。通过计算这两个序列之间的余弦相似度矩阵，并利用该矩阵对文本编码器的输出进行“重构”，得到一个与语音编码器输出序列长度对齐的“文本重构序列”。同时，文本编码器的输出也通过自注意力机制进行“自重构”。模型训练时，引入一个额外的损失项——计算“语音引导的文本重构序列”与“文本自重构序列”之间的L2距离。该损失项的目的是鼓励语音编码器产生的特征表示，在经过对齐和重构后，能够尽可能接近更准确、更干净的文本编码器特征表示，从而在表示层面对齐两种模态。
动态知识蒸馏：为了进一步利用强大的机器翻译模型作为“教师”来指导“学生”语音翻译模型，研究引入了在线知识蒸馏技术。在联合训练过程中，机器翻译模型（教师）会根据文本输入产生目标词的概率分布。语音翻译模型（学生）则被训练，使其输出的概率分布不仅要拟合真实的翻译标签（通过负对数似然损失），还要拟合教师模型产生的“软标签”（通过知识蒸馏损失）。关键在于，这里的教师模型（即共享的机器翻译模块）的参数是在多任务学习中动态更新的，而非固定不变，这使得知识传递过程更为持续和有效。
语音合成模块集成：为实现完整的语音到语音翻译，研究在文本翻译模块之后集成了一个汉语语音合成模块。该模块采用基于变分适配器的方案，在训练时直接从真实汉语语音中提取时长、音高和能量等声学特征作为条件输入，并训练相应的预测器；在推理时，则使用预测器预测的声学特征来生成最终的目标汉语语音波形。
模型的总体损失函数是上述各部分的加权和，包括语音翻译的负对数似然损失、交叉注意力正则化损失和知识蒸馏损失。

3.3 实验设置与对比分析

模型设置：语音编码器为12层Transformer，文本编码器为6层Transformer，解码器为6层Transformer。共享策略如前所述。使用Adam优化器，并设置了详细的学习率预热、丢失和标签平滑等超参数。
对比实验：为验证模型有效性，研究选择了三个基线模型进行对比：1）Cascaded-ST：传统的级联系统（语音识别+机器翻译）；2）HuBERT-Transformer：采用自监督预训练语音模型HuBERT作为编码器，并用预训练机器翻译模型初始化的端到端模型；3）STEMM：一种通过语音-文本表示混合来学习模态间映射的先进模型。评估指标采用业界通用的BLEU分数（衡量翻译文本准确性）和平均意见得分MOS（通过人工听力测试评估合成语音自然度，1-5分）。
消融实验：为剖析各技术模块的贡献，研究设计了系统的消融实验。以HuBERT-Transformer为基线，逐步添加联合学习、交叉注意力正则化和知识蒸馏模块，观察BLEU分数的变化。
模块关键性分析：研究进一步设计了微调分析实验，通过参数插值等方法，量化分析了在联合学习框架下，使用机器翻译任务初始化共享参数相较于使用语音识别任务初始化的优势，并探查了不同网络层对最终性能的关键性影响。

四、主要研究结果
实验部分产出了一系列明确且相互印证的结果，有力地支持了本研究提出的方法。
4.1 整体性能对比结果
如表1所示，本研究提出的完整模型（“Ours(经机器翻译外部数据训练)”）在测试集上取得了最佳的BLEU分数23.72和MOS分数3.51。它不仅显著超越了传统级联系统（Cascaded-ST， BLEU 20.82），也优于当前先进的端到端对比模型HuBERT-Transformer（BLEU 21.64）和STEMM（BLEU 22.95）。这直接证明了本研究所提融合框架在蒙古语语音翻译任务上的有效性。值得注意的是，即使不使用外部机器翻译数据预训练（“Ours(未经机器翻译外部数据训练)”），仅使用本研究构建的数据集，模型也能达到23.53的BLEU，仍然优于所有对比模型，凸显了模型框架本身的设计优势。
4.2 消融实验结果分析
消融实验的结果（表2）清晰地揭示了各技术模块的增量贡献：

在基线（HuBERT-Transformer， BLEU 21.64）上加入联合学习策略后，BLEU提升至22.98。这说明通过共享参数进行多任务学习，有效促进了机器翻译任务的知识向语音翻译任务迁移。
进一步加入交叉注意力正则化后，BLEU提升至23.21。这表明显式地对齐语音和文本的模态表示，对于缩小模态差异、提升翻译性能具有积极作用。
最后，引入动态知识蒸馏，将BLEU进一步提升到最高的23.72。这验证了利用动态更新的教师模型进行软目标指导，能够进一步提炼和提升学生模型的性能。
这一系列递进式的性能提升，在逻辑上完整地验证了本研究核心方法论（联合学习 + 模态对齐 + 知识蒸馏）的合理性和必要性。
4.3 模块关键性分析结果
该部分实验得出了两个重要结论：首先，模型顶层（编码器高层和解码器）的参数对最终性能最为关键。其次，也是更重要的发现是：在联合学习框架下，使用预训练的机器翻译模型参数来初始化共享模块，远比使用语音识别模型参数初始化更有效。具体数据显示，当用语音识别模型参数替换顶层编码器参数时，BLEU下降高达20.1分；而用机器翻译模型参数替换时，下降仅为10.0分。这从机理上解释了为什么本研究的联合学习策略能成功——它使得语音翻译模型能够继承并利用机器翻译模型中已经学习到的、强大的语言理解和生成能力，这对于数据稀缺的语音翻译任务至关重要。这一发现为未来类似研究提供了重要的设计指导。

五、研究结论与价值
本研究成功实现并验证了一个高性能的蒙语端到端语音翻译系统。主要结论如下：1）通过系统地收集、扩充和清洗，构建了一个可用于训练的大规模蒙汉语音翻译数据集，填补了该领域的资源空白。2）提出并实现了一个融合联合学习、交叉注意力正则化和动态知识蒸馏的端到端语音翻译模型。该模型能有效利用文本翻译任务的知识、缩小语音-文本模态差异，从而在数据有限的条件下显著提升翻译性能。3）实验证明，该模型在翻译准确率（BLEU）上相较于直接训练的基线模型有近2.00分的显著提升，并优于其他先进对比模型。4）通过模块分析，从实证角度揭示了利用机器翻译任务初始化对提升语音翻译性能的关键作用。
本研究的价值体现在：科学价值方面，它为解决低资源语言、特别是类似蒙古语这样具有独特文字特性的语言的语音翻译问题，提供了一个行之有效的技术框架和方法论范例。其关于模态对齐、知识迁移和多任务协同训练的研究，对跨模态人工智能领域具有普适的参考意义。应用价值方面，该研究直接推动了蒙古语人工智能技术的发展，其成果可应用于跨语言通信、多媒体内容访问（如蒙古语视频自动生成中文字幕和配音）、智慧旅游、在线教育等多个实际场景，对于促进民族文化传播和消除语言障碍具有积极的社会意义。

六、研究亮点
本研究的亮点突出表现在以下几个方面：

问题导向的创新性：精准定位蒙古语语音翻译的核心痛点（数据稀缺、模态差异），并提出一套组合式的解决方案，而非简单套用现有方法。
技术融合的巧妙性：将联合学习（多任务学习）、交叉注意力正则化和动态知识蒸馏三种技术有机融合在一个统一的框架内，三者分别从参数共享、表示对齐和概率分布模仿三个不同层面协同作用，共同提升模型性能。
数据工作的基础性：研究不仅关注模型算法，还投入大量精力进行底层数据集的构建与处理工作，包括多说话人录制、数据扩充、质量清洗以及针对蒙古文的特殊文本处理，为整个研究的可靠性奠定了坚实基础。
分析工作的深刻性：不仅通过对比和消融实验证明了方法有效，还进一步通过模块关键性分析，深入揭示了模型内部的工作机理（如机器翻译初始化的重要性），使研究结论更加坚实和具有启发性。
完整的系统实现：研究最终集成了语音合成模块，实现了从蒙古语语音到汉语语音的完整端到端多模态翻译流程，展示了其作为一个完整应用系统的潜力。

七、其他有价值内容
论文在引言和相关工作部分，对端到端语音翻译的发展脉络、与传统级联系统的优劣对比、以及多任务学习在该领域的不同应用策略（如“一对多”、“多对一”共享策略）进行了清晰的梳理，为读者提供了良好的领域背景知识。同时，研究也简要讨论了汉语语音合成面临的独特挑战（如声调、连读变调、情感表达），体现了其在构建完整系统时的全面考量。这些内容共同构成了一篇完整、深入且具有实践价值的学术研究论文。

文献信息

基于多任务学习和知识蒸馏的多模态蒙古语端到端语音翻译