分享自:

双知识蒸馏和目标导向视觉建模在多对多多模态摘要中的应用

期刊:findings of the association for computational linguistics: emnlp 2023

该文档属于类型a,是一篇原创性研究论文。以下是针对这篇研究的学术报告内容:


多语言多模态摘要任务的创新框架:D2TV 模型在 M3S 任务中的应用

作者与机构
本研究由北京交通大学的 Yunlong Liang(第一作者)、Jinan Xu(通讯作者)、Yufeng Chen,腾讯微信人工智能研究中心的 Fandong Meng、Jie Zhou,以及苏州大学的 Jiaan Wang 合作完成。论文发布于 *Findings of the Association for Computational Linguistics: EMNLP 2023*(2023年12月)。

学术背景
随着多媒体数据的快速增长,用户需要从多语言、多模态内容中快速提取核心信息。传统的多模态单语摘要(Multimodal Monolingual Summarization, MMS)任务针对输入文本和图像生成同语言摘要,而多模态跨语言摘要(Multimodal Cross-Lingual Summarization, MXLS)则需生成目标语言的摘要。然而,现有研究大多独立处理这两类任务,忽视了语言和模态的协同性。

为此,作者提出了一项更通用的任务——多对多多模态摘要(Many-to-Many Multimodal Summarization, M3S),支持任意输入语言到任意输出语言的摘要生成。此外,现有方法存在以下局限性:
1. 知识蒸馏的单向性:现有研究仅利用MMS任务优化MXLS,而未反向提升MMS性能。
2. 视觉噪声问题:当前方法通过隐式学习(如多模态融合)或复杂训练目标(如辅助任务)过滤无关图像特征,效率较低。

本研究的目标是:
1. 提出M3S任务的标准框架;
2. 设计双重知识蒸馏(Dual Knowledge Distillation, DKD)目标导向视觉建模(Target-Oriented Vision Modeling, TCO)的联合优化方法(D2TV框架);
3. 构建首个覆盖44种语言的M3S基准数据集M3Sum

研究方法与流程
1. 模型架构设计
- 基础模块:基于预训练语言模型(如mT5、mBART-50)的多模态Transformer,包含文本编码器、视觉编码器、文本-图像融合模块和解码器。
- 视觉特征处理:使用Faster R-CNN提取图像区域特征,并注入位置编码(如边界框坐标、图像ID)。
- 跨模态融合:通过交叉注意力机制对齐文本与视觉特征,并设计门控机制过滤冗余信息。

  1. 双重知识蒸馏(DKD)

    • 教师→学生蒸馏(MMS→MXLS):通过交叉熵损失和隐藏状态距离损失(如KL散度)将MMS任务的知识迁移至MXLS模型。
    • 学生→教师蒸馏(MXLS→MMS):MXLS模型的反向知识增强MMS的多语言泛化能力,尤其提升低资源语言表现。
    • 动态平衡策略:训练初期以教师模型为主导,逐步过渡至双向对等蒸馏。
  2. 目标导向对比学习(TCO)

    • 通过对比损失函数拉近视觉特征与对应摘要的表示距离,同时推远无关摘要对。
    • 具体实现:对图像序列和摘要的编码输出进行均值池化,计算余弦相似度并优化InfoNCE损失。
  3. 训练与推理

    • 联合目标函数:结合MMS损失、MXLS损失、DKD损失和TCO损失,权重由超参数β控制。
    • 推理阶段:仅使用单一模型生成任意语言摘要,无需额外训练目标。

实验与结果
1. 数据集:基于CrossSum和MM-Sum构建的M3Sum数据集,覆盖44种语言,包含107万文章-摘要对和347万张图像。实验中选取英语、印尼语、俄语和乌尔都语(低资源语言)作为验证子集。
2. 基线对比:包括独立的MMS/MXLS模型、联合训练模型(MMS+MXLS)及单向知识蒸馏模型(Vanilla-KD)。
- 主要指标:ROUGE-1/2/L和BERTScore。
3. 核心发现
- D2TV的全面优势:在mT5和mBART-50骨干网络上,D2TV的ROUGE-L平均提升1.5分,BERTScore提升0.77分。例如,乌尔都语→英语任务中,ROUGE-1显著提高1.70分。
- 双向蒸馏的协同效应:DKD使MMS和MXLS任务相互促进,如英语→俄语任务中,MMS性能提升2.7分。
- TCO的有效性:与复杂辅助任务相比,TCO以更低计算成本实现可比性能(训练时间减少35%)。

  1. 人工评估:在50个样本的盲测中,D2TV在流畅性(4.14 vs. 3.60)、简洁性(3.94 vs. 3.46)和信息量(3.78 vs. 3.22)上均优于Vanilla-KD,Fleiss’ Kappa一致性系数超过0.65。

结论与价值
1. 科学意义
- 首次形式化M3S任务,推动多语言与多模态摘要的统一研究范式。
- 提出的D2TV框架为跨模态、跨语言知识迁移提供了新思路,尤其解决了低资源语言的视觉-文本对齐难题。
2. 应用价值
- 可应用于新闻聚合、跨境电商等多语言场景,提升用户获取信息的效率。
- 公开的M3Sum数据集填补了该领域的基准空白。

研究亮点
1. 任务创新性:M3S任务扩展了传统摘要的边界,支持“任意语言输入→任意语言输出”的灵活场景。
2. 技术突破
- DKD首次实现MMS与MXLS的双向知识共享
- TCO通过简单对比目标替代复杂辅助任务,提升训练效率。
3. 可扩展性:框架兼容多种预训练模型(如mT5、mBART),具备跨骨干网络的鲁棒性。

局限与展望
1. 当前实验仅涵盖44种语言中的4种,未来可扩展至更广语言范围。
2. 未探索大规模语言模型(如GPT-4)在M3S任务中的潜力。


上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com