双知识蒸馏和目标导向视觉建模在多对多多模态摘要中的应用

分享自：
双知识蒸馏和目标导向视觉建模在多对多多模态摘要中的应用

期刊:findings of the association for computational linguistics: emnlp 2023
该文档属于类型a，是一篇原创性研究论文。以下是针对这篇研究的学术报告内容：
多语言多模态摘要任务的创新框架：D2TV 模型在 M3S 任务中的应用
作者与机构
 本研究由北京交通大学的 Yunlong Liang（第一作者）、Jinan Xu（通讯作者）、Yufeng Chen，腾讯微信人工智能研究中心的 Fandong Meng、Jie Zhou，以及苏州大学的 Jiaan Wang 合作完成。论文发布于 *Findings of the Association for Computational Linguistics: EMNLP 2023*（2023年12月）。
学术背景
 随着多媒体数据的快速增长，用户需要从多语言、多模态内容中快速提取核心信息。传统的多模态单语摘要（Multimodal Monolingual Summarization, MMS）任务针对输入文本和图像生成同语言摘要，而多模态跨语言摘要（Multimodal Cross-Lingual Summarization, MXLS）则需生成目标语言的摘要。然而，现有研究大多独立处理这两类任务，忽视了语言和模态的协同性。
为此，作者提出了一项更通用的任务——多对多多模态摘要（Many-to-Many Multimodal Summarization, M3S），支持任意输入语言到任意输出语言的摘要生成。此外，现有方法存在以下局限性：
 1. 知识蒸馏的单向性：现有研究仅利用MMS任务优化MXLS，而未反向提升MMS性能。
 2. 视觉噪声问题：当前方法通过隐式学习（如多模态融合）或复杂训练目标（如辅助任务）过滤无关图像特征，效率较低。
本研究的目标是：
 1. 提出M3S任务的标准框架；
 2. 设计双重知识蒸馏（Dual Knowledge Distillation, DKD）和目标导向视觉建模（Target-Oriented Vision Modeling, TCO）的联合优化方法（D2TV框架）；
 3. 构建首个覆盖44种语言的M3S基准数据集M3Sum。
研究方法与流程
 1. 模型架构设计
 - 基础模块：基于预训练语言模型（如mT5、mBART-50）的多模态Transformer，包含文本编码器、视觉编码器、文本-图像融合模块和解码器。
 - 视觉特征处理：使用Faster R-CNN提取图像区域特征，并注入位置编码（如边界框坐标、图像ID）。
 - 跨模态融合：通过交叉注意力机制对齐文本与视觉特征，并设计门控机制过滤冗余信息。
双重知识蒸馏（DKD）
教师→学生蒸馏（MMS→MXLS）：通过交叉熵损失和隐藏状态距离损失（如KL散度）将MMS任务的知识迁移至MXLS模型。
 
学生→教师蒸馏（MXLS→MMS）：MXLS模型的反向知识增强MMS的多语言泛化能力，尤其提升低资源语言表现。
 
动态平衡策略：训练初期以教师模型为主导，逐步过渡至双向对等蒸馏。
 
目标导向对比学习（TCO）
通过对比损失函数拉近视觉特征与对应摘要的表示距离，同时推远无关摘要对。
 
具体实现：对图像序列和摘要的编码输出进行均值池化，计算余弦相似度并优化InfoNCE损失。
 
训练与推理
联合目标函数：结合MMS损失、MXLS损失、DKD损失和TCO损失，权重由超参数β控制。
 
推理阶段：仅使用单一模型生成任意语言摘要，无需额外训练目标。
 
实验与结果
 1. 数据集：基于CrossSum和MM-Sum构建的M3Sum数据集，覆盖44种语言，包含107万文章-摘要对和347万张图像。实验中选取英语、印尼语、俄语和乌尔都语（低资源语言）作为验证子集。
 2. 基线对比：包括独立的MMS/MXLS模型、联合训练模型（MMS+MXLS）及单向知识蒸馏模型（Vanilla-KD）。
 - 主要指标：ROUGE-1/2/L和BERTScore。
 3. 核心发现：
 - D2TV的全面优势：在mT5和mBART-50骨干网络上，D2TV的ROUGE-L平均提升1.5分，BERTScore提升0.77分。例如，乌尔都语→英语任务中，ROUGE-1显著提高1.70分。
 - 双向蒸馏的协同效应：DKD使MMS和MXLS任务相互促进，如英语→俄语任务中，MMS性能提升2.7分。
 - TCO的有效性：与复杂辅助任务相比，TCO以更低计算成本实现可比性能（训练时间减少35%）。
人工评估：在50个样本的盲测中，D2TV在流畅性（4.14 vs. 3.60）、简洁性（3.94 vs. 3.46）和信息量（3.78 vs. 3.22）上均优于Vanilla-KD，Fleiss’ Kappa一致性系数超过0.65。
 
结论与价值
 1. 科学意义：
 - 首次形式化M3S任务，推动多语言与多模态摘要的统一研究范式。
 - 提出的D2TV框架为跨模态、跨语言知识迁移提供了新思路，尤其解决了低资源语言的视觉-文本对齐难题。
 2. 应用价值：
 - 可应用于新闻聚合、跨境电商等多语言场景，提升用户获取信息的效率。
 - 公开的M3Sum数据集填补了该领域的基准空白。
研究亮点
 1. 任务创新性：M3S任务扩展了传统摘要的边界，支持“任意语言输入→任意语言输出”的灵活场景。
 2. 技术突破：
 - DKD首次实现MMS与MXLS的双向知识共享；
 - TCO通过简单对比目标替代复杂辅助任务，提升训练效率。
 3. 可扩展性：框架兼容多种预训练模型（如mT5、mBART），具备跨骨干网络的鲁棒性。
局限与展望
 1. 当前实验仅涵盖44种语言中的4种，未来可扩展至更广语言范围。
 2. 未探索大规模语言模型（如GPT-4）在M3S任务中的潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问