类型a:这篇文档报告了一项原创研究。
主要作者和机构及发表信息
该研究的主要作者包括来自北京航空航天大学网络空间安全学院的张立天(通讯作者)、张晓明、潘俊舒,以及来自暨南大学网络安全学院的黄飞然。这项研究于2022年在人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)相关期刊上发表。
学术背景
该研究属于多模态数据处理与自然语言处理领域,旨在解决多模态摘要生成中的关键问题。随着互联网多媒体数据的快速增长,多模态摘要(Multimodal Summarization with Multimodal Output, MSMO)成为一项值得研究的方向。传统的MSMO方法通常将不同模态的数据直接映射为全局向量,忽略了文本和图像之间的层次化语义关联,导致生成的摘要质量不高。此外,现有方法难以有效挖掘模态内部和跨模态之间的细粒度语义关联。因此,本研究提出了一种分层跨模态语义关联学习模型(Hierarchical Cross-Modality Semantic Correlation Learning Model, HCSCL),以通过学习模态内部和跨模态的语义关联来提高多模态摘要的质量。
详细研究流程
该研究主要包括以下几个步骤:
数据集构建
研究团队从TTNews和THUCNews中选取了包含体育、娱乐、政治、社会、科技等主题的新闻文章,并通过百度图片搜索引擎获取相关图片及其标题。随后,删除了GIF、缩略图和广告等噪声图片。为了标注数据,研究团队使用了一个基于BERT和ESIM的语义匹配模型(预训练于LCQMC语料库),自动筛选出每篇文章中最相关的三张图片,并由五名志愿者手动选择最相关的一张图片作为最终标注。此外,使用Faster R-CNN提取图片中的对象特征、边界框位置和属性类别,并计算对象之间的交并比(IoU)以生成关系图的邻接矩阵。最终构建了一个大规模中文多模态摘要数据集,其中包含52656条训练数据、5154条验证数据和5070条测试数据。
模型设计与实现
HCSCL模型分为三个模块:模态特征编码器、分层语义关联融合模块和多模态输出摘要生成器。
实验设置
实验在NVIDIA Tesla V100 GPU上进行,使用PyTorch框架实现。模型采用预训练的BERT-base-chinese作为文本嵌入的基础版本,并使用Adam优化器进行训练,初始学习率为5e-4,每六个epoch学习率乘以0.8。批量大小设置为16。
主要结果
实验结果表明,HCSCL模型在几乎所有评估指标上均优于基线模型。具体而言,在ROUGE-1和ROUGE-2指标上,HCSCL分别比基线模型高出1.51%和0.76%;在BLEU-1、BLEU-2、BLEU-3和BLEU-4指标上分别高出1.48%、1.27%、0.75%和0.20%;在图像精度(IP)指标上高出22.32%。这些结果证明了HCSCL模型在学习模态内部和跨模态语义关联方面的优越性。此外,消融实验表明,词-对象融合和句子-场景融合对模型性能均有显著贡献,且低级语义关联有助于学习高级语义并提高摘要质量。
结论与意义
HCSCL模型通过学习模态内部和跨模态的语义关联,能够生成内容丰富、连贯性强且与图像高度相关的多模态摘要。其科学价值在于提出了一种新的分层跨模态学习方法,弥补了现有研究在挖掘多模态内容潜在重要信息方面的不足。其应用价值体现在提高多模态摘要生成的质量,从而帮助用户更高效地获取关键信息。
研究亮点
1. 提出了分层跨模态语义关联学习模型(HCSCL),首次通过细粒度语义及其关联信息指导多模态摘要生成。
2. 设计了多模态视觉图学习方法,用于捕捉结构和内容信息并强化跨模态交互。
3. 构建了一个大规模多模态摘要数据集,包含相关图像标注和对象标签,为后续研究提供了宝贵的资源。
其他有价值内容
研究还进行了人工评估,结果显示HCSCL生成的多模态摘要在多样性、连贯性和相关性方面均优于基线模型。此外,通过细粒度语义多样性分析发现,HCSCL生成的摘要包含最多的命名实体和关系,进一步证明了其在挖掘语义信息方面的优势。