本文档属于类型b(综述论文)。以下是针对该文献的学术报告:
多模态知识图谱研究综述:构建、补全与应用
作者:Yong Chen(中国科学技术大学)、Xinkai Ge(北京邮电大学)、Shengli Yang(中国人民解放军国防大学)、Linmei Hu(北京理工大学)、Jie Li(北京邮电大学)、Jinwen Zhang(北方自动控制技术研究所)
期刊:Mathematics
发表时间:2023年4月11日
本文系统综述了多模态知识图谱(Multimodal Knowledge Graphs, MMKG)的研究进展,涵盖构建技术(如命名实体识别、关系抽取、事件抽取)、补全方法(如表示学习、实体链接)以及典型应用场景(如推荐系统、电子商务)。文章强调多模态数据(文本、图像、视频等)在增强知识图谱语义表达能力中的核心作用。
核心论点:传统知识图谱(如Freebase、DBPedia)仅关注文本结构化,而多模态知识图谱通过整合视觉、听觉等数据提升机器对现实场景的感知能力。
- 命名实体识别(NER):
- 文本NER:从规则方法(如正则表达式)发展到深度学习模型(如BiLSTM-CRF、BERT),后者通过预训练语言模型解决领域迁移问题。
- 多模态NER:引入视觉信息消除歧义。例如,Moon等提出的BiLSTM-CNN混合模型通过图像上下文辅助实体分类(如区分“Rocky”为人名或狗名)。
- 方法分类:包括直接拼接(Zhang等的自适应共注意力网络)、门控融合(Lu等的视觉门控机制)、模态对齐(Wu等的Mask R-CNN对象检测与文本实体对齐)。
支持案例:Richpedia通过VGG16提取图像特征并计算相似度,过滤噪声图像后构建包含283万图像实体的图谱。
核心论点:补全任务需预测缺失的实体或关系,多模态数据可提升链接预测和实体匹配的准确性。
- 实体链接(Entity Linking):
- 文本链接:分为候选生成(如基于别名扩展)、上下文编码(如BERT)、实体排序(如余弦相似度)三步。
- 多模态链接:Zhang等提出注意力机制融合文本与图像特征,解决社交媒体中实体歧义(如“Juustin”链接至Justin Bieber或Trudeau需依赖演唱会图像)。
- 表示学习:
- 传统方法:翻译模型(如TransE)、语义匹配模型(如DistMult)。
- 多模态扩展:Xie等将图像编码为实体嵌入,与TransE结合;Wang等的RSME模型动态调节视觉上下文权重。
数据支撑:MMKG数据集包含DBPedia15k和YAGO15k,平均每个实体关联55.8张图像,实体对齐任务F1值提升12%。
核心论点:多模态知识图谱在垂直领域具有显著实践价值。
- 推荐系统:Sun等利用图注意力机制聚合商品图像与文本描述,缓解冷启动问题,亚马逊数据集上点击率提升18%。
- 电子商务:Alime MKG(阿里巴巴)整合直播视频与产品图谱,支持实时问答与短视频生成,用户停留时长增加23%。
- 假新闻检测:Zhang等的MKEMN模型通过知识图谱补充短文本语义,在Twitter谣言检测中准确率达89.7%。
创新案例:VisualSem知识图谱包含89,896个节点,融合多语言摘要与图像,支持视觉-语言联合推理任务。
亮点:
- 提出“视觉关系接地”(Visual Relation Grounding)新任务,通过弱监督学习定位视频中的语义关系(Xiao等)。
- 对比6个公开多模态图谱(如Imgpedia、Richpedia),分析其构建范式与适用场景。
此综述为自然语言处理与计算机视觉的交叉研究提供了全景式参考,尤其对设计下一代多模态知识引擎具有指导意义。