分享自:

基于多模态知识图谱卷积网络的音乐推荐系统

期刊:electronicsDOI:10.3390/electronics12122688

学术研究报告:基于多模态知识图谱卷积网络的音乐推荐系统研究

一、研究团队与发表信息
本研究的核心作者团队来自北京林业大学信息科学与技术学院(Xiaohui Cui, Xiaolong Qu, Dongmei Li等)及中国中医科学院中医药数据中心(Xiaoping Zhang),研究成果发表于2023年6月的期刊《Electronics》(论文标题:*MKGCn: Multi-modal Knowledge Graph Convolutional Network for Music Recommender Systems*),论文编号DOI:10.3390/electronics12122688。

二、学术背景与研究目标
随着在线音乐平台的普及,个性化音乐推荐系统成为提升用户体验的关键技术。传统推荐方法如基于内容的推荐(content-based filtering)和协同过滤(collaborative filtering, CF)存在局限性:前者忽视音乐与其他实体(如歌手、专辑)的深层语义关联,后者依赖大量用户行为数据且难以解决冷启动问题。此外,现有研究多聚焦于结构化三元组(structural triples),而忽略了音乐视频、歌词等多模态数据的价值。

本研究提出多模态知识图谱卷积网络(MKGCn),旨在通过整合音乐项目的多模态特征(文本、图像、音频、情感)及其高阶结构和语义信息,提升推荐系统的准确性与可解释性。研究目标包括:
1. 构建首个基于多模态知识图谱(Multi-modal Knowledge Graph, MMKG)的音乐推荐框架;
2. 开发新型聚合器(aggregator)以融合多模态数据和高阶邻居信息;
3. 通过实验验证MKGCn在真实数据集上的性能优势。

三、研究流程与方法
1. 数据准备与知识图谱构建
- 数据集:基于公开数据集Last-FM,构建了四个不同规模的音乐多模态知识图谱(M3KG-12M至M3KG-6K),包含音乐项目、用户交互记录及多模态特征(音频MFCC系数、歌词情感分析、海报图像特征等)。
- 知识图谱构建:采用属性型MMKG(attribute-based MMKG),将多模态数据(如音频文件、歌词文本)作为音乐实体的属性三元组(attribute triples),而非独立实体。

  1. 模型架构设计
    MKGCn包含四层核心组件:

    • 对齐与知识传播层:将音乐项目与MMKG中的实体对齐,并通过关系三元组(relation triples)传播获取高阶邻居实体。
    • 多模态聚合器层
      • 多模态聚合器:通过三种策略(sum、concat、max)融合文本、图像、音频、情感等七类模态数据,增强实体表示。
      • PCA降维:确保各模态特征维度一致。
    • 图卷积聚合层
      • 用户聚合器:基于用户历史交互项目,通过均值(mean)、最大值(max)或多头注意力(multi-head attention)策略生成用户嵌入表示。
      • 项目聚合器:结合用户对不同关系的偏好(通过注意力机制加权),递归聚合邻居节点信息。
    • 预测层:利用用户和项目的嵌入表示,通过内积计算推荐概率。
  2. 训练与优化

    • 负采样策略:采用比例负采样(ratio negative sampling),避免随机采样可能选中用户潜在感兴趣项目的问题。
    • 损失函数:使用贝叶斯个性化排序损失(BPR loss)优化模型参数。
  3. 实验设计

    • 基线模型对比:包括CF-based(SVD)、KG-based(RippleNet、KGCN)和MMKG-based(MMGCN、MKGAT)方法。
    • 评估指标:CTR预测(AUC、F1)和Top-K推荐(Recall@K、NDCG@K)。

四、主要研究结果
1. 性能对比
- MKGCn在四个数据集上均显著优于基线模型。例如,在M3KG-12M上,AUC达0.973(对比MKGAT的0.952),Recall@10提升约15%。
- 多模态数据(尤其是音频和情感特征)的引入是关键因素,仅使用文本和图像模态的变体(MKGCn-AE)性能下降明显。

  1. 组件分析

    • 聚合器策略:concat多模态聚合器、mean用户聚合器和neighbor项目聚合器表现最佳。
    • 负采样:比例负采样策略较随机采样和硬负采样(hard negative sampling)更有效。
  2. 消融实验

    • 移除多模态数据(MKGCn-MM)导致性能大幅下降,验证了多模态信息的重要性。

五、结论与价值
1. 科学价值
- 首次将多模态知识图谱(MMKG)应用于音乐推荐,提出融合音频和情感特征的完整框架。
- 通过高阶邻居聚合和关系偏好建模,提升了推荐系统的语义理解能力。

  1. 应用价值
    • 为音乐平台提供可解释的个性化推荐方案,尤其适用于冷启动场景。
    • 开源代码和自建数据集(M3KG-6K)促进后续研究。

六、研究亮点
1. 方法创新
- 设计三种聚合器实现多模态与高阶信息的深度融合;
- 提出比例负采样策略优化训练过程。
2. 数据贡献:构建首个公开音乐多模态知识图谱,填补领域空白。

七、局限与展望
当前模型未充分探索模态间交互(如音频与歌词的关联),未来可引入跨模态注意力机制。此外,多任务学习框架(结合推荐与知识图谱表示学习)是潜在改进方向。

(注:术语翻译示例:知识图谱—Knowledge Graph (KG);多模态—Multi-modal;协同过滤—Collaborative Filtering (CF))

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com