分享自:

基于知识图谱和强化学习的可控音乐播放列表生成

期刊:SensorsDOI:10.3390/s22103722

该文档属于类型a,是一篇关于基于知识图谱(Knowledge Graph)和强化学习(Reinforcement Learning)的可控音乐播放列表生成方法的原创研究论文。以下为详细学术报告:


作者与机构

本研究由Keigo Sakurai(北海道大学信息科学与技术研究生院)、Ren TogoTakahiro OgawaMiki Haseyama(北海道大学信息科学与技术学院)合作完成,发表于期刊Sensors 2022(Volume 22, Issue 10, 3722),出版时间为2022年5月13日。论文是作者团队在2021年IEEE国际消费电子会议(ICCE-TW)上发表的早期研究的扩展版本。


学术背景

研究领域:本研究属于多媒体技术与音乐推荐系统的交叉领域,聚焦于通过智能算法生成个性化音乐播放列表。
研究动机
1. 技术需求:音乐流媒体平台(如Spotify)的普及使得用户面临海量音乐选择,传统播放列表生成方法(如矩阵分解或循环神经网络)仅能捕捉用户短期偏好,难以满足长期兴趣演化的需求。
2. 科学问题:现有方法存在两大局限性:(1)用户历史数据稀疏导致强化学习(RL)优化效率低;(2)仅依赖历史数据易导致“信息茧房”(Filter Bubble),无法引导用户探索新音乐类型。
研究目标:提出一种结合知识图谱(KG)和强化学习(RL)的新方法,实现:(1)基于用户历史的高精度偏好预测;(2)通过可控奖励函数引导用户发现新音乐。


研究流程与方法

1. 数据准备与知识图谱构建

  • 数据集:使用Spotify百万播放列表数据集(含57,880首歌曲、1006名用户、14,973名艺术家及2517种流派),用户历史数据分为训练集(前90%)和测试集(后10%)。
  • 知识图谱(KG):以三元组(头实体、关系、尾实体)表示歌曲、艺术家、流派间的层级关系(如“歌曲A→创作艺术家B→流派C”),通过TransE算法生成50维嵌入特征(Embedding),捕捉高阶语义关联。

2. 马尔可夫决策过程(MDP)建模

  • 状态(State):融合用户历史序列(GRU编码)、当前偏好(KG特征均值池化)和未来偏好(多层感知机预测)的三部分表示。
  • 动作(Action):从歌曲库中选择NP(实验中设为10)首歌曲生成播放列表,策略函数(Policy)通过Softmax输出歌曲选择概率。
  • 奖励函数(Reward)
    • 预测奖励(Prediction Reward):基于播放列表与用户历史歌曲特征的余弦相似度。
    • 引导奖励(Guiding Reward):包含三个可调参数的子指标:
    • 声学相似性(Acoustic Similarity):连续歌曲的声学特征(如节奏、 valence)相似度。
    • 流行度(Popularity):歌曲在Spotify API中的流行度评分(0-100)。
    • 新颖性(Novelty):歌曲发行年份(数据集中最旧为1935年,最新为2022年)。
    • 参数控制:用户通过显式输入(γ)调整各奖励权重(如γ_aco=0.5表示侧重声学平滑性)。

3. 强化学习优化

  • 算法:采用策略梯度法(REINFORCE),通过蒙特卡洛采样生成D=7组播放列表,计算累积奖励梯度更新策略参数。
  • 训练技巧:为避免奖励分布差异,使用经验分布函数(Empirical Distribution Function)标准化各奖励指标。

4. 实验验证

  • 对比方法:包括基于GRU的序列模型(CM1)、声学图探索模型(CM2)、知识图谱推荐模型(CM3/CM4)。
  • 评估指标
    • 预测性能:NDCG@K、Hit Rate@K(K=1,5,10)。
    • 引导性能:声学相似性(M_aco)、平均流行度(M_pop)、平均年份(M_new)。

主要结果

  1. 预测性能:所有PM(Proposed Method)变体(如PM-a、PM-p)的NDCG@10和Hit Rate@10均显著优于基线(CM1-4)。例如,PM-p的NDCG@10达27.9(×10^-2),而CM1仅为17.2。这表明KG嵌入特征和RL长期优化有效提升了推荐准确性。
  2. 引导性能
    • PM-p(侧重流行度)的M_pop达52.8,远高于CM2的19.3。
    • PM-n(侧重新颖性)的M_new为2013.4年,成功推荐最新歌曲。
    • PM-a(侧重声学平滑性)的M_aco为0.90,接近专门优化声学的CM2(0.97),但综合性能更优。
  3. 用户可控性:通过调整γ参数,可生成符合特定需求的播放列表(如图2示例中,用户A获得高流行度列表,用户B获得新歌曲列表)。

结论与价值

  1. 科学价值
    • 首次将知识图谱的高阶关系信息引入音乐播放列表生成,解决了用户历史数据稀疏性问题。
    • 提出可灵活调整的奖励函数框架,为个性化推荐系统的可控性设计提供新思路。
  2. 应用价值:可集成至音乐流媒体平台,帮助用户高效发现符合长期偏好或探索新风格的音乐。

研究亮点

  1. 方法创新
    • 知识图谱+强化学习:通过KG嵌入特征增强状态表示,提升RL训练效率。
    • 动态奖励函数:用户可实时调整推荐方向(如“更多流行”或“更多新歌”)。
  2. 实验设计:引入多维度评估指标(预测与引导性能),验证方法在实用场景下的鲁棒性。

其他有价值内容


(报告总字数:约1500字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com