基于知识图谱与声学特征的深度强化学习音乐推荐方法研究
作者及发表信息
本研究的作者为Keigo Sakurai(北海道大学信息科学技术研究生院)、Ren Togo(北海道大学数学与数据科学教育研究中心)、Takahiro Ogawa(北海道大学信息科学技术学院)及Miki Haseyama(北海道大学信息科学技术学院)。论文发表于ITE Transactions on Media Technology and Applications (MTA) 2022年第10卷第1期,收录日期为2021年8月2日至12月1日。
学术背景
本研究属于音乐推荐系统与人工智能交叉领域,旨在解决传统知识图谱推荐方法中的冷启动问题(cold-start problem)。随着YouTube等平台音乐内容的爆炸式增长,用户偏好信息的缺乏导致传统方法难以对新用户或新内容进行有效推荐。现有方法主要分为三类:协同过滤(collaborative filtering)、基于内容的过滤(content-based filtering)及混合方法(hybrid methods)。协同过滤依赖用户历史行为,但冷启动场景下效果受限;基于内容的方法利用声学特征(acoustic features)相似性,但缺乏可解释性。本研究提出了一种结合知识图谱(knowledge graph)与深度强化学习(deep reinforcement learning, DRL)的混合方法,通过引入声学特征边(acoustic feature edges)增强图谱密度,并利用强化学习优化推荐路径搜索。
研究流程与方法
1. 知识图谱构建
- 研究对象:1,536名用户的收听历史数据(每位用户Top 50歌曲)、38,526首歌曲的艺术家信息及6维声学特征(danceability、energy等,来自Spotify API)。
- 图谱设计:节点分为用户(ui)、歌曲(mj)、艺术家(ak);边包括用户-歌曲收听关系(e(ui,mj))、歌曲-艺术家创作关系(e(mj,ak)),以及新增的歌曲间声学相似边(e(mj1,mj2))。声学相似性通过余弦相似度(cosine similarity)计算,阈值ξ设为0.999。
- 创新点:通过声学特征边补充冷启动场景下缺失的用户偏好信息,提升图谱连通性。
强化学习代理训练
推荐阶段
主要结果
1. 冷启动问题缓解:在α=90%(即90%用户历史边被移除)的极端冷启动场景下,推荐用户率(recommendable user rate)达18.5%,显著高于未引入声学特征的对比方法(PM-AF: 12.0%)。
2. 性能对比:在精确度(precision)、召回率(recall)和命中率(hit rate)指标上,本方法(PM)在α=70%时达到峰值(如precision=0.62),优于5种对比方法(如KGAT、BPR等)。NDCG(归一化折损累积增益)在α=90%时表现最佳,表明声学特征边有助于在稀疏数据下优先推荐高相关性歌曲。
3. 可解释性:通过知识图谱路径(如“用户→歌曲A→用户Y→歌曲B”)直观展示推荐理由,如图5示例中推荐歌曲“Reckoner”因与其他用户收听历史关联。
结论与价值
本研究通过融合声学特征与强化学习,实现了冷启动场景下的高精度、高可解释性音乐推荐。其科学价值在于:
1. 方法创新:首次将TransE嵌入的余弦相似度作为强化学习奖励函数,明确量化推荐路径的合理性。
2. 应用价值:为音乐流媒体平台提供了解决冷启动问题的可行方案,且可扩展至其他内容推荐领域。
研究亮点
1. 声学特征边的引入:通过声学相似性增强图谱密度,直接解决冷启动问题。
2. 强化学习与知识图谱的结合:通过路径搜索优化,平衡了推荐准确性与可解释性。
3. 可解释性设计:奖励函数基于嵌入向量的几何关系,使推荐理由透明化。
其他价值
实验部分验证了声学特征权重未调整时的基线性能,未来可通过用户偏好动态加权特征(如偏好歌词的用户提升“speechiness”权重),进一步提升个性化推荐效果。