本研究由Shubham Joshi(Symbiosis International University, Pune, India)、Neha Gupta(Symbiosis University of Applied Sciences, Indore, India)和Rupali Mahajan(Vishwakarma Institute of Information Technology, Pune, India)合作完成,发表于IC4S 2024会议论文集(LNICST 597卷,2025年由Springer Nature出版)。
科学领域:本研究属于音乐信息检索(Music Information Retrieval, MIR)与机器学习交叉领域,聚焦于数字音乐流媒体平台的流行度预测。
研究动机:随着Spotify等流媒体平台的用户增长(2018年达12亿流媒体播放量),音乐产业亟需数据驱动的方法预测歌曲流行度,以优化推荐系统、辅助艺术家创作及商业决策。
背景知识:
- 音频特征(Audio Features):包括节奏(Tempo)、调式(Key)、能量(Energy)、舞蹈性(Danceability)等,这些特征通过Spotify Web API提取。
- 机器学习算法:如线性回归(Linear Regression)、随机森林分类器(Random Forest Classifier)和K均值聚类(K-means Clustering),用于分析特征与流行度的关联。
研究目标:开发高精度预测模型,通过音频特征判断歌曲是否成为热门,并揭示影响流行度的关键因素。
数据集:
- 数据来源:Spotify Web API,包含超过17万首歌曲的音频特征。
- 特征分类:
- 数值型特征(Numerical Features):如能量值(Energy,0-100)、声学度(Acousticness,0-1)、流行度(Popularity,0-100)。
- 虚拟特征(Dummy Features):如是否含明确歌词(Explicit,0/1)、调式(Mode,0为小调,1为大调)。
- 分类特征(Categorical Features):如艺术家名称、歌曲发行日期(YYYY-MM-DD)。
方法流程:
1. 数据预处理:
- 使用Standard Scaler(标准化模块)对特征归一化,解决不同特征量纲差异(如舞蹈性范围0-1,而时长可能达数百万毫秒)。
- 主成分分析(PCA):降维至2个主成分,便于可视化聚类分布。
模型构建与训练:
模型评估:
结果贡献:
- 线性模型揭示特征与流行度的显性关系,而非线性模型(如随机森林)捕捉复杂交互作用,共同支持“多特征协同影响流行度”的结论。
科学价值:
- 首次系统验证了年份、能量等音频特征对Spotify歌曲流行度的预测效力,为MIR领域提供实证基础。
- 提出“Innovative Tunes”框架,结合多种机器学习算法,实现高精度(95.37%)预测。
应用价值:
- 艺术家与制作人:可通过优化特定特征(如提高舞蹈性)提升歌曲市场潜力。
- 平台推荐系统:利用模型提前识别潜在热门歌曲,增强用户体验。
(报告总字数:约1500字)