分享自:

基于Spotify音频特征的歌曲流行度预测:来自印尼流媒体用户的见解

期刊:journal of management analyticsDOI:10.1080/23270012.2023.2239824

类型a:

关于基于Spotify音频特征预测歌曲流行度的研究报告

第一,研究作者及发表信息
本研究的唯一作者是Harriman Samuel Saragih,来自印度尼西亚蒙纳士大学(Monash University)商业创新系。研究发表于《Journal of Management Analytics》2023年第10卷第4期,文章标题为《Predicting song popularity based on Spotify’s audio features: insights from the Indonesian streaming users》,在线发表日期为2023年7月27日。

第二,学术背景
本研究属于音乐信息检索(Music Information Retrieval, MIR)与消费者文化理论(Consumer Culture Theory, CCT)交叉领域。研究背景源于“热门歌曲科学”(Hit Song Science)这一新兴研究方向,即探讨歌曲的音频特征如何影响其市场流行度。先前研究表明,不同国家的听众对音乐特征的偏好存在差异,但针对印度尼西亚市场的研究较少。

研究目标包括:
1. 通过分类(classification)和回归(regression)机器学习算法,量化音频特征对歌曲流行度的预测能力(RQ1);
2. 识别高流行度歌曲的独特音频特征(RQ2);
3. 提取预测歌曲流行度的十大关键特征(RQ3)。

理论框架基于消费者文化理论(CCT),强调音乐作为文化商品如何通过消费模式、市场文化和消费者身份影响流行度。

第三,研究流程与方法
研究分为数据预处理、模型训练与评估三部分:

  1. 数据预处理

    • 数据来源:Kaggle公开数据集,包含92,755首歌曲的20个特征(如danceability舞蹈性、valence效价等),数据通过Spotify API获取。
    • 处理步骤:
      • 去除缺失值和异常值;
      • 将分类变量(如key调性、time signature拍号)转换为哑变量(dummy variables);
      • 创建目标变量“popularity class”(四分类:不流行、低流行、中流行、高流行)。
    • 数据分割:70%训练集,30%测试集,并进行标准化(Standard Scaler)。
  2. 模型训练与比较

    • 分类任务:比较了13种算法(如随机森林Random Forest、梯度提升Gradient Boosting等),采用20折交叉验证(20-fold cross-validation)和网格搜索(Grid Search CV)优化超参数。
    • 回归任务:比较了12种算法(如Extra Trees Regressor、XGBoost等),评估指标为R²分数和均方根误差(RMSE)。
  3. 特征分析与统计检验

    • 通过置换重要性(Permutation Importance)提取关键特征;
    • 使用Tukey检验(ANOVA事后检验)分析不同流行度类别的音频特征差异。

第四,主要结果
1. 模型性能
- 分类任务中,随机森林(Random Forest)准确率最高(69.74%);
- 回归任务中,Extra Trees Regressor的R²最高(0.6857)。

  1. 关键特征

    • 十大重要特征依次为:发行年份(release date)、响度(loudness)、器乐性(instrumentalness)、原声性(acousticness)、时长(duration)、言语性(speechiness)、能量(energy)、效价(valence)、舞蹈性(danceability)、现场感(liveness)。
  2. 高流行度歌曲特征

    • 发行时间较新(平均1993±17.63年);
    • 高响度(−8.90±4.39 dB)、中等能量(0.57±0.23);
    • 低原声性(0.36±0.3)、低言语性(0.05±0.06);
    • 正效价(0.53±0.25),适合舞蹈(0.55±0.15)。

第五,结论与价值
1. 理论贡献
- 首次系统验证了音频特征对印度尼西亚市场歌曲流行度的预测能力(69%);
- 支持消费者文化理论,表明音乐消费模式受文化特征影响。

  1. 应用价值
    • 为音乐制作人提供数据驱动的创作建议,例如:优先制作高响度、正能量的电子音乐;
    • 帮助流媒体平台优化推荐算法,精准定位区域偏好。

第六,研究亮点
1. 方法创新:同时采用分类与回归模型,增强结论鲁棒性;
2. 区域特异性:填补东南亚市场的研究空白;
3. 跨学科视角:融合机器学习与消费者文化理论。

第七,其他有价值内容
研究指出,Spotify数据可能偏向高收入用户,因此结论可能不适用于传统音乐(如印尼的dangdut)。未来研究可纳入歌词、艺术家知名度等变量。

(注:专业术语首次出现时保留英文,如valence效价、dummy variables哑变量等。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com