分享自:

非契约性免费增值环境中的客户终身价值预测:使用深度神经网络和SMOTE追踪高价值用户

期刊:Proceedings of the 51st Hawaii International Conference on System SciencesDOI:http://hdl.handle.net/10125/50002

非合约制免费增值(freemium)环境下的客户终身价值预测:基于深度神经网络与SMOTE的高价值用户识别研究

一、作者与发表信息

本研究由Rafet Sifa(Fraunhofer IAIS)、Julian Runge(Humboldt University Berlin)、Christian Bauckhage(Fraunhofer IAIS)和Daniel Klapper(Humboldt University Berlin)合作完成,发表于Proceedings of the 51st Hawaii International Conference on System Sciences(HICSS)(2018年),论文标题为《Customer Lifetime Value Prediction in Non-Contractual Freemium Settings: Chasing High-Value Users Using Deep Neural Networks and SMOTE》。

二、学术背景

研究领域与背景
该研究属于数字营销与机器学习交叉领域,聚焦于非合约制免费增值(non-contractual freemium)商业模式下的客户终身价值(Customer Lifetime Value, LTV)预测问题。免费增值模式中,少数高价值用户(high-value users,又称“鲸鱼用户/whales”)贡献了大部分收入,而准确预测其LTV对企业营销策略(如用户获取、客户服务优化)至关重要。

研究动机
现有文献中,LTV预测多基于传统统计模型(如随机模型)或回归方法,且数据多局限于交易记录。然而,免费增值环境(如移动游戏、社交应用)存在以下挑战:
1. 数据高度不平衡:仅少数用户付费(如文中案例中付费用户占比不足1%);
2. 非交易行为数据的价值:用户活动数据(如游戏内行为)可能蕴含额外预测信息;
3. 现有方法的局限性:传统模型难以处理高维行为数据。

研究目标
1. 提出结合深度神经网络(Deep-MLP)合成少数类过采样技术(SMOTE)的LTV预测框架;
2. 验证非交易行为特征对LTV预测的贡献;
3. 为免费增值企业提供早期高价值用户识别工具。

三、研究流程与方法

1. 数据收集与预处理
- 数据集:来自一款大型免费移动游戏(用户基数约1亿),包含12万玩家的行为与交易数据,覆盖7天观察期与360天LTV计算期。
- 特征工程
- 基础特征(Telemetry):会话数、游戏回合数、总付费金额等;
- 时序特征(Temporal):会话间隔时间分布、每日活动模式;
- 复合特征(Composite):游戏内货币使用趋势、技能指标相关性;
- 元数据(Meta):国家、设备类型、获客渠道。

2. 预测模型构建
- 基准模型:线性回归(LR)、决策树(DT)、随机森林(RF);
- 创新模型:深度多层感知机(Deep-MLP),采用4隐藏层结构(神经元数50–140)及Dropout正则化;
- SMOTE数据增强:针对付费用户(少数类)生成合成样本,通过混合数值特征(如付费金额)与继承分类特征(如国家)平衡数据分布。

3. 实验设计
- 评估指标:归一化均方根误差(NRMSE)分三组评估——全体用户、付费用户、高价值用户(前20%付费用户);
- 排序性能:通过命中率(hit rate)检验模型对高价值用户的排序能力。

四、主要结果

1. 模型性能对比
- Deep-MLP + SMOTE表现最优
- 高价值用户预测NRMSE降低6%(1.48 vs. 基准模型1.57–1.69);
- 付费用户预测NRMSE降低4%(2.90 vs. 3.02–3.66)。
- SMOTE的普适性:除决策树外,其他模型均因SMOTE提升性能(如RF对全体用户误差降低0.4%)。

2. 特征重要性分析
- 关键预测因子
- 历史付费金额(最强预测因子);
- 付费频率、游戏内货币动态(如回合间标准差);
- 技能指标(如“最后一回合技能等级”)。
- 非交易数据的价值:用户活跃度特征(如会话间隔时间)在回归树中占据高层节点(图2),佐证其补充预测能力。

3. 营销应用验证
- 用户排序命中率:Deep-MLP + SMOTE在25%用户覆盖率下可识别80%高价值用户(表4),显著优于其他模型(如LR仅74.58%)。

五、结论与价值

科学价值
1. 证明了深度神经网络与SMOTE结合在高度不平衡数据中的优越性;
2. 揭示了非交易行为数据对LTV预测的增量贡献,突破了传统模型依赖交易数据的局限。

应用价值
1. 精准营销:企业可基于早期行为数据定向高潜力用户,优化获客预算(如避免向高LTV用户投放冗余广告);
2. 动态定价:针对不同LTV分位数用户设计差异化促销策略(如向低LTV用户提供小额折扣)。

六、研究亮点

  1. 方法创新:首次将SMOTE与Deep-MLP结合用于LTV预测,解决免费增值场景的数据不平衡问题;
  2. 数据维度拓展:系统整合交易与非交易行为特征,构建游戏无关的通用预测框架;
  3. 实证严谨性:通过十折交叉验证与多维度评估(NRMSE、命中率)确保结论稳健性。

七、其他有价值内容

局限与未来方向
1. 社交因素未纳入:未来可研究用户社交互动对LTV的影响;
2. 跨行业验证:需在更多免费增值产品(如社交APP)中测试模型泛化性;
3. 心理特征补充:结合用户人格特质(如大五人格)可能进一步提升预测精度。

文献对比
与Voigt & Hinz(2016)的随机模型相比,本文方法通过引入行为数据将高价值用户预测误差降低6%,且首次实现了基于SMOTE的LTV排名优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com