本研究由Rafet Sifa(Fraunhofer IAIS)、Julian Runge(Humboldt University Berlin)、Christian Bauckhage(Fraunhofer IAIS)和Daniel Klapper(Humboldt University Berlin)合作完成,发表于Proceedings of the 51st Hawaii International Conference on System Sciences(HICSS)(2018年),论文标题为《Customer Lifetime Value Prediction in Non-Contractual Freemium Settings: Chasing High-Value Users Using Deep Neural Networks and SMOTE》。
研究领域与背景
该研究属于数字营销与机器学习交叉领域,聚焦于非合约制免费增值(non-contractual freemium)商业模式下的客户终身价值(Customer Lifetime Value, LTV)预测问题。免费增值模式中,少数高价值用户(high-value users,又称“鲸鱼用户/whales”)贡献了大部分收入,而准确预测其LTV对企业营销策略(如用户获取、客户服务优化)至关重要。
研究动机
现有文献中,LTV预测多基于传统统计模型(如随机模型)或回归方法,且数据多局限于交易记录。然而,免费增值环境(如移动游戏、社交应用)存在以下挑战:
1. 数据高度不平衡:仅少数用户付费(如文中案例中付费用户占比不足1%);
2. 非交易行为数据的价值:用户活动数据(如游戏内行为)可能蕴含额外预测信息;
3. 现有方法的局限性:传统模型难以处理高维行为数据。
研究目标
1. 提出结合深度神经网络(Deep-MLP)与合成少数类过采样技术(SMOTE)的LTV预测框架;
2. 验证非交易行为特征对LTV预测的贡献;
3. 为免费增值企业提供早期高价值用户识别工具。
1. 数据收集与预处理
- 数据集:来自一款大型免费移动游戏(用户基数约1亿),包含12万玩家的行为与交易数据,覆盖7天观察期与360天LTV计算期。
- 特征工程:
- 基础特征(Telemetry):会话数、游戏回合数、总付费金额等;
- 时序特征(Temporal):会话间隔时间分布、每日活动模式;
- 复合特征(Composite):游戏内货币使用趋势、技能指标相关性;
- 元数据(Meta):国家、设备类型、获客渠道。
2. 预测模型构建
- 基准模型:线性回归(LR)、决策树(DT)、随机森林(RF);
- 创新模型:深度多层感知机(Deep-MLP),采用4隐藏层结构(神经元数50–140)及Dropout正则化;
- SMOTE数据增强:针对付费用户(少数类)生成合成样本,通过混合数值特征(如付费金额)与继承分类特征(如国家)平衡数据分布。
3. 实验设计
- 评估指标:归一化均方根误差(NRMSE)分三组评估——全体用户、付费用户、高价值用户(前20%付费用户);
- 排序性能:通过命中率(hit rate)检验模型对高价值用户的排序能力。
1. 模型性能对比
- Deep-MLP + SMOTE表现最优:
- 高价值用户预测NRMSE降低6%(1.48 vs. 基准模型1.57–1.69);
- 付费用户预测NRMSE降低4%(2.90 vs. 3.02–3.66)。
- SMOTE的普适性:除决策树外,其他模型均因SMOTE提升性能(如RF对全体用户误差降低0.4%)。
2. 特征重要性分析
- 关键预测因子:
- 历史付费金额(最强预测因子);
- 付费频率、游戏内货币动态(如回合间标准差);
- 技能指标(如“最后一回合技能等级”)。
- 非交易数据的价值:用户活跃度特征(如会话间隔时间)在回归树中占据高层节点(图2),佐证其补充预测能力。
3. 营销应用验证
- 用户排序命中率:Deep-MLP + SMOTE在25%用户覆盖率下可识别80%高价值用户(表4),显著优于其他模型(如LR仅74.58%)。
科学价值
1. 证明了深度神经网络与SMOTE结合在高度不平衡数据中的优越性;
2. 揭示了非交易行为数据对LTV预测的增量贡献,突破了传统模型依赖交易数据的局限。
应用价值
1. 精准营销:企业可基于早期行为数据定向高潜力用户,优化获客预算(如避免向高LTV用户投放冗余广告);
2. 动态定价:针对不同LTV分位数用户设计差异化促销策略(如向低LTV用户提供小额折扣)。
局限与未来方向
1. 社交因素未纳入:未来可研究用户社交互动对LTV的影响;
2. 跨行业验证:需在更多免费增值产品(如社交APP)中测试模型泛化性;
3. 心理特征补充:结合用户人格特质(如大五人格)可能进一步提升预测精度。
文献对比
与Voigt & Hinz(2016)的随机模型相比,本文方法通过引入行为数据将高价值用户预测误差降低6%,且首次实现了基于SMOTE的LTV排名优化。