这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于可解释深度强化学习的客户获取研究
作者及机构
本研究由Yicheng Song(明尼苏达大学卡尔森管理学院)、Wenbo Wang(香港科技大学商学院市场营销系)和Song Yao(圣路易斯华盛顿大学奥林商学院)合作完成,发表于Information Systems Research 2025年3月刊(Volume 36, Issue 1)。Yicheng Song为通讯作者。
学术背景
研究领域为信息系统的机器学习应用,聚焦于客户获取(customer acquisition)中的序列化营销决策优化。传统强化学习(Reinforcement Learning, RL)虽能通过序列决策(如广告投放)优化长期收益,但存在“黑箱”问题,即决策过程缺乏可解释性。而企业需理解模型如何选择广告渠道、为何调整策略等核心问题以建立信任。因此,本研究提出了一种新型可解释深度强化学习模型DRQN-Attention(Deep Recurrent Q-Network with Attention),在保持长期收益优化的同时,通过注意力机制(attention mechanism)增强决策透明度。
研究流程与方法
1. 问题建模与数据准备
- 研究场景:合作方为中国某数字银行,目标是通过跨渠道广告序列吸引中小企业客户申请贷款。
- 数据来源:2019年6月至12月50,000名潜在客户的点击流数据,包含静态特征(年龄、行业等)和动态交互记录(广告曝光、点击、渠道上下文等)。
- 奖励设计:广告曝光成本(¥0.075/次)、点击奖励(¥2.60)、成功获客奖励(¥260),以平衡短期成本与长期收益。
模型开发
对比实验设计
主要结果
1. 性能优势
- DRQN-Attention在长期收益(AR@6=¥0.3999)上显著优于MAB(AR@6=¥0.3406)和DRQN(AR@6=¥0.3993),证明注意力机制未牺牲性能。
- 联邦学习版本仅损失0.02%性能,验证了隐私保护的可行性。
结论与价值
1. 理论贡献
- 首次将内在可解释性(intrinsic explainability)融入客户获取的RL模型,通过注意力机制实现“决策-解释”同步。
- 提出面向POMDP的注意力架构设计,区别于视频游戏等完全可观测场景的现有方法。
研究亮点
1. 方法创新:DRQN-Attention是首个针对客户获取的“端到端可解释RL模型”,其注意力机制作为前向规划(forward planning)工具,直接关联特征权重与长期收益。
2. 实证深度:基于真实银行数据验证,涵盖跨行业、跨周期场景,结论具备商业可操作性。
3. 跨学科融合:结合强化学习、注意力机制与联邦学习,推动信息系统与营销科学的交叉发展。
其他价值
- 研究局限性:注意力权重的解释需结合领域知识(如行业季节性),未来可探索自动化模式提取。
- 代码开源与行业合作案例(如农业贷款定制)增强了研究的可复现性与社会影响力。
该报告综合了技术细节与商业洞察,为学术界和工业界提供了可解释AI在营销领域的创新范例。