分享自:

基于可解释深度强化学习的客户获取研究

期刊:information systems researchDOI:10.1287/isre.2022.0529

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于可解释深度强化学习的客户获取研究

作者及机构
本研究由Yicheng Song(明尼苏达大学卡尔森管理学院)、Wenbo Wang(香港科技大学商学院市场营销系)和Song Yao(圣路易斯华盛顿大学奥林商学院)合作完成,发表于Information Systems Research 2025年3月刊(Volume 36, Issue 1)。Yicheng Song为通讯作者。

学术背景
研究领域为信息系统的机器学习应用,聚焦于客户获取(customer acquisition)中的序列化营销决策优化。传统强化学习(Reinforcement Learning, RL)虽能通过序列决策(如广告投放)优化长期收益,但存在“黑箱”问题,即决策过程缺乏可解释性。而企业需理解模型如何选择广告渠道、为何调整策略等核心问题以建立信任。因此,本研究提出了一种新型可解释深度强化学习模型DRQN-Attention(Deep Recurrent Q-Network with Attention),在保持长期收益优化的同时,通过注意力机制(attention mechanism)增强决策透明度。

研究流程与方法
1. 问题建模与数据准备
- 研究场景:合作方为中国某数字银行,目标是通过跨渠道广告序列吸引中小企业客户申请贷款。
- 数据来源:2019年6月至12月50,000名潜在客户的点击流数据,包含静态特征(年龄、行业等)和动态交互记录(广告曝光、点击、渠道上下文等)。
- 奖励设计:广告曝光成本(¥0.075/次)、点击奖励(¥2.60)、成功获客奖励(¥260),以平衡短期成本与长期收益。

  1. 模型开发

    • 基础框架:基于深度循环Q网络(DRQN)处理部分可观测马尔可夫决策过程(POMDP),使用GRU(Gated Recurrent Unit)编码历史交互序列以表征客户状态。
    • 注意力机制创新
      • 查询(Query):由客户静态特征与历史交互嵌入向量生成。
      • 键值对(Key-Value):来自当前交互的特征(如广告渠道、时间等)。
      • 动态权重:通过查询与键的交互计算注意力权重,突出对长期收益关键的特征(如“农业客户在收割季偏好金融新闻类App”)。
    • 隐私保护:采用联邦学习(Federated Learning)分布式训练,避免原始数据集中传输。
  2. 对比实验设计

    • 基准模型:包括上下文多臂老虎机(Contextual MAB)、经典DQN、可解释DQN(I-DQN)等。
    • 评估方法:离策略评估(Off-Policy Evaluation)比较不同模型在1/3/6次交互后的平均收益(AR@h)。

主要结果
1. 性能优势
- DRQN-Attention在长期收益(AR@6=¥0.3999)上显著优于MAB(AR@6=¥0.3406)和DRQN(AR@6=¥0.3993),证明注意力机制未牺牲性能。
- 联邦学习版本仅损失0.02%性能,验证了隐私保护的可行性。

  1. 可解释性验证
    • 注意力权重分析:高权重特征(如“农业客户的收割季渠道偏好”)与长期收益强相关(与关联规则相比,AR@6提升22%)。
    • 案例研究
      • 行业差异:IT客户关注“科技新闻App”,教育行业偏好“通用新闻App”。
      • 动态调整:对多次曝光未点击的客户,模型自动降低低效渠道权重。
      • 季节性策略:农业客户在收割季增加“金融保险类场所”广告投放。

结论与价值
1. 理论贡献
- 首次将内在可解释性(intrinsic explainability)融入客户获取的RL模型,通过注意力机制实现“决策-解释”同步。
- 提出面向POMDP的注意力架构设计,区别于视频游戏等完全可观测场景的现有方法。

  1. 应用意义
    • 为金融机构提供动态渠道优化工具,例如识别农业贷款的季节性需求并定制产品。
    • 联邦学习方案符合GDPR等隐私法规,推动AI在敏感数据领域的合规应用。

研究亮点
1. 方法创新:DRQN-Attention是首个针对客户获取的“端到端可解释RL模型”,其注意力机制作为前向规划(forward planning)工具,直接关联特征权重与长期收益。
2. 实证深度:基于真实银行数据验证,涵盖跨行业、跨周期场景,结论具备商业可操作性。
3. 跨学科融合:结合强化学习、注意力机制与联邦学习,推动信息系统与营销科学的交叉发展。

其他价值
- 研究局限性:注意力权重的解释需结合领域知识(如行业季节性),未来可探索自动化模式提取。
- 代码开源与行业合作案例(如农业贷款定制)增强了研究的可复现性与社会影响力。


该报告综合了技术细节与商业洞察,为学术界和工业界提供了可解释AI在营销领域的创新范例。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com