分享自:

移动通知的离线强化学习

期刊:Proceedings of the 31st ACM International Conference on Information and Knowledge Management (CIKM '22)DOI:10.1145/3511808.3557083

类型a:学术研究报告

作者及机构
本研究的核心作者包括Yiping Yuan、Ajith Muralidharan、Preetam Nandy、Miao Cheng和Prakruthi Prabhakar,均来自LinkedIn Corporation(美国加州山景城)。该研究发表于2022年10月17日至21日举办的ACM国际信息与知识管理会议(CIKM ‘22),论文标题为《Offline Reinforcement Learning for Mobile Notifications》。

学术背景
研究领域为推荐系统与强化学习的交叉应用,聚焦移动通知(mobile notifications)的时序决策优化。传统通知系统依赖监督学习模型(如响应预测模型),但存在两大局限:一是难以准确归因单条通知对长期用户参与度(long-term engagement)的影响;二是阈值调优(threshold tuning)依赖启发式方法,迭代效率低。作者提出,强化学习(Reinforcement Learning, RL)能通过序列化决策框架更直接地优化长期目标,但在线训练(online RL)存在探索成本高、收敛风险不可控等问题。因此,研究团队转向离线强化学习(Offline RL),利用历史数据训练策略,同时开发高效的离线评估方法以降低部署风险。

研究流程与方法
1. 问题建模与马尔可夫决策过程(MDP)构建
- 动作空间(Action Space):二元选择——发送(send)或不发送(not-send)通知。
- 状态空间(State Space):整合用户动态特征(如未读通知数、近期访问频率)、静态特征(如地区、社交网络规模)及队列状态(如通知候选的时效性)。
- 奖励函数(Reward):用户短期内是否访问平台(1/0二元奖励),通过折扣因子γ平衡短期与长期收益。

  1. 离线训练框架

    • 数据收集:基于LinkedIn生产系统的探索策略(ε-greedy策略,ε=0.1),采集用户交互轨迹(状态、动作、奖励、下一状态)。
    • 算法选择:采用双深度Q网络(Double DQN),通过目标网络(target network)稳定训练,避免Q值高估。
    • 创新点:提出状态边际重要性采样(State-Marginalized Importance Sampling)方法,降低传统轨迹重要性采样(Trajectory Matching)的高方差问题。具体通过特征离散化(分箱)和无关特征剔除(如静态用户属性)实现状态空间降维。
  2. 仿真环境验证

    • 构建基于OpenAI Gym的模拟器,复现用户通知队列的动态生成、点击行为(基于活跃度与未读数的概率模型)及失效逻辑。
    • 在仿真中测试128种超参数组合的Double DQN策略,验证离线评估方法(状态边际法)的偏差-方差权衡优于传统方法(如单步修正法)。
  3. 在线部署与A/B测试

    • 系统架构:策略部署于Linkedin的Samza近线服务,实时处理通知队列决策。
    • 评估指标:对比基线监督模型(生存分析模型),强化学习策略在减少3.49%通知量的同时,提升用户会话(sessions)0.3%、点击率(CTR)4.53%,并降低用户取消关注(unfollow)4.37%。

主要结果
- 离线评估有效性:状态边际法在仿真中偏差较单步修正法降低60%,方差较轨迹匹配法减少75%。
- 业务指标提升:在线实验证明,强化学习策略通过更稀疏但精准的通知投放,显著优化长期参与度。例如,减少低效通知(如密集推送)导致的用户疲劳。
- 迭代效率:传统监督模型需1-3周在线调参(如阈值τ),而离线RL框架通过策略评估直接跳过渡试阶段,加速模型迭代。

结论与价值
科学价值在于提出了一套适用于低信噪比场景(如用户行为数据)的离线RL方法论,包括MDP建模、高效评估算法及仿真验证流程。应用价值体现在Linkedin生产系统中实现了可量化的业务提升,并为推荐系统领域提供了强化学习落地的标准化范例。

研究亮点
1. 算法创新:状态边际重要性采样首次应用于通知系统,解决了长时序决策的离线评估难题。
2. 工程实践:将Double DQN与生产系统(如Hadoop日志、Samza服务)无缝集成,验证了离线RL的大规模可行性。
3. 多阶段验证:从仿真环境(可控实验)到在线A/B测试(真实场景)的完整闭环,增强了结论的可信度。

其他价值
研究团队公开了仿真环境代码,为后续研究提供基准测试平台。此外,文中讨论了长期 engagement 测量的局限性(如一年期数据缺失),为未来工作指明方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com