分享自:

因果关系驱动的分层结构发现用于强化学习

期刊:36th conference on neural information processing systems (NeurIPS 2022)

这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


因果驱动的分层强化学习框架(CDHRL)研究报告

一、作者及发表信息

本研究由Shaohui Peng(第一作者)、Xing HuRui ZhangKe Tang等来自中国科学院计算技术研究所(Institute of Computing Technology, CAS)寒武纪科技(Cambricon Technologies)南方科技大学(Southern University of Science and Technology)等多个机构的研究者共同完成,并于2022年10月13日提交至预印本平台arXiv,并最终发表于NeurIPS 2022(第36届神经信息处理系统会议)。

二、学术背景

研究领域:该研究属于强化学习(Reinforcement Learning, RL)领域,具体聚焦于分层强化学习(Hierarchical Reinforcement Learning, HRL)

研究动机:在稀疏奖励(Sparse Reward)的复杂环境中(如《Minecraft》),传统HRL方法依赖随机性探索(Randomness-Driven Exploration)来发现子目标(Subgoals)等分层结构,但效率低下,难以适应高复杂度任务。

关键问题:如何自动化发现高质量分层结构(如子目标依赖关系),以提升探索效率?

理论基础
1. 因果关系(Causality):环境变量间的因果性可自然建模子目标间的可达性与依赖关系。
2. 结构化因果模型(Structural Causal Model, SCM):用于描述变量间的因果图(DAG)。

研究目标:提出因果驱动的分层强化学习框架(Causality-Driven HRL, CDHRL),通过因果发现替代随机探索,高效构建分层结构。

三、研究方法与流程

整体框架分为两大核心模块:因果发现(Causality Discovery)子目标层级构建(Subgoal Hierarchy Construction),二者通过迭代相互促进。

1. 因果发现模块
- 输入:环境变量(Environment Variables, EVs),如《Minecraft》中的“石头镐(Stone Pickaxe)”和“铁矿石(Iron Ore)”数量。
- 方法
- 干预采样(Intervention Sampling):通过子目标策略改变可控变量的分布,生成干预数据(如固定“石头镐”数量,观察“铁矿石”变化)。
- 因果图学习:基于SCM,通过结构参数(η)和函数参数(θ)迭代优化,输出环境变量因果图(EVCG)。
- 技术细节:使用3层MLP建模生成函数,通过REINFORCE-like梯度估计更新因果图结构。

2. 子目标层级构建模块
- 目标空间:定义基于环境变量的子目标空间(EVGS),包括“增加/减少变量值”两类原子操作(如(Iron Ore, +1))。
- 层级策略训练
- 根据因果图确定子目标依赖关系(如“需先获取石头镐才能开采铁矿石”)。
- 采用多级DQN+HER(Hindsight Experience Replay)训练子目标策略,每层策略的动作空间由父变量子目标与原生动作组成。
- 可控性验证:仅保留成功率超过阈值(φ=0.8)的子目标。

实验设计
- 环境:2D-Minecraft(10×10网格生存任务)和Eden(40×40网格生存游戏)。
- 基线方法:对比HAC(随机探索)、MEGA(课程学习增强的HRL)和人工设计的Oracle HRL。
- 评估指标:任务完成率、探索效率(如达成关键里程碑的次数)。

四、主要结果

1. 性能优势
- 在2D-Minecraft中,CDHRL的钻石获取成功率比HAC提升80%,学习速度提高3倍(图2b)。
- 在Eden中,CDHRL的生存时间显著超过基线(图2a),尤其在复杂目标(如“制作火炬”)上表现优异。

2. 因果驱动的探索效率
- CDHRL通过因果图优先探索关键子目标(如“先获取石头镐”),在硬探索里程碑(Hard Milestones)上的达成次数显著高于随机探索方法(图3)。

3. 因果图的合理性
- 学习到的因果图与人类认知一致(如“石头镐→铁矿石”),但部分长程因果(如“木棍→铁矿石”)简化了真实依赖(图2c),反而提升了训练效率。

4. 模块协同效应
- 因果图精度随迭代提升(图4a-b):子目标策略生成的干预数据使因果图结构汉明距离(SHD)降低40%。
- 子目标训练更稳定:依赖因果序的训练(如“先训练‘肉获取’再训练‘饱腹度’”)比MEGA的课程学习快2倍(图4c-d)。

五、结论与价值

科学价值
1. 方法论创新:首次将因果发现引入HRL,提出因果驱动的探索范式,解决了复杂环境中分层结构发现的低效问题。
2. 理论扩展:证明了环境变量因果性可天然建模子目标依赖关系,为HRL提供了新理论工具。

应用价值
1. 适用于高维稀疏奖励任务(如机器人操作、游戏AI),尤其在需多步骤规划的场景中优势显著。
2. 开源代码与框架可复用于其他RL环境。

局限与未来方向
1. 当前仅支持离散环境变量,未来需扩展至连续变量。
2. 纯图像观测环境需结合解耦表示学习(如CausalVAE)。

六、研究亮点

  1. 因果驱动范式:取代传统随机探索,通过干预采样和因果图实现高效分层结构发现。
  2. 迭代协同框架:因果发现与子目标构建互相增强,形成正反馈循环。
  3. 通用性验证:在两类复杂环境(2D-Minecraft、Eden)中均显著优于SOTA方法。

七、其他重要内容

  • 敏感性分析:即使环境变量(EVs)存在噪声或缺失(如缺失10%变量),CDHRL仍保持竞争力(图5)。
  • 资源效率:相比MEGA,CDHRL的预训练时间更短,且无需人工设计课程。

(注:全文约2000字,严格遵循学术报告格式,涵盖研究全貌与细节。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com