因果关系驱动的分层结构发现用于强化学习

分享自：
因果关系驱动的分层结构发现用于强化学习

期刊:36th conference on neural information processing systems (NeurIPS 2022)
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
因果驱动的分层强化学习框架（CDHRL）研究报告一、作者及发表信息本研究由Shaohui Peng（第一作者）、Xing Hu、Rui Zhang、Ke Tang等来自中国科学院计算技术研究所（Institute of Computing Technology, CAS）、寒武纪科技（Cambricon Technologies）、南方科技大学（Southern University of Science and Technology）等多个机构的研究者共同完成，并于2022年10月13日提交至预印本平台arXiv，并最终发表于NeurIPS 2022（第36届神经信息处理系统会议）。
二、学术背景研究领域：该研究属于强化学习（Reinforcement Learning, RL）领域，具体聚焦于分层强化学习（Hierarchical Reinforcement Learning, HRL）。
研究动机：在稀疏奖励（Sparse Reward）的复杂环境中（如《Minecraft》），传统HRL方法依赖随机性探索（Randomness-Driven Exploration）来发现子目标（Subgoals）等分层结构，但效率低下，难以适应高复杂度任务。
关键问题：如何自动化发现高质量分层结构（如子目标依赖关系），以提升探索效率？
理论基础：
 1. 因果关系（Causality）：环境变量间的因果性可自然建模子目标间的可达性与依赖关系。
 2. 结构化因果模型（Structural Causal Model, SCM）：用于描述变量间的因果图（DAG）。
研究目标：提出因果驱动的分层强化学习框架（Causality-Driven HRL, CDHRL），通过因果发现替代随机探索，高效构建分层结构。
三、研究方法与流程整体框架分为两大核心模块：因果发现（Causality Discovery）和子目标层级构建（Subgoal Hierarchy Construction），二者通过迭代相互促进。
1. 因果发现模块
 - 输入：环境变量（Environment Variables, EVs），如《Minecraft》中的“石头镐（Stone Pickaxe）”和“铁矿石（Iron Ore）”数量。
 - 方法：
 - 干预采样（Intervention Sampling）：通过子目标策略改变可控变量的分布，生成干预数据（如固定“石头镐”数量，观察“铁矿石”变化）。
 - 因果图学习：基于SCM，通过结构参数（η）和函数参数（θ）迭代优化，输出环境变量因果图（EVCG）。
 - 技术细节：使用3层MLP建模生成函数，通过REINFORCE-like梯度估计更新因果图结构。
2. 子目标层级构建模块
 - 目标空间：定义基于环境变量的子目标空间（EVGS），包括“增加/减少变量值”两类原子操作（如(Iron Ore, +1)）。
 - 层级策略训练：
 - 根据因果图确定子目标依赖关系（如“需先获取石头镐才能开采铁矿石”）。
 - 采用多级DQN+HER（Hindsight Experience Replay）训练子目标策略，每层策略的动作空间由父变量子目标与原生动作组成。
 - 可控性验证：仅保留成功率超过阈值（φ=0.8）的子目标。
实验设计：
 - 环境：2D-Minecraft（10×10网格生存任务）和Eden（40×40网格生存游戏）。
 - 基线方法：对比HAC（随机探索）、MEGA（课程学习增强的HRL）和人工设计的Oracle HRL。
 - 评估指标：任务完成率、探索效率（如达成关键里程碑的次数）。
四、主要结果1. 性能优势
 - 在2D-Minecraft中，CDHRL的钻石获取成功率比HAC提升80%，学习速度提高3倍（图2b）。
 - 在Eden中，CDHRL的生存时间显著超过基线（图2a），尤其在复杂目标（如“制作火炬”）上表现优异。
2. 因果驱动的探索效率
 - CDHRL通过因果图优先探索关键子目标（如“先获取石头镐”），在硬探索里程碑（Hard Milestones）上的达成次数显著高于随机探索方法（图3）。
3. 因果图的合理性
 - 学习到的因果图与人类认知一致（如“石头镐→铁矿石”），但部分长程因果（如“木棍→铁矿石”）简化了真实依赖（图2c），反而提升了训练效率。
4. 模块协同效应
 - 因果图精度随迭代提升（图4a-b）：子目标策略生成的干预数据使因果图结构汉明距离（SHD）降低40%。
 - 子目标训练更稳定：依赖因果序的训练（如“先训练‘肉获取’再训练‘饱腹度’”）比MEGA的课程学习快2倍（图4c-d）。
五、结论与价值科学价值：
 1. 方法论创新：首次将因果发现引入HRL，提出因果驱动的探索范式，解决了复杂环境中分层结构发现的低效问题。
 2. 理论扩展：证明了环境变量因果性可天然建模子目标依赖关系，为HRL提供了新理论工具。
应用价值：
 1. 适用于高维稀疏奖励任务（如机器人操作、游戏AI），尤其在需多步骤规划的场景中优势显著。
 2. 开源代码与框架可复用于其他RL环境。
局限与未来方向：
 1. 当前仅支持离散环境变量，未来需扩展至连续变量。
 2. 纯图像观测环境需结合解耦表示学习（如CausalVAE）。
六、研究亮点因果驱动范式：取代传统随机探索，通过干预采样和因果图实现高效分层结构发现。
 
迭代协同框架：因果发现与子目标构建互相增强，形成正反馈循环。
 
通用性验证：在两类复杂环境（2D-Minecraft、Eden）中均显著优于SOTA方法。
 
七、其他重要内容敏感性分析：即使环境变量（EVs）存在噪声或缺失（如缺失10%变量），CDHRL仍保持竞争力（图5）。
 
资源效率：相比MEGA，CDHRL的预训练时间更短，且无需人工设计课程。
 
（注：全文约2000字，严格遵循学术报告格式，涵盖研究全貌与细节。）
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问