分享自:

基于量子启发的经验回放的深度强化学习

期刊:IEEE Transactions on CyberneticsDOI:10.1109/TCYB.2021.3053414

量子启发的深度强化学习经验回放方法研究报告

作者及发表信息
本文由南京大学的Qing Wei、Hailan Ma、Chunlin Chen及澳大利亚新南威尔士大学的Daoyi Dong共同完成,发表于2022年9月的*IEEE Transactions on Cybernetics*(第52卷第9期)。研究得到中国国家自然科学基金及澳大利亚研究委员会资助。


学术背景

研究领域:研究属于深度强化学习(Deep Reinforcement Learning, DRL)与量子计算交叉领域,聚焦于改进DRL中的经验回放(Experience Replay)机制。
研究动机:传统DRL的经验回放机制(如PER算法)存在两个问题:1)过度依赖时间差分误差(Temporal-Difference Error, TD-error)可能导致某些样本被重复利用,引发训练振荡;2)忽视样本多样性和复杂性,影响探索-利用平衡。量子计算的并行性和概率特性为优化经验回放提供了新思路。
目标:提出量子启发的经验回放方法(Quantum-Inspired Experience Replay, QER),通过量子表示和操作动态调整样本优先级,提升训练效率和稳定性。


研究方法与流程

1. 量子表示构建

  • 对象:经验回放缓冲区中的转移样本(transition)( e_t = (s_t, a_t, rt, s{t+1}) )。
  • 方法:将每个样本编码为量子比特(qubit),状态表示为 ( |ψ^{(k)}⟩ = b_0^{(k)}|0⟩ + b_1^{(k)}|1⟩ ),其中 (|0⟩)和(|1⟩)分别对应“拒绝”和“接受”样本的动作,概率幅 ( |b_1^{(k)}|^2 ) 决定样本被选中的优先级。
  • 初始化:所有样本初始化为均匀叠加态 ( |ψ_0⟩ = \frac{\sqrt{2}}{2}(|0⟩ + |1⟩) ),表示无先验知识。

2. 量子操作设计

  • 准备操作(Preparation Operation)
    • 目的:根据TD-error调整样本优先级。通过Grover迭代(Grover Iteration)旋转量子态,旋转角度 ( \epsilon_k ) 与样本优先级 ( p_k = |δ_t| + ε ) 成正比(( δ_t )为TD-error)。
    • 关键公式:旋转次数 ( m_k = \text{floor}(μ \cdot pk / p{\max} - ι/σ) ),其中 ( σ ) 随训练轮次动态衰减(见公式15)。
  • 折旧操作(Depreciation Operation)
    • 目的:避免样本过度重用。每次选中样本后,对其施加酉变换 ( uω ),降低其概率幅。折旧因子 ( ω ) 与样本重用次数 ( \text{rt}{\max} ) 负相关(公式18)。

3. 经验选择与训练

  • 采样:根据量子测量原理,样本被选中的概率 ( b_k \propto |⟨1|ψ_f^{(k)}⟩|^2 )。
  • 训练:使用小批量数据更新DRL网络参数,结合Double DQN和Dueling Network架构验证通用性。

4. 实验验证

  • 平台:OpenAI Gym的Atari 2600游戏(12款),包括射击、对抗、竞速和策略类游戏。
  • 对比算法:DRL-PER、DCRL。
  • 参数设置:超参数 ( ζ_1, ζ_2, τ_1, τ_2 ) 通过网格搜索优化(见表I),训练帧数500万。

主要结果

  1. 性能提升:在多数游戏中,DRL-QER的平均奖励(见表II)和Q值收敛速度(图6)优于DRL-PER,与DCRL相当。例如,在*Space Invaders*和*Breakout*中,Q值曲线显示更快的收敛和更高的稳定性。
  2. 多样性保障:折旧操作有效减少了样本过拟合,如在*River Raid*中避免了PER的奖励波动问题。
  3. 扩展性验证:与Double DQN和Dueling DQN结合时(图7、表III-IV),QER仍能提升性能(除*River Raid*外),证明其适用于多种DRL架构。

结论与价值

科学价值
- 提出首个将量子表示与操作引入DRL经验回放的方法,通过量子叠加态和Grover迭代动态平衡探索与利用。
- 理论贡献:证明了量子启发的优先级调整可提升样本效率,避免传统方法对TD-error的过度依赖。

应用价值
- 适用于高维状态空间任务(如游戏、机器人控制),无需复杂超参数调优。
- 可扩展至其他基于记忆的DRL算法(如DDPG),为量子机器学习与DRL的交叉研究提供范例。


研究亮点

  1. 创新方法:首次将量子态表示与操作(准备/折旧)应用于经验回放,硬件兼容性强(经典计算机可模拟)。
  2. 高效性:相比PER,QER减少了约30%的训练振荡(见图6©)。
  3. 通用性:在Double和Dueling DQN中表现稳定,验证了方法的广泛适用性。

其他价值

  • 开源支持:论文提供补充材料,包含参数调优细节和代码实现。
  • 未来方向:作者计划将QER扩展到连续控制任务(如DDPG)并研究其理论收敛性。

(注:术语翻译示例:经验回放-Experience Replay;时间差分误差-Temporal-Difference Error;量子比特-qubit;Grover迭代-Grover Iteration)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com