考虑环境不确定性的稳健多目标强化学习

2024-05-24 Fri
背景介绍近年来，强化学习（Reinforcement Learning, RL）在解决各种复杂任务方面展示了其有效性。然而，许多现实世界中的决策和控制问题涉及多个相互冲突的目标。这些目标的相对重要性（偏好）在不同情景下需要权衡。尽管帕累托最优解（Pareto optimal）的解决方案被认为是理想的，但环境不确定性（例如，环境变化或观察噪声）可能会导致代理采取次优策略。
针对上述问题，Xiangkun He、Jianye Hao等人发表了一篇题为《Robust Multiobjective Reinforcement Learning Considering Environmental Uncertainties》的论文，旨在研究一种新的多目标优化范式，提出了在考虑环境不确定性的情况下的健壮多目标强化学习（Robust Multiobjective Reinforcment Learning, RMORL）。论文发表于《IEEE Transactions on Neural Networks and Learning Systems》。
论文来源该论文的作者包括Xiangkun He、Jianye Hao、Xu Chen、Jun Wang、Xuewu Ji 和Chen Lv，分别来自南洋理工大学、天津大学、中国人民大学、伦敦大学学院以及清华大学。论文接收到的时间为2023年2月3日，修订在2023年8月7日和11月7日，最终接受在2024年5月1日。
研究流程研究流程概述环境扰动建模：将环境扰动建模为整个偏好空间内的一个对抗代理，通过将零和博弈（Zero-Sum Game）引入多目标马尔可夫决策过程（Multiobjective Markov Decision Process, MOMDP）。
观察干扰的对抗防御技术：设计对抗防御技术以应对观察上的干扰，确保在任何给定偏好下，观察受到干扰的策略变化在范围内。
策略优化：在五个具有连续动作空间的多目标环境中评估了所提出技术的有效性。
实验步骤细节环境扰动的对抗代理建模：
定义一个环境扰动的对抗者模型，用来模拟整个偏好空间的苛刻环境（即，最坏情况）。
对抗防御技术设计：
基于非线性约束，制定一个对抗防御技术。此技术旨在限制由于观察上的对抗攻击而受到干扰的策略的变化在一个特定的范围内。
使用拉格朗日对偶理论解决包含对抗观察性不确定性和代理偏好空间的约束优化问题。
算法设计：
在深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）框架基础上，实施了该方法，称为Robust Multiobjective DDPG（RMO-DDPG）。
研究结果在多个实验环境中，主要结果如下：
学习速度和最终表现：与经典和最先进的基线相比，RMO-DDPG在所有实验环境中均表现出更高的超体积指标。特别是在MO-Hopper-v2环境中，相对于基线模型的性能有显著提高。
策略的鲁棒性：在五个实验环境中，相比基线方法，RMO-DDPG在策略鲁棒性方面均表现出更高的指标。例如，在MO-Swimmer-v2任务中，RMO-DDPG的鲁棒性指标相较于基线方法，有显著提升。
计算成本：RMO-DDDG方法在计算上较为昂贵，因为该方法在训练期间需要对对抗者模型和对偶变量进行额外的优化。
帕累托前沿：RMO-DDPG可以逼近更广泛的帕累托解，并且在所有任务中均能找到凸和凹部分的帕累托前沿。
结论与价值本研究提出的RMORL算法可以在给定偏好下生成健壮的帕累托最优策略。该研究不仅填补了现有多目标RL方法在应对环境不确定性和观察性干扰方面的空白，而且在多个实验任务中的表现显示了其在提升 Pareto 质量和策略鲁棒性方面的潜力。
研究中的亮点方法新颖性：通过将零和博弈引入MOMDP，提出了新的多目标优化范式，实现在环境扰动和观察性干扰下训练单一模型以逼近健壮的帕累托最优策略。
对抗防御技术：设计的对抗防御技术能够有效限制观察性干扰下的策略变化，增强了策略在不同偏好下的鲁棒性。
实验的全面性：在五个多目标环境中展示了所提出技术的有效性，并通过多个指标与竞争性基线进行了比较，证明了方法的优越性。
附加内容为了证明RMO-PI在本文所涉及的多目标放射处理过程中的收敛性，论文还提供了详细的理论证明，并对实验环境的多目标奖励函数设计进行了解释。