分享自:

基于部分可观测的利他Q学习的多智能体强化学习方法

期刊:2024 IEEE International Conference on Robotics and Automation (ICRA)

本文介绍了一项关于多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)的研究,题为《poaql: a partially observable altruistic q-learning method for cooperative multi-agent reinforcement learning》。该研究由Lesong Tao、Miao Kang、Jinpeng Dong、Songyi Zhang、Ke Ye、Shitao Chen和Nanning Zheng共同完成,研究团队来自西安交通大学的国家重点实验室——人机混合增强智能实验室、视觉信息与应用国家工程研究中心以及人工智能与机器人研究所。该论文于2024年5月13日至17日在IEEE国际机器人与自动化会议(ICRA)上发表。

研究背景

多智能体路径规划(Multi-Agent Path Finding, MAPF)是多智能体协作中的一个重要问题。MAPF要求多个智能体在避免碰撞的情况下到达各自的目标位置,广泛应用于视频游戏、自动化仓库、机器人等领域。传统的MAPF方法通常基于搜索算法,但随着环境复杂度的增加,这些方法的适应性较差。近年来,多智能体强化学习(Marl)被引入到MAPF问题中,旨在通过智能体之间的协作来最大化团队奖励。然而,在部分可观测(Partially Observable)的环境中,团队奖励可能会受到未观测智能体行为的影响,导致智能体难以找到最优策略。为了解决这一问题,本文提出了一种新的方法——部分可观测的利他Q学习(Partially Observable Altruistic Q-Learning, POAQL)。

研究方法

POAQL的核心思想是通过考虑智能体及其邻居的累积奖励(即子团队的奖励),而不是整个团队的奖励,来减少不可预测的因素。具体来说,POAQL将子团队的动作值分解为利己动作值(egoistic action value)和利他动作值(altruistic action value),并分别进行更新。利己动作值表示智能体自身的奖励,而利他动作值表示智能体邻居的奖励。通过这种方式,POAQL能够在部分可观测的环境中更有效地学习子团队的动作值。

此外,POAQL还设计了一种新的冲突解决机制,无需额外的指导即可强调Marl框架的协作性。该机制通过协调冲突的智能体,强制其中一个智能体绕过另一个智能体,从而避免冲突。实验结果表明,POAQL在效率和性能上优于现有的强化学习方法。

实验设计与结果

实验部分,研究团队设计了一个基于仓库应用的MAPF环境,并比较了POAQL与其他几种Marl方法的性能。实验结果表明,POAQL在大多数情况下表现最佳,尤其是在任务完成率和成功率方面显著优于其他方法。具体来说,POAQL在10×10、40×40和100×100的地图尺寸下,均能以最小的成本完成大多数任务。此外,POAQL的训练效率也较高,尤其是在处理大规模问题时,其表现优于基于独立学习的其他方法。

结论与意义

本文提出的POAQL方法通过引入子团队动作值和利他Q学习,有效减少了部分可观测环境中的不可预测因素,从而提高了多智能体协作的效率。该方法不仅为MAPF问题提供了一种新的解决方案,还为其他多智能体协作问题提供了新的思路。未来的研究可以进一步探索如何在子团队内部进行信用分配,以减少子团队动作值的累积误差。

研究亮点

  1. 新颖的Marl框架:POAQL通过引入子团队动作值和利他Q学习,解决了部分可观测环境中的团队奖励误导问题。
  2. 新的冲突解决机制:POAQL设计了一种无需额外指导的冲突解决机制,强调了Marl框架的协作性。
  3. 基于仓库应用的MAPF环境:研究团队设计了一个适用于仓库应用的MAPF环境,为强化学习提供了新的实验平台。

POAQL在多智能体路径规划问题中展现了显著的性能优势,具有较高的科学价值和应用潜力。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com