基于部分可观测的利他Q学习的多智能体强化学习方法

分享自：
基于部分可观测的利他Q学习的多智能体强化学习方法

期刊:2024 IEEE International Conference on Robotics and Automation (ICRA)
本文介绍了一项关于多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）的研究，题为《poaql: a partially observable altruistic q-learning method for cooperative multi-agent reinforcement learning》。该研究由Lesong Tao、Miao Kang、Jinpeng Dong、Songyi Zhang、Ke Ye、Shitao Chen和Nanning Zheng共同完成，研究团队来自西安交通大学的国家重点实验室——人机混合增强智能实验室、视觉信息与应用国家工程研究中心以及人工智能与机器人研究所。该论文于2024年5月13日至17日在IEEE国际机器人与自动化会议（ICRA）上发表。
研究背景多智能体路径规划（Multi-Agent Path Finding, MAPF）是多智能体协作中的一个重要问题。MAPF要求多个智能体在避免碰撞的情况下到达各自的目标位置，广泛应用于视频游戏、自动化仓库、机器人等领域。传统的MAPF方法通常基于搜索算法，但随着环境复杂度的增加，这些方法的适应性较差。近年来，多智能体强化学习（Marl）被引入到MAPF问题中，旨在通过智能体之间的协作来最大化团队奖励。然而，在部分可观测（Partially Observable）的环境中，团队奖励可能会受到未观测智能体行为的影响，导致智能体难以找到最优策略。为了解决这一问题，本文提出了一种新的方法——部分可观测的利他Q学习（Partially Observable Altruistic Q-Learning, POAQL）。
研究方法POAQL的核心思想是通过考虑智能体及其邻居的累积奖励（即子团队的奖励），而不是整个团队的奖励，来减少不可预测的因素。具体来说，POAQL将子团队的动作值分解为利己动作值（egoistic action value）和利他动作值（altruistic action value），并分别进行更新。利己动作值表示智能体自身的奖励，而利他动作值表示智能体邻居的奖励。通过这种方式，POAQL能够在部分可观测的环境中更有效地学习子团队的动作值。
此外，POAQL还设计了一种新的冲突解决机制，无需额外的指导即可强调Marl框架的协作性。该机制通过协调冲突的智能体，强制其中一个智能体绕过另一个智能体，从而避免冲突。实验结果表明，POAQL在效率和性能上优于现有的强化学习方法。
实验设计与结果实验部分，研究团队设计了一个基于仓库应用的MAPF环境，并比较了POAQL与其他几种Marl方法的性能。实验结果表明，POAQL在大多数情况下表现最佳，尤其是在任务完成率和成功率方面显著优于其他方法。具体来说，POAQL在10×10、40×40和100×100的地图尺寸下，均能以最小的成本完成大多数任务。此外，POAQL的训练效率也较高，尤其是在处理大规模问题时，其表现优于基于独立学习的其他方法。
结论与意义本文提出的POAQL方法通过引入子团队动作值和利他Q学习，有效减少了部分可观测环境中的不可预测因素，从而提高了多智能体协作的效率。该方法不仅为MAPF问题提供了一种新的解决方案，还为其他多智能体协作问题提供了新的思路。未来的研究可以进一步探索如何在子团队内部进行信用分配，以减少子团队动作值的累积误差。
研究亮点新颖的Marl框架：POAQL通过引入子团队动作值和利他Q学习，解决了部分可观测环境中的团队奖励误导问题。
新的冲突解决机制：POAQL设计了一种无需额外指导的冲突解决机制，强调了Marl框架的协作性。
基于仓库应用的MAPF环境：研究团队设计了一个适用于仓库应用的MAPF环境，为强化学习提供了新的实验平台。
POAQL在多智能体路径规划问题中展现了显著的性能优势，具有较高的科学价值和应用潜力。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问