基于策略共识的分布式确定性多智能体强化学习方法研究

基于策略共识的分布式确定性多智能体强化学习研究报告

强化学习(Reinforcement Learning, RL)近年来在诸多领域取得了显著突破,包括机器人学、智能电网和自动驾驶等。然而,在实际场景中,常常涉及到多智能体(Multi-Agent Reinforcement Learning, MARL)的协作学习问题。这类问题的核心挑战在于设计高效的多智能体协作强化学习算法,尤其是在受制于通信能力限制或隐私保护的情况下。目前,多数的MARL算法依赖一种被广泛采用的集中化训练-分布式执行(Centralized Training with Decentralized Execution, CTDE)范式。该范式虽然可以有效解决环境的非平稳性问题,但由于其重通信和集中化处理的本质,使其在实际部署中面临链路失效、带宽限制等挑战。因此,研究分布式MARL算法在弱化通信需求下的性能表现显得尤为重要。

本文提出的研究正是围绕上述问题展开,试图通过设计基于策略共识的分布式MARL算法,克服现有方法的局限性。研究团队由Southeast University数学学院的Yifan Hu、Junjie Fu、Guanghui Wen,以及Anhui University人工智能学院的Changyin Sun组成。本文发表于2025年1月《IEEE Transactions on Artificial Intelligence》。

研究背景与目标

现有的MARL算法在涉及高维连续状态和动作空间的场景时仍面临诸多瓶颈。例如,目前的方法大多专注于离散空间的设定,缺乏对连续状态和动作空间下学习效果的理论分析。同时,许多算法假设用于通信的图是无向图,而实际任务中通信网络常为有向图。此外,MARL算法中的分布式学习能力仍有待提升,尤其是在与先进的集中式训练(CT)基准进行性能比较时存在显著差距。

本文针对这些问题提出了一种基于确定性策略梯度(Deterministic Policy Gradient, DPG)技术的分布式确定性Actor-Critic算法。研究的主要目标是:通过将参数共识机制引入到策略和价值函数的更新中,有效实现高维连续状态和动作空间下的多智能体协作学习;同时,提出理论上的收敛保证,并通过深度强化学习(Deep RL, DRL)架构增强算法的可扩展性、探索能力和数据效率。

工作流程与研究方法

本文的研究从理论构建到算法实践,包含以下几个主要环节:

1. 理论分布式算法的设计

首先,研究团队从经典的确定性策略梯度定理出发,提出一个适用于分布式MARL中的本地DPG定理。这一定理以基于观察的策略为基础,允许通过参数共识更新策略和Critic网络。结合强连通有向图的假设,并基于随机近似理论,证明了该理论算法在一定假设下的渐近收敛性。

算法的核心更新规则包括两部分:Critic网络参数更新和Actor网络参数更新。在Critic更新中,利用本地时间差分(Temporal Difference, TD)误差结合共识更新规则,逐步逼近联合Q函数;而在Actor更新中,通过对策略梯度的本地估计,结合共识更新实现策略参数的一致性。

2. 实践分布式算法的设计

尽管理论上的分布式算法具有收敛性保证,但受到线性近似、渐减学习率和确定性策略的限制,其学习表现可能受限。为解决这些问题,研究团队进一步结合DRL训练架构,设计了一种实用的分布式深度确定性Actor-Critic算法(Distributed Deep Deterministic Actor-Critic, D3-AC)。主要改进点包括:

  • 网络设计:Actor网络和Critic网络均采用可扩展的神经网络(Neural Network, NN),其中Critic网络通过图卷积网络(Graph Convolutional Network, GCN)提取多智能体间复杂的交互信息,解决随着智能体数量增加而出现的扩展性问题。
  • 经验回放机制:为提高样本效率,每个智能体维护一个经验回放池,并采用目标网络减少训练时的振荡。
  • 噪声增加策略:利用高斯噪声增强探索能力。

该算法通过局部参数更新与分布式共识更新结合的训练方式实现分布式学习。

实验设计与结果分析

任务简介

本文选取了典型的多智能体粒子环境(Multi-Agent Particle Environment, MPE)作为实验平台,并设计了三个多机器人协作任务:

  1. 覆盖控制:智能体需覆盖目标区,同时避免相互碰撞;
  2. 圆形控制:智能体需均匀分布在以指定标志物为中心的圆周上;
  3. 方形控制:智能体需均匀分布在由标志物定义的正方形边上。

每个任务分别考察包含8个和16个智能体的场景。

算法比较

研究团队将D3-AC算法与以下基线算法进行比较:

  • PIC:一种基于集中式训练的确定性策略算法,所有智能体共享一个全局策略;
  • MATD3:每个智能体独立训练其策略,但共享一个集中Critic网络;
  • D2-AC:结合随机策略梯度和共识机制的分布式Actor-Critic算法。

实验结果显示:

  1. 性能表现:集中式算法(PIC和MATD3)在所有任务中具有优秀的稳定性和表现。而D3-AC在大规模场景中表现出接近集中式算法的学习能力,同时大幅减少了通信需求。
  2. 对比D2-AC:D3-AC算法在处理连续动作空间时表现优越,显著提高了学习稳定性。
  3. 通信效率:通过在稀疏图上的通信,D3-AC减少了每个智能体的通信开销,显示出良好的实际部署潜力。

消融实验

  1. 邻居数量影响:选择不同的邻居数量(通信密度)进行实验,结果表明在适度稀疏的通信网络下,D3-AC可获得较优的学习效果。
  2. 间歇通信:仿真间歇通信环境,验证了D3-AC在网络链路失效时的鲁棒性。
  3. 局部观测限制:适配局部可见性的版本(D3-AC-L),证明即使在受限的局部观测下,算法仍具有较强的学习能力。

研究结论与意义

本文提出了一种新型基于策略共识的分布式深度确定性Actor-Critic算法(D3-AC)。理论上,算法通过结合本地确定性策略梯度与分布式共识机制,突破了传统集中式框架的通信限制,并在有向图和连续空间中提出了渐近收敛性保证。实践上,通过结合深度强化学习架构,D3-AC展示了在复杂多智能体任务中的高效性、扩展性和稳定性。

研究亮点

  1. 针对高维连续空间和有向通信图提出的分布式学习解决方案;
  2. 验证了参数共识更新对局部学习的理论支持与实践效果;
  3. 提供了一种在有限通信资源约束下实现高效多智能体协作的范式。

应用价值

最终,D3-AC为具有有限通信能力的实际分布式多智能体系统提供了理论依据与实践指导,例如无人机集群、分布式传感器网络以及智能交通中均具有潜在应用价值。未来的工作将集中于算法在受限观测中的性能提升以及扩展至多智能体安全强化学习领域。