分享自:

面向可扩展多机器人控制的分布式模型预测控制策略学习

期刊:IEEE Transactions on RoboticsDOI:10.1109/TRO.2025.3531818

分布式模型预测控制(DMPC)中的快速策略学习方法及其在多机器人系统中的应用

作者及机构
本研究的核心作者团队由Xinglong Zhang(国防科技大学智能科学与技术学院)、Wei Pan(曼彻斯特大学计算机科学系)、Cong Li、Xin Xu(IEEE高级会员)、Xiangke Wang(IEEE高级会员)、Ronghua Zhang以及Dewen Hu(IEEE高级会员)组成。该研究发表于2025年的IEEE Transactions on Robotics(第41卷),并获得了中国国家自然科学基金和湖南省科技创新计划的支持。

学术背景

研究领域与动机
多机器人系统(Multirobot Systems, MRS)通过通信网络实现协同控制,能够完成超越单个机器人能力的复杂任务。然而,传统的分布式模型预测控制(Distributed Model Predictive Control, DMPC)方法依赖于在线数值优化工具计算局部控制序列,计算复杂度高,难以扩展到大规模非线性MRS。因此,本研究提出了一种基于学习的分布式预测控制框架(Distributed Learning-based Predictive Control, DLPC),旨在通过策略学习生成显式闭环DMPC策略,从而提升计算效率和可扩展性。

研究目标
1. 解决计算瓶颈:传统DMPC需要在线求解优化问题,而DLPC通过策略学习避免数值求解器的使用,显著降低计算负担。
2. 保证闭环稳定性:结合控制理论中的滚动时域优化策略,确保策略学习的稳定性和效率。
3. 实现安全学习:通过力场启发式策略设计,解决多机器人系统中的碰撞避免等安全约束问题。

研究方法与流程

1. 问题建模

动力学模型
研究首先建立了多机器人系统的动力学模型。以轮式机器人为例,其状态包括位置、偏航角和线速度,控制输入为加速度和偏航角速度。通过离散化处理,将连续时间模型转化为输入仿射形式的离散时间模型:
[ e_i(k+1) = fi(e{ni}(k)) + g_i(e_i(k))u_i(k) ]
其中,( e_i )为局部形成误差,( u_i )为控制输入,( f_i )和( g_i )为非线性映射函数。

DMPC问题构建
每个机器人在每个时间步( k )求解以下有限时域优化问题:
[ \min_{ui(k)} J(e(k)) = \sum{i=1}^m \left( \sum_{j=0}^{n-1} ri(e{ni}(k+j), u_i(k+j)) + |ei(k+n)|{P_i}^2 \right) ]
其中,( r_i )为阶段成本,( P_i )为终端惩罚矩阵。

2. 策略学习框架

分布式策略学习算法
与传统DMPC不同,DLPC将优化问题分解为多个顺序子问题,并通过策略学习逐步求解。具体步骤如下:
1. 并行值更新:每个机器人根据当前策略计算局部值函数。
2. 同步策略更新:基于邻域机器人的值函数信息,更新局部控制策略。

分布式Actor-Critic实现
- Critic网络:近似值函数的梯度(即costate),通过最小化近似误差更新权重。
- Actor网络:生成控制策略,通过梯度下降法优化策略参数。
- 在线学习机制:策略在每个预测区间内逐步更新,并在后续区间中迭代优化。

3. 安全策略学习扩展

力场启发式策略设计
为确保安全约束(如碰撞避免),研究提出了一种力场启发式策略结构:
[ \bar{u}i(e{ni}) = \nui(e{ni}) + l{e,i} \nabla b{e,i}(e{ni}) + l{\nu,i} \nabla b_{\nu,i}(\nui(e{ni})) ]
其中,( \nu_i )生成目标力,梯度项生成约束力,平衡目标与约束之间的冲突。

屏障函数与稳定性保证
通过引入松弛屏障函数(relaxed barrier functions)重构成本函数,并结合Lyapunov方程设计终端惩罚矩阵,确保闭环稳定性。

主要结果

1. 计算效率与可扩展性

  • 在线策略学习:在机器人规模从4到10,000的测试中,DLPC的平均计算时间随机器人数量线性增长(2机器人:0.02秒;10,000机器人:14.57秒)。
  • 策略迁移性:仅需训练2个机器人的策略,即可直接部署到1,000个机器人的场景中,且性能稳定。

2. 安全性能验证

  • 碰撞避免:在16个机器人的矩形编队任务中,DLPC成功避开了路径上的障碍物,并恢复了编队形状(见图6)。
  • 联合约束处理:通过力场启发式策略,DLPC在4个机器人的互避任务中表现优于基于成本整形的强化学习方法(成功率显著提高,见图7)。

3. 实验验证

  • 仿真测试:在Gazebo平台上验证了多旋翼无人机的编队控制,策略可直接迁移至不同规模的无人机群(6、18、40架)。
  • 实物实验:轮式机器人在实际场景中实现了编队变换与动态避障(见图12),验证了策略的鲁棒性和可扩展性。

结论与意义

科学价值
1. 方法论创新:首次将策略学习引入DMPC,生成显式闭环策略,避免了传统数值优化的计算瓶颈。
2. 理论贡献:提出了分布式Actor-Critic框架和力场启发式策略设计,为安全多机器人控制提供了新思路。
3. 工程应用:在仿真和实物实验中验证了策略的可扩展性和迁移性,为大规模MRS的实际部署奠定了基础。

应用价值
DLPC适用于需要高效协同控制的场景,如智能交通、仓储物流和灾害救援。其低计算负载特性尤其适合资源受限的小型机器人平台(如Raspberry Pi)。

研究亮点

  1. 计算效率:首次实现了10,000规模机器人的分布式优化控制,计算负载线性增长。
  2. 策略迁移性:小规模训练的策略可直接部署至大规模系统,无需重新训练。
  3. 安全保证:力场启发式策略具有明确的物理解释,平衡了目标与约束的冲突。

未来方向
研究团队计划进一步探索模型无关的策略学习、时变通信网络下的策略优化,以及更一般化成本函数的多智能体决策问题。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com