非线性二阶系统的多智能体强化学习行为控制

分享自：
非线性二阶系统的多智能体强化学习行为控制

工程学
电气科学与工程
期刊:frontiers of information technology & electronic engineeringDOI:10.1631/fitee.2300394
【点击此处】阅读全文、收藏及针对性提问
本文档属于类型a，是一篇关于单一原创性研究的学术论文。以下为撰写的学术研究报告。
关于非线性二阶系统多智能体强化学习行为控制方法的研究报告本研究报告旨在介绍福州大学电气工程与自动化学院及5G+工业互联网研究院的张祯毅、黄捷（通讯作者）和潘聪捷三位研究者共同完成的一项原创性工作。该研究以《Multi-agent reinforcement learning behavioral control for nonlinear second-order systems》（非线性二阶系统的多智能体强化学习行为控制）为题，发表于期刊《Frontiers of Information Technology & Electronic Engineering》（2024年第25卷第6期，第869-886页）。
一、 研究的学术背景
本研究的核心科学领域是多智能体系统（Multi-agent Systems） 的协同控制，具体聚焦于行为控制（Behavioral Control） 与强化学习（Reinforcement Learning） 的交叉前沿。多智能体系统（如无人机群、机器人编队）因其在复杂任务中的协同优势，在民用和军事领域均有广泛应用。许多此类系统（如移动机器人）的动力学模型可被简化为非线性二阶系统（Nonlinear Second-order Systems）。
在实际应用中，多智能体系统经常需要同时执行多个可能相互冲突的任务，例如在保持编队队形的同时避开路径上的障碍物。为解决这种冲突，研究者们引入了行为控制架构。其中，基于零空间的行为控制（Null-Space-Based Behavioral Control, NSBC）框架因其允许高优先级行为与低优先级行为（在零空间内）同时执行，兼具执行效率和完整性，而成为一种主流方法。然而，传统的NSBC框架存在两大核心瓶颈：1) 任务监管器（Mission Supervisor）依赖人工设计规则（如有限状态自动机FSAMS、模糊逻辑FMS），或依赖高性能计算进行在线优化（如模型预测控制MPCMS），智能化与实时性难以兼顾；2) 行为控制器（Behavioral Controller） 在行为优先级切换时，为了追求有限时间或固定时间收敛，往往导致控制输入急剧增大、控制成本高昂，且可能超出执行器的物理极限（输入饱和）。
近期，有研究者提出了强化学习行为控制（RLBC），试图通过试错学习来优化任务监管和行为控制。然而，RLBC仍存在显著缺陷：1) 其任务监管器基于单智能体的马尔可夫决策过程建模，无法实现多智能体间的协同行为，限制了群体智能的发挥；2) 其控制器仅能保证位置误差收敛，对需要同时跟踪位置和速度的二阶系统而言不够充分；3) 未考虑输入饱和约束，在优先级切换时可能导致控制指令超出物理极限。
因此，本研究旨在克服现有RLBC方法的上述三大缺陷，提出一种全新的多智能体强化学习行为控制（MARLBC）方法。其核心目标是：使一组非线性二阶系统能够通过试错学习，动态、智能地切换行为优先级，并以最优的控制性能（兼顾精度与成本）和严格满足输入饱和约束的方式，协同完成存在冲突的复杂任务（如编队行进与避障）。
二、 研究的详细工作流程
本研究提出了一个双层“决策-控制”集成架构的MARLBC方法，其工作流程包含两大核心模块的设计与验证：多智能体强化学习任务监管器（MARLMS） 和二阶强化学习控制器（SORLC）。整个研究遵循“理论设计 -> 算法实现 -> 仿真验证 -> 对比分析”的逻辑。
流程一：系统建模与问题定义 研究者首先对一组n个（n≥2）非线性二阶智能体的动力学模型进行了统一描述。模型包含位置、速度状态以及受饱和约束的控制输入。研究明确提出了三个假设：1) 未知非线性动力学部分满足利普希茨连续且有界；2) 环境中障碍物静态固定；3) 系统并非始终处于输入饱和状态。控制目标被形式化地定义为：学习一个联合行为优先级策略和一组跟踪控制策略，使得智能体群能在满足输入饱和约束、最小化控制成本的前提下，形成期望编队并避开障碍物，且所有信号理论上有界。
流程二：多智能体强化学习任务监管器（MARLMS）的设计与训练 此步骤旨在解决“何时以及如何切换行为优先级”的决策问题。 1. 行为设计：研究定义了基础行为（如避障OA、编队保持FM、编队重构FR）及其对应的任务函数、期望任务和雅可比矩阵。这些基础行为根据MARLMS分配的优先级，通过NSBC框架合成为复合行为，并计算出每个智能体的参考位置和速度指令。 2. 问题建模：研究的关键创新在于将行为优先级切换问题建模为一个协作式马尔可夫博弈（Cooperative Markov Game），而非单智能体的马尔可夫决策过程。所有智能体共享同一奖励函数，目标是学习一个能最大化团队长期回报的联合行为优先级策略。 3. 奖励函数设计：奖励函数精心设计为两部分之和：r1用于实现任务目标（安全避障获得高负奖励，形成期望编队获得高正奖励，形成临时编队获得中等正奖励）；r2用于减少不必要的优先级切换（切换时给予小幅度负奖励）。这种设计引导智能体学习既安全又高效、且切换平稳的策略。 4. 算法实现：MARLMS基于宽容深度Q网络（Lenient Deep Q-Network, LDQN） 算法实现，并引入了决斗网络（Dueling Network） 架构以提高价值估计精度，以及平均Q值（Averaged Q-value） 框架以减少过高估计。算法包含经验回放缓冲区、ε-贪婪探索（带衰减温度）和宽容度机制，以促进在多智能体环境下更稳定、更合作的学习。 5. 离线训练：研究通过大量的离线训练回合（共100,000回合），使MARLMS在模拟环境中学习最优的联合优先级策略。训练完成后，学习到的策略可用于在线实时决策。
流程三：二阶强化学习控制器（SORLC）的设计与理论证明 此步骤旨在解决“如何以最优方式跟踪参考指令”的控制问题。 1. 问题重构：定义位置和速度跟踪误差，并将其组合为积分跟踪误差。构建包含位置和速度误差项以及控制输入项的成本函数，并定义了与之对应的价值函数。 2. 最优控制理论框架：通过构建非线性二阶系统的哈密顿-雅可比-贝尔曼（HJB）方程，理论上推导出最优控制策略的表达式。然而，由于系统模型非线性且未知，该表达式无法直接解析求解。 3. 标识器-执行器-评论家（Identifier-Actor-Critic）结构：研究提出一种新颖的三网络强化学习结构来近似学习最优策略。 * 标识器神经网络：用于在线估计系统中未知的非线性动态部分。 * 评论家神经网络：用于评估当前控制策略的性能，即近似最优价值函数的梯度。 * 执行器神经网络：用于生成最终的控制输入，即近似最优控制策略。 4. 输入饱和补偿：为了严格处理控制输入饱和约束，研究设计了一组自适应补偿器。当标称控制输入接近或超过饱和限值时，补偿器会产生一个补偿信号来抵消饱和效应，从而在保证性能的同时，确保实际输入不超出物理极限。 5. 稳定性与有界性证明：研究者提供了严谨的理论证明（在论文补充材料中），表明在所提SORLC更新律和控制律下，系统的跟踪误差、自适应补偿信号以及所有神经网络的权重误差均是半全局一致最终有界（SGUUB） 的。这为方法的可靠性提供了理论保障。
流程四：数值仿真与对比验证 研究通过一个包含4个二阶智能体的数值仿真案例，全面验证了MARLBC方法的有效性。 1. 仿真设置：定义了智能体的动力学方程、初始状态、期望任务、障碍物环境以及所有算法参数（如神经网络结构、学习率、饱和限值等）。 2. 对比实验设计：研究进行了多组对比实验： * 任务监管器对比：将MARLMS与有限状态自动机监管器（FSAMS）、模型预测控制监管器（MPCMS）和单智能体强化学习监管器（RLMS）在轨迹平滑性、避障安全性、切换频率和在线计算时间上进行对比。 * 控制器对比：将SORLC与传统的强化学习控制器（RLC）在位置/速度跟踪精度、控制输入大小和是否遵守饱和约束上进行对比。 * 整体框架对比：将完整的MARLBC方法与有限时间NSBC、固定时间NSBC以及RLBC方法在整体控制性能（轨迹、误差、成本）上进行对比。 3. 数据采集与分析：仿真记录了智能体的运动轨迹、与障碍物的距离、行为优先级切换序列、控制输入、跟踪误差、控制成本、神经网络权重收敛过程等大量数据。通过可视化图表（轨迹图、时间序列图）和数值表格（最大/累计控制成本、切换次数、迭代时间）进行综合分析与展示。
三、 研究的主要结果
结果一：MARLMS展现出卓越的决策性能。 仿真结果显示：1) 与FSAMS对比：MARLMS产生的轨迹平滑无振荡，且严格满足安全距离约束，而FSAMS在状态转换阈值附近会产生振荡甚至违反安全约束。定量数据表明，MARLMS将各智能体的行为优先级切换次数降低了96.6%至97.7%，显著提升了系统平稳性。2) 与MPCMS对比：两者都能实现近乎完美的任务性能，但MARLMS的在线迭代时间比MPCMS减少了99.8%，显示出其在实时性方面的巨大优势。3) 与RLMS对比：由于RLMS无法处理协同行为（FM/FR），其决策忽略了群体智能，导致整体任务性能不佳。这些结果共同证明了MARLMS在兼顾决策智能化、任务高性能和计算实时性方面的优越性。
结果二：SORLC实现了高性能、低成本的跟踪控制。 仿真结果显示：1) 网络收敛性：标识器、执行器和评论家网络的权重均能快速收敛并保持有界，其权重误差最终趋近于零，验证了学习算法的有效性。2) 跟踪性能：SORLC能同时保证位置和速度跟踪误差快速收敛（速度误差在0.7秒内收敛）。在行为优先级切换时，轨迹依然平滑，控制精度得以保持。3) 饱和约束：控制输入被严格限制在预设的饱和限值（200 N·m）以内，自适应补偿器发挥了预期作用。4) 与RLC对比：传统RLC无法有效跟踪速度信号，在优先级切换时跟踪误差急剧恶化，轨迹失稳，且其控制输入不受限，可能超出物理极限。这凸显了SORLC针对二阶系统设计（同时跟踪位置速度）和处理输入饱和的必要性。
结果三：完整的MARLBC框架在综合性能上超越现有方法。 与有限时间NSBC和固定时间NSBC方法的对比表明：1) 控制成本与输入：在行为优先级切换时，有限时间和固定时间方法为了追求快速收敛，会导致控制输入和成本飙升到极高值。而MARLBC通过强化学习平衡了控制性能与消耗，在切换时最大控制成本和最大控制输入均显著降低（例如，相比固定时间方法，最大控制成本降低了91.3%至97.6%，最大控制输入降低了79.2%至89.6%）。2) 与RLBC对比：RLBC由于在决策层（单智能体）和控制层（忽略速度跟踪和饱和）的双重缺陷，其整体控制表现存在诸多问题。MARLBC是首个能在保证控制精度的同时，严格满足控制限值的二阶行为控制方法。
四、 研究的结论、意义与价值
本研究成功提出并验证了一种创新的多智能体强化学习行为控制（MARLBC）方法。主要结论是：通过将行为优先级分配建模为协作式马尔可夫博弈并设计多智能体强化学习任务监管器（MARLMS），可以实现群体智能化的动态优先级决策，大幅降低切换频率；通过设计具有标识器-执行器-评论家结构的二阶强化学习控制器（SORLC）并结合自适应输入饱和补偿，可以在严格满足物理约束的前提下，学习到同时优化位置与速度跟踪性能、且控制成本更低的最优控制策略。
研究的科学价值主要体现在：1) 理论创新：将协作式马尔可夫博弈引入NSBC的任务监管层，突破了单智能体强化学习在协同任务中的局限性，为多智能体行为决策提供了新的理论框架。2) 算法创新：提出了针对二阶系统特性的SORLC结构，并给出了严格的稳定性证明，推动了强化学习与非线性控制系统结合的理论深度。3) 方法集成：首次将多智能体协同学习、二阶系统最优跟踪控制与输入饱和处理有机融合在一个统一的行为控制框架内。
研究的应用价值十分明确：该方法为解决实际机器人编队、无人机集群等在复杂动态环境中执行多任务（如搜索、运输、监视）时所面临的“决策-控制”一体化难题，提供了一种高智能、高性能、高可靠且对计算资源要求相对较低的解决方案。其减少人工规则依赖、降低控制消耗、保障系统安全（避障、防饱和）的特点，对推动多智能体系统的实际工程应用具有重要意义。
五、 研究的亮点
首创多智能体协同决策：首次在行为控制框架中，利用多智能体强化学习（MARL）解决协同任务的优先级分配问题，实现了真正的群体智能决策，突破了传统单智能体方法的局限。
针对性的二阶控制器设计：明确提出并解决了二阶系统对位置和速度同步跟踪的需求，设计了专门的SORLC，其性能显著优于仅关注位置跟踪的传统控制器。
实用的饱和约束处理：通过设计自适应补偿器，将输入饱和约束自然地融入最优控制学习框架，保证了方法在实际系统中的物理可实现性和安全性。
全面的性能优势：通过详尽的仿真对比，从决策（切换频率、计算时间）到控制（跟踪精度、控制成本、饱和约束）多个维度，系统性地证明了MARLBC方法相较于现有主流方法的综合优越性。
理论结合实践：研究不仅提出了创新的算法架构，还提供了严格的理论稳定性证明和充分的数值仿真验证，体现了严谨的学术风格。
六、 其他有价值的内容
论文在最后指出了当前集中式任务监管器可能存在的可扩展性不足的问题，并展望了未来研究向分布式行为控制结构发展的方向，这为后续研究指明了有潜力的技术路径。此外，论文提供的在线补充材料包含了定理证明、稳定性分析等详细内容，增强了研究的透明度和可复现性。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问