分享自:

基于脉冲深度强化学习的机器人导航分层控制系统

期刊:2025 IEEE International Conference on Robotics and Automation (ICRA)

这篇文档属于类型a,即报告了一项原创性科学研究。以下是详细的学术报告:


浙江大学计算机科学与技术学院的Bo Yang、Qingao Chai、De Ma、Gang Pan和Huajin Tang,浙江实验室的Shibo Zhou和Chaohui Lin,以及浙江工业大学的Rui Yan共同合作,在2025年IEEE国际机器人与自动化会议(ICRA)上发表了一篇题为《HSRL: A Hierarchical Control System Based on Spiking Deep Reinforcement Learning for Robot Navigation》的研究论文。该研究提出了一种基于脉冲深度强化学习(Spiking Deep Reinforcement Learning, SDRL)的分层控制框架,旨在解决机器人在真实环境中的导航问题。

学术背景

机器人导航技术的快速发展使得自主导航成为可能,但真实环境中的动态复杂性、机器人动作的动态可行性以及高能耗成为主要挑战。传统方法如同时定位与建图(SLAM)依赖于精确的几何地图,适应性不足,而深度强化学习(Deep Reinforcement Learning, DRL)在动态环境中表现出色,但仍面临仿真到现实的迁移(sim2real)、动态不可行动作和高能耗等问题。受生物神经系统的启发,脉冲神经网络(Spiking Neural Network, SNN)因其低能耗和抗噪声能力成为解决方案之一。

本研究的目标是设计一种分层控制框架,结合脉冲神经网络和连续吸引子神经网络(Continuous Attractor Neural Networks, CANNs),以提高机器人在动态环境中的导航性能和能源效率。

研究流程

研究分为以下几个主要步骤:

1. 系统架构设计

研究团队提出了一个两层的分层控制框架: - 高层决策层:使用基于脉冲门控循环单元(Spiking GRU)的网络,处理部分可观测环境(Partially Observable Markov Decision Process, POMDP)并生成粗粒度动作指令。 - 低层执行层:采用CANN生成连续的动作序列,确保动作的平滑性和动态可行性。
系统的训练分为两个阶段:先独立训练高层网络,再联合训练高低层网络。

2. 数据编码与处理

为了解决脉冲信号的信息丢失问题,研究采用了自适应群体编码(population coding)方法。具体流程如下: - 输入编码:机器人状态信息(如激光雷达数据、本体感受数据)通过高斯感受野编码为脉冲信号,生成高维数据后再通过泊松编码转换为时间序列脉冲。 - 解码:输出数据通过一维卷积操作解码,恢复为连续动作信号。

3. 脉冲GRU层的实现

脉冲GRU层基于改进的GRU结构,采用泄漏积分发放(Leaky Integrate-and-Fire, LIF)神经元模型。其动态方程如下: - 电流衰减和膜电位计算确保脉冲的时序传递。 - 重置门和更新门通过脉冲神经元实现,增强了模型的记忆能力。

4. 连续吸引子神经网络(CANN)的构建

CANN通过外部输入(高层脉冲指令)生成动态吸引子,驱动神经“波峰”移动。其动态方程包含神经元时间常数、连接强度和全局抑制参数,确保动作连续性。

5. 联合训练与优化

  • 训练环境:在Gazebo仿真环境中进行,包含静态和动态障碍物。
  • 奖励函数:设计为鼓励机器人接近目标同时避障,具体包括目标奖励、碰撞惩罚和进度奖励。
  • 参数调整:动态参数τ在训练中随机初始化,部署时根据机器人性能实时调整。

主要结果

1. 仿真环境测试

在包含动态障碍物和迷宫的仿真环境中,HSRL框架的表现优于基线模型(如DWA、SDDPG、Spiking GRU等),具体表现如下: - 成功率:HSRL在动态环境中的成功率显著高于其他模型(如0.79 vs. Spiking GRU的0.73)。 - 轨迹平滑性:CANN生成的连续动作避免了离散动作的突变,提升了机器人运动的稳定性。

2. 抗噪声能力

在输入数据加入高斯噪声的测试中,HSRL表现出更强的鲁棒性。当噪声标准差达到0.6时,传统ANN-GRU模型失效,而HSRL仍能保持较高的导航成功率。

3. 真实场景验证

在实验室环境中,HSRL框架成功部署于Kobuki机器人,实现了高效避障和目标导航。其成功率和路径优化效果均优于对比模型。

4. 神经形态芯片部署

研究将模型部署于Darwin3神经形态芯片,结果显示: - 能耗降低:与GPU平台相比,功耗减少51.4%。 - 实时性提升:计算延迟显著降低,验证了SNN在嵌入式设备中的潜力。

结论与价值

本研究提出的HSRL框架通过分层设计和脉冲神经网络,解决了机器人导航中的动态可行性、能耗和仿真到现实迁移问题。其科学价值体现在: 1. 方法论创新:首次将脉冲GRU与CANN结合,实现了分层动作生成。 2. 应用价值:在真实环境中展示了零样本迁移能力,为机器人导航提供了可扩展的方案。 3. 硬件兼容性:在神经形态芯片上的成功部署为低功耗机器人控制开辟了新途径。

研究亮点

  1. 分层架构:将高层决策与低层执行分离,兼顾灵活性与动态约束。
  2. 脉冲神经网络的应用:利用SNN的节能特性,降低了模型能耗。
  3. 连续动作生成:通过CANN实现了平滑、动态可行的动作序列。
  4. 跨平台验证:从仿真到真实环境,再到神经形态硬件,验证了框架的普适性。

其他价值

研究还探讨了动态参数τ的调节机制,为机器人适应性控制提供了新思路。此外,群体编码方法的引入有效缓解了脉冲信号的信息损失问题,为SNN的应用提供了技术参考。


以上报告涵盖了研究的背景、方法、结果和意义,希望能够为相关领域的研究者提供全面的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com