基于脉冲深度强化学习的机器人导航分层控制系统

分享自：
基于脉冲深度强化学习的机器人导航分层控制系统

工程学
生物医学工程
期刊:2025 IEEE International Conference on Robotics and Automation (ICRA)
【点击此处】阅读全文、收藏及针对性提问
这篇文档属于类型a，即报告了一项原创性科学研究。以下是详细的学术报告：
浙江大学计算机科学与技术学院的Bo Yang、Qingao Chai、De Ma、Gang Pan和Huajin Tang，浙江实验室的Shibo Zhou和Chaohui Lin，以及浙江工业大学的Rui Yan共同合作，在2025年IEEE国际机器人与自动化会议（ICRA）上发表了一篇题为《HSRL: A Hierarchical Control System Based on Spiking Deep Reinforcement Learning for Robot Navigation》的研究论文。该研究提出了一种基于脉冲深度强化学习（Spiking Deep Reinforcement Learning, SDRL）的分层控制框架，旨在解决机器人在真实环境中的导航问题。
学术背景机器人导航技术的快速发展使得自主导航成为可能，但真实环境中的动态复杂性、机器人动作的动态可行性以及高能耗成为主要挑战。传统方法如同时定位与建图（SLAM）依赖于精确的几何地图，适应性不足，而深度强化学习（Deep Reinforcement Learning, DRL）在动态环境中表现出色，但仍面临仿真到现实的迁移（sim2real）、动态不可行动作和高能耗等问题。受生物神经系统的启发，脉冲神经网络（Spiking Neural Network, SNN）因其低能耗和抗噪声能力成为解决方案之一。
本研究的目标是设计一种分层控制框架，结合脉冲神经网络和连续吸引子神经网络（Continuous Attractor Neural Networks, CANNs），以提高机器人在动态环境中的导航性能和能源效率。
研究流程研究分为以下几个主要步骤：
1. 系统架构设计研究团队提出了一个两层的分层控制框架： - 高层决策层：使用基于脉冲门控循环单元（Spiking GRU）的网络，处理部分可观测环境（Partially Observable Markov Decision Process, POMDP）并生成粗粒度动作指令。 - 低层执行层：采用CANN生成连续的动作序列，确保动作的平滑性和动态可行性。
 系统的训练分为两个阶段：先独立训练高层网络，再联合训练高低层网络。
2. 数据编码与处理为了解决脉冲信号的信息丢失问题，研究采用了自适应群体编码（population coding）方法。具体流程如下： - 输入编码：机器人状态信息（如激光雷达数据、本体感受数据）通过高斯感受野编码为脉冲信号，生成高维数据后再通过泊松编码转换为时间序列脉冲。 - 解码：输出数据通过一维卷积操作解码，恢复为连续动作信号。
3. 脉冲GRU层的实现脉冲GRU层基于改进的GRU结构，采用泄漏积分发放（Leaky Integrate-and-Fire, LIF）神经元模型。其动态方程如下： - 电流衰减和膜电位计算确保脉冲的时序传递。 - 重置门和更新门通过脉冲神经元实现，增强了模型的记忆能力。
4. 连续吸引子神经网络（CANN）的构建CANN通过外部输入（高层脉冲指令）生成动态吸引子，驱动神经“波峰”移动。其动态方程包含神经元时间常数、连接强度和全局抑制参数，确保动作连续性。
5. 联合训练与优化训练环境：在Gazebo仿真环境中进行，包含静态和动态障碍物。
奖励函数：设计为鼓励机器人接近目标同时避障，具体包括目标奖励、碰撞惩罚和进度奖励。
参数调整：动态参数τ在训练中随机初始化，部署时根据机器人性能实时调整。
主要结果1. 仿真环境测试在包含动态障碍物和迷宫的仿真环境中，HSRL框架的表现优于基线模型（如DWA、SDDPG、Spiking GRU等），具体表现如下： - 成功率：HSRL在动态环境中的成功率显著高于其他模型（如0.79 vs. Spiking GRU的0.73）。 - 轨迹平滑性：CANN生成的连续动作避免了离散动作的突变，提升了机器人运动的稳定性。
2. 抗噪声能力在输入数据加入高斯噪声的测试中，HSRL表现出更强的鲁棒性。当噪声标准差达到0.6时，传统ANN-GRU模型失效，而HSRL仍能保持较高的导航成功率。
3. 真实场景验证在实验室环境中，HSRL框架成功部署于Kobuki机器人，实现了高效避障和目标导航。其成功率和路径优化效果均优于对比模型。
4. 神经形态芯片部署研究将模型部署于Darwin3神经形态芯片，结果显示： - 能耗降低：与GPU平台相比，功耗减少51.4%。 - 实时性提升：计算延迟显著降低，验证了SNN在嵌入式设备中的潜力。
结论与价值本研究提出的HSRL框架通过分层设计和脉冲神经网络，解决了机器人导航中的动态可行性、能耗和仿真到现实迁移问题。其科学价值体现在： 1. 方法论创新：首次将脉冲GRU与CANN结合，实现了分层动作生成。 2. 应用价值：在真实环境中展示了零样本迁移能力，为机器人导航提供了可扩展的方案。 3. 硬件兼容性：在神经形态芯片上的成功部署为低功耗机器人控制开辟了新途径。
研究亮点分层架构：将高层决策与低层执行分离，兼顾灵活性与动态约束。
脉冲神经网络的应用：利用SNN的节能特性，降低了模型能耗。
连续动作生成：通过CANN实现了平滑、动态可行的动作序列。
跨平台验证：从仿真到真实环境，再到神经形态硬件，验证了框架的普适性。
其他价值研究还探讨了动态参数τ的调节机制，为机器人适应性控制提供了新思路。此外，群体编码方法的引入有效缓解了脉冲信号的信息损失问题，为SNN的应用提供了技术参考。
以上报告涵盖了研究的背景、方法、结果和意义，希望能够为相关领域的研究者提供全面的参考。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问